このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200730となっている論文です。

PDF登録状況(公開日: 20200730)

TitleAuthorsAbstract論文公表日・翻訳日
# Charneyのはしごを登る:機械学習と計算気候科学のポストDennard時代

Climbing down Charney's ladder: Machine Learning and the post-Dennard era of computational climate science ( http://arxiv.org/abs/2005.11862v2 )

ライセンス: Link先を確認
V. Balaji(参考訳) 1950年代のデジタルコンピューティングの出現は、気象と気候の科学に革命をもたらした。 気象学(meteorology)は、時間と空間のパターンの補間に基づくもので、数値気象予測の10年間で計算手法に応用された。 同様の手法は計算気候科学にももたらされ、気象現象よりもはるかに長い間隔で同じ数値方程式の振る舞いを研究し、外部境界条件を変化させた。 その後の数十年間、計算能力の指数関数的な成長によって、今日では、モデルが解像度と複雑さで成長し、大域的な影響を伴う多くの小さな現象を熟達し、地球系においてさらに複雑なフィードバックを得られるようになった。 コンピューティングの現在の流行は、70年後、デナードスケーリング(Dennard Scaling)と呼ばれる、より小さな計算ユニットの背後にある物理学と、より高速な算術の終わりを告げた。 これは、1950年代にジョン・フォン・ノイマンが提唱したように、気象と気候のシミュレーションに対する我々のアプローチに根本的な変化をもたらしている。 1つのアプローチは、パターン認識と外挿の初期の時代、今回は計算力によって助けられるだろう。 別のアプローチは、数学的方程式で表現され続ける洞察につながる可能性がある。 いずれのアプローチでも、あるいはそれらの合成でも、もはや過去数十年の定常的な行進ではないことは明らかであり、より精巧なモデルに詳細を加え続けている。 この展望では、物理的な知識、計算、そしてデータの新たな活用によって、今後数十年でどのように展開されるかを示す。

The advent of digital computing in the 1950s sparked a revolution in the science of weather and climate. Meteorology, long based on extrapolating patterns in space and time, gave way to computational methods in a decade of advances in numerical weather forecasting. Those same methods also gave rise to computational climate science, studying the behaviour of those same numerical equations over intervals much longer than weather events, and changes in external boundary conditions. Several subsequent decades of exponential growth in computational power have brought us to the present day, where models ever grow in resolution and complexity, capable of mastery of many small-scale phenomena with global repercussions, and ever more intricate feedbacks in the Earth system. The current juncture in computing, seven decades later, heralds an end to what is called Dennard scaling, the physics behind ever smaller computational units and ever faster arithmetic. This is prompting a fundamental change in our approach to the simulation of weather and climate, potentially as revolutionary as that wrought by John von Neumann in the 1950s. One approach could return us to an earlier era of pattern recognition and extrapolation, this time aided by computational power. Another approach could lead us to insights that continue to be expressed in mathematical equations. In either approach, or any synthesis of those, it is clearly no longer the steady march of the last few decades, continuing to add detail to ever more elaborate models. In this prospectus, we attempt to show the outlines of how this may unfold in the coming decades, a new harnessing of physical knowledge, computation, and data.
翻訳日:2022-11-29 14:08:17 公開日:2020-07-30
# 大規模音声認識におけるポピュラーエンド・ツー・エンドモデルの比較

On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition ( http://arxiv.org/abs/2005.14327v2 )

ライセンス: Link先を確認
Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu(参考訳) 近年,自動音声認識のためのハイブリッドモデルからエンド・ツー・エンド(e2e)モデルへの移行が進んでいる。 現在、recurrent neural network transducer (rnn-t)、rnn attention-based encoder-decoder (aed)、transformer-aedの3つの有望な方法がある。 本研究では,RNN-T,RNN-AED,Transformer-AEDを非ストリーミングモードおよびストリーミングモードで比較した。 私たちは、これらのモデルをトレーニングするために、Microsoftの匿名化トレーニングデータ6万時間を使用します。 E2Eモデルはデータ空腹が多いため、その有効性を大量のトレーニングデータと比較した方がよい。 私たちの知る限りでは、そのような総合的な研究はまだ行われていない。 非ストリーミングモードではAEDモデルの方がRNN-Tより強いが,エンコーダを適切に初期化できれば,ストリーミングモードではRNN-Tが非常に競合的であることを示す。 3つのE2Eモデルの中で、Transformer-AEDはストリーミングモードと非ストリーミングモードの両方で最高の精度を達成した。 ストリーミングRNN-Tモデルとトランスフォーマー-AEDモデルの両方が、高度に最適化されたハイブリッドモデルよりも精度が高いことを示す。

Recently, there has been a strong push to transition from hybrid models to end-to-end (E2E) models for automatic speech recognition. Currently, there are three promising E2E methods: recurrent neural network transducer (RNN-T), RNN attention-based encoder-decoder (AED), and Transformer-AED. In this study, we conduct an empirical comparison of RNN-T, RNN-AED, and Transformer-AED models, in both non-streaming and streaming modes. We use 65 thousand hours of Microsoft anonymized training data to train these models. As E2E models are more data hungry, it is better to compare their effectiveness with large amount of training data. To the best of our knowledge, no such comprehensive study has been conducted yet. We show that although AED models are stronger than RNN-T in the non-streaming mode, RNN-T is very competitive in streaming mode if its encoder can be properly initialized. Among all three E2E models, transformer-AED achieved the best accuracy in both streaming and non-streaming mode. We show that both streaming RNN-T and transformer-AED models can obtain better accuracy than a highly-optimized hybrid model.
翻訳日:2022-11-27 05:37:34 公開日:2020-07-30
# 長距離映像理解のための時間集約表現

Temporal Aggregate Representations for Long-Range Video Understanding ( http://arxiv.org/abs/2006.00830v2 )

ライセンス: Link先を確認
Fadime Sener and Dipika Singhania and Angela Yao(参考訳) 将来の予測、特に長距離ビデオでは、現在と過去の観測から推論する必要がある。 本研究では, 時間的範囲, スケーリング, セマンティック抽象化のレベルに関する問題を, 柔軟な多粒質時間的集約フレームワークを用いて解決する。 マックスプールや注意といった単純な手法で,次の行動と密集した予測の両方において,芸術の状態を実現できることを示す。 モデルの予測能力を実証するため、Breakfast、50Salads、EPIC-Kitchensデータセットで実験を行い、最先端の結果を得る。 最小限の変更で、ビデオセグメンテーションやアクション認識にも拡張できます。

Future prediction, especially in long-range videos, requires reasoning from current and past observations. In this work, we address questions of temporal extent, scaling, and level of semantic abstraction with a flexible multi-granular temporal aggregation framework. We show that it is possible to achieve state of the art in both next action and dense anticipation with simple techniques such as max-pooling and attention. To demonstrate the anticipation capabilities of our model, we conduct experiments on Breakfast, 50Salads, and EPIC-Kitchens datasets, where we achieve state-of-the-art results. With minimal modifications, our model can also be extended for video segmentation and action recognition.
翻訳日:2022-11-26 07:15:01 公開日:2020-07-30
# Delta Descriptors:ロバストなビジュアルローカライゼーションのための変更ベースの場所表現

Delta Descriptors: Change-Based Place Representation for Robust Visual Localization ( http://arxiv.org/abs/2006.05700v2 )

ライセンス: Link先を確認
Sourav Garg, Ben Harwood, Gaurangi Anand and Michael Milford(参考訳) 視覚的な場所認識は、昼夜の周期から季節的な変化、気象条件に至るまで、場所の外観変化を引き起こす要因があまりにも多いため、難しい。 近年、この課題に対処するために、深層画像記述子、ドメイン翻訳、シーケンシャルフィルタリングなど、汎用性や速度感度といった欠点を含む幅広いアプローチが開発されている。 本稿では,デルタディスクリプタ(Delta Descriptor)と呼ばれる,学習したグローバルディスクリプタの変化を時間とともに追跡する新しいディスクリプタを提案する。 デルタディスクリプタは、ルートに沿って観測される場所間の時間的差異を考慮して、元のディスクリプタマッチング空間で生じるオフセットを教師なしの方法で緩和する。 他のすべてのアプローチと同様に、Delta Descriptorはフレームからフレームベースへの欠点があり、シーケンシャルなフィルタリング手法と組み合わせることで克服できる。 2つのベンチマークデータセットを使用して、デルタディスクリプタのパフォーマンスを独立して実証し、シーケンスベースのマッチングと組み合わせた新たなパフォーマンスを示す。 また,デルタディスクリプタの4つの異なるデリプタタイプと,デルタディスクリプタの他の2つの有益特性,すなわち,カメラ動作の変動に対する固有ロバスト性の向上と,次元縮小による性能劣化率の低下を実証した。 ソースコードはhttps://github.com/oravus/deltadescriptorsで入手できる。

Visual place recognition is challenging because there are so many factors that can cause the appearance of a place to change, from day-night cycles to seasonal change to atmospheric conditions. In recent years a large range of approaches have been developed to address this challenge including deep-learnt image descriptors, domain translation, and sequential filtering, all with shortcomings including generality and velocity-sensitivity. In this paper we propose a novel descriptor derived from tracking changes in any learned global descriptor over time, dubbed Delta Descriptors. Delta Descriptors mitigate the offsets induced in the original descriptor matching space in an unsupervised manner by considering temporal differences across places observed along a route. Like all other approaches, Delta Descriptors have a shortcoming - volatility on a frame to frame basis - which can be overcome by combining them with sequential filtering methods. Using two benchmark datasets, we first demonstrate the high performance of Delta Descriptors in isolation, before showing new state-of-the-art performance when combined with sequence-based matching. We also present results demonstrating the approach working with four different underlying descriptor types, and two other beneficial properties of Delta Descriptors in comparison to existing techniques: their increased inherent robustness to variations in camera motion and a reduced rate of performance degradation as dimensional reduction is applied. Source code is made available at https://github.com/oravus/DeltaDescriptors.
翻訳日:2022-11-23 05:25:18 公開日:2020-07-30
# 非凸領域における定常ステップサイズSGDの解析:漸近正規性とバイアス

An Analysis of Constant Step Size SGD in the Non-convex Regime: Asymptotic Normality and Bias ( http://arxiv.org/abs/2006.07904v2 )

ライセンス: Link先を確認
Lu Yu, Krishnakumar Balasubramanian, Stanislav Volgushev, and Murat A. Erdogdu(参考訳) 臨界点が好ましい統計特性を持つ構造化非凸学習問題は、統計的機械学習において頻繁に発生する。 アルゴリズム収束と統計的推定率はそのような問題に対してよく理解されている。 しかしながら、基礎となるトレーニングアルゴリズムに関連する不確かさの定量化は、非凸設定では十分に研究されていない。 この欠点に対処するため,本研究では,定ステップサイズ確率勾配降下法 (sgd) アルゴリズムの漸近正規性(漸近正規性)を定式化する。 具体的には、SGD と Markov Chains [DDB19] の関係に基づき、SGD の反復平均が、非凸かつ非滑らかな目的関数が解離性を満たす限り、その特異な不変分布の期待値の周りに漸近的に分布していることを示す。 また, この期待値と対象関数の臨界点とのバイアスを, 様々な局所正規性条件下で特徴付ける。 これら2つの結果は、sgdアルゴリズムを用いて訓練された非凸問題に対する信頼区間を構築するために利用できる。

Structured non-convex learning problems, for which critical points have favorable statistical properties, arise frequently in statistical machine learning. Algorithmic convergence and statistical estimation rates are well-understood for such problems. However, quantifying the uncertainty associated with the underlying training algorithm is not well-studied in the non-convex setting. In order to address this shortcoming, in this work, we establish an asymptotic normality result for the constant step size stochastic gradient descent (SGD) algorithm--a widely used algorithm in practice. Specifically, based on the relationship between SGD and Markov Chains [DDB19], we show that the average of SGD iterates is asymptotically normally distributed around the expected value of their unique invariant distribution, as long as the non-convex and non-smooth objective function satisfies a dissipativity property. We also characterize the bias between this expected value and the critical points of the objective function under various local regularity conditions. Together, the above two results could be leveraged to construct confidence intervals for non-convex problems that are trained using the SGD algorithm.
翻訳日:2022-11-21 12:56:30 公開日:2020-07-30
# 畳み込みニューラルネットワークのトレーニング層を再利用してハイパーパラメータチューニング時間を短縮する

Reusing Trained Layers of Convolutional Neural Networks to Shorten Hyperparameters Tuning Time ( http://arxiv.org/abs/2006.09083v2 )

ライセンス: Link先を確認
Roberto L. Castro, Diego Andrade, Basilio Fraguela(参考訳) ハイパーパラメータチューニングは、特にこのプロセスの一部としてニューラルネットワークのアーキテクチャが決定される場合、時間を要するアプローチである。 例えば、畳み込みニューラルネットワーク(cnns)では、隠れ(畳み込み)層の数と特性の選択を決定することができる。 これは、検索プロセスがこれら全ての候補ネットワークアーキテクチャのトレーニングを含むことを意味する。 本稿では,隠れた(畳み込み)層の重みを異なるトレーニング間で再利用し,このプロセスを短縮する提案について述べる。 理論的には、与えられた問題を解決するために一連の畳み込み層が訓練された場合、このトレーニングで計算された重み付けは、ネットワークアーキテクチャに新しい畳み込み層を追加する際に有用である。 このアイデアはcifar-10データセットを使ってテストされ、最大3つの畳み込み層と最大3つの完全接続層を持つさまざまなcnnsアーキテクチャをテストする。 実験は、畳み込み層を再利用しない場合のトレーニング時間と検証損失を比較した。 彼らはこの戦略がトレーニング時間を短縮し、その結果のニューラルネットワークの精度も向上することを確認した。 この発見により、この戦略を既存のAutoMLメソッドに統合し、検索時間を短縮することが可能になる。

Hyperparameters tuning is a time-consuming approach, particularly when the architecture of the neural network is decided as part of this process. For instance, in convolutional neural networks (CNNs), the selection of the number and the characteristics of the hidden (convolutional) layers may be decided. This implies that the search process involves the training of all these candidate network architectures. This paper describes a proposal to reuse the weights of hidden (convolutional) layers among different trainings to shorten this process. The rationale is that if a set of convolutional layers have been trained to solve a given problem, the weights calculated in this training may be useful when a new convolutional layer is added to the network architecture. This idea has been tested using the CIFAR-10 dataset, testing different CNNs architectures with up to 3 convolutional layers and up to 3 fully connected layers. The experiments compare the training time and the validation loss when reusing and not reusing convolutional layers. They confirm that this strategy reduces the training time while it even increases the accuracy of the resulting neural network. This finding opens up the future possibility of integrating this strategy in existing AutoML methods with the purpose of reducing the total search time.
翻訳日:2022-11-20 20:02:20 公開日:2020-07-30
# ランダムチェックインによるプライバシー増幅

Privacy Amplification via Random Check-Ins ( http://arxiv.org/abs/2007.06605v2 )

ライセンス: Link先を確認
Borja Balle, Peter Kairouz, H. Brendan McMahan, Om Thakkar, Abhradeep Thakurta(参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD) は、多くのアプリケーションにおいて、機密データを学習するための基本的な構成要素となっている。 サブサンプリングによるプライバシの増幅とシャッフルによるプライバシの増幅という2つの標準的なアプローチは、na\"{\i}veスキームよりもDP-SGDのノイズの低減を可能にする。 どちらのアプローチでも重要な前提は、データセット内の要素を一様にサンプリングしたり、分散処理や分散処理によって禁止される可能性のある一様に置換したりできるということである。 本稿では,DP-SGDのような反復的な手法を,多くのデバイス(クライアント)に分散したフェデレートラーニング(FL)の設定に適用することに焦点を当てる。 当社の主なコントリビューションは,各クライアントがローカルかつ独立に行うランダムな参加決定にのみ依存する,分散プロトコルのemph{random check-in}です。 プライバシー/精度のトレードオフは、サブサンプリング/シャッフルによるプライバシーの増幅に似ている。 しかし,本手法ではサーバ間通信や人口規模に関する知識は必要としない。 私たちの知る限り、これは分散学習フレームワークに適した初めてのプライバシー強化であり、FLを超えて幅広い適用性を持つ可能性がある。 その過程で、シャッフルすることでプライバシーの増幅を拡張し、$(\epsilon,\delta)$-DPローカルランダム化器を導入し、保証を指数関数的に改善します。 現実的な状況下では、この改善により、桁違いに少ないユーザーからのデータを使って、同様のプライバシーとユーティリティが利用できるようになる。

Differentially Private Stochastic Gradient Descent (DP-SGD) forms a fundamental building block in many applications for learning over sensitive data. Two standard approaches, privacy amplification by subsampling, and privacy amplification by shuffling, permit adding lower noise in DP-SGD than via na\"{\i}ve schemes. A key assumption in both these approaches is that the elements in the data set can be uniformly sampled, or be uniformly permuted -- constraints that may become prohibitive when the data is processed in a decentralized or distributed fashion. In this paper, we focus on conducting iterative methods like DP-SGD in the setting of federated learning (FL) wherein the data is distributed among many devices (clients). Our main contribution is the \emph{random check-in} distributed protocol, which crucially relies only on randomized participation decisions made locally and independently by each client. It has privacy/accuracy trade-offs similar to privacy amplification by subsampling/shuffling. However, our method does not require server-initiated communication, or even knowledge of the population size. To our knowledge, this is the first privacy amplification tailored for a distributed learning framework, and it may have broader applicability beyond FL. Along the way, we extend privacy amplification by shuffling to incorporate $(\epsilon,\delta)$-DP local randomizers, and exponentially improve its guarantees. In practical regimes, this improvement allows for similar privacy and utility using data from an order of magnitude fewer users.
翻訳日:2022-11-10 23:41:22 公開日:2020-07-30
# データから高速な表検索への学習:方法論と実践的ガイドライン

Learning from Data to Speed-up Sorted Table Search Procedures: Methodology and Practical Guidelines ( http://arxiv.org/abs/2007.10237v3 )

ライセンス: Link先を確認
Domenico Amato, Giosu\'e Lo Bosco, Raffaele Giancarlo(参考訳) ソートされたテーブル検索プロシージャは、クエリ処理ツールとして必須であり、現在、検索エンジン(google chrome)や広告入札システム(appnexus)など、webアプリケーションを含む広く利用されている。 スピードアップは、宇宙でのコストが極めて少ないが、それでも非常に大きな成果だ。 本稿では,データレイアウトの異なるソートテーブル探索手順の既知の効率的な実装と,そこで開発された学習対象の体系的比較を通じて,機械学習技術がどのような速度向上に寄与するかについて検討する。 我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。 我々のアプローチは、B木、ハッシュテーブル、ブルームフィルタといった基本データ構造の性能を改善するための最近の提案である学習データ構造の研究にも貢献する。 実際、我々は、ここで提案する学習済みのテーブル探索手順を自然に補完し、既知のソートされたテーブル探索手順のほとんどを単純な線形回帰に近似する「学習段階」を持つことを特徴付ける学習ディコトミックソートテーブル探索手順のアルゴリズムパラダイムを定式化する。

Sorted Table Search Procedures are the quintessential query-answering tool, with widespread usage that now includes also Web Applications, e.g, Search Engines (Google Chrome) and ad Bidding Systems (AppNexus). Speeding them up, at very little cost in space, is still a quite significant achievement. Here we study to what extend Machine Learning Techniques can contribute to obtain such a speed-up via a systematic experimental comparison of known efficient implementations of Sorted Table Search procedures, with different Data Layouts, and their Learned counterparts developed here. We characterize the scenarios in which those latter can be profitably used with respect to the former, accounting for both CPU and GPU computing. Our approach contributes also to the study of Learned Data Structures, a recent proposal to improve the time/space performance of fundamental Data Structures, e.g., B-trees, Hash Tables, Bloom Filters. Indeed, we also formalize an Algorithmic Paradigm of Learned Dichotomic Sorted Table Search procedures that naturally complements the Learned one proposed here and that characterizes most of the known Sorted Table Search Procedures as having a "learning phase" that approximates Simple Linear Regression.
翻訳日:2022-11-08 13:12:44 公開日:2020-07-30
# MI^2GAN:相互情報制約を用いた医用画像領域適応のための生成アドバイザラルネットワーク

MI^2GAN: Generative Adversarial Network for Medical Image Domain Adaptation using Mutual Information Constraint ( http://arxiv.org/abs/2007.11180v2 )

ライセンス: Link先を確認
Xinpeng Xie, Jiawei Chen, Yuexiang Li, Linlin Shen, Kai Ma and Yefeng Zheng(参考訳) 深層学習モデルの一般化性能を低下させるため,マルチセンターからの医療画像のドメインシフトは,コミュニティにとって依然としてオープンな問題である。 実現可能な画像を合成するgan(generative adversarial network)は、この問題に対処する潜在的な解決策の1つである。 しかし、既存のGANベースのアプローチは、イメージ・ツー・イメージ(I2I)翻訳における画像オブジェクトの保存に失敗する傾向にあり、ドメイン適応タスクの実用性が低下する。 本稿では,ドメイン間I2I翻訳において画像コンテンツを維持する新しいGAN(MI$^2$GAN)を提案する。 特に、ソースと翻訳画像の両方のドメイン情報からコンテンツ特徴を分離し、画像オブジェクトを保存するために、異種コンテンツ特徴間の相互情報を最大化する。 提案したMI$2$GANは,大腸内視鏡画像を用いたポリプセグメンテーションと,眼底画像における光ディスクとカップのセグメンテーションの2つの課題について評価した。 実験の結果,提案するmi$^2$ganは,エレガントな翻訳画像を生成するだけでなく,広く使用されている深層学習ネットワーク(例えばu-net)の一般化性能を大幅に向上できることがわかった。

Domain shift between medical images from multicentres is still an open question for the community, which degrades the generalization performance of deep learning models. Generative adversarial network (GAN), which synthesize plausible images, is one of the potential solutions to address the problem. However, the existing GAN-based approaches are prone to fail at preserving image-objects in image-to-image (I2I) translation, which reduces their practicality on domain adaptation tasks. In this paper, we propose a novel GAN (namely MI$^2$GAN) to maintain image-contents during cross-domain I2I translation. Particularly, we disentangle the content features from domain information for both the source and translated images, and then maximize the mutual information between the disentangled content features to preserve the image-objects. The proposed MI$^2$GAN is evaluated on two tasks---polyp segmentation using colonoscopic images and the segmentation of optic disc and cup in fundus images. The experimental results demonstrate that the proposed MI$^2$GAN can not only generate elegant translated images, but also significantly improve the generalization performance of widely used deep learning networks (e.g., U-Net).
翻訳日:2022-11-07 23:13:18 公開日:2020-07-30
# 統計的形状モデルとCNNの組み合わせによる前立腺分割のための弱教師付き登録ベースフレームワーク

A weakly supervised registration-based framework for prostate segmentation via the combination of statistical shape model and CNN ( http://arxiv.org/abs/2007.11726v2 )

ライセンス: Link先を確認
Chunxia Qin, Xiaojun Chen, Jocelyne Troccaz(参考訳) 標的の正確な決定は、前立腺生検、病変検出、標的治療などの前立腺介入において必須の手順である。 しかし前立腺の脱線は組織の曖昧さや部分解剖学的境界の欠如により困難である場合もある。 そこで我々は,畳み込みニューラルネットワーク (CNN) と統計的形状モデル (SSM) を組み合わせた,精密前立腺分割のための弱制御型登録ベースフレームワークを提案する。 前立腺領域を得るためには,まずinception-based neural network(ssm-net)を用いて,前立腺境界生成のためのモデル変換,形状制御パラメータ,微調整ベクトルの予測を行った。 推定境界により,正規化距離マップが算出された。 そして、残差U-net(ResU-Net)を用いて、入力画像から確率ラベルマップを予測する。 最後に, 距離マップと確率マップの平均を前立腺セグメンテーションとして検討した。 その後、2つのパブリックデータセット PROMISE12 と NCI-ISBI 2013 がモデル計算とネットワークトレーニングとテストに使用された。 検証の結果,9500ノードのssmを用いたセグメンテーションフレームワークが,0.904サイクリング,平均表面距離1.88mmで最高の性能を達成した。 さらに,モデルの弾力性向上と細調整項目がネットワークセグメンテーション能力に及ぼす影響を検証した。 その結果,両因子ともdelineation精度が向上し,diceはそれぞれ10%,7%増加した。 結論として, 2つの弱教師付きニューラルネットワークの組み合わせにより, このセグメンテーション手法は, 前立腺セグメンテーションに対して効果的かつ頑健なアプローチとなるかもしれない。

Precise determination of target is an essential procedure in prostate interventions, such as the prostate biopsy, lesion detection and targeted therapy. However, the prostate delineation may be tough in some cases due to tissue ambiguity or lack of partial anatomical boundary. To address this problem, we proposed a weakly supervised registration-based framework for the precise prostate segmentation, by combining convolutional neural network (CNN) with statistical shape model (SSM). To obtain the prostate region, an inception-based neural network (SSM-Net) was firstly exploited to predict the model transform, shape control parameters and a fine-tuning vector, for the generation of prostate boundary. According to the inferred boundary, a normalized distance map was calculated. Then, a residual U-net (ResU-Net) was employed to predict a probability label map from the input images. Finally, the average of the distance map and the probability map was regarded as the prostate segmentation. After that, two public dataset PROMISE12 and NCI- ISBI 2013 were utilized for the model computation and for the network training and testing. The validation results demonstrate that the segmentation framework using a SSM with 9500 nodes achieved the best performance, with a dice of 0.904 and an average surface distance of 1.88 mm. In addition, we verified the impact of model elasticity augmentation and fine-tuning item on the network segmentation capability. As a result, both factors have improved the delineation accuracy, with dice increased by 10% and 7% respectively. In conclusion, via the combination of two weakly supervised neural networks, our segmentation method might be an effective and robust approach for prostate segmentation.
翻訳日:2022-11-07 12:56:06 公開日:2020-07-30
# 人物画像生成のための純粋に教師なし外見と形状の絡み合い

Towards Purely Unsupervised Disentanglement of Appearance and Shape for Person Images Generation ( http://arxiv.org/abs/2007.13098v2 )

ライセンス: Link先を確認
Hongtao Yang, Tong Zhang, Wenbing Huang, Xuming He, Fatih Porikli(参考訳) 人間の画像から外見と形状の絡み合いを探索する研究には、かなりの関心が寄せられている。 既存の取り組みの多くは、アノテーション付きトレーニングイメージを使用するか、人間の骨格、身体の分節、布のパッチなどの外部の手がかりでトレーニングプロセスを調整することによって、この目標を追求している。 本稿では、アノテーションや外部タスク固有のヒントを必要としない、教師なしの方法でこの問題に対処することを目的とする。 この目的のために、エンコーダ・デコーダのようなネットワークを定式化し、入力画像から形状特徴と外観特徴の両方を同時に抽出し、特徴反転損失、色整合損失、再構成損失の3つの損失でパラメータを訓練する。 特徴対向損失は、抽出された形状と外観特徴との間の相互情報をほとんど何ら示さず、色相整合損失は、異なる形状に条件付けられた人物の外観のばらつきを促進する。 より重要なことに、教師なし学習(教師なし学習は異なるタスクで多くの解釈を持っている)は、教師なし学習をタスク固有の人間のアノテーションやペア、あるいは弱い監督のあらゆる形態なしで学習するものとして参照する。)フレームワークでは、学習された形状の特徴を入力自身に適用し、クリーンな外観特徴を得るためのマスクとして利用する。 固定入力された人間の骨格を使わずに、ネットワークはより少ない監督を必要とすることなく、条件付き人間の姿勢を保存できる。 deepfashion と market1501 の実験結果は,提案手法がクリーンな異方性を実現し,最先端の弱教師付きあるいは教師付き手法で同等の品質の新しい画像を合成できることを示した。

There have been a fairly of research interests in exploring the disentanglement of appearance and shape from human images. Most existing endeavours pursuit this goal by either using training images with annotations or regulating the training process with external clues such as human skeleton, body segmentation or cloth patches etc. In this paper, we aim to address this challenge in a more unsupervised manner---we do not require any annotation nor any external task-specific clues. To this end, we formulate an encoder-decoder-like network to extract both the shape and appearance features from input images at the same time, and train the parameters by three losses: feature adversarial loss, color consistency loss and reconstruction loss. The feature adversarial loss mainly impose little to none mutual information between the extracted shape and appearance features, while the color consistency loss is to encourage the invariance of person appearance conditioned on different shapes. More importantly, our unsupervised (Unsupervised learning has many interpretations in different tasks. To be clear, in this paper, we refer unsupervised learning as learning without task-specific human annotations, pairs or any form of weak supervision.) framework utilizes learned shape features as masks which are applied to the input itself in order to obtain clean appearance features. Without using fixed input human skeleton, our network better preserves the conditional human posture while requiring less supervision. Experimental results on DeepFashion and Market1501 demonstrate that the proposed method achieves clean disentanglement and is able to synthesis novel images of comparable quality with state-of-the-art weakly-supervised or even supervised methods.
翻訳日:2022-11-06 20:04:00 公開日:2020-07-30
# funcGNN: プログラム類似性に対するグラフニューラルネットワークアプローチ

funcGNN: A Graph Neural Network Approach to Program Similarity ( http://arxiv.org/abs/2007.13239v3 )

ライセンス: Link先を確認
Aravind Nair, Avijit Roy, Karl Meinke(参考訳) プログラムの類似性は基本的な概念であり、ソフトウェア盗作、クローン同定、コードリファクタリング、コード検索などのソフトウェアエンジニアリングタスクのソリューションの中心である。 プログラム間の正確な類似度推定には、その構造、意味、流れの詳細な理解が必要である。 制御フローグラフ(英: control flow graph、cfg)は、論理制御フローとその意味をキャプチャするプログラムのグラフィカル表現である。 一般的なアプローチは、グラフ編集距離(GED)などのグラフ類似度尺度を用いてCFGを分析してプログラム類似度を推定することである。 しかし、グラフ編集距離はnp問題であり計算コストが高く、複雑なソフトウェアプログラムにグラフ類似性技術を適用することは現実的ではない。 本研究は、関連する制御フローグラフを分析し、プログラムの類似性を推定するためのグラフニューラルネットワークの有効性を検討することを目的とする。 我々は,ラベル付きcfgペアで学習したグラフニューラルネットワークであるfuncgnnを紹介し,有効な埋め込みベクトルを用いてプログラムペア間のgedを予測する。 我々の知る限り、ハイレベル言語プログラム間の類似性を推定するためにラベル付きCFGにグラフニューラルネットワークが適用されたのはこれが初めてである。 結果: funcgnn がプログラム間の ged を推定することの有効性を実証し,実験解析により,エラー率 (0.00194) の低減,高速化 (従来の ged 近似法よりも23倍高速) ,スケーラビリティの向上を実証した。 funcGNNは、プログラム構造を推論し、目に見えないプログラムに一般化する誘導学習能力を持っている。 本手法によって提案されるプログラムのグラフ埋め込みは,複数の関連するソフトウェア工学問題(コードプラジャイズムやクローン識別など)に適用でき,複数の研究の方向性が開ける。

Program similarity is a fundamental concept, central to the solution of software engineering tasks such as software plagiarism, clone identification, code refactoring and code search. Accurate similarity estimation between programs requires an in-depth understanding of their structure, semantics and flow. A control flow graph (CFG), is a graphical representation of a program which captures its logical control flow and hence its semantics. A common approach is to estimate program similarity by analysing CFGs using graph similarity measures, e.g. graph edit distance (GED). However, graph edit distance is an NP-hard problem and computationally expensive, making the application of graph similarity techniques to complex software programs impractical. This study intends to examine the effectiveness of graph neural networks to estimate program similarity, by analysing the associated control flow graphs. We introduce funcGNN, which is a graph neural network trained on labeled CFG pairs to predict the GED between unseen program pairs by utilizing an effective embedding vector. To our knowledge, this is the first time graph neural networks have been applied on labeled CFGs for estimating the similarity between high-level language programs. Results: We demonstrate the effectiveness of funcGNN to estimate the GED between programs and our experimental analysis demonstrates how it achieves a lower error rate (0.00194), with faster (23 times faster than the quickest traditional GED approximation method) and better scalability compared with the state of the art methods. funcGNN posses the inductive learning ability to infer program structure and generalise to unseen programs. The graph embedding of a program proposed by our methodology could be applied to several related software engineering problems (such as code plagiarism and clone identification) thus opening multiple research directions.
翻訳日:2022-11-06 19:54:56 公開日:2020-07-30
# 複合物体検出器の分割計算 : 課題と予備結果

Split Computing for Complex Object Detectors: Challenges and Preliminary Results ( http://arxiv.org/abs/2007.13312v2 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Marco Levorato(参考訳) DNNモデルのモバイルコンピューティングとエッジコンピューティングのトレンドに続き、中間的な選択肢である分割コンピューティングが研究コミュニティから注目を集めている。 これまでの研究では、モバイルコンピューティングとエッジコンピューティングは総推論時間において最良の選択肢であることが多いが、分割コンピューティング手法が推論時間を短縮できるシナリオがある。 しかしながら、提案された分割コンピューティングアプローチはすべて、画像分類タスクに重点を置いており、ほとんどは実用的なシナリオからは程遠い小さなデータセットで評価されている。 本稿では,大規模データセットCOCO 2017で訓練された強力なR-CNNオブジェクト検出器のための分割計算手法開発における課題について論じる。 対象物検出器を層毎のテンソルサイズとモデルサイズで広範囲に解析し,ナイーブ分割計算手法は推論時間を削減しないことを示した。 我々の知る限りでは、このような物体検出器に小さなボトルネックを注入し、分割コンピューティングアプローチの可能性を明らかにする最初の研究である。 ソースコードとトレーニングされたモデルの重み付けはhttps://github.com/yoshitomo-matsubara/hnd-ghnd-object-detectorsで確認できる。

Following the trends of mobile and edge computing for DNN models, an intermediate option, split computing, has been attracting attentions from the research community. Previous studies empirically showed that while mobile and edge computing often would be the best options in terms of total inference time, there are some scenarios where split computing methods can achieve shorter inference time. All the proposed split computing approaches, however, focus on image classification tasks, and most are assessed with small datasets that are far from the practical scenarios. In this paper, we discuss the challenges in developing split computing methods for powerful R-CNN object detectors trained on a large dataset, COCO 2017. We extensively analyze the object detectors in terms of layer-wise tensor size and model size, and show that naive split computing methods would not reduce inference time. To the best of our knowledge, this is the first study to inject small bottlenecks to such object detectors and unveil the potential of a split computing approach. The source code and trained models' weights used in this study are available at https://github.com/yoshitomo-matsubara/hnd-ghnd-object-detectors .
翻訳日:2022-11-06 09:04:40 公開日:2020-07-30
# アイデンティティ機能によるブラックボックス顔のリカバリ

Black-Box Face Recovery from Identity Features ( http://arxiv.org/abs/2007.13635v3 )

ライセンス: Link先を確認
Anton Razzhigaev, Klim Kireev, Edgar Kaziakhmedov, Nurislam Tursynbek, and Aleksandr Petiushko(参考訳) 本研究では,顔深部認識システムの出力特徴ベクトルのみを考慮し,ランダムなガウスブロブを反復的にサンプリングしてブラックボックスの顔復元を行うアルゴリズムを提案する。 我々は最先端顔認識システム(arcface)を攻撃してアルゴリズムをテストする。 異なるアーキテクチャ(FaceNet)を持つ別のネットワークは、攻撃されたモデルにアクセスすることなく、対象人物を再構成された画像と同一視できることを示す独立した批評家として使用される。 さらに,このアルゴリズムでは,最先端ソリューションに比べてクエリ数が有意に少ない。

In this work, we present a novel algorithm based on an it-erative sampling of random Gaussian blobs for black-box face recovery, given only an output feature vector of deep face recognition systems. We attack the state-of-the-art face recognition system (ArcFace) to test our algorithm. Another network with different architecture (FaceNet) is used as an independent critic showing that the target person can be identified with the reconstructed image even with no access to the attacked model. Furthermore, our algorithm requires a significantly less number of queries compared to the state-of-the-art solution.
翻訳日:2022-11-06 08:45:45 公開日:2020-07-30
# PyKEEN 1.0:知識グラフ埋め込みのトレーニングと評価のためのPythonライブラリ

PyKEEN 1.0: A Python Library for Training and Evaluating Knowledge Graph Embeddings ( http://arxiv.org/abs/2007.14175v2 )

ライセンス: Link先を確認
Mehdi Ali, Max Berrendorf, Charles Tapley Hoyt, Laurent Vermue, Sahand Sharifzadeh, Volker Tresp, and Jens Lehmann(参考訳) 近年,知識グラフ埋め込み (KGE) が注目され,いくつかのソフトウェアライブラリがKGEのトレーニングと評価のために開発されている。 それぞれが特定のニーズに対処する一方で、コミュニティの努力により、最初のKGEライブラリの1つであるPyKEENを再設計し、再実装しました。 PyKEEN 1.0では、幅広い相互作用モデル、トレーニングアプローチ、損失関数に基づいて知識グラフ埋め込みモデル(KGEM)を作成でき、逆関係の明示的なモデリングを可能にする。 さらに、提供されるハードウェアを最適に活用するために、自動メモリ最適化が実現され、オプトゥーナ拡張ハイパーパラメータ最適化(HPO)機能の統合によって提供される。

Recently, knowledge graph embeddings (KGEs) received significant attention, and several software libraries have been developed for training and evaluating KGEs. While each of them addresses specific needs, we re-designed and re-implemented PyKEEN, one of the first KGE libraries, in a community effort. PyKEEN 1.0 enables users to compose knowledge graph embedding models (KGEMs) based on a wide range of interaction models, training approaches, loss functions, and permits the explicit modeling of inverse relations. Besides, an automatic memory optimization has been realized in order to exploit the provided hardware optimally, and through the integration of Optuna extensive hyper-parameter optimization (HPO) functionalities are provided.
翻訳日:2022-11-06 01:26:17 公開日:2020-07-30
# 主観性と意味:コンピュータビジョンのためのデータアノテーションにおけるパワーダイナミクス

Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision ( http://arxiv.org/abs/2007.14886v2 )

ライセンス: Link先を確認
Milagros Miceli and Martin Schuessler and Tianling Yang(参考訳) データの解釈は機械学習の基本である。 本稿では,産業における画像データアノテーションの実践について検討する。 私たちはデータアノテーションをセンスメイキングのプラクティスとして定義し、アノテーションはラベルを使ってデータに意味を割り当てる。 従来の人間中心の調査は、主にバイアスラベルの主要な原因としてアノテーターの主観性に焦点を当てていた。 構成主義的接地理論に導かれ、我々は2つのアノテーション会社で数週間のフィールドワークを行った。 データの解釈を形作る構造, 電力関係, 自然化配置を解析した。 その結果,アノテータの作業は,ステーション上の他のアクターの関心,価値観,優先順位に深く影響されていることがわかった。 任意分類は、データに対してアノテータ、およびそれらを通して垂直に課される。 主に自然化されている。 データに意味を割り当てることは、しばしば技術的な問題として提示される。 本稿は,実のところ,個人や社会に重きを置く力の行使であることを示している。

The interpretation of data is fundamental to machine learning. This paper investigates practices of image data annotation as performed in industrial contexts. We define data annotation as a sense-making practice, where annotators assign meaning to data through the use of labels. Previous human-centered investigations have largely focused on annotators subjectivity as a major cause for biased labels. We propose a wider view on this issue: guided by constructivist grounded theory, we conducted several weeks of fieldwork at two annotation companies. We analyzed which structures, power relations, and naturalized impositions shape the interpretation of data. Our results show that the work of annotators is profoundly informed by the interests, values, and priorities of other actors above their station. Arbitrary classifications are vertically imposed on annotators, and through them, on data. This imposition is largely naturalized. Assigning meaning to data is often presented as a technical matter. This paper shows it is, in fact, an exercise of power with multiple implications for individuals and society.
翻訳日:2022-11-05 20:09:08 公開日:2020-07-30
# 量対品質:深層強化学習におけるハイパーパラメータ最適化について

Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning ( http://arxiv.org/abs/2007.14604v2 )

ライセンス: Link先を確認
Lars Hertel, Pierre Baldi, Daniel L. Gillen(参考訳) 強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。 本稿では,無作為種子間でよく機能するハイパーパラメータ設定を見つけることを目的として,ハイパーパラメータ最適化にどのように影響するかを検討する。 特に,不正なパフォーマーのプルーニングを通じて,大量のハイパーパラメータの設定を探索する方がよいのか,あるいは繰り返しを使用して収集した結果の品質を追求する方がよいのかをベンチマークする。 このため、逐次Halving, Random Search, Bayesian Optimizationアルゴリズムについて検討する。 本稿では,PPO2 アルゴリズムを Cartpole バランスタスクと Inverted Pendulum Swing-up タスクにチューニングする。 プルーニングは最適化に悪影響を及ぼす可能性があり、反復サンプリングはランダムな種子をまたいでより良く機能するハイパーパラメータの設定を見つけるのに役立たないことを示した。 その結果,強化学習タスクにおけるハイパーパラメータ最適化には,ノイズロバスト獲得関数を用いたベイズ最適化が最適であることがわかった。

Reinforcement learning algorithms can show strong variation in performance between training runs with different random seeds. In this paper we explore how this affects hyperparameter optimization when the goal is to find hyperparameter settings that perform well across random seeds. In particular, we benchmark whether it is better to explore a large quantity of hyperparameter settings via pruning of bad performers, or if it is better to aim for quality of collected results by using repetitions. For this we consider the Successive Halving, Random Search, and Bayesian Optimization algorithms, the latter two with and without repetitions. We apply these to tuning the PPO2 algorithm on the Cartpole balancing task and the Inverted Pendulum Swing-up task. We demonstrate that pruning may negatively affect the optimization and that repeated sampling does not help in finding hyperparameter settings that perform better across random seeds. From our experiments we conclude that Bayesian optimization with a noise robust acquisition function is the best choice for hyperparameter optimization in reinforcement learning tasks.
翻訳日:2022-11-05 19:26:07 公開日:2020-07-30
# SMAP: セキュアな多人数可視化のための共同次元化手法

SMAP: A Joint Dimensionality Reduction Scheme for Secure Multi-Party Visualization ( http://arxiv.org/abs/2007.15591v1 )

ライセンス: Link先を確認
Jiazhi Xia, Tianxiang Chen, Lei Zhang, Wei Chen, Yang Chen, Xiaolong Zhang, Cong Xie, Tobias Schreck(参考訳) 今日では、データがますます複雑で分散化するにつれて、データ分析では、複数の関連するデータセットが、異なるサーバに格納され、おそらく異なる利害関係者によって所有される。 グローバルなコンテキストの下でデータの全体像を提供する新たなニーズがある一方で、次元の削減のような従来のビジュアル分析手法は、複数のサードパーティのデータセットが単一のサイトに融合してポイントレベルの関係を構築する場合に、データのプライバシを公開する可能性がある。 本稿では,従来のt-SNE法を単一サイトモードからセキュアな分散インフラに再構成する。 本稿では,データ漏洩のリスクを最小化できるt-sne計算のためのセキュアなマルチパーティ方式を提案する。 集約視覚化は、ポイントレベルの関係の開示を隠すために、任意に使用できる。 我々は,セキュアなジョイント埋め込みの組織化,計算,探索を支援するために,SMAPという手法に基づくプロトタイプシステムを構築した。 本手法の有効性を3つのケーススタディで実証し,その1つは実世界のアプリケーションにおけるシステム配置に基づくものである。

Nowadays, as data becomes increasingly complex and distributed, data analyses often involve several related datasets that are stored on different servers and probably owned by different stakeholders. While there is an emerging need to provide these stakeholders with a full picture of their data under a global context, conventional visual analytical methods, such as dimensionality reduction, could expose data privacy when multi-party datasets are fused into a single site to build point-level relationships. In this paper, we reformulate the conventional t-SNE method from the single-site mode into a secure distributed infrastructure. We present a secure multi-party scheme for joint t-SNE computation, which can minimize the risk of data leakage. Aggregated visualization can be optionally employed to hide disclosure of point-level relationships. We build a prototype system based on our method, SMAP, to support the organization, computation, and exploration of secure joint embedding. We demonstrate the effectiveness of our approach with three case studies, one of which is based on the deployment of our system in real-world applications.
翻訳日:2022-11-05 15:09:20 公開日:2020-07-30
# PR-NN:符号化部分応答チャネルのRNNに基づく検出

PR-NN: RNN-based Detection for Coded Partial-Response Channels ( http://arxiv.org/abs/2007.15695v1 )

ライセンス: Link先を確認
Simeng Zheng, Yi Liu and Paul H. Siegel(参考訳) 本稿では,リカレントニューラルネットワーク(RNN)を用いたシンボル間干渉(ISI)による磁気記録チャネルの検出について検討する。 提案手法は,部分応答等化チャネルを部分応答ニューラルネットワーク(pr-nn)として記録することを目的としている。 我々は、双方向ゲート再帰ユニット(bi-GRU)を訓練し、ノイズチャネル出力シーケンスからISIチャネル入力を復元し、連続的なストリーミングデータに適用した場合のネットワーク性能を評価する。 評価過程におけるPR-NNの計算複雑性は、ビタビ検出器と同等である。 実験を行った記録システムは、E2PR4部分応答チャネルターゲットを持つレート2/3 (1,7) ラン長制限符号を使用する。 理想的なpr信号を用いた実験の結果,添加白色ガウス雑音 (awgn) におけるpr-nn検出の性能はビタビ検出に近いことがわかった。 さらに、PR-NN検出器は、ビタビ検出より優れ、異なるチャネル密度の付加色雑音(ACN)におけるノイズ予測最大公約(NPML)検出の性能を達成する。 AWGNとACNの両方で訓練されたPR-NN検出器は、別個の訓練で観察された性能を維持している。 同様に、2つの異なるチャネル密度に対応するACNで訓練すると、PR-NNは両方の密度でその性能を維持する。 実験により、このロバスト性は幅広い信号-雑音比(SNRs)で一致していることを確認した。 最後に、MMSE等化ローレンツ信号を用いたより現実的な磁気記録チャネルに適用した場合、PR-NNは堅牢な性能を示す。

In this paper, we investigate the use of recurrent neural network (RNN)-based detection of magnetic recording channels with inter-symbol interference (ISI). We refer to the proposed detection method, which is intended for recording channels with partial-response equalization, as Partial-Response Neural Network (PR-NN). We train bi-directional gated recurrent units (bi-GRUs) to recover the ISI channel inputs from noisy channel output sequences and evaluate the network performance when applied to continuous, streaming data. The computational complexity of PR-NN during the evaluation process is comparable to that of a Viterbi detector. The recording system on which the experiments were conducted uses a rate-2/3, (1,7) runlength-limited (RLL) code with an E2PR4 partial-response channel target. Experimental results with ideal PR signals show that the performance of PR-NN detection approaches that of Viterbi detection in additive white gaussian noise (AWGN). Moreover, the PR-NN detector outperforms Viterbi detection and achieves the performance of Noise-Predictive Maximum Likelihood (NPML) detection in additive colored noise (ACN) at different channel densities. A PR-NN detector trained with both AWGN and ACN maintains the performance observed under separate training. Similarly, when trained with ACN corresponding to two different channel densities, PR-NN maintains its performance at both densities. Experiments confirm that this robustness is consistent over a wide range of signal-to-noise ratios (SNRs). Finally, PR-NN displays robust performance when applied to a more realistic magnetic recording channel with MMSE-equalized Lorentzian signals.
翻訳日:2022-11-05 15:08:46 公開日:2020-07-30
# 音声を用いた仮想アシスタントのスキルに対する不信感の検出

Detecting Distrust Towards the Skills of a Virtual Assistant Using Speech ( http://arxiv.org/abs/2007.15711v1 )

ライセンス: Link先を確認
Leonardo Pepino, Pablo Riera, Lara Gauder, Agust\'in Gravano, Luciana Ferrer(参考訳) 研究によれば、信頼は人間とコンピュータの相互作用において必要不可欠な側面であり、その人がシステムを使用する意思の程度を直接決定する。 ユーザが特定のシステムに持っている信頼度の自動予測は、例えば、より徹底的にその動作を説明するなど、システムが関連する行動をとることによって潜在的な不信を正そうと試みることができる。 本研究では,ユーザが音声に基づいて仮想アシスタント(VA)に持つ信頼度を自動的に検出する可能性について検討する。 この目的のために収集されたデータセットは、被験者が仮想アシスタントの助けを借りて、さまざまな事実的質問に答えるよう求められた、人間とコンピュータの音声対話を含んでいる。 被験者の発話は、使用したVAの種類を検知するために使用することができ、これは、ユーザのVA能力に対する信頼のプロキシとして、ランダムなベースラインである50\%と比較して、最大76\%の精度で利用できる。 これらの結果は、幼児と非母語話者に向けられた音声を検出するのに有用な特徴を用いて得られた。

Research has shown that trust is an essential aspect of human-computer interaction directly determining the degree to which the person is willing to use the system. An automatic prediction of the level of trust that a user has on a certain system could be used to attempt to correct potential distrust by having the system take relevant actions like, for example, explaining its actions more thoroughly. In this work, we explore the feasibility of automatically detecting the level of trust that a user has on a virtual assistant (VA) based on their speech. We use a dataset collected for this purpose, containing human-computer speech interactions where subjects were asked to answer various factual questions with the help of a virtual assistant, which they were led to believe was either very reliable or unreliable. We find that the subject's speech can be used to detect which type of VA they were using, which could be considered a proxy for the user's trust toward the VA's abilities, with an accuracy up to 76\%, compared to a random baseline of 50\%. These results are obtained using features that have been previously found useful for detecting speech directed to infants and non-native speakers.
翻訳日:2022-11-05 15:07:40 公開日:2020-07-30
# 二足歩行における深度制御の安定性の理解

Understanding the Stability of Deep Control Policies for Biped Locomotion ( http://arxiv.org/abs/2007.15242v1 )

ライセンス: Link先を確認
Hwangpil Park, Ri Yu, Yoonsang Lee, Kyungho Lee and Jehee Lee(参考訳) 安定性とロバスト性の実現は、2足歩行制御の主要な目標である。 近年、二足歩行制御政策を構築するための一般的な方法論として、深層強化学習(DRL)が注目されており、従来の最先端技術よりも大幅に改善されている。 深い制御ポリシーは、以前のコントローラ設計アプローチよりも利点があるが、多くの疑問は未解決のままである。 深層制御政策は人間の歩行と同じくらい堅牢か? シミュレーション歩行は人間の歩行と同様の戦略を用いてバランスを保つか? 特定の歩行パターンは、人間やシミュレートされた歩行にも同様に影響を及ぼすか? 歩行の安定性を改善するために、ディープポリシーは何を学ぶのか? 本研究の目的は, 深層政策のプッシュ・リカバリ安定性を人体や過去のフィードバックコントローラと比較して評価することで, これらの疑問に答えることである。 また,DRLアルゴリズムの変種の有効性を評価する実験を行った。

Achieving stability and robustness is the primary goal of biped locomotion control. Recently, deep reinforce learning (DRL) has attracted great attention as a general methodology for constructing biped control policies and demonstrated significant improvements over the previous state-of-the-art. Although deep control policies have advantages over previous controller design approaches, many questions remain unanswered. Are deep control policies as robust as human walking? Does simulated walking use similar strategies as human walking to maintain balance? Does a particular gait pattern similarly affect human and simulated walking? What do deep policies learn to achieve improved gait stability? The goal of this study is to answer these questions by evaluating the push-recovery stability of deep policies compared to human subjects and a previous feedback controller. We also conducted experiments to evaluate the effectiveness of variants of DRL algorithms.
翻訳日:2022-11-05 15:02:18 公開日:2020-07-30
# ニューラルネットワークにおける敵攻撃に対するデータ拡張に基づく防御手法

A Data Augmentation-based Defense Method Against Adversarial Attacks in Neural Networks ( http://arxiv.org/abs/2007.15290v1 )

ライセンス: Link先を確認
Yi Zeng, Han Qiu, Gerard Memmi, Meikang Qiu(参考訳) コンピュータビジョン(cv)のディープニューラルネットワーク(dnn)は、悪意のある例(aes)、すなわち間違った分類結果を引き起こすために悪質に追加される不可避な摂動に対して脆弱であることがよく知られている。 このような変動性は、リアルタイム装備DNNをコアコンポーネントとするシステムにとって潜在的なリスクである。 AEによってDNNモデルが取り組まれることを防ぐ方法について、多くの研究がなされている。 しかし、新しい敵の攻撃による効果を効果的に減らすことはできず、同時に実生活の制約とも相容れない。 本稿では,実生活の制約と互換性のあるホワイトボックス攻撃を効果的に無効化できる軽量防衛手法の開発に着目する。 基本アフィン変換から、3つの変換をランダム化係数と統合し、保護されたサンプルへの変化量に応じて微調整する。 過去2年間のトップレベルのAIカンファレンスで発表された4つの最先端の防衛手法と比較して、我々の方法は優れた堅牢性と効率を示す。 我々のモデルは、50ラウンドのBPDAによる高度な適応攻撃に耐えることができ、攻撃成功率をほぼゼロに抑えながら、目標モデルが約80%の精度を維持するのに役立ちます。

Deep Neural Networks (DNNs) in Computer Vision (CV) are well-known to be vulnerable to Adversarial Examples (AEs), namely imperceptible perturbations added maliciously to cause wrong classification results. Such variability has been a potential risk for systems in real-life equipped DNNs as core components. Numerous efforts have been put into research on how to protect DNN models from being tackled by AEs. However, no previous work can efficiently reduce the effects caused by novel adversarial attacks and be compatible with real-life constraints at the same time. In this paper, we focus on developing a lightweight defense method that can efficiently invalidate full whitebox adversarial attacks with the compatibility of real-life constraints. From basic affine transformations, we integrate three transformations with randomized coefficients that fine-tuned respecting the amount of change to the defended sample. Comparing to 4 state-of-art defense methods published in top-tier AI conferences in the past two years, our method demonstrates outstanding robustness and efficiency. It is worth highlighting that, our model can withstand advanced adaptive attack, namely BPDA with 50 rounds, and still helps the target model maintain an accuracy around 80 %, meanwhile constraining the attack success rate to almost zero.
翻訳日:2022-11-05 15:02:06 公開日:2020-07-30
# 効率的なテンソル分解

Efficient Tensor Decomposition ( http://arxiv.org/abs/2007.15589v1 )

ライセンス: Link先を確認
Aravindan Vijayaraghavan(参考訳) この章はテンソルを構成ランク1のテンソルの和に分解する問題を研究している。 テンソル分解は学習アルゴリズムやデータ解析を設計するのに非常に有用であるが、最悪の場合NPハードである。 軽度な仮定の下で証明可能な保証付き効率的なアルゴリズムを設計し、スムーズな分析のような最悪のフレームワークを使用する方法を探ります。

This chapter studies the problem of decomposing a tensor into a sum of constituent rank one tensors. While tensor decompositions are very useful in designing learning algorithms and data analysis, they are NP-hard in the worst-case. We will see how to design efficient algorithms with provable guarantees under mild assumptions, and using beyond worst-case frameworks like smoothed analysis.
翻訳日:2022-11-05 15:01:44 公開日:2020-07-30
# Laser2Vec:ロボット知覚データの類似性に基づく検索

Laser2Vec: Similarity-based Retrieval for Robotic Perception Data ( http://arxiv.org/abs/2007.15746v1 )

ライセンス: Link先を確認
Samer B. Nashed(参考訳) モバイルロボットの能力向上と展開時間の増大に伴い、データ量の増大を分析するツールが必要である。 ロボットシステムにおけるシステム障害の発見を目指す実践者にとって、現在の最先端のロギング、再生、探索システムは不十分である。 本稿では,ロボット知覚データの類似性に基づくクエリのためのアルゴリズムスイートを提案し,多くのデプロイメントから2次元LiDARデータを安価に保存し,完全あるいは部分的スキャンのためのトップクェリを効率的に評価するシステムを実装した。 我々は,畳み込み型変分オートエンコーダを用いてレーザースキャンの圧縮表現を生成し,クエリ時に距離関数近似のための軽量密集ネットワークを実行するデータベースに格納する。 クエリ評価器は埋め込み空間の局所連続性を利用して、期待してデータベースの完全な線形スキャンを支配できる評価順序を生成する。 システムの正確性、堅牢性、スケーラビリティ、効率性は、実際のデータを破損して生成された数十のデプロイメントと合成データから収集された実世界のデータでテストされます。 我々は,ロボットが同じ場所,あるいは同様の屋内構造や物体に遭遇した複数のエピソードの類似したスキャンを精度よく,効率的に同定する。

As mobile robot capabilities improve and deployment times increase, tools to analyze the growing volume of data are becoming necessary. Current state-of-the-art logging, playback, and exploration systems are insufficient for practitioners seeking to discover systemic points of failure in robotic systems. This paper presents a suite of algorithms for similarity-based queries of robotic perception data and implements a system for storing 2D LiDAR data from many deployments cheaply and evaluating top-k queries for complete or partial scans efficiently. We generate compressed representations of laser scans via a convolutional variational autoencoder and store them in a database, where a light-weight dense network for distance function approximation is run at query time. Our query evaluator leverages the local continuity of the embedding space to generate evaluation orders that, in expectation, dominate full linear scans of the database. The accuracy, robustness, scalability, and efficiency of our system is tested on real-world data gathered from dozens of deployments and synthetic data generated by corrupting real data. We find our system accurately and efficiently identifies similar scans across a number of episodes where the robot encountered the same location, or similar indoor structures or objects.
翻訳日:2022-11-05 15:01:38 公開日:2020-07-30
# 3次元超音波による多面定位のための協調エージェントの探索

Searching Collaborative Agents for Multi-plane Localization in 3D Ultrasound ( http://arxiv.org/abs/2007.15273v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Rui Li, Jikuan Qian, Xiaoqiong Huang, Wenlong Shi, Haoran Dou, Chaoyu Chen, Yuanji Zhang, Huanjia Luo, Alejandro Frangi, Yi Xiong, Dong Ni(参考訳) 3d超音波(us)は、診断情報、可搬性、低コストで広く使われている。 米国におけるSP(Automated Standard plane)のローカライゼーションは,効率の向上とユーザ依存の低減だけでなく,米国における3D解釈の促進にも寄与する。 本研究では,複数の子宮SPを同時に3D USにローカライズするMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。 私たちの貢献は2倍です。 まず、MARLに1ショットのニューラルアーキテクチャ探索(NAS)モジュールを装備し、各平面に対して最適なエージェントを得る。 具体的には,gda( differentiable architecture sampler)を用いたグラデーションベース探索を用いて,学習プロセスの高速化と安定化を行う。 第2に,エージェントのコミュニケーションを強化する新しい協調戦略を提案する。 我々の戦略は、SP間の空間関係を効果的に学習するために、リカレントニューラルネットワーク(RNN)を用いる。 大規模データセット上で広く検証されたこの手法は,7.05度/2.21mm,8.62度/2.36mm,5.93度/0.89mmの精度を実現している。 提案したMARLフレームワークは,平面定位精度を大幅に向上し,計算コストとモデルサイズを低減できる。

3D ultrasound (US) is widely used due to its rich diagnostic information, portability and low cost. Automated standard plane (SP) localization in US volume not only improves efficiency and reduces user-dependence, but also boosts 3D US interpretation. In this study, we propose a novel Multi-Agent Reinforcement Learning (MARL) framework to localize multiple uterine SPs in 3D US simultaneously. Our contribution is two-fold. First, we equip the MARL with a one-shot neural architecture search (NAS) module to obtain the optimal agent for each plane. Specifically, Gradient-based search using Differentiable Architecture Sampler (GDAS) is employed to accelerate and stabilize the training process. Second, we propose a novel collaborative strategy to strengthen agents' communication. Our strategy uses recurrent neural network (RNN) to learn the spatial relationship among SPs effectively. Extensively validated on a large dataset, our approach achieves the accuracy of 7.05 degree/2.21mm, 8.62 degree/2.36mm and 5.93 degree/0.89mm for the mid-sagittal, transverse and coronal plane localization, respectively. The proposed MARL framework can significantly increase the plane localization accuracy and reduce the computational cost and model size.
翻訳日:2022-11-05 15:00:33 公開日:2020-07-30
# En-Gedi のスクロールに応用したフラッテニングの定量的歪み解析

Quantitative Distortion Analysis of Flattening Applied to the Scroll from En-Gedi ( http://arxiv.org/abs/2007.15551v1 )

ライセンス: Link先を確認
Clifford Seth Parker, William Brent Seales, Pnina Shor(参考訳) 非侵襲的なボリュームイメージングは、物理的に開けられない損傷および劣化した原稿の封筒内から、インクベースの筆跡の内部構造と詳細な証拠を捉えることができる。 最近en-gediスクロールで実証されたように、私たちの"virtual unwrapping"ソフトウェアパイプラインは、損傷したアーティファクトから実質的なインクベースのテキストを、深刻な批判的なテキスト分析に十分高い品質で回復することができる。 しかし、得られた画像の品質は研究者の主観評価によって定義され、出力品質を最大化するためにパイプラインの各段階で特定のアルゴリズムとパラメータを選択する必要がある。

Non-invasive volumetric imaging can now capture the internal structure and detailed evidence of ink-based writing from within the confines of damaged and deteriorated manuscripts that cannot be physically opened. As demonstrated recently on the En-Gedi scroll, our "virtual unwrapping" software pipeline enables the recovery of substantial ink-based text from damaged artifacts at a quality high enough for serious critical textual analysis. However, the quality of the resulting images is defined by the subjective evaluation of scholars, and a choice of specific algorithms and parameters must be available at each stage in the pipeline in order to maximize the output quality.
翻訳日:2022-11-05 15:00:11 公開日:2020-07-30
# VocGAN:階層型逆数ネットワークを持つ高忠実リアルタイムヴォコーダ

VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network ( http://arxiv.org/abs/2007.15256v1 )

ライセンス: Link先を確認
Jinhyeok Yang, Junmo Lee, Youngik Kim, Hoonyoung Cho, Injung Kim(参考訳) 本稿では、vocganと呼ばれる新しい高忠実度リアルタイムニューラルネットワークボコーダを提案する。 最近開発されたGANベースのボコーダMelGANは、音声波形をリアルタイムで生成する。 しかし、しばしば、入力されたメル分光図の音響特性と一致しない品質が不十分な波形を生成する。 VocGANはMelGANとほぼ同じ速度であるが、出力波形の品質と一貫性を著しく向上させる。 VocGANは、複数レベルの音響特性をバランスよく学習するために、マルチスケールの波形生成器と階層的な判別器を適用している。 また、ジョイント条件と非条件の目的も適用し、高分解能画像合成に成功している。 実験では、vocganはgtx 1080ti gpuで416.7倍、cpuで3.24倍の速度で音声波形を合成する。 MelGANと比較すると、平均評価スコア(MOS)を含む複数の評価指標において、オーバーヘッドが最小限に抑えられた品質も大幅に向上している。 さらに、最近開発された別の高忠実なボコーダであるParallel WaveGANと比較して、VocGANはCPUの6.98倍高速で、より高いMOSを示す。

We present a novel high-fidelity real-time neural vocoder called VocGAN. A recently developed GAN-based vocoder, MelGAN, produces speech waveforms in real-time. However, it often produces a waveform that is insufficient in quality or inconsistent with acoustic characteristics of the input mel spectrogram. VocGAN is nearly as fast as MelGAN, but it significantly improves the quality and consistency of the output waveform. VocGAN applies a multi-scale waveform generator and a hierarchically-nested discriminator to learn multiple levels of acoustic properties in a balanced way. It also applies the joint conditional and unconditional objective, which has shown successful results in high-resolution image synthesis. In experiments, VocGAN synthesizes speech waveforms 416.7x faster on a GTX 1080Ti GPU and 3.24x faster on a CPU than real-time. Compared with MelGAN, it also exhibits significantly improved quality in multiple evaluation metrics including mean opinion score (MOS) with minimal additional overhead. Additionally, compared with Parallel WaveGAN, another recently developed high-fidelity vocoder, VocGAN is 6.98x faster on a CPU and exhibits higher MOS.
翻訳日:2022-11-05 15:00:02 公開日:2020-07-30
# 深部話者埋め込みのための特徴抽出器の比較評価

A Comparative Re-Assessment of Feature Extractors for Deep Speaker Embeddings ( http://arxiv.org/abs/2007.15283v1 )

ライセンス: Link先を確認
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 現代の自動話者検証は、メル周波数ケプストラム係数(MFCC)の特徴に基づいて訓練されたディープニューラルネットワーク(DNN)に大きく依存している。 位相,韻律,長期の時間的操作に基づく代替的特徴抽出法は存在するが,DNNに基づく手法では広く研究されていない。 我々は,VoxCelebおよびSITWデータセット上に14個の特徴抽出器を広範囲に再評価することにより,このギャップを埋めることを目指している。 以上の結果から,スペクトルセンタロイド,グループ遅延関数,統合雑音抑圧などの手法が組み合わさった特徴は,mfccsの話者埋め込み抽出に有望な代替手段を提供することがわかった。 実験結果は16.3\%(VoxCeleb)と25.1\%(SITW)の相対的な誤差率(EER)の低下を示す。

Modern automatic speaker verification relies largely on deep neural networks (DNNs) trained on mel-frequency cepstral coefficient (MFCC) features. While there are alternative feature extraction methods based on phase, prosody and long-term temporal operations, they have not been extensively studied with DNN-based methods. We aim to fill this gap by providing extensive re-assessment of 14 feature extractors on VoxCeleb and SITW datasets. Our findings reveal that features equipped with techniques such as spectral centroids, group delay function, and integrated noise suppression provide promising alternatives to MFCCs for deep speaker embeddings extraction. Experimental results demonstrate up to 16.3\% (VoxCeleb) and 25.1\% (SITW) relative decrease in equal error rate (EER) to the baseline.
翻訳日:2022-11-05 14:59:43 公開日:2020-07-30
# 平均二乗誤差とvar-norm推定器を損失関数とするリモートセンシング画像の超深分解能

Very Deep Super-Resolution of Remotely Sensed Images with Mean Square Error and Var-norm Estimators as Loss Functions ( http://arxiv.org/abs/2007.15417v1 )

ライセンス: Link先を確認
Antigoni Panagiotopoulou, Lazaros Grammatikopoulos, Eleni Charou, Emmanuel Bratsolis, Nicholas Madamopoulos and John Petrogonas(参考訳) 本研究では,超深分解能(vdsr)法を用いて,スケール係数4のリモートセンシング(rs)画像の空間分解能を向上させる。 VDSRネットはセンチネル2の画像とドローンの航空写真で再訓練され、それぞれRS-VDSRとAero-VDSRとなる。 畳み込みニューラルネットワークの回帰層において,再学習および予測中に新たな損失関数var-norm推定器が提案されている。 数値および光学的比較により、提案したネットRS-VDSRとAero-VDSRは、RS画像の予測時にVDSRより優れる。 RS-VDSRは、センチネル2の画像のPSNRでVDSRを3.16dBまで上回っている。

In this work, very deep super-resolution (VDSR) method is presented for improving the spatial resolution of remotely sensed (RS) images for scale factor 4. The VDSR net is re-trained with Sentinel-2 images and with drone aero orthophoto images, thus becomes RS-VDSR and Aero-VDSR, respectively. A novel loss function, the Var-norm estimator, is proposed in the regression layer of the convolutional neural network during re-training and prediction. According to numerical and optical comparisons, the proposed nets RS-VDSR and Aero-VDSR can outperform VDSR during prediction with RS images. RS-VDSR outperforms VDSR up to 3.16 dB in terms of PSNR in Sentinel-2 images.
翻訳日:2022-11-05 14:53:45 公開日:2020-07-30
# 50万胸部X線画像における気胸の検索

Searching for Pneumothorax in Half a Million Chest X-Ray Images ( http://arxiv.org/abs/2007.15429v1 )

ライセンス: Link先を確認
Antonio Sze-To, Hamid Tizhoosh(参考訳) 気胸(Pneumothorax)は、胸部X線で経験豊富な放射線医によって検出される致命的な疾患である。 このような専門家の不足により、ディープニューラルネットワークに基づく自動検出システムが開発されている。 しかし、そのような制度を実際に適用することは依然として課題である。 これらのシステムは、主に出力として単一の確率を計算するが、診断には不十分かもしれない。 それとは対照的に、画像検索のようなコンテンツベースの医療画像検索(CBIR)システムでは、以前の(既に診断済み)症例と比較することで、臨床医の診断を補助することができる。 しかし、そのような試みには研究の欠如がある。 本研究では胸部x線画像の気胸分類における画像検索法について検討した。 胸部X線画像はすべて、既存のディープラーニングモデルから得られた、訓練済みの深い特徴でタグ付けされた。 検索胸部X線画像が与えられた後、検索したトップK画像の多数投票を分類器として使用し、過去の事例のアーカイブに類似した事例が確率出力の他に提供される。 実験では,最近公開された3つの大規模データセットから551,383個の胸部x線画像を得た。 また, 10倍のクロスバリデーションを用いて, 同じ特徴を訓練した従来の分類器と比較して, 深層事前学習した特徴のイメージ検索が有望な結果を得た。 胸部X線画像50万枚において,気胸のCBIRに深く事前訓練された特徴が有効であることを示す最初の研究である。

Pneumothorax, a collapsed or dropped lung, is a fatal condition typically detected on a chest X-ray by an experienced radiologist. Due to shortage of such experts, automated detection systems based on deep neural networks have been developed. Nevertheless, applying such systems in practice remains a challenge. These systems, mostly compute a single probability as output, may not be enough for diagnosis. On the contrary, content-based medical image retrieval (CBIR) systems, such as image search, can assist clinicians for diagnostic purposes by enabling them to compare the case they are examining with previous (already diagnosed) cases. However, there is a lack of study on such attempt. In this study, we explored the use of image search to classify pneumothorax among chest X-ray images. All chest X-ray images were first tagged with deep pretrained features, which were obtained from existing deep learning models. Given a query chest X-ray image, the majority voting of the top K retrieved images was then used as a classifier, in which similar cases in the archive of past cases are provided besides the probability output. In our experiments, 551,383 chest X-ray images were obtained from three large recently released public datasets. Using 10-fold cross-validation, it is shown that image search on deep pretrained features achieved promising results compared to those obtained by traditional classifiers trained on the same features. To the best of knowledge, it is the first study to demonstrate that deep pretrained features can be used for CBIR of pneumothorax in half a million chest X-ray images.
翻訳日:2022-11-05 14:53:32 公開日:2020-07-30
# ゴッチャ」から「ゴッチャ」へ:プログレッシブな関連フィードバックを伴う対話型顔画像検索

From A Glance to "Gotcha": Interactive Facial Image Retrieval with Progressive Relevance Feedback ( http://arxiv.org/abs/2007.15683v1 )

ライセンス: Link先を確認
Xinru Yang, Haozhi Qi, Mingyang Li, Alexander Hauptmann(参考訳) 顔画像検索は、未訓練の目撃者が大量の画像から容疑者を特定しようとする法医学的な調査において重要な役割を果たす。 しかし、人間の顔の表情を口頭・直接的に説明するのが困難であるため、自然に既知の画像を参照し、顔の特定の領域を比較して表現する傾向があり、同時に、そのたびに完全な比較を行うことも困難である。 そこで本研究では,証人が徐々に提供し,複数ラウンドの履歴情報の活用を可能にするとともに,心的イメージの検索にインタラクティブで反復的なアプローチを施したエンド・ツー・エンド・エンドの枠組みを提案する。 追加のアノテーションは不要で、私たちのモデルは少しのレスポンスのコストで適用できます。 我々は, <texttt{CelebA} を実験し, パーセンタイルのランク付けによる性能評価を行い, 最高の設定で 99\% を達成する。 この話題は、私たちの知識の最良の部分についてはほとんど探求されていないので、我々の研究がさらなる研究の足掛かりとなることを願っています。

Facial image retrieval plays a significant role in forensic investigations where an untrained witness tries to identify a suspect from a massive pool of images. However, due to the difficulties in describing human facial appearances verbally and directly, people naturally tend to depict by referring to well-known existing images and comparing specific areas of faces with them and it is also challenging to provide complete comparison at each time. Therefore, we propose an end-to-end framework to retrieve facial images with relevance feedback progressively provided by the witness, enabling an exploitation of history information during multiple rounds and an interactive and iterative approach to retrieving the mental image. With no need of any extra annotations, our model can be applied at the cost of a little response effort. We experiment on \texttt{CelebA} and evaluate the performance by ranking percentile and achieve 99\% under the best setting. Since this topic remains little explored to the best of our knowledge, we hope our work can serve as a stepping stone for further research.
翻訳日:2022-11-05 14:52:17 公開日:2020-07-30
# 複数の軌道から相互作用する粒子の確率系における相互作用核の学習

Learning interaction kernels in stochastic systems of interacting particles from multiple trajectories ( http://arxiv.org/abs/2007.15174v1 )

ライセンス: Link先を確認
Fei Lu, Mauro Maggioni, Sui Tang(参考訳) 相互作用する粒子やエージェントの確率的系は、対距離のみに依存する相互作用カーネルによって決定される。 この相互作用核を、複数の独立した軌道に沿って、連続時間または離散時間における粒子の位置の観測から推測する問題を考察する。 本稿では、データに適応する適切な仮説空間に制約された正則化極大推定器に基づいて、この逆問題に対する非パラメトリック推論手法を提案する。 我々は,この問題に対する条件数制御と推定器の整合性を証明することを可能にし,実のところ1$D非パラメトリック回帰のmin-maxレートとほぼ最適の学習速度で収束することを示した。 特に、この速度は、通常非常に高い状態空間の次元とは独立である。 また,離散時間観測における離散化誤差を解析し,観測時間差の点において1/2$であることを示した。 この用語は、大きければサンプリング誤差と近似誤差を支配し、推定器の収束を防ぐ。 最後に,データから推定器を構築するための効率的な並列アルゴリズムを示し,確率的意見ダイナミクスやlennard-jonesモデルを含むプロトタイプシステムにおける数値実験によるアルゴリズムの有効性を示す。

We consider stochastic systems of interacting particles or agents, with dynamics determined by an interaction kernel which only depends on pairwise distances. We study the problem of inferring this interaction kernel from observations of the positions of the particles, in either continuous or discrete time, along multiple independent trajectories. We introduce a nonparametric inference approach to this inverse problem, based on a regularized maximum likelihood estimator constrained to suitable hypothesis spaces adaptive to data. We show that a coercivity condition enables us to control the condition number of this problem and prove the consistency of our estimator, and that in fact it converges at a near-optimal learning rate, equal to the min-max rate of $1$-dimensional non-parametric regression. In particular, this rate is independent of the dimension of the state space, which is typically very high. We also analyze the discretization errors in the case of discrete-time observations, showing that it is of order $1/2$ in terms of the time gaps between observations. This term, when large, dominates the sampling error and the approximation error, preventing convergence of the estimator. Finally, we exhibit an efficient parallel algorithm to construct the estimator from data, and we demonstrate the effectiveness of our algorithm with numerical tests on prototype systems including stochastic opinion dynamics and a Lennard-Jones model.
翻訳日:2022-11-05 14:51:33 公開日:2020-07-30
# 機械学習における識別の視覚的分析

Visual Analysis of Discrimination in Machine Learning ( http://arxiv.org/abs/2007.15182v1 )

ライセンス: Link先を確認
Qianwen Wang, Zhenhua Xu, Zhutian Chen, Yong Wang, Shixia Liu, and Huamin Qu(参考訳) 犯罪予測や大学入学など、重要なアプリケーションにおける自動意思決定の利用の増加は、機械学習における公正性に関する疑問を提起している。 異なる治療法が合理的か差別的であるかをどう判断するか。 本稿では,視覚分析の観点から機械学習の識別を調査し,より包括的な解析を支援するインタラクティブ可視化ツールdiscrilensを提案する。 アルゴリズムの識別に関する詳細な情報を明らかにするため、識別は因果モデルと分類規則のマイニングに基づいて、潜在的に識別可能な項目の集合を識別する。 拡張eulerダイアグラムと行列ベースの可視化を組み合わせることで,識別項目セットの探索と解釈を容易にする新しい可視化手法を開発した。 ユーザ調査の結果,視覚的に符号化された情報を迅速かつ正確に解釈できることがわかった。 ユースケースは、DiscriLensがアルゴリズムの識別の理解と削減に有益なガイダンスを提供することを示している。

The growing use of automated decision-making in critical applications, such as crime prediction and college admission, has raised questions about fairness in machine learning. How can we decide whether different treatments are reasonable or discriminatory? In this paper, we investigate discrimination in machine learning from a visual analytics perspective and propose an interactive visualization tool, DiscriLens, to support a more comprehensive analysis. To reveal detailed information on algorithmic discrimination, DiscriLens identifies a collection of potentially discriminatory itemsets based on causal modeling and classification rules mining. By combining an extended Euler diagram with a matrix-based visualization, we develop a novel set visualization to facilitate the exploration and interpretation of discriminatory itemsets. A user study shows that users can interpret the visually encoded information in DiscriLens quickly and accurately. Use cases demonstrate that DiscriLens provides informative guidance in understanding and reducing algorithmic discrimination.
翻訳日:2022-11-05 14:50:43 公開日:2020-07-30
# ラーフスリーパーと基本アウトリーチサービスを結ぶための勧告とリスク分類システム

A Recommendation and Risk Classification System for Connecting Rough Sleepers to Essential Outreach Services ( http://arxiv.org/abs/2007.15326v1 )

ライセンス: Link先を確認
Harrison Wilde, Lucia Lushi Chen, Austin Nguyen, Zoe Kimpel, Joshua Sidgwick, Adolfo De Unanue, Davide Veronese, Bilal Mateen, Rayid Ghani, Sebastian Vollmer(参考訳) 睡眠不足は、現代の社会で最も不利な人々によって直面する慢性的な問題である。 本稿では,英国に本拠を置く慈善団体「ホームレス・リンク」と共同で,路上で寝ている人たちと外出サービス提供者とをつなぐことを目的とした,一般市民からの着信通知の質を評価するためのデータ駆動型手法の開発について述べる。 アラートは、粗い睡眠器との接続に成功し、キャパシティの制限に対処し、素早く、効果的に、公平に全てのアラートを処理するのに役立つと予測される可能性に基づいて優先順位付けされる。 最初の評価では、ラベル付きデータに基づいて少なくとも15倍の頻度で粗い睡眠者が発見される確率を増大させ、未知の結果が考慮された場合の全体的な増加を示唆し、実際のモデルを評価するために長期間に渡り実施される試験のメリットを示唆している。 この文脈におけるデータの繊細な性質と影響を受ける人々の脆弱性により、倫理、透明性、説明可能性について慎重に検討し、議論とモデリングを行う。

Rough sleeping is a chronic problem faced by some of the most disadvantaged people in modern society. This paper describes work carried out in partnership with Homeless Link, a UK-based charity, in developing a data-driven approach to assess the quality of incoming alerts from members of the public aimed at connecting people sleeping rough on the streets with outreach service providers. Alerts are prioritised based on the predicted likelihood of successfully connecting with the rough sleeper, helping to address capacity limitations and to quickly, effectively, and equitably process all of the alerts that they receive. Initial evaluation concludes that our approach increases the rate at which rough sleepers are found following a referral by at least 15\% based on labelled data, implying a greater overall increase when the alerts with unknown outcomes are considered, and suggesting the benefit in a trial taking place over a longer period to assess the models in practice. The discussion and modelling process is done with careful considerations of ethics, transparency and explainability due to the sensitive nature of the data in this context and the vulnerability of the people that are affected.
翻訳日:2022-11-05 14:44:24 公開日:2020-07-30
# カスタマイズ機能を有する高性能ハイブリッドモデルを上回るrnn-tモデルの開発

Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization Capability ( http://arxiv.org/abs/2007.15188v1 )

ライセンス: Link先を確認
Jinyu Li, Rui Zhao, Zhong Meng, Yanqing Liu, Wenning Wei, Sarangarajan Parthasarathy, Vadim Mazalov, Zhenghao Wang, Lei He, Sheng Zhao, and Yifan Gong(参考訳) リカレントニューラルネットワークトランスデューサ(recurrent neural network transducer, rnn-t)は、自動音声認識のためのハイブリッドモデルに代わる、非常に有望なエンドツーエンド(e2e)モデルである。 本稿では、トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの開発、より優れた初期化戦略、将来の展望による高度なエンコーダモデリングについて述べる。 マイクロソフトの匿名化トレーニングデータ6万6千時間でトレーニングすると、開発済みのrnn-tモデルは、認識精度とレイテンシの両面で非常によく訓練されたハイブリッドモデルを超えます。 さらに,実践シナリオにE2Eモデルをデプロイする上で重要な,RNN-Tモデルを新しいドメインにカスタマイズする方法についても検討する。 新しいドメインにおけるテキストのみデータを利用する方法をいくつか比較した結果,rnn-tの予測と,ドメイン特化テキストから生成したテキスト対音声を用いた共同ネットワークの更新が最も効果的であることが判明した。

Because of its streaming nature, recurrent neural network transducer (RNN-T) is a very promising end-to-end (E2E) model that may replace the popular hybrid model for automatic speech recognition. In this paper, we describe our recent development of RNN-T models with reduced GPU memory consumption during training, better initialization strategy, and advanced encoder modeling with future lookahead. When trained with Microsoft's 65 thousand hours of anonymized training data, the developed RNN-T model surpasses a very well trained hybrid model with both better recognition accuracy and lower latency. We further study how to customize RNN-T models to a new domain, which is important for deploying E2E models to practical scenarios. By comparing several methods leveraging text-only data in the new domain, we found that updating RNN-T's prediction and joint networks using text-to-speech generated from domain-specific text is the most effective.
翻訳日:2022-11-05 14:43:48 公開日:2020-07-30
# マルチ露光画像融合アルゴリズムのベンチマークと比較

Benchmarking and Comparing Multi-exposure Image Fusion Algorithms ( http://arxiv.org/abs/2007.15156v1 )

ライセンス: Link先を確認
Xingchen Zhang(参考訳) マルチ露光画像融合(MEF)はコンピュータビジョンにおいて重要な分野であり,近年は注目されている。 従来のアルゴリズムとは別に、深層学習技術もマルチ露光画像融合に適用されている。 しかし、MEFアルゴリズムの開発に多くの努力がなされているが、ベンチマークの欠如により、MEFアルゴリズムの公平かつ包括的な性能比較が困難になり、この分野の開発を著しく妨げている。 本稿では,100個の画像ペア,16個のアルゴリズムのコードライブラリ,20個の評価指標,1600個の融合画像,ソフトウェアツールキットからなるマルチエクスポージャ画像融合(mefb)のためのベンチマークを提案することで,このギャップを埋める。 我々の知る限りでは、これはマルチ露光画像融合分野における最初のベンチマークである。 総合的な性能評価と有効なアルゴリズムの同定にMEFBを用いて大規模な実験を行った。 我々は、MEFBが、研究者が性能を比較し、MEFアルゴリズムを調べるための効果的なプラットフォームになることを期待している。

Multi-exposure image fusion (MEF) is an important area in computer vision and has attracted increasing interests in recent years. Apart from conventional algorithms, deep learning techniques have also been applied to multi-exposure image fusion. However, although much efforts have been made on developing MEF algorithms, the lack of benchmark makes it difficult to perform fair and comprehensive performance comparison among MEF algorithms, thus significantly hindering the development of this field. In this paper, we fill this gap by proposing a benchmark for multi-exposure image fusion (MEFB) which consists of a test set of 100 image pairs, a code library of 16 algorithms, 20 evaluation metrics, 1600 fused images and a software toolkit. To the best of our knowledge, this is the first benchmark in the field of multi-exposure image fusion. Extensive experiments have been conducted using MEFB for comprehensive performance evaluation and for identifying effective algorithms. We expect that MEFB will serve as an effective platform for researchers to compare performances and investigate MEF algorithms.
翻訳日:2022-11-05 14:42:41 公開日:2020-07-30
# 顔のランドマークアノテーションの背景にある騒音の祝福と呪い

The Blessing and the Curse of the Noise behind Facial Landmark Annotations ( http://arxiv.org/abs/2007.15269v1 )

ライセンス: Link先を確認
Xiaoyu Xiang, Yang Cheng, Shaoyuan Xu, Qian Lin, Jan Allebach(参考訳) 2d顔ランドマーク検出のための進化するアルゴリズムは、顔を認識し、表情を分析するなどを可能にする。 しかし、既存の手法はビデオに適用しても不安定な顔のランドマークの問題に遭遇する。 これまでの研究では、顔のランドマークの不安定さは、公開データセット間のラベル品質の不整合に起因するため、アノテーションノイズの影響をより深く理解したいと考えています。 本稿では,次のような貢献をする。 1) 検出された顔ランドマークの安定性を定量的に測定する2つの指標を提案する。 2)既存の公開データセットのアノテーションノイズをモデル化する。 3) 顔アライメントニューラルネットワークのトレーニングにおける様々なノイズの影響を調査し,対応する解を提案する。 その結果,検出された顔ランドマークの精度と安定性が向上した。

The evolving algorithms for 2D facial landmark detection empower people to recognize faces, analyze facial expressions, etc. However, existing methods still encounter problems of unstable facial landmarks when applied to videos. Because previous research shows that the instability of facial landmarks is caused by the inconsistency of labeling quality among the public datasets, we want to have a better understanding of the influence of annotation noise in them. In this paper, we make the following contributions: 1) we propose two metrics that quantitatively measure the stability of detected facial landmarks, 2) we model the annotation noise in an existing public dataset, 3) we investigate the influence of different types of noise in training face alignment neural networks, and propose corresponding solutions. Our results demonstrate improvements in both accuracy and stability of detected facial landmarks.
翻訳日:2022-11-05 14:42:09 公開日:2020-07-30
# 映像中の偽顔検出のための動的テクスチャ解析

Dynamic texture analysis for detecting fake faces in video sequences ( http://arxiv.org/abs/2007.15271v1 )

ライセンス: Link先を確認
Mattia Bonomi and Cecilia Pasquini and Giulia Boato(参考訳) 人間のキャラクターを含む操作されたマルチメディアコンテンツの作成は、過去数年で前例のないリアリズムに達し、画像やビデオに合成生成された顔を公開する自動化技術を求めている。 本研究は,映像信号の時空間的テクスチャダイナミクスの解析を行い,実数列と偽数列を特徴付けることを目的とする。 本稿では,複数時間セグメントの連成解析に基づく二項決定法を提案し,従来の手法とは対照的に空間次元と時間次元の両方のテクスチャダイナミクスを利用する。 これは、3次元直交平面上の局所微分パターン(LDP-TOP)を用いることで達成される。 操作されたビデオの最先端のデータセットに関する実験的解析は、実際のシーケンスと偽のシーケンスを分離するディスクリプタの識別能力を示し、また、使用される生成方法を特定する。 線形サポートベクトルマシン(SVM)は、複雑さが低いにもかかわらず、以前に提案された偽コンテンツ検出のためのディープモデルと同等の性能を持つ。

The creation of manipulated multimedia content involving human characters has reached in the last years unprecedented realism, calling for automated techniques to expose synthetically generated faces in images and videos. This work explores the analysis of spatio-temporal texture dynamics of the video signal, with the goal of characterizing and distinguishing real and fake sequences. We propose to build a binary decision on the joint analysis of multiple temporal segments and, in contrast to previous approaches, to exploit the textural dynamics of both the spatial and temporal dimensions. This is achieved through the use of Local Derivative Patterns on Three Orthogonal Planes (LDP-TOP), a compact feature representation known to be an important asset for the detection of face spoofing attacks. Experimental analyses on state-of-the-art datasets of manipulated videos show the discriminative power of such descriptors in separating real and fake sequences, and also identifying the creation method used. Linear Support Vector Machines (SVMs) are used which, despite the lower complexity, yield comparable performance to previously proposed deep models for fake content detection.
翻訳日:2022-11-05 14:41:57 公開日:2020-07-30
# ターゲット領域実画像のない深層交通信号の検出と認識

Deep Traffic Sign Detection and Recognition Without Target Domain Real Images ( http://arxiv.org/abs/2008.00962v1 )

ライセンス: Link先を確認
Lucas Tabelini, Rodrigo Berriel, Thiago M. Paix\~ao, Alberto F. De Souza, Claudine Badue, Nicu Sebe and Thiago Oliveira-Santos(参考訳) ディープラーニングは、自動運転に関連するいくつかの問題にうまく適用され、適切なトレーニングのために実際のターゲットドメインイメージの大規模なデータベースに依存することが多い。 このような実世界のデータの取得は、自動運転の文脈では必ずしも可能ではなく、時にはアノテーションが実現不可能である。 さらに、多くのタスクにおいて、多くの学習ベースの手法が対処に苦労する固有のデータ不均衡が存在する。 特に、交通標識検出は、これら3つの問題がすべて見られるという困難な問題である。 これらの課題に対処するために,我々はデータベース生成手法を提案する。 (i)任意の自然画像、すなわち、対象領域からの実際の画像を必要としない。 (ii) 交通標識のテンプレート。 この方法は、実際のデータでトレーニングを克服することではなく、実際のデータが利用できない場合に互換性のある代替手段となることを目的としている。 このデータベースは、複数の国の交通標識の深部検知器の訓練に有効であることが示されている。 大規模なデータセットでは、完全に合成されたデータセットによるトレーニングは、実際のデータセットとトレーニングのパフォーマンスにほぼ一致する。 実際の画像の少ないデータセットでのトレーニングと比較すると、合成画像によるトレーニングは12.25%の精度で向上した。 提案手法は,対象領域のデータが利用可能である場合,検出器の性能も向上する。

Deep learning has been successfully applied to several problems related to autonomous driving, often relying on large databases of real target-domain images for proper training. The acquisition of such real-world data is not always possible in the self-driving context, and sometimes their annotation is not feasible. Moreover, in many tasks, there is an intrinsic data imbalance that most learning-based methods struggle to cope with. Particularly, traffic sign detection is a challenging problem in which these three issues are seen altogether. To address these challenges, we propose a novel database generation method that requires only (i) arbitrary natural images, i.e., requires no real image from the target-domain, and (ii) templates of the traffic signs. The method does not aim at overcoming the training with real data, but to be a compatible alternative when the real data is not available. The effortlessly generated database is shown to be effective for the training of a deep detector on traffic signs from multiple countries. On large data sets, training with a fully synthetic data set almost matches the performance of training with a real one. When compared to training with a smaller data set of real images, training with synthetic images increased the accuracy by 12.25%. The proposed method also improves the performance of the detector when target-domain data are available.
翻訳日:2022-11-05 14:35:11 公開日:2020-07-30
# 次世代無線ネットワークのためのSwarm Intelligence:最近の進歩と応用

Swarm Intelligence for Next-Generation Wireless Networks: Recent Advances and Applications ( http://arxiv.org/abs/2007.15221v1 )

ライセンス: Link先を確認
Quoc-Viet Pham, Dinh C. Nguyen, Seyedali Mirjalili, Dinh Thai Hoang, Diep N. Nguyen, Pubudu N. Pathirana, Won-Joo Hwang(参考訳) スマートデバイスの普及と新興アプリケーションにより、多くの次世代技術がワイヤレスネットワーク開発のために支払われてきた。 商業用5Gは、一部の国で広く展開されているが、6Gシステムのためのアカデミアや工業コミュニティからの最初の取り組みがある。 このようなネットワークでは、技術、アーキテクチャ、モバイルデータなどの異質性とともに、非常に多くのデバイスやアプリケーションが登場し、そのようなネットワークを最適化することが非常に重要である。 凸最適化とゲーム理論に加えて、最近Swarm Intelligence(SI)が無線ネットワークの有望な最適化ツールとして登場した。 人工知能の新しい区分として、SIは生物種の社会の集団的行動に着想を得ている。 siでは、限られた能力を持つ単純なエージェントは、高次元で困難な問題に対するインテリジェントな戦略を実現するため、最近、次世代無線ネットワーク(ngn)で多くのアプリケーションを見つけました。 しかし、研究者はSI技術の可能性を完全に認識していないかもしれない。 この作業では、この2つのドメイン、NGNとSIの統合に重点を置いています。 まず,基本的な概念からよく知られたオプティマイザまで,SI技術の概要を紹介する。 第2に、スペクトル管理とリソース割り当て、無線キャッシュとエッジコンピューティング、ネットワークセキュリティ、その他様々な問題を含む、NGNの新たな課題を解決するためのSIの適用についてレビューする。 最後に,文献のオープンな課題と課題を強調するとともに,今後の研究に向けた興味深い方向性を紹介する。

Due to the proliferation of smart devices and emerging applications, many next-generation technologies have been paid for the development of wireless networks. Even though commercial 5G has just been widely deployed in some countries, there have been initial efforts from academia and industrial communities for 6G systems. In such a network, a very large number of devices and applications are emerged, along with heterogeneity of technologies, architectures, mobile data, etc., and optimizing such a network is of utmost importance. Besides convex optimization and game theory, swarm intelligence (SI) has recently appeared as a promising optimization tool for wireless networks. As a new subdivision of artificial intelligence, SI is inspired by the collective behaviors of societies of biological species. In SI, simple agents with limited capabilities would achieve intelligent strategies for high-dimensional and challenging problems, so it has recently found many applications in next-generation wireless networks (NGN). However, researchers may not be completely aware of the full potential of SI techniques. In this work, our primary focus will be the integration of these two domains: NGN and SI. Firstly, we provide an overview of SI techniques from fundamental concepts to well-known optimizers. Secondly, we review the applications of SI to settle emerging issues in NGN, including spectrum management and resource allocation, wireless caching and edge computing, network security, and several other miscellaneous issues. Finally, we highlight open challenges and issues in the literature, and introduce some interesting directions for future research.
翻訳日:2022-11-05 14:34:32 公開日:2020-07-30
# 解釈可能なコンテキスト対応型チーム対応アイテムレコメンデーション:マルチプレイヤーオンラインバトルアリーナゲームへの応用

Interpretable Contextual Team-aware Item Recommendation: Application in Multiplayer Online Battle Arena Games ( http://arxiv.org/abs/2007.15236v1 )

ライセンス: Link先を確認
Andr\'es Villa, Vladimir Araujo, Francisca Cattan, Denis Parra(参考訳) ビデオゲーム業界は、ゲーム販売に集中してユーザーの関心を高めるためにレコメンデーションシステムを採用した。 ビデオゲームの他のエキサイティングな応用としては、プレイヤーがプレイ体験を最大化する決定を下すのを助けるものがあり、これはDotAやLoLのようなマルチプレイヤーオンラインバトルアリーナ(MOBA)のようなリアルタイム戦略ビデオゲームで望ましい機能である。 これらのタスクの中で、ゲームのコンテキストの性質と、それが各チーム形成への依存を明らかにする方法の両方を考えると、アイテムの推奨は難しい。 このトピックに関する既存の作業は、利用可能なコンテキストマッチングデータをすべて活用せず、潜在的に価値のある情報を除外する。 この問題に対処するために、私たちは、Transformerのニューラルアーキテクチャから派生したコンテキストレコメンデータモデルであるTTIRを開発し、マッチを記述するチームのコンテキストとロールに基づいて、各チームメンバーにアイテムセットを提案する。 TTIRはいくつかのアプローチより優れており、注意重みの可視化を通じて解釈可能なレコメンデーションを提供する。 本稿では,この項目推薦タスクにおいて,トランスフォーマーアーキテクチャとコンテキスト情報の両方が最適結果を得るために重要であることを示す。 さらに,ユーザ調査の結果から,注意重み付けがレコメンデーションや今後の作業のアイデアに有用であることが示唆された。 コードとデータセットは以下の通りである。

The video game industry has adopted recommendation systems to boost users interest with a focus on game sales. Other exciting applications within video games are those that help the player make decisions that would maximize their playing experience, which is a desirable feature in real-time strategy video games such as Multiplayer Online Battle Arena (MOBA) like as DotA and LoL. Among these tasks, the recommendation of items is challenging, given both the contextual nature of the game and how it exposes the dependence on the formation of each team. Existing works on this topic do not take advantage of all the available contextual match data and dismiss potentially valuable information. To address this problem we develop TTIR, a contextual recommender model derived from the Transformer neural architecture that suggests a set of items to every team member, based on the contexts of teams and roles that describe the match. TTIR outperforms several approaches and provides interpretable recommendations through visualization of attention weights. Our evaluation indicates that both the Transformer architecture and the contextual information are essential to get the best results for this item recommendation task. Furthermore, a preliminary user survey indicates the usefulness of attention weights for explaining recommendations as well as ideas for future work. The code and dataset are available at: https://github.com/ojedaf/IC-TIR-Lol.
翻訳日:2022-11-05 14:34:12 公開日:2020-07-30
# 適用時間付きストリームのバウンドメモリ基準

Bounded-Memory Criteria for Streams with Application Time ( http://arxiv.org/abs/2007.16040v1 )

ライセンス: Link先を確認
Simon Schiff and \"Ozg\"ur \"Ozcep(参考訳) 境界メモリ計算能力は、ストリーム上の実行可能な計算を扱うAIやデータベースの領域の焦点であり、低レベルのストリーム上の算術的な計算や、リレーショナルデータストリーム上の宣言的に指定されたクエリに応答する実行可能なクエリ、さらにはストリーム上の高レベルのクエリに応答する実行可能なクエリなど、オントロジーベースのデータアクセス(OBDA)のパラダイムのようなオントロジーにおける制約セットである。 古典的なobdaでは、高レベルのクエリはデータソースレベルでクエリに変換することで答えられる。 変換には書き直しステップが必要で、オントロジーからの知識がクエリに組み込まれ、マッピングのセットに関して展開するステップが続く。 OBDAの設定を考えると、クエリが効率的に答えられるかどうかを判断するのは非常に困難です。 特に、データストリームの無限に増大するプレフィックスである定数空間 w.r.t において、クエリが境界メモリで応答できるかどうかを決定するのは難しい。 本研究は,アプリケーション時間付きストリーム上でのSPJクエリのメモリ境界計算可能性の基準を示す。 spjクエリが一定の空間で答えられるかどうかは、オントロジーやマッピングのセットが入力の一部ではないため、高レベルのクエリよりも容易である。 従来のOBDAの変換プロセスを使うことで、これらの基準はストリーム上の高レベルのクエリに応答する効率を決定するのに役立つ。

Bounded-memory computability continues to be in the focus of those areas of AI and databases that deal with feasible computations over streams---be it feasible arithmetical calculations on low-level streams or feasible query answering for declaratively specified queries on relational data streams or even feasible query answering for high-level queries on streams w.r.t. a set of constraints in an ontology such as in the paradigm of Ontology-Based Data Access (OBDA). In classical OBDA, a high-level query is answered by transforming it into a query on data source level. The transformation requires a rewriting step, where knowledge from an ontology is incorporated into the query, followed by an unfolding step with respect to a set of mappings. Given an OBDA setting it is very difficult to decide, whether and how a query can be answered efficiently. In particular it is difficult to decide whether a query can be answered in bounded memory, i.e., in constant space w.r.t. an infinitely growing prefix of a data stream. This work presents criteria for bounded-memory computability of select-project-join (SPJ) queries over streams with application time. Deciding whether an SPJ query can be answered in constant space is easier than for high-level queries, as neither an ontology nor a set of mappings are part of the input. Using the transformation process of classical OBDA, these criteria then can help deciding the efficiency of answering high-level queries on streams.
翻訳日:2022-11-05 14:33:31 公開日:2020-07-30
# モデルos din\^amicos aplicados \`a a aprendizagem de valores em intelig\^encia artificial

Modelos din\^amicos aplicados \`a aprendizagem de valores em intelig\^encia artificial ( http://arxiv.org/abs/2008.02783v1 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea and Nythamar De Oliveira(参考訳) 人工知能(AI)開発の専門家は、インテリジェントシステムとエージェントの開発の進歩が、我々の社会における重要な領域を形作ると予測している。 しかし、そのような進歩が慎重かつ批判的に、反省的に行われなければ、人類にとって否定的な結果をもたらす可能性がある。 このため、この地域の何人かの研究者は、人類と環境の保全のためのaiの堅牢で有益で安全な概念を開発した。 現在、ai研究の分野におけるオープンな問題のいくつかは、インテリジェントエージェントやシステムの不必要な振る舞いを避けることの難しさと、その上で我々が本当に望むシステム、特に長期間にわたって複数のドメインでインテリジェントエージェントが作用する可能性を求める場合に生じる。 直交論で論じられているように、aiがその知性のために単に人間の道徳的価値を発達させることは期待できないという事実を考えると、人工知能エージェントが人間の価値観に合致する価値を持っていることは最も重要である。 おそらくこの難しさは、表現的認知手法を用いて、目的、価値、目的を表現している問題に対処する方法に由来する。 この問題の解決策は、ドレイファスが提唱したダイナミックなアプローチであり、その現象論的哲学は、いくつかの側面における世界における人間の経験は、特に学習価値の問題に関して、象徴的あるいはコネクショナリズム的な認知方法によってうまく表現されていないことを示している。 この問題に対する可能なアプローチは、SED(situated embodied dynamics)のような理論モデルを使用して、AIにおける価値学習問題に対処することだ。

Experts in Artificial Intelligence (AI) development predict that advances in the development of intelligent systems and agents will reshape vital areas in our society. Nevertheless, if such an advance is not made prudently and critically, reflexively, it can result in negative outcomes for humanity. For this reason, several researchers in the area have developed a robust, beneficial, and safe concept of AI for the preservation of humanity and the environment. Currently, several of the open problems in the field of AI research arise from the difficulty of avoiding unwanted behaviors of intelligent agents and systems, and at the same time specifying what we really want such systems to do, especially when we look for the possibility of intelligent agents acting in several domains over the long term. It is of utmost importance that artificial intelligent agents have their values aligned with human values, given the fact that we cannot expect an AI to develop human moral values simply because of its intelligence, as discussed in the Orthogonality Thesis. Perhaps this difficulty comes from the way we are addressing the problem of expressing objectives, values, and ends, using representational cognitive methods. A solution to this problem would be the dynamic approach proposed by Dreyfus, whose phenomenological philosophy shows that the human experience of being-in-the-world in several aspects is not well represented by the symbolic or connectionist cognitive method, especially in regards to the question of learning values. A possible approach to this problem would be to use theoretical models such as SED (situated embodied dynamics) to address the values learning problem in AI.
翻訳日:2022-11-05 14:33:03 公開日:2020-07-30
# 点群セマンティックセグメンテーションのためのカスケード非局所ニューラルネットワーク

Cascaded Non-local Neural Network for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2007.15488v1 )

ライセンス: Link先を確認
Mingmei Cheng, Le Hui, Jin Xie, Jian Yang and Hui Kong(参考訳) 本稿では,ポイントクラウドセグメンテーションのためのカスケード非局所ニューラルネットワークを提案する。 提案されたネットワークは、正確なセグメンテーションのためにポイントクラウドの長距離依存性を構築することを目的としている。 具体的には,近辺レベル,スーパーポイントレベル,グローバルレベルの非ローカルブロックで構成される新しい非ローカルモジュールを開発する。 まず,近傍ブロックにおいて,隣接点に対して異なる重みを割り当てることで,点雲の遠心点の局所的特徴を抽出する。 抽出されたセントロイド点の局所的な特徴は、スーパーポイントレベルブロックを非局所演算でエンコードするために使用される。 最後に、グローバルレベルブロックは、エンコーダ-デコーダフレームワークにおけるセマンティクスセグメンテーションのためのスーパーポイントの非ローカルな特徴を集約する。 カスケード構造により、同じラベルの異なる近傍の幾何学的構造情報を伝播させることができる。 さらに、カスケード構造は、点雲上の元の非局所演算の計算コストを大幅に削減することができる。 室内および屋外の異なるデータセットを用いた実験により,本手法は最先端の性能を達成し,時間消費とメモリ占有を効果的に削減できることが示された。

In this paper, we propose a cascaded non-local neural network for point cloud segmentation. The proposed network aims to build the long-range dependencies of point clouds for the accurate segmentation. Specifically, we develop a novel cascaded non-local module, which consists of the neighborhood-level, superpoint-level and global-level non-local blocks. First, in the neighborhood-level block, we extract the local features of the centroid points of point clouds by assigning different weights to the neighboring points. The extracted local features of the centroid points are then used to encode the superpoint-level block with the non-local operation. Finally, the global-level block aggregates the non-local features of the superpoints for semantic segmentation in an encoder-decoder framework. Benefiting from the cascaded structure, geometric structure information of different neighborhoods with the same label can be propagated. In addition, the cascaded structure can largely reduce the computational cost of the original non-local operation on point clouds. Experiments on different indoor and outdoor datasets show that our method achieves state-of-the-art performance and effectively reduces the time consumption and memory occupation.
翻訳日:2022-11-05 14:26:18 公開日:2020-07-30
# SimPose: シミュレーションデータからDensePoseとSurface Normalsを効果的に学習する

SimPose: Effectively Learning DensePose and Surface Normals of People from Simulated Data ( http://arxiv.org/abs/2007.15506v1 )

ライセンス: Link先を確認
Tyler Zhu, Per Karlsson, Christoph Bregler(参考訳) 汎用的ドメイン適応手法の普及に伴い,画素毎2.5dの難易度と3次元回帰表現の学習において,単純かつ効果的な手法を提示する。 2.5次元密度場推定タスクと3次元面正規推定タスクの強いsim-to-realドメイン一般化を得た。 マルチパーソンのDensePose MSCOCOベンチマークでは、密にラベル付けされた実画像に基づいてトレーニングされた最先端の手法よりも優れている。 これは、実画像上の人間多様体の固有uv座標を得るのに時間がかかり、ノイズのラベル付けに時間がかかるため重要な結果である。 さらに,本モデルでは実際の3次元表面正規ラベルを欠いたMSCOCOデータセット上での3次元表面正規予測について述べる。 このアプローチの鍵となるのは、"Inter-domain Covariate Shift"を、ドメインサンプル、ディープバッチ正規化残留ネットワーク、修正マルチタスク学習目標から慎重に選択されたトレーニングバッチで緩和することです。 提案手法は既存の領域適応手法を補完するものであり,他の高密度画素間ポーズ推定問題に適用できる。

With a proliferation of generic domain-adaptation approaches, we report a simple yet effective technique for learning difficult per-pixel 2.5D and 3D regression representations of articulated people. We obtained strong sim-to-real domain generalization for the 2.5D DensePose estimation task and the 3D human surface normal estimation task. On the multi-person DensePose MSCOCO benchmark, our approach outperforms the state-of-the-art methods which are trained on real images that are densely labelled. This is an important result since obtaining human manifold's intrinsic uv coordinates on real images is time consuming and prone to labeling noise. Additionally, we present our model's 3D surface normal predictions on the MSCOCO dataset that lacks any real 3D surface normal labels. The key to our approach is to mitigate the "Inter-domain Covariate Shift" with a carefully selected training batch from a mixture of domain samples, a deep batch-normalized residual network, and a modified multi-task learning objective. Our approach is complementary to existing domain-adaptation techniques and can be applied to other dense per-pixel pose estimation problems.
翻訳日:2022-11-05 14:26:01 公開日:2020-07-30
# コンテンツベース画像検索のための新しい局所ラドンディスクリプタ

A new Local Radon Descriptor for Content-Based Image Search ( http://arxiv.org/abs/2007.15523v1 )

ライセンス: Link先を確認
Morteza Babaie, Hany Kashani, Meghana D. Kumar, Hamid.R. Tizhoosh(参考訳) CBIR(Content-based Image Search)は、コンピュータビジョン研究、特に医療専門家システムにおいて欠かせない部分である。 CBIRシステムでは、最小数のパラメータを持つ識別画像記述子を持つことが望ましい。 本稿では,局所ラドン射影のヒストグラムに基づく新しい簡易ディスクリプタを提案する。 また,ラドン射影の遅い過程を克服するために,非常に高速な畳み込みに基づく局所ラドン推定器を提案する。 病理像(kimiapath24)と肺ctパッチを用いて実験を行い,提案する医用画像処理法について検討した。 LBPやHoGなどの他のヒストグラムベースのディスクリプタや,事前学習したCNNと比較して,優れた結果を得た。

Content-based image retrieval (CBIR) is an essential part of computer vision research, especially in medical expert systems. Having a discriminative image descriptor with the least number of parameters for tuning is desirable in CBIR systems. In this paper, we introduce a new simple descriptor based on the histogram of local Radon projections. We also propose a very fast convolution-based local Radon estimator to overcome the slow process of Radon projections. We performed our experiments using pathology images (KimiaPath24) and lung CT patches and test our proposed solution for medical image processing. We achieved superior results compared with other histogram-based descriptors such as LBP and HoG as well as some pre-trained CNNs.
翻訳日:2022-11-05 14:25:39 公開日:2020-07-30
# シーン変化検出のためのエピポーラ誘導深部物体マッチング

Epipolar-Guided Deep Object Matching for Scene Change Detection ( http://arxiv.org/abs/2007.15540v1 )

ライセンス: Link先を確認
Kento Doi, Ryuhei Hamaguchi, Shun Iwase, Rio Yokota, Yutaka Matsuo, Ken Sakurada(参考訳) 本稿では,オブジェクト指向変化検出ネットワーク(OBJ-CDNet)について述べる。 ドライブレコーダーのような移動カメラは、カメラの軌跡やシャッタータイミングの違いにより、毎回異なる視点から画像をキャプチャする。 しかし,従来の画素単位の変更検出手法は,画像対を入力として仮定するため,視点差に弱い。 この課題に対処するために,画像ペア間のオブジェクト対応を確立するディープグラフマッチングネットワークを導入する。 導入により、正確な画像アライメントなしに、オブジェクトワイズシーンの変化を検出することができる。 より正確なオブジェクトマッチングのために、OBJCDNetで使用されるディープグラフマッチング層にエピポーラ制約を組み込んだエピポーラ誘導ディープグラフマッチングネットワーク(EGMNet)を提案する。 ネットワークの視点の違いに対するロバスト性を評価するために,画像ペアからシーン変化検出のための合成データと実データを作成した。 実験の結果,ネットワークの有効性が検証された。

This paper describes a viewpoint-robust object-based change detection network (OBJ-CDNet). Mobile cameras such as drive recorders capture images from different viewpoints each time due to differences in camera trajectory and shutter timing. However, previous methods for pixel-wise change detection are vulnerable to the viewpoint differences because they assume aligned image pairs as inputs. To cope with the difficulty, we introduce a deep graph matching network that establishes object correspondence between an image pair. The introduction enables us to detect object-wise scene changes without precise image alignment. For more accurate object matching, we propose an epipolar-guided deep graph matching network (EGMNet), which incorporates the epipolar constraint into the deep graph matching layer used in OBJCDNet. To evaluate our network's robustness against viewpoint differences, we created synthetic and real datasets for scene change detection from an image pair. The experimental results verified the effectiveness of our network.
翻訳日:2022-11-05 14:25:27 公開日:2020-07-30
# ドメイン適応型人物再同定のための教師なしディスタングルGAN

Unsupervised Disentanglement GAN for Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2007.15560v1 )

ライセンス: Link先を確認
Yacine Khraimeche, Guillaume-Alexandre Bilodeau, David Steele, and Harshad Mahadik(参考訳) 最近のperson re-identification(reid)メソッドは教師付き設定で高い精度を達成しているが、ラベルなしドメインへの一般化はまだ未解決の問題である。 本稿では,監視対象reidのドメイン適応問題に対処するために,unsupervised disentanglement generative adversarial network (ud-gan)を提案する。 本フレームワークは,ソースラベル付きドメインにおける識別的特徴抽出のためのreidネットワークをidアノテーションを用いて共同で訓練し,領域上の不連続な潜在表現を学習することにより,ラベル付き対象ドメインにreidモデルを適応させる。 ターゲットドメインのアイデンティティ非関連機能は、潜在機能から抽出される。 その結果、ReID機能は、教師なしドメイン内の人のアイデンティティをよりよく含んでいる。 我々はmarket1501, dukemtmc, msmt17データセットで実験を行った。 その結果、ReIDにおける教師なし領域適応問題は非常に困難であることが判明した。 それでも,本手法はドメイン転送の半分の改善を示し,その1つに対して最先端の性能を実現する。

While recent person re-identification (ReID) methods achieve high accuracy in a supervised setting, their generalization to an unlabelled domain is still an open problem. In this paper, we introduce a novel unsupervised disentanglement generative adversarial network (UD-GAN) to address the domain adaptation issue of supervised person ReID. Our framework jointly trains a ReID network for discriminative features extraction in a source labelled domain using identity annotation, and adapts the ReID model to an unlabelled target domain by learning disentangled latent representations on the domain. Identity-unrelated features in the target domain are distilled from the latent features. As a result, the ReID features better encompass the identity of a person in the unsupervised domain. We conducted experiments on the Market1501, DukeMTMC and MSMT17 datasets. Results show that the unsupervised domain adaptation problem in ReID is very challenging. Nevertheless, our method shows improvement in half of the domain transfers and achieve state-of-the-art performance for one of them.
翻訳日:2022-11-05 14:25:13 公開日:2020-07-30
# ヒートマップに基づくVanishing Pointがレーン検出を強化

Heatmap-based Vanishing Point boosts Lane Detection ( http://arxiv.org/abs/2007.15602v1 )

ライセンス: Link先を確認
Yin-Bo Liu, Ming Zeng, Qing-Hao Meng(参考訳) 視覚に基づく車線検出(LD)は自動運転技術の重要な部分であり、また難しい問題でもある。 シーン構成の重要な制約の一つとして、消滅点(VP)が車線検出に有用な手がかりとなる可能性がある。 本稿では,高精度レーン検出のためのマルチタスク融合ネットワークアーキテクチャを提案する。 まず、erfnetは道路画像の階層的特徴を抽出するバックボーンとして使用された。 その後、画像分割により車線が検出された。 最後に, レーン検出の出力と背骨から抽出した階層的特徴を組み合わせることで, レーンVPを熱マップ回帰を用いて予測した。 提案する核融合戦略は、公開culaneデータセットを用いてテストされた。 実験結果から,本手法の車線検出精度は最先端(SOTA)法よりも優れていたことが示唆された。

Vision-based lane detection (LD) is a key part of autonomous driving technology, and it is also a challenging problem. As one of the important constraints of scene composition, vanishing point (VP) may provide a useful clue for lane detection. In this paper, we proposed a new multi-task fusion network architecture for high-precision lane detection. Firstly, the ERFNet was used as the backbone to extract the hierarchical features of the road image. Then, the lanes were detected using image segmentation. Finally, combining the output of lane detection and the hierarchical features extracted by the backbone, the lane VP was predicted using heatmap regression. The proposed fusion strategy was tested using the public CULane dataset. The experimental results suggest that the lane detection accuracy of our method outperforms those of state-of-the-art (SOTA) methods.
翻訳日:2022-11-05 14:24:42 公開日:2020-07-30
# LevelSet R-CNN: インスタンスセグメンテーションのための深部変分法

LevelSet R-CNN: A Deep Variational Method for Instance Segmentation ( http://arxiv.org/abs/2007.15629v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Yuwen Xiong, Justin Liang, Wei-Chiu Ma, Raquel Urtasun(参考訳) 精密なインスタンスセグメンテーションマスクの取得は、ロボット操作や自動運転など、現代の多くの応用において非常に重要である。 現在、多くの最先端技術モデルはMask R-CNNフレームワークに基づいており、これは非常に強力であるが、低解像度でマスクを出力し、不正確な境界をもたらす可能性がある。 一方,従来の分節法では,エネルギー汎関数を最適化することにより,大域的・局所的なデータや幾何的制約をマスクに課している。 数学的にはエレガントだが、良い初期化への直接的な依存、ロバストでない画像の手がかり、ハイパーパラメータの手動設定は、現代の用途には適さない。 本稿では,両世界の最善を両立させるレベルセットr-cnnを提案する。 我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。

Obtaining precise instance segmentation masks is of high importance in many modern applications such as robotic manipulation and autonomous driving. Currently, many state of the art models are based on the Mask R-CNN framework which, while very powerful, outputs masks at low resolutions which could result in imprecise boundaries. On the other hand, classic variational methods for segmentation impose desirable global and local data and geometry constraints on the masks by optimizing an energy functional. While mathematically elegant, their direct dependence on good initialization, non-robust image cues and manual setting of hyperparameters renders them unsuitable for modern applications. We propose LevelSet R-CNN, which combines the best of both worlds by obtaining powerful feature representations that are combined in an end-to-end manner with a variational segmentation framework. We demonstrate the effectiveness of our approach on COCO and Cityscapes datasets.
翻訳日:2022-11-05 14:23:58 公開日:2020-07-30
# 光学関数をサンプリングする群衆

Crowdsampling the Plenoptic Function ( http://arxiv.org/abs/2007.15194v1 )

ライセンス: Link先を確認
Zhengqi Li, Wenqi Xian, Abe Davis, Noah Snavely(参考訳) 多くの人気のある観光名所は、多くのオンライン・パブリック写真に収められている。 これらの写真は、特定のシーンの照度関数のスパースで非構造的なサンプリングを表している。 本稿では,このようなデータからの時間変動照明下での新しい視点合成手法を提案する。 本手法は,最近のマルチプレーン画像(mpi)フォーマットを基盤とし,一定の視聴条件下で局所光野を表現する。 本研究では,plenoptic関数のスパーシティ構造に関する観測結果に動機づけられた新しいdeepmpi表現を導入し,空間と照明変化の両方において連続なフォトリアリスティックなビューをリアルタイムに合成する。 本手法は従来のMPI法と同等のパララックスとビュー依存効果を合成し, 反射率の変化と光の時間変化を同時に補間する。 これらの効果のモデルを、時間的登録のない非構造化写真のコレクションから教師なしの方法で学習する方法を示し、近年のニューラルレンダリングよりも大幅に改善されていることを示す。 詳細は crowdsampling.io を参照。

Many popular tourist landmarks are captured in a multitude of online, public photos. These photos represent a sparse and unstructured sampling of the plenoptic function for a particular scene. In this paper,we present a new approach to novel view synthesis under time-varying illumination from such data. Our approach builds on the recent multi-plane image (MPI) format for representing local light fields under fixed viewing conditions. We introduce a new DeepMPI representation, motivated by observations on the sparsity structure of the plenoptic function, that allows for real-time synthesis of photorealistic views that are continuous in both space and across changes in lighting. Our method can synthesize the same compelling parallax and view-dependent effects as previous MPI methods, while simultaneously interpolating along changes in reflectance and illumination with time. We show how to learn a model of these effects in an unsupervised way from an unstructured collection of photos without temporal registration, demonstrating significant improvements over recent work in neural rendering. More information can be found crowdsampling.io.
翻訳日:2022-11-05 14:17:23 公開日:2020-07-30
# ビデオにおける効率的なポーズ推定のためのキーフレーム提案ネットワーク

Key Frame Proposal Network for Efficient Pose Estimation in Videos ( http://arxiv.org/abs/2007.15217v1 )

ライセンス: Link先を確認
Yuexi Zhang, Yin Wang, Octavia Camps, Mario Sznaier(参考訳) ビデオにおける人間のポーズ推定は、各フレームを独立して推定するか、フレーム全体でのポーズを追跡することによって、ローカル情報に依存する。 本稿では,ローカルアプローチとグローバルコンテキストを組み合わせた新しい手法を提案する。 重み付き,教師なし,キーフレーム提案ネットワーク (k-fpn) を導入し,情報フレームと学習辞書を選択し,これらのフレームからポーズシーケンス全体を復元する。 k-fpnはポーズ推定を高速化し、オクルージョン、動きのぼやけ、照明の変化を伴うバッドフレームに堅牢性を提供し、学習辞書はグローバルなダイナミックコンテキストを提供する。 penn アクションとサブ jhmdb データセットの実験により、提案手法は、かなりのスピードアップで最先端の精度を達成できることが示されている。

Human pose estimation in video relies on local information by either estimating each frame independently or tracking poses across frames. In this paper, we propose a novel method combining local approaches with global context. We introduce a light weighted, unsupervised, key frame proposal network (K-FPN) to select informative frames and a learned dictionary to recover the entire pose sequence from these frames. The K-FPN speeds up the pose estimation and provides robustness to bad frames with occlusion, motion blur, and illumination changes, while the learned dictionary provides global dynamic context. Experiments on Penn Action and sub-JHMDB datasets show that the proposed method achieves state-of-the-art accuracy, with substantial speed-up.
翻訳日:2022-11-05 14:17:08 公開日:2020-07-30
# action2motion: 3次元動作の条件付き生成

Action2Motion: Conditioned Generation of 3D Human Motions ( http://arxiv.org/abs/2007.15240v1 )

ライセンス: Link先を確認
Chuan Guo, Xinxin Zuo, Sen Wang, Shihao Zou, Qingyao Sun, Annan Deng, Minglun Gong and Li Cheng(参考訳) 行動認識は比較的確立されたタスクであり、人間の動作の入力シーケンスが与えられた場合、そのカテゴリーを予測することが目的である。 一方,本論文では,アクション認識の逆問題と考えられる比較的新しい問題について考察する。 重要なことに、生成した動きの集合は行動条件の運動空間全体を探索できるようにその多様性を維持することが期待されている。 これらの目的により,人間の運動学の物理法則に従い,Lie Algebratheoryを応用して自然運動を表現するとともに,運動空間の分散サンプリングを促進する時変自動エンコーダ(VAE)を提案する。 新しい3DモーションデータセットであるHumanAct12も構築されている。 3つの異なる人間の運動データセット(うちを含む)に対する実証実験により、我々のアプローチの有効性が実証された。

Action recognition is a relatively established task, where givenan input sequence of human motion, the goal is to predict its ac-tion category. This paper, on the other hand, considers a relativelynew problem, which could be thought of as an inverse of actionrecognition: given a prescribed action type, we aim to generateplausible human motion sequences in 3D. Importantly, the set ofgenerated motions are expected to maintain itsdiversityto be ableto explore the entire action-conditioned motion space; meanwhile,each sampled sequence faithfully resembles anaturalhuman bodyarticulation dynamics. Motivated by these objectives, we followthe physics law of human kinematics by adopting the Lie Algebratheory to represent thenaturalhuman motions; we also propose atemporal Variational Auto-Encoder (VAE) that encourages adiversesampling of the motion space. A new 3D human motion dataset, HumanAct12, is also constructed. Empirical experiments overthree distinct human motion datasets (including ours) demonstratethe effectiveness of our approach.
翻訳日:2022-11-05 14:16:54 公開日:2020-07-30
# MIL-CAMを用いた微視的超微視的画像分割

Weakly Supervised Minirhizotron Image Segmentation with MIL-CAM ( http://arxiv.org/abs/2007.15243v1 )

ライセンス: Link先を確認
Guohao Yu, Alina Zare, Weihuang Xu, Roser Matamala, Joel Reyes-Cabrera, Felix B. Fritschi, Thomas E. Juenger(参考訳) 画像レベルラベルが弱い画素レベルのミニリゾトロン画像セグメンテーションのためのマルチインスタンス学習クラスアクティベーションマップ(MIL-CAM)を提案する。 ミニリゾトロンは植物の根をその場で撮影するために用いられる。 ミニリゾトロン像は、直径が小さい数個の細長い根を持つ土壌で構成されていることが多い。 根は既存の意味的イメージ分割法において識別が難しいことが証明されている。 MIL-CAM法は,弱ラベルからの学習に加えて,土壌と根の重不均衡による性能向上のための解析において,根対土壌画素の再重み付けを行う。 提案手法は,ミニリゾトロン画像におけるルートオブジェクトのローカライゼーションにおいて,他の注目マップや複数のインスタンス学習手法よりも優れている。

We present a multiple instance learning class activation map (MIL-CAM) approach for pixel-level minirhizotron image segmentation given weak image-level labels. Minirhizotrons are used to image plant roots in situ. Minirhizotron imagery is often composed of soil containing a few long and thin root objects of small diameter. The roots prove to be challenging for existing semantic image segmentation methods to discriminate. In addition to learning from weak labels, our proposed MIL-CAM approach re-weights the root versus soil pixels during analysis for improved performance due to the heavy imbalance between soil and root pixels. The proposed approach outperforms other attention map and multiple instance learning methods for localization of root objects in minirhizotron imagery.
翻訳日:2022-11-05 14:16:37 公開日:2020-07-30
# 後方および前方伝播を介する弱教師細胞追跡

Weakly-Supervised Cell Tracking via Backward-and-Forward Propagation ( http://arxiv.org/abs/2007.15258v1 )

ライセンス: Link先を確認
Kazuya Nishimura, Junya Hayashida, Chenyang Wang, Dai Fei Elmer Ker, Ryoma Bise(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)を結合情報なしに「細胞検出」(すなわち細胞位置の座標)の注釈のみを用いて学習し,核染色により容易に細胞位置を得ることができる弱教師付き細胞追跡法を提案する。 まず,弱いラベルを用いて連続フレーム内の細胞を検出する共検出cnnを訓練する。 我々の重要な前提は、検出に加えて、共検出CNNが暗黙的に関連を学習することである。 そこで本研究では,共検出cnnの出力における細胞位置の対応を分析する後向き伝播法を提案する。 実験により, 共検出cnnの解析により細胞を関連付けることができた。 本手法は弱い監督しか用いていないが,本手法の性能は最先端の監督手法とほぼ同程度であった。 コードはhttps://github.com/naivete5656/WSCTBFPで公開されている。

We propose a weakly-supervised cell tracking method that can train a convolutional neural network (CNN) by using only the annotation of "cell detection" (i.e., the coordinates of cell positions) without association information, in which cell positions can be easily obtained by nuclear staining. First, we train co-detection CNN that detects cells in successive frames by using weak-labels. Our key assumption is that co-detection CNN implicitly learns association in addition to detection. To obtain the association, we propose a backward-and-forward propagation method that analyzes the correspondence of cell positions in the outputs of co-detection CNN. Experiments demonstrated that the proposed method can associate cells by analyzing co-detection CNN. Even though the method uses only weak supervision, the performance of our method was almost the same as the state-of-the-art supervised method. Code is publicly available in https://github.com/naivete5656/WSCTBFP
翻訳日:2022-11-05 14:16:24 公開日:2020-07-30
# NormalGAN:1枚のRGB-D画像から詳細な3D人間を学習する

NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image ( http://arxiv.org/abs/2007.15340v1 )

ライセンス: Link先を確認
Lizhen Wang, Xiaochen Zhao, Tao Yu, Songtao Wang, Yebin Liu(参考訳) RGB-D画像から完全かつ詳細な3次元人体を再構成する高速対角学習法であるNurmalGANを提案する。 単一のフロントビューのRGB-D画像が与えられた場合、NormalGANはフロントビューのRGB-D補正とバックビューのRGBD推論という2つのステップを実行する。 最終モデルは、単純にフロントビューとバックビューのRGB-D情報を組み合わせることで生成される。 しかし、高品質な幾何学的詳細と可視的なテクスチャを備えたRGB-D画像の背景推定は簡単ではない。 通常の地図は、通常、RGBや深度画像よりも多くの3D表面の詳細情報をエンコードします。 したがって、通常の写像から幾何学的詳細を学ぶことは、他の表現よりも優れている。 正規GANでは, 正面視深度推定性能の向上だけでなく, 後方視深度像を驚くほどの幾何学的詳細で推測するために, 正規マップで条件付き対向学習フレームワークを導入する。 さらに,テクスチャリカバリのために,改良された正規地図に基づくフロントビューRGB画像からシェーディング情報を除去し,バックビューカラー推論の品質をさらに向上させる。 テストデータセットと実際のキャプチャデータの両方に関する結果と実験は、我々のアプローチの優れた性能を示している。 消費者向けのRGB-Dセンサーがあれば、NormalGANは20fpsで完全な3D人間の再構築結果を生成することができ、テレプレゼンス、AR/VR、ゲームシナリオで便利なインタラクティブな体験を可能にする。

We propose NormalGAN, a fast adversarial learning-based method to reconstruct the complete and detailed 3D human from a single RGB-D image. Given a single front-view RGB-D image, NormalGAN performs two steps: front-view RGB-D rectification and back-view RGBD inference. The final model was then generated by simply combining the front-view and back-view RGB-D information. However, inferring backview RGB-D image with high-quality geometric details and plausible texture is not trivial. Our key observation is: Normal maps generally encode much more information of 3D surface details than RGB and depth images. Therefore, learning geometric details from normal maps is superior than other representations. In NormalGAN, an adversarial learning framework conditioned by normal maps is introduced, which is used to not only improve the front-view depth denoising performance, but also infer the back-view depth image with surprisingly geometric details. Moreover, for texture recovery, we remove shading information from the front-view RGB image based on the refined normal map, which further improves the quality of the back-view color inference. Results and experiments on both testing data set and real captured data demonstrate the superior performance of our approach. Given a consumer RGB-D sensor, NormalGAN can generate the complete and detailed 3D human reconstruction results in 20 fps, which further enables convenient interactive experiences in telepresence, AR/VR and gaming scenarios.
翻訳日:2022-11-05 14:15:59 公開日:2020-07-30
# Label or Message: テキストとオブジェクトの共起に関する大規模調査

Label or Message: A Large-Scale Experimental Survey of Texts and Objects Co-Occurrence ( http://arxiv.org/abs/2007.15381v1 )

ライセンス: Link先を確認
Koki Takeshita, Juntaro Shioyama and Seiichi Uchida(参考訳) 私たちの日常生活はテキスト情報に囲まれている。 近年,シーンテキスト検出器や認識器の大幅な改良により,テキスト情報の自動収集が可能となった。 本研究の目的は,視覚オブジェクト(本や車など)とシーンテキストとの共起を,画像データセットと最先端のシーンテキスト検出および認識装置を用いて大規模に調査することである。 特に、オブジェクトを詳細に記述するためのオブジェクトにアタッチされた「ラベル」テキストの機能に焦点を当てる。 オブジェクトとシーンテキストの共起を分析することで、ラベルテキストに関する統計を観察し、シーンテキストがオブジェクトを認識するのにどのように役立つかを理解することができ、その逆も可能である。

Our daily life is surrounded by textual information. Nowadays, the automatic collection of textual information becomes possible owing to the drastic improvement of scene text detectors and recognizer. The purpose of this paper is to conduct a large-scale survey of co-occurrence between visual objects (such as book and car) and scene texts with a large image dataset and a state-of-the-art scene text detector and recognizer. Especially, we focus on the function of "label" texts, which are attached to objects for detailing the objects. By analyzing co-occurrence between objects and scene texts, it is possible to observe the statistics about the label texts and understand how the scene texts will be useful for recognizing the objects and vice versa.
翻訳日:2022-11-05 14:15:32 公開日:2020-07-30
# いくつかのサンプルから学ぶ:調査

Learning from Few Samples: A Survey ( http://arxiv.org/abs/2007.15484v1 )

ライセンス: Link先を確認
Nihar Bendre, Hugo Terashima Mar\'in, and Peyman Najafirad(参考訳) ディープニューラルネットワークは、画像認識や画像分類など、いくつかのケースで人間より優れています。 しかし、様々な新しいカテゴリーが出現し、限られたサンプルからネットワークの学習能力を継続的に拡張する能力は依然として課題である。 メタラーニングや少数ショット学習といったテクニックは、事前の知識に基づいて新しいカテゴリやタスクを学習したり、一般化したりできる、有望な結果を示した。 本稿では,その手法と評価指標に基づいて,コンピュータビジョン領域における既存の数発メタラーニング手法について検討する。 我々は、これらの技術のための分類法を提供し、それらをデータ拡張、埋め込み、最適化、セマンティクスに基づく学習に分類する。 次に,各カテゴリで行った精巧な作業について述べ,少数のサンプルから学ぶことの難しさを解決するためのアプローチについて論じる。 最後に、一般的なベンチマークデータセットであるomniglotとminiimagenetにおけるこれらのテクニックの比較と、これらのテクニックのパフォーマンス向上の今後の方向性に関する議論と、人間を上回る最終目標に向けての議論を提供します。

Deep neural networks have been able to outperform humans in some cases like image recognition and image classification. However, with the emergence of various novel categories, the ability to continuously widen the learning capability of such networks from limited samples, still remains a challenge. Techniques like Meta-Learning and/or few-shot learning showed promising results, where they can learn or generalize to a novel category/task based on prior knowledge. In this paper, we perform a study of the existing few-shot meta-learning techniques in the computer vision domain based on their method and evaluation metrics. We provide a taxonomy for the techniques and categorize them as data-augmentation, embedding, optimization and semantics based learning for few-shot, one-shot and zero-shot settings. We then describe the seminal work done in each category and discuss their approach towards solving the predicament of learning from few samples. Lastly we provide a comparison of these techniques on the commonly used benchmark datasets: Omniglot, and MiniImagenet, along with a discussion towards the future direction of improving the performance of these techniques towards the final goal of outperforming humans.
翻訳日:2022-11-05 14:14:58 公開日:2020-07-30
# Anti)Symmetric関数の表現について

On Representing (Anti)Symmetric Functions ( http://arxiv.org/abs/2007.15298v1 )

ライセンス: Link先を確認
Marcus Hutter(参考訳) 置換不変、-同変、-共変関数、反対称関数は量子物理学、コンピュータビジョン、その他の分野において重要である。 アプリケーションは、しばしば以下のプロパティのほとんどまたは全てを必要とする。 a) そのような関数の大きなクラスは、例えばすべての連続函数を近似することができる。 b) (反)対称関数のみを表現することができる。 (c)近似を計算するための高速アルゴリズム (d)表現自体が連続または微分可能である。 (e) アーキテクチャは、データから関数を学習するのに適しています。 (Anti)対称ニューラルネットワークが最近開発され、大きな成功を収めている。 いくつかの理論的近似結果が証明されているが、特に1次元以上の粒子や、この研究が焦点を絞った反対称の場合において、多くの疑問は依然として開である。 より具体的には、対称の場合の自然な多項式近似と反対称の場合の1つの一般化されたスレーター行列式に基づく近似を導出する。 以前の超指数的かつ不連続な近似とは異なり、これらは将来の厳密な境界に対するより有望な基礎である。 我々は、対称MLPとフェルミネットの普遍性を意味する同変多層パーセプトロンの完全かつ明示的な普遍性証明を提供する。

Permutation-invariant, -equivariant, and -covariant functions and anti-symmetric functions are important in quantum physics, computer vision, and other disciplines. Applications often require most or all of the following properties: (a) a large class of such functions can be approximated, e.g. all continuous function, (b) only the (anti)symmetric functions can be represented, (c) a fast algorithm for computing the approximation, (d) the representation itself is continuous or differentiable, (e) the architecture is suitable for learning the function from data. (Anti)symmetric neural networks have recently been developed and applied with great success. A few theoretical approximation results have been proven, but many questions are still open, especially for particles in more than one dimension and the anti-symmetric case, which this work focusses on. More concretely, we derive natural polynomial approximations in the symmetric case, and approximations based on a single generalized Slater determinant in the anti-symmetric case. Unlike some previous super-exponential and discontinuous approximations, these seem a more promising basis for future tighter bounds. We provide a complete and explicit universality proof of the Equivariant MultiLayer Perceptron, which implies universality of symmetric MLPs and the FermiNet.
翻訳日:2022-11-05 14:08:21 公開日:2020-07-30
# キシログルカンオリゴ糖の1H-NMRスペクトルの同定:非パラメトリック密度推定を用いたニューラルネットワークとベイズ分類の比較研究

Identification of 1H-NMR Spectra of Xyloglucan Oligosaccharides: A Comparative Study of Artificial Neural Networks and Bayesian Classification Using Nonparametric Density Estimation ( http://arxiv.org/abs/2008.01004v1 )

ライセンス: Link先を確認
Faramarz Valafar, Homayoun Valafar, William S. York(参考訳) プロトン核磁気共鳴(1h-nmr)は化学構造解析に広く用いられている。 しかし、1h-nmrスペクトルは、コンピュータ支援によるスペクトルの自動同定を困難かつ時には不可能にする自然な収差に苦しむ。 以前の取り組みは、これらのスペクトルの機器依存または条件付き識別の実装に成功した。 本稿では,xyloglucan oligosaccharidesとして知られる複合炭水化物群について,第1回インスツルメンテッドコンピュータ支援自動同定システムについて報告する。 開発システムは、CCRC-Netと呼ばれる識別パッケージの一部としてWorld Wide Web (http://www.ccrc.uga.edu) にも実装されており、500MHzのNMR機器で記録された適切な信号と雑音の比で、これらの構造の1H-NMRスペクトルを認識することを目的としている。 このシステムは、Artificial Neural Networks(ANN)技術を使用し、1H-NMR分光における計測器と環境依存の変動に敏感である。 本稿では, annエンジンと多次元ベイズ分類器の比較結果についても述べる。

Proton nuclear magnetic resonance (1H-NMR) is a widely used tool for chemical structural analysis. However, 1H-NMR spectra suffer from natural aberrations that render computer-assisted automated identification of these spectra difficult, and at times impossible. Previous efforts have successfully implemented instrument dependent or conditional identification of these spectra. In this paper, we report the first instrument independent computer-assisted automated identification system for a group of complex carbohydrates known as the xyloglucan oligosaccharides. The developed system is also implemented on the world wide web (http://www.ccrc.uga.edu) as part of an identification package called the CCRC-Net and is intended to recognize any submitted 1H-NMR spectrum of these structures with reasonable signal-to-noise ratio, recorded on any 500 MHz NMR instrument. The system uses Artificial Neural Networks (ANNs) technology and is insensitive to the instrument and environment-dependent variations in 1H-NMR spectroscopy. In this paper, comparative results of the ANN engine versus a multidimensional Bayes' classifier is also presented.
翻訳日:2022-11-05 14:08:06 公開日:2020-07-30
# 満足度問題に対する確率選択に基づく重み付けの改善

Improving probability selecting based weights for Satisfiability Problem ( http://arxiv.org/abs/2007.15185v1 )

ライセンス: Link先を確認
Huimin Fu, Yang Xu, Jun Liu, Guanfeng Wu, Sutcliffe Geoff(参考訳) ブール満足度問題(SAT)は、人工知能コミュニティと、その解決が複雑な問題に与える影響において重要である。 近年,一様ランダム k-SAT に対する確率的局所探索 (SLS) アルゴリズム,複数の最先端 SLS アルゴリズム, Score2SAT, YalSAT, ProbSAT, CScoreSAT および1つの最先端ハイブリッドアルゴリズム, SparrowToRiss に対して,それぞれ大きなブレークスルーがなされている。 しかし、一様ランダム k-SAT と HRS の両方を効果的に解くアルゴリズムは存在しない。 本稿では,一様ランダム k-SAT と HRS に対して,SelectNTS という新しいSLSアルゴリズムを提案する。 SelectNTSはSAT問題に対する確率選択に基づく局所探索アルゴリズムの改良である。 SelectNTSのコアは、新しい節と変数選択ヒューリスティックに依存している。 新しい節選択ヒューリスティックは、新しい節重み付けスキームとバイアス付きランダムウォークを使用する。 新しい変数選択ヒューリスティックは、新しい変数重み付けスキームに基づいたcc戦略の変動を伴う確率選択戦略を用いる。 2017年と2018年のSATコンペティションでよく知られたランダムベンチマークのインスタンスとランダムに発生する問題に対する大規模な実験結果から、我々のアルゴリズムは最先端のランダムSATアルゴリズムよりも優れており、SelectNTSはランダムk-SATとHRSの両方を効果的に解くことができることを示した。

The Boolean Satisfiability problem (SAT) is important on artificial intelligence community and the impact of its solving on complex problems. Recently, great breakthroughs have been made respectively on stochastic local search (SLS) algorithms for uniform random k-SAT resulting in several state-of-the-art SLS algorithms Score2SAT, YalSAT, ProbSAT, CScoreSAT and on a hybrid algorithm for hard random SAT (HRS) resulting in one state-of-the-art hybrid algorithm SparrowToRiss. However, there is no an algorithm which can effectively solve both uniform random k-SAT and HRS. In this paper, we present a new SLS algorithm named SelectNTS for uniform random k-SAT and HRS. SelectNTS is an improved probability selecting based local search algorithm for SAT problem. The core of SelectNTS relies on new clause and variable selection heuristics. The new clause selection heuristic uses a new clause weighting scheme and a biased random walk. The new variable selection heuristic uses a probability selecting strategy with the variation of CC strategy based on a new variable weighting scheme. Extensive experimental results on the well-known random benchmarks instances from the SAT Competitions in 2017 and 2018, and on randomly generated problems, show that our algorithm outperforms state-of-the-art random SAT algorithms, and our SelectNTS can effectively solve both uniform random k-SAT and HRS.
翻訳日:2022-11-05 14:07:47 公開日:2020-07-30
# 心の理論を用いたマルチエージェント協調の改善

Improving Multi-Agent Cooperation using Theory of Mind ( http://arxiv.org/abs/2007.15703v1 )

ライセンス: Link先を確認
Terence X. Lim, Sidney Tio, Desmond C. Ong(参考訳) 人工知能の最近の進歩は、Go、Starcraft、Dota2といったゲームで人間の世界チャンピオンに勝つエージェントを生み出している。 しかし、これらのモデルのほとんどは人間のようには機能しないようで、人々は自分の行動から他人の意図を推測し、これらの推論を分類や戦略に利用する。 そこで,ベイズ的思考理論(ToM)を用いて,他者の意図を明示的に表現することで,協調ゲームの性能が向上するかを検討した。 協調的なゴールを達成するために,プレイヤーが柔軟に協力しなければならない協調ゲームにおいて,人間とトムの有無を最適な計画エージェントと比較した。 ToMエージェントを持つチームは、非ToM、ToM、人間プレイヤーなど、あらゆる種類のパートナーとのコラボレーションにおいて、非ToMエージェントよりも大幅に優れており、ToMのメリットはToMエージェントの数を増やしている。 これらの発見はより優れた協力的エージェントの設計に意味を持つ。

Recent advances in Artificial Intelligence have produced agents that can beat human world champions at games like Go, Starcraft, and Dota2. However, most of these models do not seem to play in a human-like manner: People infer others' intentions from their behaviour, and use these inferences in scheming and strategizing. Here, using a Bayesian Theory of Mind (ToM) approach, we investigated how much an explicit representation of others' intentions improves performance in a cooperative game. We compared the performance of humans playing with optimal-planning agents with and without ToM, in a cooperative game where players have to flexibly cooperate to achieve joint goals. We find that teams with ToM agents significantly outperform non-ToM agents when collaborating with all types of partners: non-ToM, ToM, as well as human players, and that the benefit of ToM increases the more ToM agents there are. These findings have implications for designing better cooperative agents.
翻訳日:2022-11-05 14:06:58 公開日:2020-07-30
# 奥行き分離可能な畳み込みを用いたカプセルネットワークの改良

An Improvement for Capsule Networks using Depthwise Separable Convolution ( http://arxiv.org/abs/2007.15167v1 )

ライセンス: Link先を確認
Nguyen Huu Phong, Bernardete Ribeiro(参考訳) Capsule Networksは、画像の背景がそのパフォーマンスに挑戦できるという意味で、コンピュータビジョンにおいて重要な問題に直面している。 本稿では,標準畳み込みをDepthwise Separable Convolutionに置き換えることで,カプセルネットワークのアーキテクチャを改善することを提案する。 この新しい設計はモデル全体のパラメータを大幅に削減し、安定性を高め、競合精度も向上する。 さらに、提案された64\times64$のモデルが32\times32$と64\times64$の標準モデルを上回る。 さらに,インセプションV3やMobileNet V1といった最先端のトランスファー学習ネットワークを用いて,これらのモデルをディープラーニングアーキテクチャを用いて実証的に評価する。 その結果,Capsule NetworksはDeep Learningモデルと同等に動作することがわかった。 私たちの知る限りでは、これはDepthwise Separable ConvolutionをCapsule Networksに統合する最初の作業であると考えています。

Capsule Networks face a critical problem in computer vision in the sense that the image background can challenge its performance, although they learn very well on training data. In this work, we propose to improve Capsule Networks' architecture by replacing the Standard Convolution with a Depthwise Separable Convolution. This new design significantly reduces the model's total parameters while increases stability and offers competitive accuracy. In addition, the proposed model on $64\times64$ pixel images outperforms standard models on $32\times32$ and $64\times64$ pixel images. Moreover, we empirically evaluate these models with Deep Learning architectures using state-of-the-art Transfer Learning networks such as Inception V3 and MobileNet V1. The results show that Capsule Networks perform equivalently against Deep Learning models. To the best of our knowledge, we believe that this is the first work on the integration of Depthwise Separable Convolution into Capsule Networks.
翻訳日:2022-11-05 14:06:19 公開日:2020-07-30
# 炭酸塩マイクロct画像の岩石分類のための深層学習

Deep learning for lithological classification of carbonate rock micro-CT images ( http://arxiv.org/abs/2007.15693v1 )

ライセンス: Link先を確認
Carlos E. M. dos Anjos, Manuel R. V. Avila, Adna G. P. Vasconcelos, Aurea M.P. Neta, Lizianne C. Medeiros, Alexandre G. Evsukoff and Rodrigo Surmas(参考訳) 開発が進行中であることに加えて、塩分前の炭酸塩貯水池の特性は、主に地質学的特異性のために依然として課題である。 これらの課題は、画像分類タスクに人工知能アルゴリズムのような確立した技術の使用を促進する。 そこで本研究では,ブラジルの先塩性炭酸塩岩のマイクロトモグラフィ画像におけるパターン同定のための深層学習手法の応用について述べることを目的としている。 4つの畳み込みニューラルネットワークモデルが提案された。 最初のモデルは、3つの畳み込み層と、完全な連結層を含み、以下の提案のベースモデルとして使用される。 次の2つのモデルでは、最大プール層を空間的なピラミッドプール層と大域的な平均プール層に置き換える。 最後のモデルは、空間的なピラミッドプールと、最後のプール層の代わりにグローバルな平均プールの組み合わせを使用する。 すべてのモデルは、可能な限り原画像と再サイズ画像を用いて比較される。 データセットは3つの異なるクラスの6,000の画像で構成されている。 モデル性能は各画像によって個別に評価され、各サンプルに対して最も頻繁に予測されるクラスによって評価された。 精度によると、リサイズ画像で訓練されたモデル2は、最初の評価アプローチでは平均75.54%、2番目の評価では平均81.33%に達した。 深層学習アルゴリズムを用いたマイクロトモグラフィ画像の分類を非破壊的に行うことにより,ブラジルのプレ塩炭酸塩試料の分類を自動化・促進するワークフローを開発した。

In addition to the ongoing development, pre-salt carbonate reservoir characterization remains a challenge, primarily due to inherent geological particularities. These challenges stimulate the use of well-established technologies, such as artificial intelligence algorithms, for image classification tasks. Therefore, this work intends to present an application of deep learning techniques to identify patterns in Brazilian pre-salt carbonate rock microtomographic images, thus making possible lithological classification. Four convolutional neural network models were proposed. The first model includes three convolutional layers followed by fully connected layers and is used as a base model for the following proposals. In the next two models, we replace the max pooling layer with a spatial pyramid pooling and a global average pooling layer. The last model uses a combination of spatial pyramid pooling followed by global average pooling in place of the last pooling layer. All models are compared using original images, when possible, as well as resized images. The dataset consists of 6,000 images from three different classes. The model performances were evaluated by each image individually, as well as by the most frequently predicted class for each sample. According to accuracy, Model 2 trained on resized images achieved the best results, reaching an average of 75.54% for the first evaluation approach and an average of 81.33% for the second. We developed a workflow to automate and accelerate the lithology classification of Brazilian pre-salt carbonate samples by categorizing microtomographic images using deep learning algorithms in a non-destructive way.
翻訳日:2022-11-05 14:00:26 公開日:2020-07-30
# 辞書学習を用いた海洋環境における未知の浮体物体検出

Unidentified Floating Object detection in maritime environment using dictionary learning ( http://arxiv.org/abs/2007.15757v1 )

ライセンス: Link先を確認
Darshan Venkatrayappa, Agn\`es Desolneux, Jean-Michel Hubert, Josselin Manceau(参考訳) 海洋ドメインは、観測されたシーンの複雑さのため、オブジェクト検出の最も難しいシナリオの1つである。 本稿では,海上環境における未知の浮動物体を検出するための新しい手法を提案する。 提案手法は,浮動物体の視覚的外観,形状,位置を事前に知ることなく検出することができる。 映像ストリームからの入力画像は、K-SVDアルゴリズムから学習した視覚辞書を用いて復調する。 復号化画像は自己相似コンテンツからなる。 その後、原画像と無声(自己類似)画像との差である残像を抽出する。 これにより、残像はノイズと健全な構造(オブジェクト)を含む。 これらの塩分構造は、対トロリオモデルを用いて抽出することができる。 様々な海上シナリオを示すビデオでテストすることで、アルゴリズムの能力を実証する。

Maritime domain is one of the most challenging scenarios for object detection due to the complexity of the observed scene. In this article, we present a new approach to detect unidentified floating objects in the maritime environment. The proposed approach is capable of detecting floating objects without any prior knowledge of their visual appearance, shape or location. The input image from the video stream is denoised using a visual dictionary learned from a K-SVD algorithm. The denoised image is made of self-similar content. Later, we extract the residual image, which is the difference between the original image and the denoised (self-similar) image. Thus, the residual image contains noise and salient structures (objects). These salient structures can be extracted using an a contrario model. We demonstrate the capabilities of our algorithm by testing it on videos exhibiting varying maritime scenarios.
翻訳日:2022-11-05 14:00:03 公開日:2020-07-30
# FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN) based Ball-Bearing Failure Detection Method

FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN) based Ball-Bearing Failure Detection Method ( http://arxiv.org/abs/2008.00930v1 )

ライセンス: Link先を確認
Jairo Viola, YangQuan Chen and Jing Wang(参考訳) 故障検出は、予期せぬ故障イベントによるシステム性能の向上とコスト削減のために業界で採用されている。 したがって、自動故障検出システムの設計には、システムの優れたデータセットが望ましい。 しかし、産業プロセスデータセットは不均衡であり、これらのイベントのユニークさと、望ましくない振る舞いに関する情報を得るためにシステムを実行するための高コストのため、障害行動に関する情報はほとんど含まない。 そのため,自動故障検出手法の正確なトレーニングと検証は困難である。 本稿では, 深層学習技術を用いた回転軸用ボールベアリング接合部の故障検出のためのFaultFace法を提案する。 断層面法では,振動信号の2次元表現を時間周波数変換法で求めた。 得られた顔画像から、名目と故障行動の新たな顔画像を作成し、バランスのとれたデータセットを得るために、深い畳み込み型生成逆ネットワークを用いる。 このバランスされたデータセットを用いて、畳み込みニューラルネットワークを故障検出のために訓練する。 FaultFaceの方法論は他のディープラーニング手法と比較し、不均衡なデータセットによる障害検出のパフォーマンスを評価する。 その結果,フォールトフェイス手法は不均衡データセットの障害検出に優れた性能を示すことがわかった。

Failure detection is employed in the industry to improve system performance and reduce costs due to unexpected malfunction events. So, a good dataset of the system is desirable for designing an automated failure detection system. However, industrial process datasets are unbalanced and contain little information about failure behavior due to the uniqueness of these events and the high cost for running the system just to get information about the undesired behaviors. For this reason, performing correct training and validation of automated failure detection methods is challenging. This paper proposes a methodology called FaultFace for failure detection on Ball-Bearing joints for rotational shafts using deep learning techniques to create balanced datasets. The FaultFace methodology uses 2D representations of vibration signals denominated faceportraits obtained by time-frequency transformation techniques. From the obtained faceportraits, a Deep Convolutional Generative Adversarial Network is employed to produce new faceportraits of the nominal and failure behaviors to get a balanced dataset. A Convolutional Neural Network is trained for fault detection employing the balanced dataset. The FaultFace methodology is compared with other deep learning techniques to evaluate its performance in for fault detection with unbalanced datasets. Obtained results show that FaultFace methodology has a good performance for failure detection for unbalanced datasets.
翻訳日:2022-11-05 13:59:52 公開日:2020-07-30
# G-CREWE: ネットワークアライメントのための埋め込みによるグラフ補完

G-CREWE: Graph CompREssion With Embedding for Network Alignment ( http://arxiv.org/abs/2007.16208v1 )

ライセンス: Link先を確認
Kyle K. Qin, Flora D. Salim, Yongli Ren, Wei Shao, Mark Heimann, Danai Koutra(参考訳) ネットワークアライメントは、ますます大きなグラフを処理する必要がある複数のアプリケーションに役立ちます。 既存の研究は、これを最適化問題としてアプローチするか、ノード表現に基づいて類似性を計算する。 しかし、比較的大きなネットワーク間で各ノードを整列させるプロセスは、時間とリソースを消費する。 本稿では,ネットワークアライメント問題を解決するためのG-CREWE(Graph Compression with Embedding)というフレームワークを提案する。 g-creweはノード埋め込みを使って、元のネットワークが与えた細かい解像度と圧縮されたバージョンが与えた粗い解像度の2つのレベルの解像度でネットワークをアライメントし、効率的かつ効果的なネットワークアライメントを実現する。 このフレームワークはまずノードの特徴を抽出し、グラフ畳み込みネットワーク(gcn)を介してノード埋め込みを学ぶ。 ノード埋め込みは、グラフ圧縮のプロセスをガイドし、最後にアライメント性能を改善するのに役立つ。 また、G-CREWEの一部として、MERGE(Minimum dEgRee neiGhbors comprEssion)と呼ばれる新しい圧縮機構を提案し、そのトポロジ構造における一貫性を維持しながら入力ネットワークのサイズを小さくする。 すべての実ネットワークで実験した結果,本手法は,高い精度を維持しつつ,最も競争力のある既存手法の2倍以上の速度であることがわかった。

Network alignment is useful for multiple applications that require increasingly large graphs to be processed. Existing research approaches this as an optimization problem or computes the similarity based on node representations. However, the process of aligning every pair of nodes between relatively large networks is time-consuming and resource-intensive. In this paper, we propose a framework, called G-CREWE (Graph CompREssion With Embedding) to solve the network alignment problem. G-CREWE uses node embeddings to align the networks on two levels of resolution, a fine resolution given by the original network and a coarse resolution given by a compressed version, to achieve an efficient and effective network alignment. The framework first extracts node features and learns the node embedding via a Graph Convolutional Network (GCN). Then, node embedding helps to guide the process of graph compression and finally improve the alignment performance. As part of G-CREWE, we also propose a new compression mechanism called MERGE (Minimum dEgRee neiGhbors comprEssion) to reduce the size of the input networks while preserving the consistency in their topological structure. Experiments on all real networks show that our method is more than twice as fast as the most competitive existing methods while maintaining high accuracy.
翻訳日:2022-11-05 13:58:17 公開日:2020-07-30
# MPIプログラム実行時間予測への新しいアプローチ

New approach to MPI program execution time prediction ( http://arxiv.org/abs/2007.15338v1 )

ライセンス: Link先を確認
A. Chupakhin, A. Kolosov, R. Smeliansky, V. Antonenko, G. Ishelev(参考訳) ある種のコンピュータインストールにおけるmpiプログラムの実行時間予測の問題点を考察する。 この問題は、スーパーコンピュータやサーバのクラスタ(ミニデータセンターなど)など、コンピュータインストールの異種ネットワーク上で、クラウドコンピューティング環境における仮想インフラストラクチャのオーケストレーションとプロビジョニングによって生じる。 クラウドコンピューティング環境の有効性の鍵となる基準の1つは、環境内のプログラムに滞在する時間である。 この時間は、キュー内の待ち時間と、仮想インフラストラクチャの計算リソースを動的にマッピングした選択された物理コンピュータインストールの実行時間とからなる。 この問題のコンポーネントの1つは、特定のコンピュータインストールセット上でのMPIプログラムの実行時間の推定である。 これは、プログラム実行の順序と場所の適切な選択を決定するために必要である。 本稿では,プログラム実行時間予測問題に対する2つの新しいアプローチを提案する。 1つ目は、ピアソン相関係数に基づくコンピュータインストールグループに基づくものである。 2つ目は、コンピュータのインストールとmpiプログラムのベクトル表現、いわゆる埋め込みに基づいている。 この埋め込み技術は、for goods(amazon)、for articles(arxiv.org)、for videos(youtube、netflix)などのレコメンデーションシステムで積極的に使われている。 この記事では、組み込み技術が、特定のコンピュータインストールセット上でMPIプログラムの実行時間を予測するのにどのように役立つかを示す。

The problem of MPI programs execution time prediction on a certain set of computer installations is considered. This problem emerges with orchestration and provisioning a virtual infrastructure in a cloud computing environment over a heterogeneous network of computer installations: supercomputers or clusters of servers (e.g. mini data centers). One of the key criteria for the effectiveness of the cloud computing environment is the time staying by the program inside the environment. This time consists of the waiting time in the queue and the execution time on the selected physical computer installation, to which the computational resource of the virtual infrastructure is dynamically mapped. One of the components of this problem is the estimation of the MPI programs execution time on a certain set of computer installations. This is necessary to determine a proper choice of order and place for program execution. The article proposes two new approaches to the program execution time prediction problem. The first one is based on computer installations grouping based on the Pearson correlation coefficient. The second one is based on vector representations of computer installations and MPI programs, so-called embeddings. The embedding technique is actively used in recommendation systems, such as for goods (Amazon), for articles (Arxiv.org), for videos (YouTube, Netflix). The article shows how the embeddings technique helps to predict the execution time of a MPI program on a certain set of computer installations.
翻訳日:2022-11-05 13:57:54 公開日:2020-07-30
# 雑音を伴わない半空間の対向的ロバストな固有学習の複雑さ

The Complexity of Adversarially Robust Proper Learning of Halfspaces with Agnostic Noise ( http://arxiv.org/abs/2007.15220v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Pasin Manurangsi(参考訳) 分布非依存的pacモデルにおける半空間の可逆的ロバストな固有学習の計算複雑性を,$l_p$摂動に着目して検討した。 この問題に対して,計算効率のよい学習アルゴリズムとほぼ一致する計算硬度結果を与える。 我々の発見の興味深い意味は、$L_{\infty}$摂動の場合が、$2 \leq p < \infty$よりも明らかに計算が難しいことである。

We study the computational complexity of adversarially robust proper learning of halfspaces in the distribution-independent agnostic PAC model, with a focus on $L_p$ perturbations. We give a computationally efficient learning algorithm and a nearly matching computational hardness result for this problem. An interesting implication of our findings is that the $L_{\infty}$ perturbations case is provably computationally harder than the case $2 \leq p < \infty$.
翻訳日:2022-11-05 13:51:21 公開日:2020-07-30
# ユーザを意識したコンテキスト対応レコメンダシステムの開発

Evolving Context-Aware Recommender Systems With Users in Mind ( http://arxiv.org/abs/2007.15409v1 )

ライセンス: Link先を確認
Amit Livne, Eliad Shem Tov, Adir Solomon, Achiya Elyasaf, Bracha Shapira, and Lior Rokach(参考訳) コンテキスト認識レコメンダシステム(cars)は、ユーザコンテキストのセンシングと分析を適用し、パーソナライズされたサービスを提供する。 コンテキスト情報は、推奨の精度を向上させるためにセンサーから駆動することができる。 しかし,ユーザのバッテリの排出やプライバシの問題など,特定のコンテキスト情報が異なる問題を引き起こす可能性があるため,正確なレコメンデーションの生成は,ユーザの観点から有用なシステムを構成するには不十分である。 高次元の文脈情報を加えることで、モデルの次元とスパース性が増す可能性がある。 従来の研究では、ドメイン知識を用いて最適な文脈情報を選択することにより、文脈情報の量を減らすことを提案する。 別の解決策は、それをより密度の高い潜在空間に圧縮することで、推奨項目をユーザに説明できなくなり、ユーザの信頼を損なう。 本稿では,文脈情報の低次元部分集合を選択し,それらをCARSに明示的に組み込む手法を提案する。 具体的には,遺伝的アルゴリズム(ga)に基づく新しい特徴選択アルゴリズムを提案する。soma次元推論カーアルゴリズムを上回り,レコメンデーションの精度と説明性を向上し,プライバシやバッテリ消費などのユーザ側面の制御を可能にする。 さらに,複数の深層コンテキスト認識モデルを学び,スタック技術を適用することで,進化過程に沿って生成される最上位部分集合を活用し,明示的な空間に留まりながら精度を向上させる。 スマートフォンから駆動される2つの高次元コンテキスト認識データセットに対するアプローチを評価した。 実験により,提案手法がSOTA CARSモデルより優れ,透明性とユーザ説明性が向上したことを確認した。

A context-aware recommender system (CARS) applies sensing and analysis of user context to provide personalized services. The contextual information can be driven from sensors in order to improve the accuracy of the recommendations. Yet, generating accurate recommendations is not enough to constitute a useful system from the users' perspective, since certain contextual information may cause different issues, such as draining the user's battery, privacy issues, and more. Adding high-dimensional contextual information may increase both the dimensionality and sparsity of the model. Previous studies suggest reducing the amount of contextual information by selecting the most suitable contextual information using a domain knowledge. Another solution is compressing it into a denser latent space, thus disrupting the ability to explain the recommendation item to the user, and damaging users' trust. In this paper we present an approach for selecting low-dimensional subsets of the contextual information and incorporating them explicitly within CARS. Specifically, we present a novel feature-selection algorithm, based on genetic algorithms (GA), that outperforms SOTA dimensional-reduction CARS algorithms, improves the accuracy and the explainability of the recommendations, and allows for controlling user aspects, such as privacy and battery consumption. Furthermore, we exploit the top subsets that are generated along the evolutionary process, by learning multiple deep context-aware models and applying a stacking technique on them, thus improving the accuracy while remaining at the explicit space. We evaluated our approach on two high-dimensional context-aware datasets driven from smartphones. An empirical analysis of our results validates that our proposed approach outperforms SOTA CARS models while improving transparency and explainability to the user.
翻訳日:2022-11-05 13:50:59 公開日:2020-07-30
# 有限サンプル収束保証による運動量q学習

Momentum Q-learning with Finite-Sample Convergence Guarantee ( http://arxiv.org/abs/2007.15418v1 )

ライセンス: Link先を確認
Bowen Weng, Huaqing Xiong, Lin Zhao, Yingbin Liang, Wei Zhang(参考訳) 既存の研究によると、従来の最適化における運動量の概念は、q学習アルゴリズムの性能を改善するのに使うことができる。 しかし、運動量に基づくq学習アルゴリズムの有限サンプル解析は、関数近似を伴わない表ケースでのみ利用可能である。 本稿では,有限サンプル保証を持つ運動量ベースのq学習アルゴリズムのクラスを解析する。 具体的には、NesterovとPolyakのモーメントスキームを統合したMomentumQアルゴリズムを提案し、既存のモーメントベースのQ-ラーニングアルゴリズムを一般化する。 無限の状態-作用空間の場合、線形関数近似とマルコフサンプリングによる MomentumQ の収束保証を確立する。 特に、バニラQ学習よりも確実に速い有限サンプル収束率を特徴付ける。 これは運動量に基づくQ-ラーニングアルゴリズムの関数近似を用いた最初の有限サンプル解析である。 同期サンプリング下での表式の場合、ステップサイズの特別な族を選択する場合、speedyq \citep{azar2011speedy} よりもわずかに良い有限サンプル収束率が得られる。 最後に,提案するmomentumqが他のmomentumベースのq-learningアルゴリズムよりも優れていることを示す。

Existing studies indicate that momentum ideas in conventional optimization can be used to improve the performance of Q-learning algorithms. However, the finite-sample analysis for momentum-based Q-learning algorithms is only available for the tabular case without function approximations. This paper analyzes a class of momentum-based Q-learning algorithms with finite-sample guarantee. Specifically, we propose the MomentumQ algorithm, which integrates the Nesterov's and Polyak's momentum schemes, and generalizes the existing momentum-based Q-learning algorithms. For the infinite state-action space case, we establish the convergence guarantee for MomentumQ with linear function approximations and Markovian sampling. In particular, we characterize the finite-sample convergence rate which is provably faster than the vanilla Q-learning. This is the first finite-sample analysis for momentum-based Q-learning algorithms with function approximations. For the tabular case under synchronous sampling, we also obtain a finite-sample convergence rate that is slightly better than the SpeedyQ \citep{azar2011speedy} when choosing a special family of step sizes. Finally, we demonstrate through various experiments that the proposed MomentumQ outperforms other momentum-based Q-learning algorithms.
翻訳日:2022-11-05 13:50:32 公開日:2020-07-30
# 多層ReLUネットワークに関連するバナッハ空間について:関数表現、近似理論、勾配降下ダイナミクス

On the Banach spaces associated with multi-layer ReLU networks: Function representation, approximation theory and gradient descent dynamics ( http://arxiv.org/abs/2007.15623v1 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) 有限深さ$L$および無限幅のReLUニューラルネットワークに対するバナッハ空間を開発する。 空間はすべての有限連結$L$-層ネットワークと、それらの$L^2$-制限対象を自然経路ノルム上の有界下に含まれる。 このノルムの下では、$L$層ネットワークの空間内の単位球はラデマッハの複雑さが低く、したがってより好ましい一般化特性を持つ。 これらの空間の関数は次元独立な収束率を持つ多層ニューラルネットワークによって近似することができる。 この研究の鍵は、多層ニューラルネットワークによって動機付けられたある種の期待で関数を表現する新しい方法である。 この表現により、機械学習のための新しいクラスの連続モデルを定義することができる。 この方法で定義された勾配流は、関連する多層ニューラルネットワークの勾配勾配勾配ダイナミクスの自然な連続アナログであることを示す。 この連続勾配流力学の下では,経路ノルムは多項式的に増加する。

We develop Banach spaces for ReLU neural networks of finite depth $L$ and infinite width. The spaces contain all finite fully connected $L$-layer networks and their $L^2$-limiting objects under bounds on the natural path-norm. Under this norm, the unit ball in the space for $L$-layer networks has low Rademacher complexity and thus favorable generalization properties. Functions in these spaces can be approximated by multi-layer neural networks with dimension-independent convergence rates. The key to this work is a new way of representing functions in some form of expectations, motivated by multi-layer neural networks. This representation allows us to define a new class of continuous models for machine learning. We show that the gradient flow defined this way is the natural continuous analog of the gradient descent dynamics for the associated multi-layer neural networks. We show that the path-norm increases at most polynomially under this continuous gradient flow dynamics.
翻訳日:2022-11-05 13:49:29 公開日:2020-07-30
# 低温電子トモグラフィーにおける in situ macromolecule 構造分類のための領域適応

Few shot domain adaptation for in situ macromolecule structural classification in cryo-electron tomograms ( http://arxiv.org/abs/2007.15422v1 )

ライセンス: Link先を確認
Liangyong Yu, Ran Li, Xiangrui Zeng, Hongyi Wang, Jie Jin, Ge Yang, Rui Jiang, Min Xu(参考訳) モチベーション:Cryo-Electron Tomography (cryo-ET)は、マクロ分子の構造と空間的構造を可視化し、サブ分子分解において、単一細胞内の他の細胞内成分と相互作用する。 このような情報は細胞過程の正確な理解に不可欠である。 しかし,Cryo-ETにおけるマクロ分子構造の系統的認識と回復には,画像の限界とデータ量から,サブトモグラム分類が大きな課題となっている。 近年,ディープラーニングは大規模サブトモグラム分類のスループットと精度を大幅に向上させた。 しかし,ラベリングに多大な費用がかかるため,教師訓練に十分な品質アノテートされたサブトモグラムデータを得ることは困難である。 この問題に取り組むためには、すでに注釈付きデータセットを使用してトレーニングプロセスを支援することが有益である。 しかし、ソースドメインとターゲットドメインの間の画像強度分布のばらつきのため、ソースドメインのサブトモグラムでトレーニングされたモデルは、ターゲットドメインのサブトモグラムクラスを予測するのに役に立たないかもしれない。 結果:本論文では,深層学習に基づくクロスドメインサブトモグラム分類にいくつかのショットドメイン適応手法を適用する。 我々の方法の本質的な考え方は2つの部分から構成される。 1)豊富な未ラベル対象ドメインデータの分布を十分に活用し、 2) ソースドメインデータセット全体とほとんどラベル付けされていないターゲットドメインデータの相関を利用する。 シミュレーションおよび実データを用いた実験により,本手法はベースライン法と比較してクロスドメインサブトモグラム分類において有意な改善が得られた。

Motivation: Cryo-Electron Tomography (cryo-ET) visualizes structure and spatial organization of macromolecules and their interactions with other subcellular components inside single cells in the close-to-native state at sub-molecular resolution. Such information is critical for the accurate understanding of cellular processes. However, subtomogram classification remains one of the major challenges for the systematic recognition and recovery of the macromolecule structures in cryo-ET because of imaging limits and data quantity. Recently, deep learning has significantly improved the throughput and accuracy of large-scale subtomogram classification. However often it is difficult to get enough high-quality annotated subtomogram data for supervised training due to the enormous expense of labeling. To tackle this problem, it is beneficial to utilize another already annotated dataset to assist the training process. However, due to the discrepancy of image intensity distribution between source domain and target domain, the model trained on subtomograms in source domainmay perform poorly in predicting subtomogram classes in the target domain. Results: In this paper, we adapt a few shot domain adaptation method for deep learning based cross-domain subtomogram classification. The essential idea of our method consists of two parts: 1) take full advantage of the distribution of plentiful unlabeled target domain data, and 2) exploit the correlation between the whole source domain dataset and few labeled target domain data. Experiments conducted on simulated and real datasets show that our method achieves significant improvement on cross domain subtomogram classification compared with baseline methods.
翻訳日:2022-11-05 13:48:51 公開日:2020-07-30
# 深い生成モデルを書き直す

Rewriting a Deep Generative Model ( http://arxiv.org/abs/2007.15646v1 )

ライセンス: Link先を確認
David Bau, Steven Liu, Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba(参考訳) GANのような深層生成モデルは、対象の分布に関する豊富な意味的および物理的ルールのセットをモデル化することを学ぶが、これまで、そのようなルールがどのようにネットワーク内にエンコードされているか、どのようにルールを変更するのかは明らかになっていない。 本稿では、深層生成モデルによって符号化される特定のルールの操作という新しい問題設定を提案する。 この問題に対処するために,線形連想メモリとしてディープネットワークの層を操作することにより,所望のルールが変更される定式化を提案する。 我々は,連想メモリの1つのエントリを変更するアルゴリズムを導出し,いくつかの興味深い構造規則を最先端生成モデルの層内に配置し,修正できることを実証する。 生成モデルのルールを対話的に変更して望ましい効果を達成するためのユーザインタフェースを提案し,いくつかの概念実証アプリケーションを示す。 最後に,複数のデータセット上の結果から,標準的な微調整手法や編集転送アルゴリズムに対する手法の利点を示す。

A deep generative model such as a GAN learns to model a rich set of semantic and physical rules about the target distribution, but up to now, it has been obscure how such rules are encoded in the network, or how a rule could be changed. In this paper, we introduce a new problem setting: manipulation of specific rules encoded by a deep generative model. To address the problem, we propose a formulation in which the desired rule is changed by manipulating a layer of a deep network as a linear associative memory. We derive an algorithm for modifying one entry of the associative memory, and we demonstrate that several interesting structural rules can be located and modified within the layers of state-of-the-art generative models. We present a user interface to enable users to interactively change the rules of a generative model to achieve desired effects, and we show several proof-of-concept applications. Finally, results on multiple datasets demonstrate the advantage of our method against standard fine-tuning methods and edit transfer algorithms.
翻訳日:2022-11-05 13:48:24 公開日:2020-07-30
# 疑わしい行動を検出する:ニューラルネットワークによる視覚的類似性に対処する方法

Detecting Suspicious Behavior: How to Deal with Visual Similarity through Neural Networks ( http://arxiv.org/abs/2007.15235v1 )

ライセンス: Link先を確認
Guillermo A. Mart\'inez-Mascorro, Jos\'e C. Ortiz-Bayliss, Hugo Terashima-Mar\'in(参考訳) 明らかな行動は、セキュリティ、資産、生命、あるいは自由を脅かす可能性がある。 この振舞いには特定のパターンがなく、それを検出して定義するタスクが複雑になる。 人間の観察者でさえ、監視ビデオで不審な行動を見つけることは複雑である。 異常で不審な行動関連問題に取り組むためのいくつかの提案が文献で利用可能である。 しかし、視覚的類似度が高い異なるクラスのために、しばしば高い偽陽性率に悩まされる。 犯罪前行動方法は、犯罪発生前に疑わしい行動に焦点を当てるために犯罪委員会に関連する情報を削除する。 異なる種類の犯罪から得られたサンプルは、通常の行動サンプルと高い視覚的類似性を有する。 この問題に対処するため,我々は3次元畳み込みニューラルネットワークを実装し,異なるアプローチで学習した。 また,計算資源を最適化するためにフィルタ数パラメータの異なる値をテストした。 最後に,異なるトレーニングアプローチによる評価の比較により,監視ビデオにおける疑わしい行動検出を改善する最善の選択肢が示された。

Suspicious behavior is likely to threaten security, assets, life, or freedom. This behavior has no particular pattern, which complicates the tasks to detect it and define it. Even for human observers, it is complex to spot suspicious behavior in surveillance videos. Some proposals to tackle abnormal and suspicious behavior-related problems are available in the literature. However, they usually suffer from high false-positive rates due to different classes with high visual similarity. The Pre-Crime Behavior method removes information related to a crime commission to focus on suspicious behavior before the crime happens. The resulting samples from different types of crime have a high-visual similarity with normal-behavior samples. To address this problem, we implemented 3D Convolutional Neural Networks and trained them under different approaches. Also, we tested different values in the number-of-filter parameter to optimize computational resources. Finally, the comparison between the performance using different training approaches shows the best option to improve the suspicious behavior detection on surveillance videos.
翻訳日:2022-11-05 13:42:08 公開日:2020-07-30
# ネットワークプラニングによる階層的行動分類

Hierarchical Action Classification with Network Pruning ( http://arxiv.org/abs/2007.15244v1 )

ライセンス: Link先を確認
Mahdi Davoodikakhki, KangKang Yin(参考訳) 人間の行動分類の研究はここ数年で大きな進歩を遂げてきた。 ほとんどのディープラーニングメソッドは、ネットワークコンポーネントの追加によるパフォーマンス向上に重点を置いています。 しかし,階層分類,ネットワークプルーニング,スケルトンベース前処理などの補助機構をより有効に活用し,モデルのロバスト性と性能を向上させることを提案する。 NTU RGB+D 60, NTU RGB+D 120, Northwestern-UCLA Multiview Action 3D, UTD Multimodal Human Action Dataset の4つのテストデータセットで本手法の有効性を検証する。 実験の結果,本手法は4つのデータセットに匹敵する,あるいは優れた性能を達成できることがわかった。 特に,本手法では,NTU 120の新たなベースラインを設定している。 また,本手法を広範囲な比較とアブレーション研究により分析した。

Research on human action classification has made significant progresses in the past few years. Most deep learning methods focus on improving performance by adding more network components. We propose, however, to better utilize auxiliary mechanisms, including hierarchical classification, network pruning, and skeleton-based preprocessing, to boost the model robustness and performance. We test the effectiveness of our method on four commonly used testing datasets: NTU RGB+D 60, NTU RGB+D 120, Northwestern-UCLA Multiview Action 3D, and UTD Multimodal Human Action Dataset. Our experiments show that our method can achieve either comparable or better performance on all four datasets. In particular, our method sets up a new baseline for NTU 120, the largest dataset among the four. We also analyze our method with extensive comparisons and ablation studies.
翻訳日:2022-11-05 13:41:55 公開日:2020-07-30
# パラメータ境界によるメタラーニングによる開発ロボティクスのベイズ最適化

Bayesian Optimization for Developmental Robotics with Meta-Learning by Parameters Bounds Reduction ( http://arxiv.org/abs/2007.15375v1 )

ライセンス: Link先を確認
Maxime Petit, Emmanuel Dellandrea and Liming Chen(参考訳) ロボット工学において、メソッドやソフトウェアは通常、特定のタスク、例えば異なるオブジェクトの均質なヒープからの産業用ビンピッキングのためにハイパーパラメータの最適化を必要とする。 本稿では,長期記憶と推論モジュール(ベイジアン最適化,視覚的類似性,パラメータ境界化)に基づく開発フレームワークを提案する。 新しい最適化は、ロボットの学習として見なされ、過去の経験(エピソディクスと手続き記憶に格納されている)を利用して、ロボットが新しいものと同様のタスクで実現した最善の最適化から計算されたパラメータ境界(例えば、セマンティックメモリに格納されたオブジェクトの視覚的類似性に基づいて、類似したオブジェクトの均質なヒープからのビンピッキング)を用いて、探索空間を縮小することができる。 例えば、産業用ロボットアームのビンピッキングタスクにおいて、9つのプロ用ソフトウェア(カミド)に対する9つの連続ハイパーパラメータの制約付き最適化に直面する。 我々は8つの異なるオブジェクトに対してビンピッキングタスクを作成するためにシミュレータを使用し(シミュレーションでは7つ、実際のセットアップでは1つ、他の類似したオブジェクトから来た経験を伴わないメタラーニング)、非常に小さな最適化予算にもかかわらず、商品の成果を達成することができ、メタラーニングが使われるとき(全体の84.3%対78.9%、各最適化では30回の小さな予算で、p-value=0.036)、より良いパフォーマンスを得ることができた。

In robotics, methods and softwares usually require optimizations of hyperparameters in order to be efficient for specific tasks, for instance industrial bin-picking from homogeneous heaps of different objects. We present a developmental framework based on long-term memory and reasoning modules (Bayesian Optimisation, visual similarity and parameters bounds reduction) allowing a robot to use meta-learning mechanism increasing the efficiency of such continuous and constrained parameters optimizations. The new optimization, viewed as a learning for the robot, can take advantage of past experiences (stored in the episodic and procedural memories) to shrink the search space by using reduced parameters bounds computed from the best optimizations realized by the robot with similar tasks of the new one (e.g. bin-picking from an homogenous heap of a similar object, based on visual similarity of objects stored in the semantic memory). As example, we have confronted the system to the constrained optimizations of 9 continuous hyperparameters for a professional software (Kamido) in industrial robotic arm bin-picking tasks, a step that is needed each time to handle correctly new object. We used a simulator to create bin-picking tasks for 8 different objects (7 in simulation and one with real setup, without and with meta-learning with experiences coming from other similar objects) achieving goods results despite a very small optimization budget, with a better performance reached when meta-learning is used (84.3% vs 78.9% of success overall, with a small budget of 30 iterations for each optimization) for every object tested (p-value=0.036).
翻訳日:2022-11-05 13:41:11 公開日:2020-07-30
# MAPPER:混合動的環境における進化的強化学習によるマルチエージェントパス計画

MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments ( http://arxiv.org/abs/2007.15724v1 )

ライセンス: Link先を確認
Zuxin Liu, Baiming Chen, Hongyi Zhou, Guru Koushik, Martial Hebert, Ding Zhao(参考訳) 動的環境におけるマルチエージェントナビゲーションは、大規模なロボット群を現実世界のアプリケーションに展開する際の大きな産業的価値である。 本稿では,進化的強化学習(MAPPER)法を用いた分散部分観測可能なマルチエージェントパス計画を提案し,混合動的環境における効率的なローカルプランニングポリシーを学習する。 強化学習に基づく手法は,通常,目標条件のスパース報酬を伴う長時間ホリゾンタスクの性能低下に苦しむため,グローバルプランナーの指導のもと,長距離ナビゲーションタスクを多数の簡単なサブタスクに分解し,大規模環境におけるエージェントのパフォーマンスを向上させる。 さらに、既存のマルチエージェント計画手法では、周囲の環境の完全な情報や近くの動的エージェントの均一性を前提としている。 提案手法は,画像に基づく表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。 マルチエージェントトレーニングの安定性と性能を確保するため,大規模かつ複雑な環境に容易に拡張可能な進化的トレーニング手法を提案する。 実験の結果,MAPPERは従来の反応プランナーLRA*や最先端の学習手法と比較して,多数の非協調的動的障害に曝露した場合,高い成功率と安定した性能が得られることがわかった。

Multi-agent navigation in dynamic environments is of great industrial value when deploying a large scale fleet of robot to real-world applications. This paper proposes a decentralized partially observable multi-agent path planning with evolutionary reinforcement learning (MAPPER) method to learn an effective local planning policy in mixed dynamic environments. Reinforcement learning-based methods usually suffer performance degradation on long-horizon tasks with goal-conditioned sparse rewards, so we decompose the long-range navigation task into many easier sub-tasks under the guidance of a global planner, which increases agents' performance in large environments. Moreover, most existing multi-agent planning approaches assume either perfect information of the surrounding environment or homogeneity of nearby dynamic agents, which may not hold in practice. Our approach models dynamic obstacles' behavior with an image-based representation and trains a policy in mixed dynamic environments without homogeneity assumption. To ensure multi-agent training stability and performance, we propose an evolutionary training approach that can be easily scaled to large and complex environments. Experiments show that MAPPER is able to achieve higher success rates and more stable performance when exposed to a large number of non-cooperative dynamic obstacles compared with traditional reaction-based planner LRA* and the state-of-the-art learning-based method.
翻訳日:2022-11-05 13:40:22 公開日:2020-07-30
# Moody Learners -- 強化学習エージェントの競争行動を説明する

Moody Learners -- Explaining Competitive Behaviour of Reinforcement Learning Agents ( http://arxiv.org/abs/2007.16045v1 )

ライセンス: Link先を確認
Pablo Barros, Ana Tanevska, Francisco Cruz, Alessandra Sciutti(参考訳) 競合する相互作用に関与する人工エージェントの意思決定プロセスの設計は難しい作業である。 競争的なシナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響を受ける。 エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。 この問題に対して \emph{Moody framework} を提案する。 我々は,競争型マルチプレイヤーシェフのハットカードゲームを用いて,一連の実験を行い,このモデルがエージェントがゲーム内の競争ダイナミクスの全体的表現をどのように得るかについて議論した。

Designing the decision-making processes of artificial agents that are involved in competitive interactions is a challenging task. In a competitive scenario, the agent does not only have a dynamic environment but also is directly affected by the opponents' actions. Observing the Q-values of the agent is usually a way of explaining its behavior, however, do not show the temporal-relation between the selected actions. We address this problem by proposing the \emph{Moody framework}. We evaluate our model by performing a series of experiments using the competitive multiplayer Chef's Hat card game and discuss how our model allows the agents' to obtain a holistic representation of the competitive dynamics within the game.
翻訳日:2022-11-05 13:39:56 公開日:2020-07-30
# 大規模異常検出:深分布時系列モデルの場合

Anomaly Detection at Scale: The Case for Deep Distributional Time Series Models ( http://arxiv.org/abs/2007.15541v1 )

ライセンス: Link先を確認
Fadhel Ayed, Lorenzo Stella, Tim Januschowski, Jan Gasthaus(参考訳) 本稿では,(マイクロ)サービスとクラウドリソースの健全性を監視するための主要なアプリケーションとして,時系列データの異常を検出する新しい手法を提案する。 提案手法では,実値や実値のベクトルからなる時系列をモデル化するのではなく,実値(あるいはベクトル)上の確率分布の時系列をモデル化する。 この確率分布の時系列拡張により、サービスへの要求によってデータが生成される一般的なシナリオに適用することができ、それによって一定時間周波数で集約される。 本手法は,ストリーミング異常検出と,数百万の時系列における異常監視のためのスケールに適応する。 合成および公開実世界のデータに対して,本手法の優れた精度を示す。 Yahoo Webscopeデータセットでは、4つのデータセットのうち3つにおいて、最先端の技術を上回り、人気のあるオープンソースの異常検出ツールを17%も上回ります。

This paper introduces a new methodology for detecting anomalies in time series data, with a primary application to monitoring the health of (micro-) services and cloud resources. The main novelty in our approach is that instead of modeling time series consisting of real values or vectors of real values, we model time series of probability distributions over real values (or vectors). This extension to time series of probability distributions allows the technique to be applied to the common scenario where the data is generated by requests coming in to a service, which is then aggregated at a fixed temporal frequency. Our method is amenable to streaming anomaly detection and scales to monitoring for anomalies on millions of time series. We show the superior accuracy of our method on synthetic and public real-world data. On the Yahoo Webscope data set, we outperform the state of the art in 3 out of 4 data sets and we show that we outperform popular open-source anomaly detection tools by up to 17% average improvement for a real-world data set.
翻訳日:2022-11-05 13:33:29 公開日:2020-07-30
# 二段階連続学習

Bilevel Continual Learning ( http://arxiv.org/abs/2007.15553v1 )

ライセンス: Link先を確認
Quang Pham, Doyen Sahoo, Chenghao Liu, Steven C.H Hoi(参考訳) 継続的学習は、オンライン学習の方法でタスクとデータのストリームから継続的に学習することを目的としている。 既存の継続学習手法の一般的な制限の一つは、連続学習の性質から、検証なしで利用可能なトレーニングデータに直接モデルを訓練することが多く、テスト時に一般化が不十分であることである。 本稿では,2段階最適化を目標とする「双レベル連続学習(Bilevel Continual Learning, BCL)」と,2段階記憶と一般化メモリを一体化して,将来の課題への効果的な知識伝達を実現し,旧タスクにおける破滅的な忘れを同時に緩和する「二段階記憶管理」戦略を新たに提案する。 連続学習ベンチマークに関する広範な実験により,提案手法の有効性が実証された。 実装はhttps://github.com/phquang/bilevel-continual-learningで利用可能です。

Continual learning aims to learn continuously from a stream of tasks and data in an online-learning fashion, being capable of exploiting what was learned previously to improve current and future tasks while still being able to perform well on the previous tasks. One common limitation of many existing continual learning methods is that they often train a model directly on all available training data without validation due to the nature of continual learning, thus suffering poor generalization at test time. In this work, we present a novel framework of continual learning named "Bilevel Continual Learning" (BCL) by unifying a {\it bilevel optimization} objective and a {\it dual memory management} strategy comprising both episodic memory and generalization memory to achieve effective knowledge transfer to future tasks and alleviate catastrophic forgetting on old tasks simultaneously. Our extensive experiments on continual learning benchmarks demonstrate the efficacy of the proposed BCL compared to many state-of-the-art methods. Our implementation is available at https://github.com/phquang/bilevel-continual-learning.
翻訳日:2022-11-05 13:33:13 公開日:2020-07-30
# $\mathcal{H}$-divergenceを超えて: Jensen-Shannonの発散によるドメイン適応理論

Beyond $\mathcal{H}$-Divergence: Domain Adaptation Theory With Jensen-Shannon Divergence ( http://arxiv.org/abs/2007.15567v1 )

ライセンス: Link先を確認
Changjian Shui, Qi Chen, Jun Wen, Fan Zhou, Christian Gagn\'e, Boyu Wang(参考訳) 広範に学習された経験的ドメイン逆行訓練と,$\mathcal{H}$-divergence に基づく理論上の相似性を明らかにする。 具体的には、$\mathcal{H}$-divergence は、ドメイン対逆トレーニングの最適化目的である Jensen-Shannon divergence と等価ではない。 この目的を達成するために,jensen-shannon 同時発散に基づく上・下目標リスク境界を直接証明し,新たな理論的枠組みを確立する。 さらに,境界と条件シフトの両方向上界を導出する。 このフレームワークは、異なる移動学習問題に対して固有の柔軟性を示し、$\mathcal{H}$-divergence-based theory が適用できない様々なシナリオで使用できる。 アルゴリズムの観点から,本理論はセマンティック条件マッチング,特徴境界マッチング,ラベル境界シフト補正の原則を統一した一般的なガイドラインを可能にする。 各原則にアルゴリズムを採用し、実際のデータセット上でフレームワークの利点を実証的に検証します。

We reveal the incoherence between the widely-adopted empirical domain adversarial training and its generally-assumed theoretical counterpart based on $\mathcal{H}$-divergence. Concretely, we find that $\mathcal{H}$-divergence is not equivalent to Jensen-Shannon divergence, the optimization objective in domain adversarial training. To this end, we establish a new theoretical framework by directly proving the upper and lower target risk bounds based on joint distributional Jensen-Shannon divergence. We further derive bi-directional upper bounds for marginal and conditional shifts. Our framework exhibits inherent flexibilities for different transfer learning problems, which is usable for various scenarios where $\mathcal{H}$-divergence-based theory fails to adapt. From an algorithmic perspective, our theory enables a generic guideline unifying principles of semantic conditional matching, feature marginal matching, and label marginal shift correction. We employ algorithms for each principle and empirically validate the benefits of our framework on real datasets.
翻訳日:2022-11-05 13:32:55 公開日:2020-07-30
# クロスバリデーション誤差に対するラデマッハ上界とlassoへの応用

Rademacher upper bounds for cross-validation errors with an application to the lasso ( http://arxiv.org/abs/2007.15598v1 )

ライセンス: Link先を確認
Ning Xu, Timothy C.G. Fisher, Jian Hong(参考訳) K$-fold cross-validation(K$-CV)エラーに対する一般的な上限を確立し、多くのK$-CVベースの推定器や学習アルゴリズムに適用できる。 モデルのラデマッハ複雑性とエラープロセスのorlicz-$\psi_{\nu}$ノルムに基づいて、cv誤差上限はライトテールとヘビーテールの誤差分布の両方に適用される。 また,独立ブロッキング技術を用いて,CVエラー上限を$\beta$-mixingデータに拡張する。 CVエラー上限をK$-CVアルゴリズムで計算するためのPythonパッケージ(\texttt{CVbound}, \url{https://github.com/isaac2math})を提供する。 シミュレーションでは,lassoを例として,異なるパラメータ設定とランダム種において上界が密接かつ安定であることを実証する。 ラッソのCV誤差を正確に制限するだけでなく、新しい上界の最小化器を可変選択の基準として使うことができる。 CV-エラー最小化器と比較して、上界の最小値に応じてラッソのペナルティパラメータをチューニングすると、関連する変数をすべて保持するよりスパースでより安定したモデルが得られる。

We establish a general upper bound for $K$-fold cross-validation ($K$-CV) errors that can be adapted to many $K$-CV-based estimators and learning algorithms. Based on Rademacher complexity of the model and the Orlicz-$\Psi_{\nu}$ norm of the error process, the CV error upper bound applies to both light-tail and heavy-tail error distributions. We also extend the CV error upper bound to $\beta$-mixing data using the technique of independent blocking. We provide a Python package (\texttt{CVbound}, \url{https://github.com/isaac2math}) for computing the CV error upper bound in $K$-CV-based algorithms. Using the lasso as an example, we demonstrate in simulations that the upper bounds are tight and stable across different parameter settings and random seeds. As well as accurately bounding the CV errors for the lasso, the minimizer of the new upper bounds can be used as a criterion for variable selection. Compared with the CV-error minimizer, simulations show that tuning the lasso penalty parameter according to the minimizer of the upper bound yields a more sparse and more stable model that retains all of the relevant variables.
翻訳日:2022-11-05 13:32:34 公開日:2020-07-30
# 構造化正規化を用いた階層時系列の予測と人工ニューラルネットワークへの応用

Prediction of hierarchical time series using structured regularization and its application to artificial neural networks ( http://arxiv.org/abs/2007.15159v1 )

ライセンス: Link先を確認
Tomokaze Shiratori and Ken Kobayashi and Yuichi Takano(参考訳) 本稿では,各上位時系列を適切な下位時系列を和らげて計算する階層時系列の予測について論じる。 このような階層的時系列の予測はコヒーレントでなければならないので、上位級時系列の予測は対応する下位級時系列の予測の総和と等しい。 従来のコヒーレント予測の方法は、最初の計算ベース(一貫性のない)予測と、その固有の階層構造に基づいたそれらの予測の調整の2つのフェーズで構成される。 時系列予測を改善するため,両位相を同時に完備する構造化正則化手法を提案する。 提案手法はボトムレベル時系列の予測モデルに基づいて構成された正規化項を用いて予測モデルに上位レベル予測を組み込む。 また,時系列予測のためのニューラルネットワークへの応用に特化したバックプロパゲーションアルゴリズムを開発した。 合成および実世界のデータセットを用いた実験結果は,予測精度と計算効率の観点から,本手法の優位性を示す。

This paper discusses the prediction of hierarchical time series, where each upper-level time series is calculated by summing appropriate lower-level time series. Forecasts for such hierarchical time series should be coherent, meaning that the forecast for an upper-level time series equals the sum of forecasts for corresponding lower-level time series. Previous methods for making coherent forecasts consist of two phases: first computing base (incoherent) forecasts and then reconciling those forecasts based on their inherent hierarchical structure. With the aim of improving time series predictions, we propose a structured regularization method for completing both phases simultaneously. The proposed method is based on a prediction model for bottom-level time series and uses a structured regularization term to incorporate upper-level forecasts into the prediction model. We also develop a backpropagation algorithm specialized for application of our method to artificial neural networks for time series prediction. Experimental results using synthetic and real-world datasets demonstrate the superiority of our method in terms of prediction accuracy and computational efficiency.
翻訳日:2022-11-05 13:24:24 公開日:2020-07-30
# 構造化連続スパルシフィケーションによる高効率深層ネットワークの構築

Growing Efficient Deep Networks by Structured Continuous Sparsification ( http://arxiv.org/abs/2007.15353v1 )

ライセンス: Link先を確認
Xin Yuan, Pedro Savarese, Michael Maire(参考訳) 我々は、精度とスパーシティの目標を原則的に組み合わせて、アーキテクチャを動的に調整しながら、ディープネットワークをトレーニングする手法を開発した。 従来のプルーニング手法とは異なり、離散的ネットワーク構造の最適化を段階的に連続的に緩和し、スパースサブネットワークをサンプリングし、効率的なディープネットワークを成長およびプルーニング方法で訓練する。 CIFAR-10, ImageNet, PASCAL VOC, Penn Treebank, 画像分類とセマンティックセグメンテーションの畳み込みモデル, および言語モデリングの繰り返しモデルを用いた大規模な実験により, 我々のトレーニングスキームは, 競合するプルーニング法よりも小さく精度の高い効率的なネットワークが得られることを示した。

We develop an approach to training deep networks while dynamically adjusting their architecture, driven by a principled combination of accuracy and sparsity objectives. Unlike conventional pruning approaches, our method adopts a gradual continuous relaxation of discrete network structure optimization and then samples sparse subnetworks, enabling efficient deep networks to be trained in a growing and pruning manner. Extensive experiments across CIFAR-10, ImageNet, PASCAL VOC, and Penn Treebank, with convolutional models for image classification and semantic segmentation, and recurrent models for language modeling, show that our training scheme yields efficient networks that are smaller and more accurate than those produced by competing pruning methods.
翻訳日:2022-11-05 13:23:06 公開日:2020-07-30
# ディープラーニングの損失に関するトップk分類精度のトレードオフ

Trade-offs in Top-k Classification Accuracies on Losses for Deep Learning ( http://arxiv.org/abs/2007.15359v1 )

ライセンス: Link先を確認
Azusa Sawada, Eiji Kaneko, Kazutoshi Sagi(参考訳) 本稿では,トップk分類精度におけるトレードオフが深い傾きの損失と新しいトップk損失の提案に与える影響を実験的に分析する。 一般的なクロスエントロピー(CE)は、無限のトレーニングデータやモデル複雑さなしでトップk予測を最適化することが保証されていない。 CEはトップ1予測を最適化するためにトップ1精度を犠牲にしていつトップ1精度を向上させるかを明らかにする。 我々の新しい損失は、基本的にceを1つのクラスとして時間的トップkクラスをグループ化することで修正する。 堅牢な決定境界を得るためには、通常のCEから損失への適応的な遷移を導入し、トップk遷移損失と呼ぶ。 実験の結果,CEは必ずしもトップk予測を学習する最善の選択肢ではないことがわかった。 まず, 合成データセットにおけるtop-1とtop-k(=2)のトレードオフについて検討し, 最適top-1予測を表すモデルに対する複雑なデータ分布が存在する場合のtop-k予測の最適化においてceの失敗を見出す。 第2に、ディープラーニングにおけるtop-5予測をターゲットとしたcifar-100データセットのtop-kアキュラリティを比較する。 CEはトップ1の精度で最善を尽くすが、トップ5の精度では、CEよりも損失が良い。 また,10より大きいkではceよりも高いtop-k accuraciesが得られている。 その結果、損失でトレーニングされたResNet18モデルは、k=25の候補で99%の精度に達し、CEの候補数よりも8。

This paper presents an experimental analysis about trade-offs in top-k classification accuracies on losses for deep leaning and proposal of a novel top-k loss. Commonly-used cross entropy (CE) is not guaranteed to optimize top-k prediction without infinite training data and model complexities. The objective is to clarify when CE sacrifices top-k accuracies to optimize top-1 prediction, and to design loss that improve top-k accuracy under such conditions. Our novel loss is basically CE modified by grouping temporal top-k classes as a single class. To obtain a robust decision boundary, we introduce an adaptive transition from normal CE to our loss, and thus call it top-k transition loss. It is demonstrated that CE is not always the best choice to learn top-k prediction in our experiments. First, we explore trade-offs between top-1 and top-k (=2) accuracies on synthetic datasets, and find a failure of CE in optimizing top-k prediction when we have complex data distribution for a given model to represent optimal top-1 prediction. Second, we compare top-k accuracies on CIFAR-100 dataset targeting top-5 prediction in deep learning. While CE performs the best in top-1 accuracy, in top-5 accuracy our loss performs better than CE except using one experimental setup. Moreover, our loss has been found to provide better top-k accuracies compared to CE at k larger than 10. As a result, a ResNet18 model trained with our loss reaches 99 % accuracy with k=25 candidates, which is a smaller candidate number than that of CE by 8.
翻訳日:2022-11-05 13:22:50 公開日:2020-07-30
# 出力感度によるディープニューラルネットワークの一般化比較

Generalization Comparison of Deep Neural Networks via Output Sensitivity ( http://arxiv.org/abs/2007.15378v1 )

ライセンス: Link先を確認
Mahsa Forouzesh, Farnood Salehi and Patrick Thiran(参考訳) 最近の研究は、最先端のディープラーニングモデルで使用される技術の性能改善にいくつかの洞察をもたらしたが、それらの一般化特性を理解するためにはさらなる作業が必要である。 我々は損失関数を入力に対する出力の感度にリンクすることでこの問題に光を当てた。 損失関数のバイアス分散分解における出力感度と分散の関係は,ラベル付きデータを必要とせず,ネットワークの一般化性能を比較するための指標として感度を用いることが示唆される。 その結果,(1)広帯域ではなくディープネットワークを用いた場合,(2)完全連結層を付加せずにベースライン分類器に畳み込み層を追加する場合,(3)バッチ正規化,ドロップアウト,最大プールの適用,(4)パラメータ初期化手法の適用など,モデルの一般化性能を向上させる一般的な手法を適用することにより感度が低下することが判明した。

Although recent works have brought some insights into the performance improvement of techniques used in state-of-the-art deep-learning models, more work is needed to understand their generalization properties. We shed light on this matter by linking the loss function to the output's sensitivity to its input. We find a rather strong empirical relation between the output sensitivity and the variance in the bias-variance decomposition of the loss function, which hints on using sensitivity as a metric for comparing the generalization performance of networks, without requiring labeled data. We find that sensitivity is decreased by applying popular methods which improve the generalization performance of the model, such as (1) using a deep network rather than a wide one, (2) adding convolutional layers to baseline classifiers instead of adding fully-connected layers, (3) using batch normalization, dropout and max-pooling, and (4) applying parameter initialization techniques.
翻訳日:2022-11-05 13:22:20 公開日:2020-07-30
# ニューラルODEソリューションはいつより優れたODEになるか?

When are Neural ODE Solutions Proper ODEs? ( http://arxiv.org/abs/2007.15386v1 )

ライセンス: Link先を確認
Katharina Ott, Prateek Katiyar, Philipp Hennig, Michael Tiemann(参考訳) 最近提案されたNeural Ordinary Differential Equation(ODE)フレームワークの重要な魅力は、離散的残留ニューラルネットワークの連続的な拡張を提供することである。 しかし、ここで示すように、訓練されたNeural ODEモデルは、実際にトレーニング中に使用される特定の数値法に依存している。 訓練されたモデルがODEから生成されたフローであるはずなら、性能を損なうことなく、同じまたはより小さい数値誤差で別の数値解法を選択することができる。 過大な離散化を伴う解法をトレーニングが頼りにすると、等値あるいは小値の数値誤差を持つ解法を用いてテストすると、精度は急落する。 このような場合、ベクトル場と数値法の組み合わせはODEから生成されたフローと解釈することはできず、これは明らかにNeural ODEの概念の致命的な崩壊をもたらす。 しかしながら、トレーニングが有効な ODE ベクトル場が得られるような重要なステップサイズが存在することを観察する。 本稿では,学習中のodeソルバの動作を監視し,そのステップサイズを適応させ,計算コストを不要に増加させることなく有効なodeを保証する手法を提案する。 この適応アルゴリズムを2つの共通ベンチマークデータセットと合成データセットで検証する。 さらに、基礎となるODEが直接分類タスクを生成する新しい合成データセットを導入する。

A key appeal of the recently proposed Neural Ordinary Differential Equation(ODE) framework is that it seems to provide a continuous-time extension of discrete residual neural networks. As we show herein, though, trained Neural ODE models actually depend on the specific numerical method used during training. If the trained model is supposed to be a flow generated from an ODE, it should be possible to choose another numerical solver with equal or smaller numerical error without loss of performance. We observe that if training relies on a solver with overly coarse discretization, then testing with another solver of equal or smaller numerical error results in a sharp drop in accuracy. In such cases, the combination of vector field and numerical method cannot be interpreted as a flow generated from an ODE, which arguably poses a fatal breakdown of the Neural ODE concept. We observe, however, that there exists a critical step size beyond which the training yields a valid ODE vector field. We propose a method that monitors the behavior of the ODE solver during training to adapt its step size, aiming to ensure a valid ODE without unnecessarily increasing computational cost. We verify this adaption algorithm on two common bench mark datasets as well as a synthetic dataset. Furthermore, we introduce a novel synthetic dataset in which the underlying ODE directly generates a classification task.
翻訳日:2022-11-05 13:22:02 公開日:2020-07-30
# 大規模降雨マップの支持ベクトルマシン分類による地域降雨予測

Regional Rainfall Prediction Using Support Vector Machine Classification of Large-Scale Precipitation Maps ( http://arxiv.org/abs/2007.15404v1 )

ライセンス: Link先を確認
Eslam A.Hussein, Mehrdad Ghaziasgar, Christopher Thron(参考訳) 降雨予測は、多かれ少なかれ雨が生み出す潜在的な社会的・経済的影響を予測するのに役立つ。 本研究は,1~30日前の降雨予測に対するクラスベースアプローチについて検討する。 この研究では、アメリカ大陸の毎日の降雨マップに基づいて地域的な予測を行い、降雨量は光か無か、中等か、大雨の3段階に定量化された。 地図エリアをカバーする5\times5$グリッドの3つの正方形に対応する3つのリージョンが選択された。 これら3つの地域での降雨予測は, 前日降雨マップ画像の連続配列に適用したサポートベクターマシン(SVM)に基づいて, 最大30日前の降雨予測を行った。 その結果, 格子内角方形の予測は, 単純な未学習分類器による予測よりも精度が低いことがわかった。 しかし、中心領域のSVM予測は、訓練されていない分類器と同様に、他の2つの領域よりも優れていた。 大規模降水マップに適用されたSVMが地域降雨予測に有用な情報が得られるという証拠はいくつかあるが、落とし穴を避けるには注意が必要であると結論付けている。

Rainfall prediction helps planners anticipate potential social and economic impacts produced by too much or too little rain. This research investigates a class-based approach to rainfall prediction from 1-30 days in advance. The study made regional predictions based on sequences of daily rainfall maps of the continental US, with rainfall quantized at 3 levels: light or no rain; moderate; and heavy rain. Three regions were selected, corresponding to three squares from a $5\times5$ grid covering the map area. Rainfall predictions up to 30 days ahead for these three regions were based on a support vector machine (SVM) applied to consecutive sequences of prior daily rainfall map images. The results show that predictions for corner squares in the grid were less accurate than predictions obtained by a simple untrained classifier. However, SVM predictions for a central region outperformed the other two regions, as well as the untrained classifier. We conclude that there is some evidence that SVMs applied to large-scale precipitation maps can under some conditions give useful information for predicting regional rainfall, but care must be taken to avoid pitfall
翻訳日:2022-11-05 13:21:26 公開日:2020-07-30
# DeepPeep: コンパクトDNNのアーキテクチャを解読する設計ラミフィケーションの爆発

DeepPeep: Exploiting Design Ramifications to Decipher the Architecture of Compact DNNs ( http://arxiv.org/abs/2007.15248v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Sparsh Mittal, Binod Kumar, and Govardhan Mattela(参考訳) ディープニューラルネットワーク(DNN)の顕著な予測性能は、前例のないスケールとスコープのサービスドメインに採用されている。 しかし、DNNの普及と商業化が進み、知的財産権(IP)保護の重要性が強調されている。 クラウドベースのサービスにおいて、信頼できないアクセラレータ上でDNN計算をアウトソーシングする傾向が高まっているため、IP保護を保証する技術開発が求められている。 DNNの設計手法とハイパーパラメータは重要な情報であり、それらを漏洩させることで組織に大きな経済的損失をもたらす可能性がある。 さらに、DNNアーキテクチャの知識は、敵が入力を摂動し、予測を変更する敵攻撃の成功確率を高めることができる。 本研究では,設計手法の特徴を生かした2段階攻撃手法"DeepPeep"を考案し,コンパクトDNNにおけるビルディングブロックのアーキテクチャをリバースエンジニアリングする。 P100 と P4000 GPU における "DeepPeep" の有効性を示す。 さらに,DeepPeep攻撃によるIP盗難防止のためのインテリジェントな設計操作戦略を提案し,"Secure MobileNet-V1"を提案する。 興味深いことに、vanilla mobilenet-v1と比較して、secure mobilenet-v1は推論レイテンシの大幅な削減(約60%)と、非常に低いメモリと計算オーバーヘッドを備えた予測パフォーマンスの改善(約2%)を提供する。

The remarkable predictive performance of deep neural networks (DNNs) has led to their adoption in service domains of unprecedented scale and scope. However, the widespread adoption and growing commercialization of DNNs have underscored the importance of intellectual property (IP) protection. Devising techniques to ensure IP protection has become necessary due to the increasing trend of outsourcing the DNN computations on the untrusted accelerators in cloud-based services. The design methodologies and hyper-parameters of DNNs are crucial information, and leaking them may cause massive economic loss to the organization. Furthermore, the knowledge of DNN's architecture can increase the success probability of an adversarial attack where an adversary perturbs the inputs and alter the prediction. In this work, we devise a two-stage attack methodology "DeepPeep" which exploits the distinctive characteristics of design methodologies to reverse-engineer the architecture of building blocks in compact DNNs. We show the efficacy of "DeepPeep" on P100 and P4000 GPUs. Additionally, we propose intelligent design maneuvering strategies for thwarting IP theft through the DeepPeep attack and proposed "Secure MobileNet-V1". Interestingly, compared to vanilla MobileNet-V1, secure MobileNet-V1 provides a significant reduction in inference latency ($\approx$60%) and improvement in predictive performance ($\approx$2%) with very-low memory and computation overheads.
翻訳日:2022-11-05 13:14:35 公開日:2020-07-30
# 差分進化に基づくブラックボックス逆サンプル生成

Black-box Adversarial Sample Generation Based on Differential Evolution ( http://arxiv.org/abs/2007.15310v1 )

ライセンス: Link先を確認
Junyu Lin, Lei Xu, Yingqi Liu, Xiangyu Zhang(参考訳) ディープニューラルネットワーク(DNN)は、オブジェクト検出、音声処理、機械翻訳など、さまざまな日常的なタスクで使用されている。 しかし、DNNが堅牢性の問題に悩まされることは知られており、DNNの誤動作につながる敵のサンプルと呼ばれる混乱した入力が知られている。 本稿では,DNNモデルのロバスト性をテストするため,Black-box Momentum Iterative Fast Gradient Sign Method (BMI-FGSM) と呼ばれるブラックボックス手法を提案する。 この手法はターゲットDNNの構造や重量に関する知識を一切必要としない。 グラデーションなどのモデル内部情報へのアクセスを必要とする既存のホワイトボックス試験手法と比較して、微分進化を通じて勾配を近似し、近似勾配を用いて対向サンプルを構築する。 実験結果から,本手法は誤分類の引き金となる敵のサンプル生成に100%成功し,特定のターゲット出力ラベルに誤分類を誘発するサンプル生成に95%以上成功した。 また、摂動距離が向上し、転送性も向上する。 最先端のブラックボックス技術と比較すると,より効率的である。 さらに、商用のAliyun API上でテストを行い、限られたクエリでその誤動作をトリガーし、実世界のブラックボックス攻撃の可能性を示す。

Deep Neural Networks (DNNs) are being used in various daily tasks such as object detection, speech processing, and machine translation. However, it is known that DNNs suffer from robustness problems -- perturbed inputs called adversarial samples leading to misbehaviors of DNNs. In this paper, we propose a black-box technique called Black-box Momentum Iterative Fast Gradient Sign Method (BMI-FGSM) to test the robustness of DNN models. The technique does not require any knowledge of the structure or weights of the target DNN. Compared to existing white-box testing techniques that require accessing model internal information such as gradients, our technique approximates gradients through Differential Evolution and uses approximated gradients to construct adversarial samples. Experimental results show that our technique can achieve 100% success in generating adversarial samples to trigger misclassification, and over 95% success in generating samples to trigger misclassification to a specific target output label. It also demonstrates better perturbation distance and better transferability. Compared to the state-of-the-art black-box technique, our technique is more efficient. Furthermore, we conduct testing on the commercial Aliyun API and successfully trigger its misbehavior within a limited number of queries, demonstrating the feasibility of real-world black-box attack.
翻訳日:2022-11-05 13:13:53 公開日:2020-07-30
# 並列・自己組織化・合意型ニューラルネットワーク

Parallel, Self Organizing, Consensus Neural Networks ( http://arxiv.org/abs/2008.02067v1 )

ライセンス: Link先を確認
Homayoun Valafar, Faramarz Valafar, Okan Ersoy(参考訳) 新しいニューラルネットワークアーキテクチャ(pscnn)が開発され、ネットワークの性能と速度が向上した。 アーキテクチャは、自己組織化のような以前のモデルの利点をすべて備えており、入力並列性やコンセンサスに基づく意思決定といった他の優れた特性を持っている。 このネットワークの特性から、通常のシーケンシャルマシンと同様にパラレルプロセッサ(Ncube Machine)の実装に関して研究された。 アーキテクチャはパフォーマンスを最大化するために独自のモジュールを自己組織化する。 完全に並列であるため、リコールと学習の手順はいずれも非常に高速である。 ネットワークの性能は、言語知覚、リモートセンシング、二分論理(排他的論理)の問題におけるバックプロパゲーションネットワークと比較された。 PSCNNは全症例において優れた成績を示した。

A new neural network architecture (PSCNN) is developed to improve performance and speed of such networks. The architecture has all the advantages of the previous models such as self-organization and possesses some other superior characteristics such as input parallelism and decision making based on consensus. Due to the properties of this network, it was studied with respect to implementation on a Parallel Processor (Ncube Machine) as well as a regular sequential machine. The architecture self organizes its own modules in a way to maximize performance. Since it is completely parallel, both recall and learning procedures are very fast. The performance of the network was compared to the Backpropagation networks in problems of language perception, remote sensing and binary logic (Exclusive-Or). PSCNN showed superior performance in all cases studied.
翻訳日:2022-11-05 13:13:31 公開日:2020-07-30