このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200826となっている論文です。

PDF登録状況(公開日: 20200826)

TitleAuthorsAbstract論文公表日・翻訳日
# DeepRhythm: 意図的な視覚的心拍リズムを持つDeepFakes

DeepRhythm: Exposing DeepFakes with Attentional Visual Heartbeat Rhythms ( http://arxiv.org/abs/2006.07634v2 )

ライセンス: Link先を確認
Hua Qi and Qing Guo and Felix Juefei-Xu and Xiaofei Xie and Lei Ma and Wei Feng and Yang Liu and Jianjun Zhao(参考訳) ganベースの顔画像およびビデオ生成技術は、deepfakesとして広く知られるようになり、ますます成熟し、現実的なものとなり、効果的なdeepfakes検出器に対する緊急の需要が高まっている。 リモート・ビジュアル・フォトプレソグラフィー(PPG)は、顔の血液ポンプによる皮膚色の変化の極小周期的変化をモニタリングすることで可能となるため、実際の顔ビデオで見られる正常な心拍リズムが破壊されるか、DeepFakeビデオで完全に破壊される可能性があり、DeepFake検出の強力な指標となる可能性がある。 本研究では,心拍リズムを監視し,ディープフェイクを露出させるディープフェイク検出手法であるdeeprhythmを提案する。 DeepRhythmは、二重空間的時間的注意を利用して、動的に変化する顔や偽のタイプに適応する。 FaceForensics++ と DFDC-preview データセットの大規模な実験により、我々の予想が裏付けられ、その効果だけでなく、様々なDeepFakes 生成技術による様々なデータセットに対する \emph{DeepRhythm} の一般化能力も実証された。

As the GAN-based face image and video generation techniques, widely known as DeepFakes, have become more and more matured and realistic, there comes a pressing and urgent demand for effective DeepFakes detectors. Motivated by the fact that remote visual photoplethysmography (PPG) is made possible by monitoring the minuscule periodic changes of skin color due to blood pumping through the face, we conjecture that normal heartbeat rhythms found in the real face videos will be disrupted or even entirely broken in a DeepFake video, making it a potentially powerful indicator for DeepFake detection. In this work, we propose DeepRhythm, a DeepFake detection technique that exposes DeepFakes by monitoring the heartbeat rhythms. DeepRhythm utilizes dual-spatial-temporal attention to adapt to dynamically changing face and fake types. Extensive experiments on FaceForensics++ and DFDC-preview datasets have confirmed our conjecture and demonstrated not only the effectiveness, but also the generalization capability of \emph{DeepRhythm} over different datasets by various DeepFakes generation techniques and multifarious challenging degradations.
翻訳日:2022-11-21 21:19:25 公開日:2020-08-26
# 地質学における70年間の機械学習のレビュー

70 years of machine learning in geoscience in review ( http://arxiv.org/abs/2006.13311v3 )

ライセンス: Link先を確認
Jesper S\"oren Dramsch(参考訳) 本稿では,地理科学における機械学習の展開について概説する。 過去70年間にわたる機械学習アプリケーションの共同開発に関する詳細な分析は、最近の機械学習への熱意を地球科学の発展に結び付けている。 私は、何十年にもわたって機械学習への熱意の一般的な傾向に続き、主流の機械学習方法への移行と、地質学におけるニューラルネットワークの歴史的応用について検討する。 さらに、本章は、ソフトウェア開発における数学的基礎と知識から、モデル検証、応用統計学、統合主題専門知識におけるスキルへの移行を探求する。 レビューには、理論的な基礎を補完し、モデル検証と科学のための機械学習の説明可能性を説明するコード例が散在している。 このレビューのスコープには、意思決定木、ランダムフォレスト、サポート・ベクターマシン、ガウス過程など、さまざまな浅層機械学習の方法と、フィードフォワードニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、生成型逆ネットワークを含むディープニューラルネットワークが含まれている。 地学に関しては、このレビューは地球物理学に対する偏見を持っているが、地球化学、地球統計学、地質学とのバランスをとることを目的としている。 一般的に、私は、地球科学のあらゆる分野において、浅層および深層機械学習を成功させる研究、ハードウェア、ソフトウェア開発に関して、ディープラーニングを取り巻く最近の熱意のコンテキストを提供することを目標としています。

This review gives an overview of the development of machine learning in geoscience. A thorough analysis of the co-developments of machine learning applications throughout the last 70 years relates the recent enthusiasm for machine learning to developments in geoscience. I explore the shift of kriging towards a mainstream machine learning method and the historic application of neural networks in geoscience, following the general trend of machine learning enthusiasm through the decades. Furthermore, this chapter explores the shift from mathematical fundamentals and knowledge in software development towards skills in model validation, applied statistics, and integrated subject matter expertise. The review is interspersed with code examples to complement the theoretical foundations and illustrate model validation and machine learning explainability for science. The scope of this review includes various shallow machine learning methods, e.g. Decision Trees, Random Forests, Support-Vector Machines, and Gaussian Processes, as well as, deep neural networks, including feed-forward neural networks, convolutional neural networks, recurrent neural networks and generative adversarial networks. Regarding geoscience, the review has a bias towards geophysics but aims to strike a balance with geochemistry, geostatistics, and geology, however excludes remote sensing, as this would exceed the scope. In general, I aim to provide context for the recent enthusiasm surrounding deep learning with respect to research, hardware, and software developments that enable successful application of shallow and deep machine learning in all disciplines of Earth science.
翻訳日:2022-11-20 20:47:37 公開日:2020-08-26
# Blind Descent: グラディエントなDescent

Blind Descent: A Prequel to Gradient Descent ( http://arxiv.org/abs/2006.11505v2 )

ライセンス: Link先を確認
Akshat Gupta, Prasad N R(参考訳) 本稿では,Blind Descentと呼ばれるニューラルネットワークの代替学習手法について述べる。 設計上、ブラインド降下は爆発や勾配の消失といった問題に直面することはない。 Blind Descentでは、勾配は学習プロセスのガイドには使われない。 本稿では,Blind Descentを勾配降下よりも基礎的な学習プロセスとして提示する。 また,勾配降下はブラインド降下アルゴリズムの特定の場合と見なすことができることを示した。 また,最も一般的なブラインド降下アルゴリズムを用いて,多層パーセプトロンと畳み込みニューラルネットワークという2つのニューラルネットワークアーキテクチャを訓練し,概念実証を行った。

We describe an alternative learning method for neural networks, which we call Blind Descent. By design, Blind Descent does not face problems like exploding or vanishing gradients. In Blind Descent, gradients are not used to guide the learning process. In this paper, we present Blind Descent as a more fundamental learning process compared to gradient descent. We also show that gradient descent can be seen as a specific case of the Blind Descent algorithm. We also train two neural network architectures, a multilayer perceptron and a convolutional neural network, using the most general Blind Descent algorithm to demonstrate a proof of concept.
翻訳日:2022-11-18 22:10:38 公開日:2020-08-26
# 微粒化画像分類のための意味的強化特徴の学習

Learning Semantically Enhanced Feature for Fine-Grained Image Classification ( http://arxiv.org/abs/2006.13457v3 )

ライセンス: Link先を確認
Wei Luo and Hengmin Zhang and Jun Li and Xiu-Shen Wei(参考訳) 本文では,FGIC(きめ細かな画像分類)の計算処理を安価かつ効果的に行うことを目的としている。 複雑な部分ローカライズモジュールに依存する従来の方法とは異なり,グローバル機能のサブ機能のセマンティクスを拡張することにより,きめ細かな特徴を学習する。 具体的には、まず、cnnの特徴チャネルをチャネル順列を通じて異なるグループに配置することで、サブフィーチャーセマンティクスを実現する。 一方、サブ機能の判別性を高めるために、重み付き組合せ正則化により、強い判別性を有する対象部品上でグループを活性化させる。 我々のアプローチはパラメータ同型であり、画像レベルの監督のみでエンドツーエンドのトレーニングを行うためのプラグイン・アンド・プレイモジュールとしてバックボーンモデルに簡単に統合できる。 実験により本手法の有効性を検証し,その性能を最先端手法と比較した。 コードはhttps://github.com/cswluo/SEFで入手できる。

We aim to provide a computationally cheap yet effective approach for fine-grained image classification (FGIC) in this letter. Unlike previous methods that rely on complex part localization modules, our approach learns fine-grained features by enhancing the semantics of sub-features of a global feature. Specifically, we first achieve the sub-feature semantic by arranging feature channels of a CNN into different groups through channel permutation. Meanwhile, to enhance the discriminability of sub-features, the groups are guided to be activated on object parts with strong discriminability by a weighted combination regularization. Our approach is parameter parsimonious and can be easily integrated into the backbone model as a plug-and-play module for end-to-end training with only image-level supervision. Experiments verified the effectiveness of our approach and validated its comparable performance to the state-of-the-art methods. Code is available at https://github.com/cswluo/SEF
翻訳日:2022-11-17 12:50:53 公開日:2020-08-26
# 神経分解:変分オートエンコーダを用いた機能的ANOVA

Neural Decomposition: Functional ANOVA with Variational Autoencoders ( http://arxiv.org/abs/2006.14293v2 )

ライセンス: Link先を確認
Kaspar M\"artens and Christopher Yau(参考訳) 変分オートエンコーダ(VAE)は次元減少の一般的なアプローチとなっている。 しかしながら、高次元データに埋め込まれた潜在性低次元構造を識別する能力があるにもかかわらず、これらの潜在性表現はそれ自体では解釈が困難である。 VAEのブラックボックスの性質のため、医療やゲノミクスの応用には限界があった。 本稿では,条件付きvaesの変動源を特徴付けることに焦点を当てる。 本研究の目的は,潜在変数 z と固定入力 c の限界加算効果を非線形相互作用から分離することにより,データの変動を分解する特徴レベルの分散分解を提供することである。 我々は、古典統計学からディープラーニングモデルへの機能的ANOVA分散分解のよく知られた概念の適応であるニューラル分解(Neural Decomposition)によってこれを達成することを提案する。 本稿では,デコーダネットワークの限界特性に制約を課したトレーニングモデルにより,識別可能性を実現する方法を示す。 我々は,一連の合成例と高次元ゲノミクスデータを用いた神経分解の有用性を示す。

Variational Autoencoders (VAEs) have become a popular approach for dimensionality reduction. However, despite their ability to identify latent low-dimensional structures embedded within high-dimensional data, these latent representations are typically hard to interpret on their own. Due to the black-box nature of VAEs, their utility for healthcare and genomics applications has been limited. In this paper, we focus on characterising the sources of variation in Conditional VAEs. Our goal is to provide a feature-level variance decomposition, i.e. to decompose variation in the data by separating out the marginal additive effects of latent variables z and fixed inputs c from their non-linear interactions. We propose to achieve this through what we call Neural Decomposition - an adaptation of the well-known concept of functional ANOVA variance decomposition from classical statistics to deep learning models. We show how identifiability can be achieved by training models subject to constraints on the marginal properties of the decoder networks. We demonstrate the utility of our Neural Decomposition on a series of synthetic examples as well as high-dimensional genomics data.
翻訳日:2022-11-17 03:02:37 公開日:2020-08-26
# GANを用いた病変マスクに基づく解剖学的および分子磁気共鳴画像の同時合成

Lesion Mask-based Simultaneous Synthesis of Anatomic and MolecularMR Images using a GAN ( http://arxiv.org/abs/2006.14761v3 )

ライセンス: Link先を確認
Pengfei Guo, Puyang Wang, Jinyuan Zhou, Vishal M. Patel, Shanshan Jiang(参考訳) データ駆動型自動アプローチは、従来の分子MR画像の助けを借りて、神経腫瘍の悪性グリオーマに対する様々な臨床診断ジレンマを解決する大きな可能性を証明している。 しかし、十分なアノテートMRIデータの不足は、このような自動手法の開発を著しく妨げている。 反転、スケーリング、回転、歪みを含む従来のデータ拡張アプローチでは、多様な画像コンテンツでデータを生成することはできない。 本稿では,T1-weighted (T1w), Gadolinium enhanced T1w (Gd-T1w), T2-weighted (T2w), fluid-attenuated inversion recovery (FLAIR), amide proton transfer-weighted (APTw) など,T1-weighted (T1w), Gadolinium enhanced T1w (Gd-T1w), T2-weighted (T2w), FLAIR (FLAIR), amide proton transfer-weighted (APTw) などの複数の解剖学的および分子MRI配列の任意の操作された病変情報からデータを同時に合成する手法を提案する。 提案するフレームワークは,ストレッチアウトアップサンプリングモジュール,ブレインアトラスエンコーダ,セグメンテーション一貫性モジュール,マルチスケールラベルワイド識別器から構成される。 実臨床データに対する広範囲な実験により,提案モデルが最先端の合成法よりも有意に優れた結果が得られることが示された。

Data-driven automatic approaches have demonstrated their great potential in resolving various clinical diagnostic dilemmas for patients with malignant gliomas in neuro-oncology with the help of conventional and advanced molecular MR images. However, the lack of sufficient annotated MRI data has vastly impeded the development of such automatic methods. Conventional data augmentation approaches, including flipping, scaling, rotation, and distortion are not capable of generating data with diverse image content. In this paper, we propose a method, called synthesis of anatomic and molecular MR images network (SAMR), which can simultaneously synthesize data from arbitrary manipulated lesion information on multiple anatomic and molecular MRI sequences, including T1-weighted (T1w), gadolinium enhanced T1w (Gd-T1w), T2-weighted (T2w), fluid-attenuated inversion recovery (FLAIR), and amide proton transfer-weighted (APTw). The proposed framework consists of a stretch-out up-sampling module, a brain atlas encoder, a segmentation consistency module, and multi-scale label-wise discriminators. Extensive experiments on real clinical data demonstrate that the proposed model can perform significantly better than the state-of-the-art synthesis methods.
翻訳日:2022-11-16 22:08:05 公開日:2020-08-26
# マルチタスク学習における効率的な連続パレート探索

Efficient Continuous Pareto Exploration in Multi-Task Learning ( http://arxiv.org/abs/2006.16434v2 )

ライセンス: Link先を確認
Pingchuan Ma, Tao Du, Wojciech Matusik(参考訳) マルチタスク学習のタスクは、しばしば相互に相関し、対立し、あるいは競合する。 その結果、全てのタスクに最適な単一の解はほとんど存在しない。 最近の論文では、paretoの最適性の概念を導入し、マルチタスク学習を多目的最適化問題として直接キャストするが、既存の手法で返される解は通常有限、スパース、離散である。 本稿では,局所連続パレート集合とパレートフロントを生成する新しい効率的な手法を提案し,機械学習問題におけるパレート最適解の連続解析の可能性を明らかにする。 我々は、サンプルベーススパース線形システムを提案し、機械学習における標準 Hessian-free solver を適用することで、現代の機械学習問題に対する多目的最適化の理論結果をスケールアップする。 本手法を最先端アルゴリズムと比較し,様々なマルチタスク分類と回帰問題に対する局所パレート集合の解析法を示す。 実験結果から,本アルゴリズムはトレードオフバランスのための局所パレート集合の主方向を明らかにし,異なるトレードオフを持つ解を効率的に発見し,数百万のパラメータを持つタスクに順応する。

Tasks in multi-task learning often correlate, conflict, or even compete with each other. As a result, a single solution that is optimal for all tasks rarely exists. Recent papers introduced the concept of Pareto optimality to this field and directly cast multi-task learning as multi-objective optimization problems, but solutions returned by existing methods are typically finite, sparse, and discrete. We present a novel, efficient method that generates locally continuous Pareto sets and Pareto fronts, which opens up the possibility of continuous analysis of Pareto optimal solutions in machine learning problems. We scale up theoretical results in multi-objective optimization to modern machine learning problems by proposing a sample-based sparse linear system, for which standard Hessian-free solvers in machine learning can be applied. We compare our method to the state-of-the-art algorithms and demonstrate its usage of analyzing local Pareto sets on various multi-task classification and regression problems. The experimental results confirm that our algorithm reveals the primary directions in local Pareto sets for trade-off balancing, finds more solutions with different trade-offs efficiently, and scales well to tasks with millions of parameters.
翻訳日:2022-11-15 13:19:09 公開日:2020-08-26
# EPIに基づく光深度推定のための配向関係ネットワーク

EPI-based Oriented Relation Networks for Light Field Depth Estimation ( http://arxiv.org/abs/2007.04538v2 )

ライセンス: Link先を確認
Kunyuan Li, Jun Zhang, Rui Sun, Xudong Zhang, Jun Gao(参考訳) 光界カメラは観測されたシーンの空間情報だけでなく、全ての入射光線の方向も記録する。 空間的・角的な情報は多視点やエピポーラ幾何学などの幾何学的特徴を暗黙的に含み、深度推定の性能を向上させるために利用することができる。 光電界の2次元空間角スライスであるエピポーラ平面画像(EPI)は、配向線のパターンを含む。 これらの路線の傾斜は格差と関係している。 EPIのこの性質から、いくつかの代表的手法は、EPIにおける各ラインの格差を分析することによって、深さマップを推定する。 しかし、これらの手法は、隣接する画素間の関係を無視しながら、EPIから最適傾きを抽出することが多く、不正確な深度マップ予測につながる。 EPIにおける配向線とその隣接する画素が同様の線形構造を持つという観測に基づいて、水平および垂直のEPI上の交点の深さ値を推定するために、終端から終端までの完全畳み込みネットワーク(FCN)を提案する。 具体的には、線方向の関係を構成するORM(Oriented Relation Module)と呼ばれる新しい特徴抽出モジュールを提案する。 トレーニングを容易にするため,同じシーンポイントのEPIから異なる傾斜を求めるために,リフォーカスに基づくデータ拡張手法を提案する。 広範な実験により,学習関係の有効性を検証し,我々のアプローチが他の最先端手法に匹敵することを示した。 コードとトレーニングされたモデルはhttps://github.com/lkyahpu/EPI_ORM.gitで公開されている。

Light field cameras record not only the spatial information of observed scenes but also the directions of all incoming light rays. The spatial and angular information implicitly contain geometrical characteristics such as multi-view or epipolar geometry, which can be exploited to improve the performance of depth estimation. An Epipolar Plane Image (EPI), the unique 2D spatial-angular slice of the light field, contains patterns of oriented lines. The slope of these lines is associated with the disparity. Benefiting from this property of EPIs, some representative methods estimate depth maps by analyzing the disparity of each line in EPIs. However, these methods often extract the optimal slope of the lines from EPIs while ignoring the relationship between neighboring pixels, which leads to inaccurate depth map predictions. Based on the observation that an oriented line and its neighboring pixels in an EPI share a similar linear structure, we propose an end-to-end fully convolutional network (FCN) to estimate the depth value of the intersection point on the horizontal and vertical EPIs. Specifically, we present a new feature-extraction module, called Oriented Relation Module (ORM), that constructs the relationship between the line orientations. To facilitate training, we also propose a refocusing-based data augmentation method to obtain different slopes from EPIs of the same scene point. Extensive experiments verify the efficacy of learning relations and show that our approach is competitive to other state-of-the-art methods. The code and the trained models are available at https://github.com/lkyahpu/EPI_ORM.git.
翻訳日:2022-11-12 04:35:11 公開日:2020-08-26
# 多成分高分子析出の数値シミュレーション,クラスタリングおよび予測

Numerical simulation, clustering and prediction of multi-component polymer precipitation ( http://arxiv.org/abs/2007.07276v2 )

ライセンス: Link先を確認
Pavan Inguva, Lachlan Mason, Indranil Pan, Miselle Hengardi, Omar K. Matar(参考訳) 多成分ポリマー系は、様々な形態が性能に影響を及ぼす有機光電・薬物デリバリー用途に関心がある。 合成インフォームド予測ツールによって駆動されるモルフォロジー分類の理解が向上し、高分子工学の実践に役立つ。 ポリマーの沈殿をシミュレートするために改良されたcahn-hilliardモデルを用いる。 このような物理ベースのモデルは、工学的な設定において、高速なプロトタイピングと反復を防ぐ高性能な計算を必要とする。 必要な計算コストを削減するために,シミュレーションと並行してシミュレーションしたポリマーブレンド画像のクラスタリングと連続予測に機械学習技術を適用する。 このような方法でmlとシミュレーションを統合することで、ポリマーブレンドのモルフォロジーを入力パラメータの関数としてマッピングするために必要なシミュレーションの数を削減し、他の人が使用できるデータセットを生成することができる。 主成分分析とオートエンコーダ技術を用いて次元の縮小を探求し, 得られた形態素クラスターを解析した。 ガウス過程分類を用いた教師付き機械学習は, 種数と相互作用パラメータ入力による形態学的クラスターの予測に用いられた。 手動パターンクラスタリングは最良の結果を得たが、機械学習技術ではポリマーブレンドのモルフォロジーを90ドルの精度で予測することができた。

Multi-component polymer systems are of interest in organic photovoltaic and drug delivery applications, among others where diverse morphologies influence performance. An improved understanding of morphology classification, driven by composition-informed prediction tools, will aid polymer engineering practice. We use a modified Cahn-Hilliard model to simulate polymer precipitation. Such physics-based models require high-performance computations that prevent rapid prototyping and iteration in engineering settings. To reduce the required computational costs, we apply machine learning techniques for clustering and consequent prediction of the simulated polymer blend images in conjunction with simulations. Integrating ML and simulations in such a manner reduces the number of simulations needed to map out the morphology of polymer blends as a function of input parameters and also generates a data set which can be used by others to this end. We explore dimensionality reduction, via principal component analysis and autoencoder techniques, and analyse the resulting morphology clusters. Supervised machine learning using Gaussian process classification was subsequently used to predict morphology clusters according to species molar fraction and interaction parameter inputs. Manual pattern clustering yielded the best results, but machine learning techniques were able to predict the morphology of polymer blends with $\geq$ 90 $\%$ accuracy.
翻訳日:2022-11-11 22:00:57 公開日:2020-08-26
# プロセスマイニングにおける確率的コンフォーマンスチェックのためのエントロピー関連尺度

An Entropic Relevance Measure for Stochastic Conformance Checking in Process Mining ( http://arxiv.org/abs/2007.09310v2 )

ライセンス: Link先を確認
Artem Polyvyanyy, Alistair Moffat, Luciano Garc\'ia-Ba\~nuelos(参考訳) 記録された実世界のプロセストレースのコレクションとしてイベントログが与えられると、プロセスマイニングは、シンプルでトレースの有用な説明を提供するプロセスモデルを自動的に構築することを目的としている。 次に、コンフォーマンスチェック技術を使用して、ログのトレースと候補モデルの間の共通性と不一致を特徴付け、定量化する。 コンフォーマンスチェックに対する最近のアプローチでは、比較される要素が本質的に確率的であること(例えば、いくつかの痕跡が頻繁に発生し、他の痕跡が稀に発生する)を確認し、その知識を分析に取り入れようとしている。 ここでは,各ログのトレースを圧縮するのに要するビット数の平均として計算された確率適合性チェックのためのエントロピー関連尺度について,モデルによって提供される相対確率の構造と情報に基づいて述べる。 この尺度は、モデルでキャプチャされていないイベントログと、モデルによって記述され、イベントログに存在しないトレースからのトレースをペナライズするので、精度と品質基準を同時にリコールする。 さらに、エントロピー関連性は、ログのサイズにおいて時間線形に計算可能であることを示し、産業環境における新しいアプローチの適用可能性を示す評価結果を提供する。

Given an event log as a collection of recorded real-world process traces, process mining aims to automatically construct a process model that is both simple and provides a useful explanation of the traces. Conformance checking techniques are then employed to characterize and quantify commonalities and discrepancies between the log's traces and the candidate models. Recent approaches to conformance checking acknowledge that the elements being compared are inherently stochastic - for example, some traces occur frequently and others infrequently - and seek to incorporate this knowledge in their analyses. Here we present an entropic relevance measure for stochastic conformance checking, computed as the average number of bits required to compress each of the log's traces, based on the structure and information about relative likelihoods provided by the model. The measure penalizes traces from the event log not captured by the model and traces described by the model but absent in the event log, thus addressing both precision and recall quality criteria at the same time. We further show that entropic relevance is computable in time linear in the size of the log, and provide evaluation outcomes that demonstrate the feasibility of using the new approach in industrial settings.
翻訳日:2022-11-09 06:11:53 公開日:2020-08-26
# 時間的行動局所化のためのスケール不変リレーショナルモデリングによる相補的境界生成:ActivityNet Challenge 2020への提出

Complementary Boundary Generator with Scale-Invariant Relation Modeling for Temporal Action Localization: Submission to ActivityNet Challenge 2020 ( http://arxiv.org/abs/2007.09883v2 )

ライセンス: Link先を確認
Haisheng Su, Jinyuan Feng, Hao Shao, Zhenyu Jiang, Manyuan Zhang, Wei Wu, Yu Liu, Hongsheng Li, Junjie Yan(参考訳) 本技術報告は、ActivityNet Challenge 2020 Task 1 (\textbf{temporal action localization/detection}) への提出に使用されるソリューションの概要を示す。 時間的アクションローカライゼーションは、アクションインスタンスの時間的境界を正確に特定するだけでなく、未編集のビデオを特定のカテゴリに正確に分類する必要がある。 本稿では,時間的行動ローカライゼーションタスクを2段階(提案生成と分類)に分割し,異なるが相補的な視点から複数のコンポーネントの影響を徹底的に探求することにより,提案の多様性を高める。 具体的には,高品質な提案を生成するために,映像特徴エンコーダ,提案生成器,提案-提案関係,スケール不均衡,アンサンブル戦略などの要素を検討する。 最後に、正確な検出を得るためには、生成した提案を認識するために最適なビデオ分類器をさらに訓練する必要がある。 提案手法は,課題テストセットの平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。

This technical report presents an overview of our solution used in the submission to ActivityNet Challenge 2020 Task 1 (\textbf{temporal action localization/detection}). Temporal action localization requires to not only precisely locate the temporal boundaries of action instances, but also accurately classify the untrimmed videos into specific categories. In this paper, we decouple the temporal action localization task into two stages (i.e. proposal generation and classification) and enrich the proposal diversity through exhaustively exploring the influences of multiple components from different but complementary perspectives. Specifically, in order to generate high-quality proposals, we consider several factors including the video feature encoder, the proposal generator, the proposal-proposal relations, the scale imbalance, and ensemble strategy. Finally, in order to obtain accurate detections, we need to further train an optimal video classifier to recognize the generated proposals. Our proposed scheme achieves the state-of-the-art performance on the temporal action localization task with \textbf{42.26} average mAP on the challenge testing set.
翻訳日:2022-11-08 13:49:55 公開日:2020-08-26
# 正定値行列上の$k$-meansとレーダ画像のクラスタリングへの応用

$k$-means on Positive Definite Matrices, and an Application to Clustering in Radar Image Sequences ( http://arxiv.org/abs/2008.03454v2 )

ライセンス: Link先を確認
Daniel Fryer, Hien Nguyen, Pascal Castellazzi(参考訳) 我々は、対称正定値行列(SPD)の$k$-meansクラスタリングに関する理論的性質を非ユークリッド空間において記述し、これらのデータを自然かつ好意的に表現する。 次に,合成開口レーダ画像における画素の時系列クラスタリングに,有限ラグ自己共分散行列を用いた新しい応用法を提案する。

We state theoretical properties for $k$-means clustering of Symmetric Positive Definite (SPD) matrices, in a non-Euclidean space, that provides a natural and favourable representation of these data. We then provide a novel application for this method, to time-series clustering of pixels in a sequence of Synthetic Aperture Radar images, via their finite-lag autocovariance matrices.
翻訳日:2022-11-01 11:36:43 公開日:2020-08-26
# 産業4.0アプローチにおける動的車両経路問題の2段階メタヒューリスティックアルゴリズム

A Two-Stage Metaheuristic Algorithm for the Dynamic Vehicle Routing Problem in Industry 4.0 approach ( http://arxiv.org/abs/2008.04355v3 )

ライセンス: Link先を確認
Maryam Abdirad, Krishna Krishnan, Deepak Gupta(参考訳) 産業 4.0 は、企業が動的プロセスに直面したときに、現代的なサプライチェーン(MSC)システムの開発を支援する概念である。 Industry 4.0はモビリティとリアルタイム統合にフォーカスしているため、動的車両ルーティング問題(DVRP)には良いフレームワークである。 本研究はDVRPに関するものである。 本研究の目的は,各車両のキャパシティ制約を超えることなく,共通補給所からの顧客要求に応えながら輸送コストを最小化することである。 一方、車両が既存の注文を配送している間に、新しい注文はシステムに特定のタイミングで到着する。 本稿では,DVRPを解くための2段階ハイブリッドアルゴリズムを提案する。 最初の段階では、初期経路を開発するために構築アルゴリズムを適用する。 第2段階では、改善アルゴリズムを適用する。 実験結果は問題のサイズによって異なる。 解析結果は,提案アルゴリズムの有効性を示す。

Industry 4.0 is a concept that assists companies in developing a modern supply chain (MSC) system when they are faced with a dynamic process. Because Industry 4.0 focuses on mobility and real-time integration, it is a good framework for a dynamic vehicle routing problem (DVRP). This research works on DVRP. The aim of this research is to minimize transportation cost without exceeding the capacity constraint of each vehicle while serving customer demands from a common depot. Meanwhile, new orders arrive at a specific time into the system while the vehicles are executing the delivery of existing orders. This paper presents a two-stage hybrid algorithm for solving the DVRP. In the first stage, construction algorithms are applied to develop the initial route. In the second stage, improvement algorithms are applied. Experimental results were designed for different sizes of problems. Analysis results show the effectiveness of the proposed algorithm.
翻訳日:2022-10-31 23:23:57 公開日:2020-08-26
# DeepDrummer : ディープラーニングとループ中の人間を用いたドラムループの生成

DeepDrummer : Generating Drum Loops using Deep Learning and a Human in the Loop ( http://arxiv.org/abs/2008.04391v2 )

ライセンス: Link先を確認
Guillaume Alain, Maxime Chevalier-Boisvert, Frederic Osterrath, Remi Piche-Taillefer(参考訳) DeepDrummerは、アクティブラーニングを使用して、少数のインタラクションから人間の好み(または現在の芸術的意図)を学ぶドラムループ生成ツールである。 このツールの主な目標は、新しい音楽のアイデアを効率的に探究できるようにすることである。 我々は,音声データに基づく深層ニューラルネットワーク分類器を訓練し,これらのループの構造について,事前の信念に基づいてドラムループを生成するシステムのコアコンポーネントとしてどのように使用できるかを示す。 ユーザとのインタラクションが限られている場合でも,意味のある結果に収束するシステムの構築を目指している。 この特性により,本手法はコールドスタート状況(既存のデータセットを含まない)から,あるいはユーザが提供するオーディオサンプルのコレクションから利用することができる。 参加者25名による概念研究の実証実験において,DeepDrummerが少数の相互作用を経て被験者の好みに収束できることを実証的に実証した。

DeepDrummer is a drum loop generation tool that uses active learning to learn the preferences (or current artistic intentions) of a human user from a small number of interactions. The principal goal of this tool is to enable an efficient exploration of new musical ideas. We train a deep neural network classifier on audio data and show how it can be used as the core component of a system that generates drum loops based on few prior beliefs as to how these loops should be structured. We aim to build a system that can converge to meaningful results even with a limited number of interactions with the user. This property enables our method to be used from a cold start situation (no pre-existing dataset), or starting from a collection of audio samples provided by the user. In a proof of concept study with 25 participants, we empirically demonstrate that DeepDrummer is able to converge towards the preference of our subjects after a small number of interactions.
翻訳日:2022-10-31 22:30:06 公開日:2020-08-26
# タイム・トゥ・イベントデータに対する適合性テストのカーネル化stein法

Kernelized Stein Discrepancy Tests of Goodness-of-fit for Time-to-Event Data ( http://arxiv.org/abs/2008.08397v2 )

ライセンス: Link先を確認
Tamara Fernandez, Nicolas Rivera, Wenkai Xu and Arthur Gretton(参考訳) 生存分析と信頼性理論は、特定の疾患による死亡や機械システムの部品の故障など、興味のある事象が起こるまでの待ち時間に対応する、時間-事象データの解析に関係している。 このタイプのデータは検閲の存在によってユニークであり、興味のある事象の実際の時間を観察しない場合に発生する欠落データの一種であるが、その代わりに観測が属していることが分かっているランダムな間隔で与えられたデータに対する近似へのアクセスがある。 従来の手法の多くは、検閲を扱うように設計されていないため、検閲された時間対イベントデータに適用する必要があります。 本稿では,Steinの手法とカーネル化の相違点を組み合わせた非パラメトリック適合性試験手法に着目した。 検閲されていないデータには、カーネル化されたSteinの不一致テストを実装する自然な方法があり、検閲されたデータにはいくつかの選択肢があり、それぞれ異なる利点と欠点がある。 本稿では,時間とイベントのデータに対するカーネル化されたStein離散性テストのコレクションを提案し,それぞれを理論的,経験的に研究し,提案手法が既存のテストよりも優れていることを示す。

Survival Analysis and Reliability Theory are concerned with the analysis of time-to-event data, in which observations correspond to waiting times until an event of interest such as death from a particular disease or failure of a component in a mechanical system. This type of data is unique due to the presence of censoring, a type of missing data that occurs when we do not observe the actual time of the event of interest but, instead, we have access to an approximation for it given by random interval in which the observation is known to belong. Most traditional methods are not designed to deal with censoring, and thus we need to adapt them to censored time-to-event data. In this paper, we focus on non-parametric goodness-of-fit testing procedures based on combining the Stein's method and kernelized discrepancies. While for uncensored data, there is a natural way of implementing a kernelized Stein discrepancy test, for censored data there are several options, each of them with different advantages and disadvantages. In this paper, we propose a collection of kernelized Stein discrepancy tests for time-to-event data, and we study each of them theoretically and empirically; our experimental results show that our proposed methods perform better than existing tests, including previous tests based on a kernelized maximum mean discrepancy.
翻訳日:2022-10-27 09:08:09 公開日:2020-08-26
# 低ショットからの多ショット:オブジェクト検出のための混合スーパービジョンを用いたアノテーション学習

Many-shot from Low-shot: Learning to Annotate using Mixed Supervision for Object Detection ( http://arxiv.org/abs/2008.09694v2 )

ライセンス: Link先を確認
Carlo Biffi, Steven McDonagh, Philip Torr, Ales Leonardis, Sarah Parisot(参考訳) オブジェクト検出は、手動で注釈付けされた大規模なデータセットに依存することにより、大きな進歩をみせた。 このようなデータセットのアノテートは非常に時間がかかり、費用がかかるため、弱い教師付きおよび少数ショットのオブジェクト検出方法の開発を動機付けている。 しかしながら、これらの手法は、弱い訓練信号 \emph{often} が部分的または過大な検出をもたらすため、強い教師付きの手法に比べて性能が劣る。 この問題の解決に向けて、私たちは初めて、弱いラベル付き画像の大きなボリュームから多数のショットセットであるemph{reliable}アノテーションを生成するオンラインアノテーションモジュール(OAM)を紹介します。 我々のOAMは、完全に教師された2段階のオブジェクト検出手法で共同で訓練することができ、オンザフライで追加のトレーニングアノテーションを提供する。 その結果、完全なエンドツーエンドの戦略が実現し、完全な注釈付きイメージの低ショットセットしか必要としない。 OAMとFast(er) R-CNNの統合により、PASCAL VOC 2007とMS-COCOベンチマークで17\%$ mAP、9\%$ AP50のパフォーマンスが向上し、混合監視による競合メソッドよりも大幅に向上した。

Object detection has witnessed significant progress by relying on large, manually annotated datasets. Annotating such datasets is highly time consuming and expensive, which motivates the development of weakly supervised and few-shot object detection methods. However, these methods largely underperform with respect to their strongly supervised counterpart, as weak training signals \emph{often} result in partial or oversized detections. Towards solving this problem we introduce, for the first time, an online annotation module (OAM) that learns to generate a many-shot set of \emph{reliable} annotations from a larger volume of weakly labelled images. Our OAM can be jointly trained with any fully supervised two-stage object detection method, providing additional training annotations on the fly. This results in a fully end-to-end strategy that only requires a low-shot set of fully annotated images. The integration of the OAM with Fast(er) R-CNN improves their performance by $17\%$ mAP, $9\%$ AP50 on PASCAL VOC 2007 and MS-COCO benchmarks, and significantly outperforms competing methods using mixed supervision.
翻訳日:2022-10-26 22:23:39 公開日:2020-08-26
# BERTによる音声と文字の抽象要約

Abstractive Summarization of Spoken and Written Instructions with BERT ( http://arxiv.org/abs/2008.09676v3 )

ライセンス: Link先を確認
Alexandra Savelieva, Bryan Au-Yeung, and Vasanth Ramani(参考訳) 話し言葉の要約は、流れの自発性、不流動、その他の問題など、通常は文章に書かれていない問題のために難しい問題である。 本稿では,BERTSumモデルの最初の会話言語への応用について述べる。 我々は,園芸や料理,ソフトウェア構成,スポーツなど,さまざまなトピックを対象としたナレーション付き指導ビデオの抽象要約を生成する。 語彙を豊かにするために、トランスファーラーニングを使用し、テキストと音声の両方で、少数の大きなクロスドメインデータセット上でモデルを事前訓練する。 また、asrシステムの出力における文分割や句読点を復元するために、書き起こしの前処理も行う。 how2とwikihowデータセットのrougeとcontent-f1スコアで結果を評価する。 人間の審査員は、HowTo100MとYouTubeから収集されたデータセットからランダムに選択された一連のサマリーをスコアする。 視覚的評価に基づき、人間のコンテンツ制作者による要約に匹敵するテキストの流布度とユーティリティのレベルを達成する。 このモデルは、標準CNN/DailyMailデータセットでパフォーマンスのレグレッションを示さず、スタイルやトピックで広く異なるWikiHowの記事に適用した場合、現在のSOTAを上回っている。 異なるスタイルやドメインにまたがるモデルの一般化性が高いため、インターネットコンテンツのアクセシビリティや発見性を向上させる大きな可能性がある。 我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて書かれた内容と話し言葉の両方を要約できることを期待している。

Summarization of speech is a difficult problem due to the spontaneity of the flow, disfluencies, and other issues that are not usually encountered in written texts. Our work presents the first application of the BERTSum model to conversational language. We generate abstractive summaries of narrated instructional videos across a wide variety of topics, from gardening and cooking to software configuration and sports. In order to enrich the vocabulary, we use transfer learning and pretrain the model on a few large cross-domain datasets in both written and spoken English. We also do preprocessing of transcripts to restore sentence segmentation and punctuation in the output of an ASR system. The results are evaluated with ROUGE and Content-F1 scoring for the How2 and WikiHow datasets. We engage human judges to score a set of summaries randomly selected from a dataset curated from HowTo100M and YouTube. Based on blind evaluation, we achieve a level of textual fluency and utility close to that of summaries written by human content creators. The model beats current SOTA when applied to WikiHow articles that vary widely in style and topic, while showing no performance regression on the canonical CNN/DailyMail dataset. Due to the high generalizability of the model across different styles and domains, it has great potential to improve accessibility and discoverability of internet content. We envision this integrated as a feature in intelligent virtual assistants, enabling them to summarize both written and spoken instructional content upon request.
翻訳日:2022-10-26 20:52:38 公開日:2020-08-26
# ポッドキャスト抽象要約のためのベースライン解析

A Baseline Analysis for Podcast Abstractive Summarization ( http://arxiv.org/abs/2008.10648v2 )

ライセンス: Link先を確認
Chujie Zheng, Harry Jiannan Wang, Kunpeng Zhang, Ling Fan(参考訳) ポッドキャスト要約(podcast summary)は、エンドユーザのリスニング判断に影響を与える重要な要素であり、ポッドキャストレコメンデーションシステムや多くのダウンストリームアプリケーションにおいて重要な機能と見なされている。 既存の抽象要約アプローチは、主にcnnやdailymail newsのような専門的に編集されたテキストの微調整されたモデルに基づいている。 ニュースと異なり、ポッドキャストはより長く、より口語的、会話的であり、コマーシャルやスポンサーシップの内容にうるさいため、ポッドキャストの自動要約は非常に難しい。 本稿では,TREC 2020が提供するSpotify Podcast Datasetを用いて,ポッドキャスト要約のベースライン解析を行う。 研究者たちは、最先端の事前訓練モデルを理解して、より良いモデルを作るための基盤を構築することを目指している。

Podcast summary, an important factor affecting end-users' listening decisions, has often been considered a critical feature in podcast recommendation systems, as well as many downstream applications. Existing abstractive summarization approaches are mainly built on fine-tuned models on professionally edited texts such as CNN and DailyMail news. Different from news, podcasts are often longer, more colloquial and conversational, and noisier with contents on commercials and sponsorship, which makes automatic podcast summarization extremely challenging. This paper presents a baseline analysis of podcast summarization using the Spotify Podcast Dataset provided by TREC 2020. It aims to help researchers understand current state-of-the-art pre-trained models and hence build a foundation for creating better models.
翻訳日:2022-10-25 11:49:12 公開日:2020-08-26
# モバイルクラウドソーシングにおける参加者選択問題に対する補助タスクに基づく深層強化学習

Auxiliary-task Based Deep Reinforcement Learning for Participant Selection Problem in Mobile Crowdsourcing ( http://arxiv.org/abs/2008.11087v2 )

ライセンス: Link先を確認
Wei Shen, Xiaonan He, Chuheng Zhang, Qiang Ni, Wanchun Dou, Yan Wang(参考訳) モバイルクラウドソーシング(mcs: mobile crowdsourcing)では、複数の目標(利益の最大化、エネルギー効率、公平性)を達成することを目指すリクルーターから、参加者を選定する。 しかし、異なる MCS システムは異なる目標を持ち、ある MCS システムにおいても矛盾する目標が存在する可能性がある。 したがって、複数の目標を達成するために異なるMCSシステムに適用する参加者選択アルゴリズムを設計することが重要である。 この問題に対処するため、我々は、強化学習問題として参加者選択問題を定式化し、補助タスクに基づく深層強化学習(ADRL)と呼ばれる新しい手法で解決することを提案する。 我々は変換器を用いてMCSシステムとポインタネットワークのコンテキストから表現を抽出し、組合せ最適化問題に対処する。 サンプル効率を向上させるために,ネットワークをトレーニングして採用者からの差し迫ったタスクを予測する補助タスク学習プロセスを採用し,ディープラーニングモデルの埋め込み学習を容易にする。 さらに,特定のmcsタスク,ライドシェアリングタスク上でシミュレーション環境をリリースし,この環境での広範な性能評価を行う。 実験により, ADRLは, 様々な設定において, 他のよく認識されたベースラインよりも優れ, サンプル効率が向上することを示した。

In mobile crowdsourcing (MCS), the platform selects participants to complete location-aware tasks from the recruiters aiming to achieve multiple goals (e.g., profit maximization, energy efficiency, and fairness). However, different MCS systems have different goals and there are possibly conflicting goals even in one MCS system. Therefore, it is crucial to design a participant selection algorithm that applies to different MCS systems to achieve multiple goals. To deal with this issue, we formulate the participant selection problem as a reinforcement learning problem and propose to solve it with a novel method, which we call auxiliary-task based deep reinforcement learning (ADRL). We use transformers to extract representations from the context of the MCS system and a pointer network to deal with the combinatorial optimization problem. To improve the sample efficiency, we adopt an auxiliary-task training process that trains the network to predict the imminent tasks from the recruiters, which facilitates the embedding learning of the deep learning model. Additionally, we release a simulated environment on a specific MCS task, the ride-sharing task, and conduct extensive performance evaluations in this environment. The experimental results demonstrate that ADRL outperforms and improves sample efficiency over other well-recognized baselines in various settings.
翻訳日:2022-10-25 03:06:20 公開日:2020-08-26
# AgingMapGAN (AMGAN):空間的条件付きGANを用いた高分解能顔時効

AgingMapGAN (AMGAN): High-Resolution Controllable Face Aging with Spatially-Aware Conditional GANs ( http://arxiv.org/abs/2008.10960v2 )

ライセンス: Link先を確認
Julien Despois, Frederic Flament, Matthieu Perrot(参考訳) 顔の老化のための既存のアプローチとデータセットは、平均に向かって歪んだ結果を生み出し、個々のバリエーションと表現のしわは、しばしば目に見えないか見過ごされ、顔の脂肪化のようなグローバルパターンが好まれる。 さらに、顔の老化をほとんど、あるいはまったくコントロールできないため、大規模な画像にスケールアップすることが難しく、現実世界のアプリケーションでの使用を妨げている。 これらの制約に対処するため,民族固有の高齢化情報と空間監督の弱さを用いて高解像度画像の外観を変える手法を提案する。 提案手法は,高精細画像に対して,計算オーバーヘッドを制限しながら,その品質,制御,利用方法について,その利点を実証する。

Existing approaches and datasets for face aging produce results skewed towards the mean, with individual variations and expression wrinkles often invisible or overlooked in favor of global patterns such as the fattening of the face. Moreover, they offer little to no control over the way the faces are aged and can difficultly be scaled to large images, thus preventing their usage in many real-world applications. To address these limitations, we present an approach to change the appearance of a high-resolution image using ethnicity-specific aging information and weak spatial supervision to guide the aging process. We demonstrate the advantage of our proposed method in terms of quality, control, and how it can be used on high-definition images while limiting the computational overhead.
翻訳日:2022-10-25 02:59:49 公開日:2020-08-26
# 訪問者の行動予測を改善するためのサイバー活動と物理的文脈の協調モデリング

Joint Modelling of Cyber Activities and Physical Context to Improve Prediction of Visitor Behaviors ( http://arxiv.org/abs/2008.11400v1 )

ライセンス: Link先を確認
Manpreet Kaur, Flora D. Salim, Yongli Ren, Jeffrey Chan, Martin Tomko, Mark Sanderson(参考訳) 本稿では, 大規模屋内ショッピングモールにおける利用者のサイバー物理行動について, 匿名化されたWi-Fiアソシエーションと, 事業者が記録したブラウジングログを活用して検討する。 分析の結果,サイバー活動と物理的な状況との間に高い相関関係を示すユーザが多いことがわかった。 この相関関係を見つけるために,DBPediaの概念から豊富なカテゴリ情報を持つ物理空間を意味的にラベル付けし,ユーザの活動を表す文脈的類似性を計算する機構を提案する。 ユーザ訪問意図分類と将来の位置情報予測の2つの状況において,サイバー物理的コンテキスト類似性の適用を実証する。 実験の結果, 文脈類似性の利用により, アプリケーションの精度が著しく向上することが示された。

This paper investigates the Cyber-Physical behavior of users in a large indoor shopping mall by leveraging anonymized (opt in) Wi-Fi association and browsing logs recorded by the mall operators. Our analysis shows that many users exhibit a high correlation between their cyber activities and their physical context. To find this correlation, we propose a mechanism to semantically label a physical space with rich categorical information from DBPedia concepts and compute a contextual similarity that represents a user's activities with the mall context. We demonstrate the application of cyber-physical contextual similarity in two situations: user visit intent classification and future location prediction. The experimental results demonstrate that exploitation of contextual similarity significantly improves the accuracy of such applications.
翻訳日:2022-10-24 22:32:41 公開日:2020-08-26
# 教師付き機械学習の最適化:データとパラメータのランダム化アルゴリズム

Optimization for Supervised Machine Learning: Randomized Algorithms for Data and Parameters ( http://arxiv.org/abs/2008.11824v1 )

ライセンス: Link先を確認
Filip Hanzely(参考訳) 機械学習とデータサイエンスの主要な問題は最適化問題として日常的にモデル化され、最適化アルゴリズムによって解決される。 データ量の増加と、これらの不条件最適化タスクを定式化するために使用される統計モデルのサイズと複雑さにより、これらの課題に対処できる新しい効率的なアルゴリズムが必要である。 この論文では、これらの難易度源をそれぞれ異なる方法で扱う。 ビッグデータ問題に効率的に対処するために,各イテレーションでトレーニングデータの小さなランダムなサブセットのみを調べる新しい手法を開発した。 大規模モデル問題に対処するために,各イテレーションでモデルパラメータのランダムなサブセットを更新できる手法を開発した。 最後に,不適切な問題に対処するために,高次情報やネステロフの加速度・運動を組み込んだ手法を考案する。 いずれの場合においても、ランダム性は理論と実験の両方において最高の結果を達成するための強力なアルゴリズムツールと見なされる。 我々のアルゴリズムは、正規化された経験的リスク最小化による教師付き機械学習モデルのトレーニングに主に応用されている。 しかし、その一般性から、我々の手法はデータサイエンス、エンジニアリング、科学計算、統計など、他の多くの分野にも適用することができる。

Many key problems in machine learning and data science are routinely modeled as optimization problems and solved via optimization algorithms. With the increase of the volume of data and the size and complexity of the statistical models used to formulate these often ill-conditioned optimization tasks, there is a need for new efficient algorithms able to cope with these challenges. In this thesis, we deal with each of these sources of difficulty in a different way. To efficiently address the big data issue, we develop new methods which in each iteration examine a small random subset of the training data only. To handle the big model issue, we develop methods which in each iteration update a random subset of the model parameters only. Finally, to deal with ill-conditioned problems, we devise methods that incorporate either higher-order information or Nesterov's acceleration/momentum. In all cases, randomness is viewed as a powerful algorithmic tool that we tune, both in theory and in experiments, to achieve the best results. Our algorithms have their primary application in training supervised machine learning models via regularized empirical risk minimization, which is the dominant paradigm for training such models. However, due to their generality, our methods can be applied in many other fields, including but not limited to data science, engineering, scientific computing, and statistics.
翻訳日:2022-10-24 22:31:15 公開日:2020-08-26
# Smart-PGSim: ニューラルネットワークによるAC-OPF電力グリッドシミュレーションの高速化

Smart-PGSim: Using Neural Network to Accelerate AC-OPF Power Grid Simulation ( http://arxiv.org/abs/2008.11827v1 )

ライセンス: Link先を確認
Wenqian Dong, Zhen Xie, Gokcen Kestor and Dong Li(参考訳) 最適電力フロー問題(OPF)は電力グリッドの運用において最も重要な最適化問題の一つである。 コミットした生成ユニットの最適スケジューリングを算出する。 本稿では、知的初期解を生成することにより、現在の最適電力流(AC-OPF)を加速する問題に対するニューラルネットワークアプローチを開発する。 ニューラルネットワークによる初期解の高品質化と他の出力の誘導は、従来の手法で計算された最終解の最適性を失うことなく、解への迅速な収束を可能にする。 Smart-PGSimは、AC-OPFシミュレーションを高速化するために、新しいマルチタスク学習ニューラルネットワークモデルを生成する。 Smart-PGSimはまた、ニューラルネットワーク上でシミュレーションの物理的制約を自動的に課す。 Smart-PGSimは平均49.2%のパフォーマンス改善(最大91%)をもたらし、最終解の最適性を失うことなく1万以上の問題シミュレーションを計算した。

The optimal power flow (OPF) problem is one of the most important optimization problems for the operation of the power grid. It calculates the optimum scheduling of the committed generation units. In this paper, we develop a neural network approach to the problem of accelerating the current optimal power flow (AC-OPF) by generating an intelligent initial solution. The high quality of the initial solution and guidance of other outputs generated by the neural network enables faster convergence to the solution without losing optimality of final solution as computed by traditional methods. Smart-PGSim generates a novel multitask-learning neural network model to accelerate the AC-OPF simulation. Smart-PGSim also imposes the physical constraints of the simulation on the neural network automatically. Smart-PGSim brings an average of 49.2% performance improvement (up to 91%), computed over 10,000 problem simulations, with respect to the original AC-OPF implementation, without losing the optimality of the final solution.
翻訳日:2022-10-24 22:30:54 公開日:2020-08-26
# 複数話者の動的位置決定のためのFCNアプローチ

FCN Approach for Dynamically Locating Multiple Speakers ( http://arxiv.org/abs/2008.11845v1 )

ライセンス: Link先を確認
Hodaya Hammer and Shlomo E. Chazan and Jacob Goldberger and Sharon Gannot(参考訳) 本稿では,ディープニューラルネットワークを用いたオンラインマルチスピーカーローカライゼーションアルゴリズムを提案する。 スペクトル領域におけるW-解離直交原理に従って、各時間周波数(TF)ビンは単一の話者によって支配され、従って単一の到達方向(DOA)によって支配される。 完全な畳み込みネットワークは、各TFビンのDOAを推定するために、瞬時空間特徴で訓練される。 高解像度分類により、ネットワークは静的および動的両方の複数の話者を正確にかつ同時にローカライズし、追跡することができる。 静的および動的シナリオにおけるシミュレーションと実生活記録の両方を用いた実験により、提案アルゴリズムが古典的および最近のディープラーニングベースのアルゴリズムより優れていることを確認した。

In this paper, we present a deep neural network-based online multi-speaker localisation algorithm. Following the W-disjoint orthogonality principle in the spectral domain, each time-frequency (TF) bin is dominated by a single speaker, and hence by a single direction of arrival (DOA). A fully convolutional network is trained with instantaneous spatial features to estimate the DOA for each TF bin. The high resolution classification enables the network to accurately and simultaneously localize and track multiple speakers, both static and dynamic. Elaborated experimental study using both simulated and real-life recordings in static and dynamic scenarios, confirms that the proposed algorithm outperforms both classic and recent deep-learning-based algorithms.
翻訳日:2022-10-24 22:30:38 公開日:2020-08-26
# 防水ネットワーク:サイバー攻撃検出のための時空間効果の爆発

Defending Water Treatment Networks: Exploiting Spatio-temporal Effects for Cyber Attack Detection ( http://arxiv.org/abs/2008.12618v1 )

ライセンス: Link先を確認
Dongjie Wang, Pengyang Wang, Jingbo Zhou, Leilei Sun, Bowen Du, Yanjie Fu(参考訳) 水処理ネットワーク(WTN)は地域社会と公衆衛生にとって重要なインフラであるが、WTNはサイバー攻撃に弱い。 効果的な攻撃検出は、汚染水の排出、アクセスの拒否、設備の破壊、公衆の恐怖からwtnを守ることができる。 WTNの攻撃検出には広範な研究があるが、サイバー攻撃を検出するために部分的にデータ特性を利用するだけである。 WTNのセンシングデータを予備検討した結果,時空間知識,表現学習,検出アルゴリズムの統合により,攻撃検出精度が向上することがわかった。 そこで本研究では,WTNにおけるサイバー攻撃の時空間特性をモデル化し,WTNを防御する構造的異常検出フレームワークを提案する。 特に,wtnのセンシングデータを時系列の時系列に分離した後,サイバーアタックに適した時空間表現フレームワークを提案する。 このフレームワークには2つの重要なコンポーネントがある。 第1のコンポーネントは、センサの時間セグメントを時間埋め込みベクトルに投影することにより、時間セグメント内の時間パターンを保存する時間埋め込みモジュールである。 次に,ノードがセンサであり,属性がセンサの時間的埋め込みベクトルである時空間グラフ(stgs)を構築し,wtnの状態を記述する。 第2の構成要素は空間埋め込みモジュールであり、STGからWTNの最終的な融合埋め込みを学習する。 さらに,サイバー攻撃を検出するために,新しい設計の対角カーネルを利用する一種類のSVMモデルも考案した。 考案されたペアワイズカーネルは、融合した埋め込み空間における通常のパターンと攻撃パターンの間の距離を増大させる。 最後に,実世界データを用いた広範な実験評価を行い,フレームワークの有効性を実証した。

While Water Treatment Networks (WTNs) are critical infrastructures for local communities and public health, WTNs are vulnerable to cyber attacks. Effective detection of attacks can defend WTNs against discharging contaminated water, denying access, destroying equipment, and causing public fear. While there are extensive studies in WTNs attack detection, they only exploit the data characteristics partially to detect cyber attacks. After preliminary exploring the sensing data of WTNs, we find that integrating spatio-temporal knowledge, representation learning, and detection algorithms can improve attack detection accuracy. To this end, we propose a structured anomaly detection framework to defend WTNs by modeling the spatio-temporal characteristics of cyber attacks in WTNs. In particular, we propose a spatio-temporal representation framework specially tailored to cyber attacks after separating the sensing data of WTNs into a sequence of time segments. This framework has two key components. The first component is a temporal embedding module to preserve temporal patterns within a time segment by projecting the time segment of a sensor into a temporal embedding vector. We then construct Spatio-Temporal Graphs (STGs), where a node is a sensor and an attribute is the temporal embedding vector of the sensor, to describe the state of the WTNs. The second component is a spatial embedding module, which learns the final fused embedding of the WTNs from STGs. In addition, we devise an improved one class-SVM model that utilizes a new designed pairwise kernel to detect cyber attacks. The devised pairwise kernel augments the distance between normal and attack patterns in the fused embedding space. Finally, we conducted extensive experimental evaluations with real-world data to demonstrate the effectiveness of our framework.
翻訳日:2022-10-24 22:30:25 公開日:2020-08-26
# 非ニュートン流体の未知物理を学ぶ

Learning Unknown Physics of non-Newtonian Fluids ( http://arxiv.org/abs/2009.01658v1 )

ライセンス: Link先を確認
Brandon Reyes, Amanda A. Howard, Paris Perdikaris, Alexandre M. Tartakovsky(参考訳) 物理インフォームドニューラルネットワーク(PINN)法を拡張し,速度測定のみを用いて非ニュートン系の粘度モデル(高分子溶融および粒子懸濁液)を学習する。 pinn-inferred viscosityモデルは、絶対値が大きいが、解析モデルが非物理的特異性を持つゼロ付近のせん断速度に逸脱するせん断速度に関する経験モデルと一致する。 粘度モデルが学習されると、PINN法を用いて境界条件のみを用いて非ニュートン流体の運動量保存方程式を解く。

We extend the physics-informed neural network (PINN) method to learn viscosity models of two non-Newtonian systems (polymer melts and suspensions of particles) using only velocity measurements. The PINN-inferred viscosity models agree with the empirical models for shear rates with large absolute values but deviate for shear rates near zero where the analytical models have an unphysical singularity. Once a viscosity model is learned, we use the PINN method to solve the momentum conservation equation for non-Newtonian fluid flow using only the boundary conditions.
翻訳日:2022-10-24 22:29:58 公開日:2020-08-26
# 信号化区間用統合自己組織型交通光制御器

Integrated Self-Organized Traffic Light Controllers for Signalized Intersections ( http://arxiv.org/abs/2008.11350v1 )

ライセンス: Link先を確認
Maythem K. Abbas, Mohd Noh Karsiti, Madzlan Napiah, Samir Brahim(参考訳) 道路への緊急車両の到着を検知することが、多くの研究者の焦点となっている。 緊急車両(救急車など)が信号機に着くのを検知し、信号機を通すグリーンライトを与えることは極めて重要である。 多くの研究者が緊急車両検知システムを提案し特許を取得したが、私たちの知る限り、待ち行列が他で構築されている間に道路に余分な時間を与える効果を解決しようとは考えていなかった。 本稿では,緊急車両の存在を解消した後の交差点における状況の安定・再把握のための,より優れた交通光位相計画を見出すことの問題点について考察する。 ハードウェアのセットアップと新しいメッセージングプロトコルが道路や車両に設定され、リアルタイムで道路データを収集することが提案されている。 また、収集したデータを利用して交差点の交通軽量化計画を作成するための新たな意思決定プロトコルが作成されている。 フェーズプランには、次のフェーズで緑になるのが優先される光と、グリーンフェーズがどれくらい長くあるべきかという2つの主要な決定がある。 matlabプログラム言語で記述されたカスタマイズシミュレータを用いて提案システムをシミュレートし,その性能を他の関連作品と比較した後,非常事態解決後の交差点における待ち行列長の安定化という観点で大幅に改善した。

Detecting emergency vehicles arrival on roads has been the focus for many researchers. It is quite important to detect the emergency vehicles (e.g; ambulance) arrival to traffic light to give the green light for it to pass through. Many researchers have suggested and patented emergency vehicles detection systems however, according to our knowledge, none of them considered solving the effect of giving extra green time to a road while the queues are being built on others. This paper considers the problem of finding a better traffic light phase plan to stabilize/recover the situation at an effected intersection after solving an emergency vehicle existence. A hardware setup and a novel messaging protocol have been suggested to be set on roads and vehicles to collect roads real time data. In addition, a novel decision making protocol has been created to make the use of the collected data for making a better traffic light phase plan for an intersection. The phase plan has two main decisions to be made; which light has a higher priority to be green in the next phase, and how long the green phase should be. After simulating the proposed system using our customized simulator written in Matlab programing language and comparing its performance with other related works, significant enhancements have been observed in terms of stabilizing the queue lengths at an intersection after solving an emergency case.
翻訳日:2022-10-24 22:23:54 公開日:2020-08-26
# KARMAによるメモリ容量を超える分散ディープラーニングワークロードのスケールアップ

Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA ( http://arxiv.org/abs/2008.11421v1 )

ライセンス: Link先を確認
Mohamed Wahib, Haoyu Zhang, Truong Thao Nguyen, Aleksandr Drozd, Jens Domke, Lingqi Zhang, Ryousei Takano, Satoshi Matsuoka(参考訳) ハードウェアアクセラレーターの専用メモリは、大きなディープラーニングモデルのすべての重みや中間状態を格納するには不十分である。 モデル並列性はメモリ圧力問題を軽減するための有効なアプローチであるが、ソースコードの大幅な修正とアルゴリズムの考慮が必要である。 代替の解決策は、データ並列性の代わりに、またはそれに加えて、外部メソッドを使用することである。 本稿では,コア外トレーニング動作の並列解析に基づく性能モデルを提案し,レイヤスワッピングと冗長再計算を組み合わせた戦略を導出する。 最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。 また、勾配交換を慎重にパイプライン化し、ホスト上でパラメータ更新を行うことで、コア外マルチノードトレーニングの課題を解決する最初の方法を提案する。 我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。

The dedicated memory of hardware accelerators can be insufficient to store all weights and/or intermediate states of large deep learning models. Although model parallelism is a viable approach to reduce the memory pressure issue, significant modification of the source code and considerations for algorithms are required. An alternative solution is to use out-of-core methods instead of, or in addition to, data parallelism. We propose a performance model based on the concurrency analysis of out-of-core training behavior, and derive a strategy that combines layer swapping and redundant recomputing. We achieve an average of 1.52x speedup in six different models over the state-of-the-art out-of-core methods. We also introduce the first method to solve the challenging problem of out-of-core multi-node training by carefully pipelining gradient exchanges and performing the parameter updates on the host. Our data parallel out-of-core solution can outperform complex hybrid model parallelism in training large models, e.g. Megatron-LM and Turning-NLG.
翻訳日:2022-10-24 22:23:16 公開日:2020-08-26
# 時間認識型音楽レコメンダシステム:協調フィルタリングによる暗黙のユーザの好みとユーザのリスニング習慣の進化のモデル化

Time-Aware Music Recommender Systems: Modeling the Evolution of Implicit User Preferences and User Listening Habits in A Collaborative Filtering Approach ( http://arxiv.org/abs/2008.11432v1 )

ライセンス: Link先を確認
Diego S\'anchez-Moreno, Yong Zheng and Mar\'ia N. Moreno-Garc\'ia(参考訳) オンラインストリーミングサービスは、音楽を聴くための最も人気のある方法となっている。 これらのサービスのほとんどは、ユーザーが利用可能な膨大な量の音楽から興味を持つ曲やアーティストを見つけるのに役立つレコメンデーションメカニズムを備えている。 しかし、多くの人はコンテキスト的側面や進化し続けるユーザー行動を考慮していないため、信頼できない。 したがって、これらの側面を考慮したシステムを開発する必要がある。 音楽の分野では、時間がユーザの嗜好に影響を及ぼし、その効果を管理する上で最も重要な要因の1つであり、本論文で提示された作業の背後にあるモチベーションである。 ここでは、曲の演奏時期に関する時間的情報を調べる。 目的は、ユーザの好みの進化を、暗黙的な評価とユーザの聞き取り行動という形でモデル化することである。 本研究で提案する協調フィルタリング手法では,ユーザを特徴付け,より信頼性の高いレコメンデーションを提供するために,日々の聴取習慣を捉えている。 この検証の結果は、このアプローチがコンテキスト認識とコンテキストフリーのレコメンデーションの両方を生成する他の手法よりも優れていることを証明している。

Online streaming services have become the most popular way of listening to music. The majority of these services are endowed with recommendation mechanisms that help users to discover songs and artists that may interest them from the vast amount of music available. However, many are not reliable as they may not take into account contextual aspects or the ever-evolving user behavior. Therefore, it is necessary to develop systems that consider these aspects. In the field of music, time is one of the most important factors influencing user preferences and managing its effects, and is the motivation behind the work presented in this paper. Here, the temporal information regarding when songs are played is examined. The purpose is to model both the evolution of user preferences in the form of evolving implicit ratings and user listening behavior. In the collaborative filtering method proposed in this work, daily listening habits are captured in order to characterize users and provide them with more reliable recommendations. The results of the validation prove that this approach outperforms other methods in generating both context-aware and context-free recommendations
翻訳日:2022-10-24 22:22:56 公開日:2020-08-26
# pcaに基づくリカレントニューラルネットワークを用いた航空宇宙関連企業の株価予測

Share Price Prediction of Aerospace Relevant Companies with Recurrent Neural Networks based on PCA ( http://arxiv.org/abs/2008.11788v1 )

ライセンス: Link先を確認
Linyu Zheng and Hongmei He(参考訳) 資本市場は航空宇宙産業のマーケティング活動において重要な役割を担っている。 しかし、株式市場の不確実性と複雑さと多くの循環的要因により、上場航空宇宙企業の株価は著しく変動した。 これにより株価予測は困難になる。 航空宇宙産業における株価予測を改善し,様々な指標が株価に与える影響をよく理解するために,主成分分析(pca)とリカレントニューラルネットワークを組み合わせたハイブリッド予測モデルを提案した。 我々は航空宇宙産業の2つのタイプ(製造者と運用者)を調査した。 実験の結果,PCAは予測精度と効率を両立させることができた。 金融データや抽出特徴,最適化アルゴリズム,予測モデルのパラメータなど,さまざまな要因が予測モデルの性能に影響を与える可能性がある。 技術的特徴は、株価が安定している場合に最初の選択肢となり得るが、基本的な特徴は、株価が変動が大きい場合の方が良い。 RNNの遅延は、さまざまなタイプの企業の過去のデータの安定性にも依存する。 航空宇宙製造者にとっての短期的歴史データと、航空宇宙運用航空会社の長期的歴史データを用いて、より正確である。 開発モデルは、自動株価予測システムにおいてインテリジェントなエージェントとなり得るため、金融業界は将来の株価の予測から経済戦略や事業活動の迅速な決定を下すことができ、投資のリターンが向上する可能性がある。 現在、covid-19は航空産業に大きな影響を与えている。 開発されたアプローチは、新型コロナウイルス(COVID-19)以降の航空宇宙産業の株価を予測するために使用することができる。

The capital market plays a vital role in marketing operations for aerospace industry. However, due to the uncertainty and complexity of the stock market and many cyclical factors, the stock prices of listed aerospace companies fluctuate significantly. This makes the share price prediction challengeable. To improve the prediction of share price for aerospace industry sector and well understand the impact of various indicators on stock prices, we provided a hybrid prediction model by the combination of Principal Component Analysis (PCA) and Recurrent Neural Networks. We investigated two types of aerospace industries (manufacturer and operator). The experimental results show that PCA could improve both accuracy and efficiency of prediction. Various factors could influence the performance of prediction models, such as finance data, extracted features, optimisation algorithms, and parameters of the prediction model. The selection of features may depend on the stability of historical data: technical features could be the first option when the share price is stable, whereas fundamental features could be better when the share price has high fluctuation. The delays of RNN also depend on the stability of historical data for different types of companies. It would be more accurate through using short-term historical data for aerospace manufacturers, whereas using long-term historical data for aerospace operating airlines. The developed model could be an intelligent agent in an automatic stock prediction system, with which, the financial industry could make a prompt decision for their economic strategies and business activities in terms of predicted future share price, thus improving the return on investment. Currently, COVID-19 severely influences aerospace industries. The developed approach can be used to predict the share price of aerospace industries at post COVID-19 time.
翻訳日:2022-10-24 22:21:52 公開日:2020-08-26
# SNE-RoadSeg:正確な自由空間検出のための表面正規情報をセマンティックセグメンテーションに組み込む

SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection ( http://arxiv.org/abs/2008.11351v1 )

ライセンス: Link先を確認
Rui Fan, Hengli Wang, Peide Cai, Ming Liu(参考訳) フリースペース検出は、自動運転車の視覚知覚の重要な要素である。 データ融合畳み込みニューラルネットワーク(CNN)の最近の取り組みは、セマンティックな駆動シーンセグメンテーションを大幅に改善した。 自由空間は、点が類似の表面正規性を持つ基底平面として仮定することができる。 そこで,本稿では,高精細深度/不均質画像から表面正規情報を高精度かつ効率的に推測できる表面正規分布推定器 (SNE) を初めて導入する。 さらに,rgb画像と推定された表層正規情報の両方から特徴を抽出・融合し,正確な自由空間検出を可能にするデータフュージョンcnnアーキテクチャ(roadseg)を提案する。 研究目的のために,R2D(Ready-to-Drive)ロードデータセットと呼ばれる大規模合成自由空間検出データセットを公開する。 実験の結果,提案したSNEモジュールは,すべての最先端CNNに対して,自由空間検出に有効であり,SNE-RoadSegは,異なるデータセット間で最高の総合的な性能を達成できることがわかった。

Freespace detection is an essential component of visual perception for self-driving cars. The recent efforts made in data-fusion convolutional neural networks (CNNs) have significantly improved semantic driving scene segmentation. Freespace can be hypothesized as a ground plane, on which the points have similar surface normals. Hence, in this paper, we first introduce a novel module, named surface normal estimator (SNE), which can infer surface normal information from dense depth/disparity images with high accuracy and efficiency. Furthermore, we propose a data-fusion CNN architecture, referred to as RoadSeg, which can extract and fuse features from both RGB images and the inferred surface normal information for accurate freespace detection. For research purposes, we publish a large-scale synthetic freespace detection dataset, named Ready-to-Drive (R2D) road dataset, collected under different illumination and weather conditions. The experimental results demonstrate that our proposed SNE module can benefit all the state-of-the-art CNNs for freespace detection, and our SNE-RoadSeg achieves the best overall performance among different datasets.
翻訳日:2022-10-24 22:21:27 公開日:2020-08-26
# HipaccVX: OpenVXとDSLベースのコード生成の結婚

HipaccVX: Wedding of OpenVX and DSL-based Code Generation ( http://arxiv.org/abs/2008.11476v1 )

ライセンス: Link先を確認
M. Akif \"Ozkan, Burak Ok, Bo Qiao, J\"urgen Teich, Frank Hannig(参考訳) ハイパフォーマンスに最適化されたヘテロジニアスプラットフォーム向けのプログラムを書くことは難しい。これは、基本的に異なるプログラミングパラダイムと言語に基づいたアーキテクチャ固有の最適化で、コードを低レベルに調整する必要があるためである。 OpenVXは、グラフ実行モデルに基づくロイヤリティフリーな業界標準によるコンピュータビジョンアプリケーションのこの問題を解決することを約束している。 しかし、OpenVXのアルゴリズム空間は、視覚関数の小さなセットに制約されている。 これは標準に含まれない計算の高速化を妨げる。 本稿では,OpenVX視覚関数を解析し,直交する計算抽象化の集合を求める。 これらの抽象化に基づいて、既存のドメイン固有言語(dsl)をopenvx環境に結合し、ユーザ定義ノードの定義のためにプログラマに言語構造を提供します。 このようにして、標準的なコンピュータビジョン関数を用いてOpenVXグラフ実装では検出できない最適化を可能にする。 これらの最適化により、Nvidia GTX GPUのスループットを2倍にし、ベンチマークでXilinx Zynq FPGAのリソース使用量を50%削減できる。 最後に,提案するコンパイラフレームワークであるHipaccVXは,最新のNvidia VisionWorksやHalide-HLSよりも優れた結果が得られることを示す。

Writing programs for heterogeneous platforms optimized for high performance is hard since this requires the code to be tuned at a low level with architecture-specific optimizations that are most times based on fundamentally differing programming paradigms and languages. OpenVX promises to solve this issue for computer vision applications with a royalty-free industry standard that is based on a graph-execution model. Yet, the OpenVX' algorithm space is constrained to a small set of vision functions. This hinders accelerating computations that are not included in the standard. In this paper, we analyze OpenVX vision functions to find an orthogonal set of computational abstractions. Based on these abstractions, we couple an existing Domain-Specific Language (DSL) back end to the OpenVX environment and provide language constructs to the programmer for the definition of user-defined nodes. In this way, we enable optimizations that are not possible to detect with OpenVX graph implementations using the standard computer vision functions. These optimizations can double the throughput on an Nvidia GTX GPU and decrease the resource usage of a Xilinx Zynq FPGA by 50% for our benchmarks. Finally, we show that our proposed compiler framework, called HipaccVX, can achieve better results than the state-of-the-art approaches Nvidia VisionWorks and Halide-HLS.
翻訳日:2022-10-24 22:21:07 公開日:2020-08-26
# マルチセンタ、マルチベンダ、マルチダイザス心筋mr画像セグメンテーションのためのドメイン・アドバーサル・ラーニング

Domain-Adversarial Learning for Multi-Centre, Multi-Vendor, and Multi-Disease Cardiac MR Image Segmentation ( http://arxiv.org/abs/2008.11776v1 )

ライセンス: Link先を確認
Cian M. Scannell and Amedeo Chiribiri and Mitko Veta(参考訳) 心臓機能評価の非侵襲的基準として, 心臓磁気共鳴(CMR)が注目されている。 特に、チャンバー体積や射出率を含む関数パラメータの正確な定量化を可能にする。 深層学習は、必要な心構造セグメンテーションを自動化する可能性を示している。 しかし、ディープラーニングモデルの堅牢性の欠如は、その広範な臨床導入を妨げる。 データ特性の相違により、特定のスキャナからのデータに基づいてトレーニングされたニューラルネットワークは、別のセンタや別のスキャナで取得したデータに対して十分な一般化が保証されない。 本研究では,この領域シフト問題に対する原則的解を提案する。 ドメイン逆学習は、ラベル付きおよび非ラベル付きデータを使用して、ドメイン不変の2D U-Netをトレーニングするために使用される。 このアプローチは、m\&msチャレンジデータセットから見たドメインと見えないドメインの両方で評価され、ドメイン-敵のアプローチは、標準のトレーニングと比べてパフォーマンスが向上していることを示している。 さらに,学習した特徴からドメイン情報を復元することはできないことを示す。

Cine cardiac magnetic resonance (CMR) has become the gold standard for the non-invasive evaluation of cardiac function. In particular, it allows the accurate quantification of functional parameters including the chamber volumes and ejection fraction. Deep learning has shown the potential to automate the requisite cardiac structure segmentation. However, the lack of robustness of deep learning models has hindered their widespread clinical adoption. Due to differences in the data characteristics, neural networks trained on data from a specific scanner are not guaranteed to generalise well to data acquired at a different centre or with a different scanner. In this work, we propose a principled solution to the problem of this domain shift. Domain-adversarial learning is used to train a domain-invariant 2D U-Net using labelled and unlabelled data. This approach is evaluated on both seen and unseen domains from the M\&Ms challenge dataset and the domain-adversarial approach shows improved performance as compared to standard training. Additionally, we show that the domain information cannot be recovered from the learned features.
翻訳日:2022-10-24 22:15:27 公開日:2020-08-26
# 深層学習によるロボット支援手術における縫合ジェスチャーの認識と分類

Deep learning-based computer vision to recognize and classify suturing gestures in robot-assisted surgery ( http://arxiv.org/abs/2008.11833v1 )

ライセンス: Link先を確認
Francisco Luongo (1), Ryan Hakim (2), Jessica H. Nguyen (2), Animashree Anandkumar (3), Andrew J Hung (2) ((1) Department of Biology and Biological Engineering, Caltech (2) Center for Robotic Simulation & Education, Catherine & Joseph Aresty Department of Urology, USC Institute of Urology, University of Southern California (3) Department of Computing & Mathematical Sciences, Caltech)(参考訳) 前報では, 人工根治術後の排尿時縫合動作の分類法を, 組織涙と患者の予後との関連で分類した。 そこで我々は,深層学習に基づくコンピュータビジョン(CV)を訓練し,縫合ジェスチャーの同定と分類を自動化する。 動画クリップを手動でアノテートし,タイムポイントとジェスチャーをラベル付けした。 識別(2395ビデオ)と分類(511ビデオ)のデータセットをコンパイルして,CVモデルをトレーニングし,それぞれ2クラスと5クラスのラベル予測を生成する。 ネットワークは生のRGBピクセルの入力と各フレームの光学フローに基づいて訓練された。 各モデルは80/20の列車/テスト分割で訓練された。 本研究では,すべてのモデルにおいて,ジェスチャの有無 (識別: 0.88) とジェスチャの種類 (分類: 0.87) を高い確率で確実に予測することができた。 ジェスチャー識別と分類データセットの両方において,繰り返し分類モデル選択 (LSTM vs. convLSTM) が性能に与える影響はみられなかった。 本研究は,縫合動作を識別できるだけでなく,縫合動作の異なる分類を区別できる特徴をCVが認識できることを示すものである。 これは深層学習cvを外科的スキルアセスメントの今後の自動化に活用する可能性を示す。

Our previous work classified a taxonomy of suturing gestures during a vesicourethral anastomosis of robotic radical prostatectomy in association with tissue tears and patient outcomes. Herein, we train deep-learning based computer vision (CV) to automate the identification and classification of suturing gestures for needle driving attempts. Using two independent raters, we manually annotated live suturing video clips to label timepoints and gestures. Identification (2395 videos) and classification (511 videos) datasets were compiled to train CV models to produce two- and five-class label predictions, respectively. Networks were trained on inputs of raw RGB pixels as well as optical flow for each frame. Each model was trained on 80/20 train/test splits. In this study, all models were able to reliably predict either the presence of a gesture (identification, AUC: 0.88) as well as the type of gesture (classification, AUC: 0.87) at significantly above chance levels. For both gesture identification and classification datasets, we observed no effect of recurrent classification model choice (LSTM vs. convLSTM) on performance. Our results demonstrate CV's ability to recognize features that not only can identify the action of suturing but also distinguish between different classifications of suturing gestures. This demonstrates the potential to utilize deep learning CV towards future automation of surgical skill assessment.
翻訳日:2022-10-24 22:15:12 公開日:2020-08-26
# Deep Prognosis:Contrast-Enhanced CTによる膵癌生存と手術の予後予測

DeepPrognosis: Preoperative Prediction of Pancreatic Cancer Survival and Surgical Margin via Contrast-Enhanced CT Imaging ( http://arxiv.org/abs/2008.11853v1 )

ライセンス: Link先を確認
Jiawen Yao, Yu Shi, Le Lu, Jing Xiao, Ling Zhang(参考訳) 膵管腺癌(PDAC)は最も致命的ながんの1つである。 PDACを初回切除する資格のある患者にとって、手術は治療の可能性が最も高い。 しかし,同一段階の切除患者においても有意差を認め,同様の治療が施行された。 パーソナライズされた治療のためのPDACの正確な術前予後が望まれる。 それにもかかわらず、PDACの造影CT(CE-CT)をフル活用する自動化方法はまだない。 異なるCT位相における腫瘍減衰の変化は、腫瘍内部のストローム分画と臨床結果に影響を与える個々の腫瘍の血管化を反映することができる。 本研究では,ce-ct画像解析から腫瘍減衰信号やパターンを導出できる3次元コンボリューション型畳み込み型長期記憶ネットワーク(ce-convlstm)と呼ばれる,再生可能なpdac患者の生存予測のための新しい深層ニューラルネットワークを提案する。 腫瘍切除マージンに関連する特徴を学習し,生存率予測を改善することにより,予後とマージン予測の両課題を達成できるマルチタスクCNNを提案する。 提案手法は,既存の生存分析手法と比較して予測性能を向上させることができる。 また,本モデルから構築した腫瘍署名は,既存の臨床ステージングシステムと組み合わせた値となった。

Pancreatic ductal adenocarcinoma (PDAC) is one of the most lethal cancers and carries a dismal prognosis. Surgery remains the best chance of a potential cure for patients who are eligible for initial resection of PDAC. However, outcomes vary significantly even among the resected patients of the same stage and received similar treatments. Accurate preoperative prognosis of resectable PDACs for personalized treatment is thus highly desired. Nevertheless, there are no automated methods yet to fully exploit the contrast-enhanced computed tomography (CE-CT) imaging for PDAC. Tumor attenuation changes across different CT phases can reflect the tumor internal stromal fractions and vascularization of individual tumors that may impact the clinical outcomes. In this work, we propose a novel deep neural network for the survival prediction of resectable PDAC patients, named as 3D Contrast-Enhanced Convolutional Long Short-Term Memory network(CE-ConvLSTM), which can derive the tumor attenuation signatures or patterns from CE-CT imaging studies. We present a multi-task CNN to accomplish both tasks of outcome and margin prediction where the network benefits from learning the tumor resection margin related features to improve survival prediction. The proposed framework can improve the prediction performances compared with existing state-of-the-art survival analysis approaches. The tumor signature built from our model has evidently added values to be combined with the existing clinical staging system.
翻訳日:2022-10-24 22:14:50 公開日:2020-08-26
# 生体細胞の臓器状態と行動解析のためのシミュレーションによる深層学習

Simulation-supervised deep learning for analysing organelles states and behaviour in living cells ( http://arxiv.org/abs/2008.12617v1 )

ライセンス: Link先を確認
Arif Ahmed Sekh and Ida S. Opstad and Rohit Agarwal and Asa Birna Birgisdottir and Truls Myrmel and Balpreet Singh Ahluwalia and Krishna Agarwal and Dilip K. Prasad(参考訳) 多くの実世界の科学的問題において、教師あり学習のための基底真理(GT)の生成はほぼ不可能である。 原因には、科学機器による制限、物理現象そのもの、モデリングの複雑さが含まれる。 生体細胞の顕微鏡ビデオにおいて、ミトコンドリアなどの小さなサブ細胞構造をセグメント化、追跡、分析などの人工知能(AI)タスクを実行することが主要な例である。 顕微鏡の3次元ぼやけ機能、ピクセルサイズからのデジタル解像度、光の性質による光学解像度、ノイズ特性、ミトコンドリアの複雑な3d変形可能な形状などが、gt問題を困難にしている。 1000のフレームにまたがる100のミトコンドリアのマニュアルセグメンテーション、そして多くの動画にまたがる手動セグメンテーションは、ヘラクレス的なだけでなく、楽器や現象によって制限が課せられるため物理的に不正確である。 教師なし学習では最適な結果が得られず、治療に関連する推論が導出される場合には精度が重要である。 この不可解な問題を解決するために、我々はnexusにモデリングとディープラーニングをもたらす。 物理に基づく精密なマイクロコピーデータのモデリングは、教師あり学習のためのシミュレーショントレーニングデータセットを生成するための解決策であることを示す。 ここでは,シミュレーションによる分節化アプローチが心筋細胞におけるミトコンドリア状態や行動の解明に有効であり,ミトコンドリアは細胞の健康に重要な役割を担っていることを示した。 前例のない平均iouスコアは、生きた細胞の顕微鏡映像でミトコンドリアの2値セグメンテーション(最高の教師なしアプローチよりも19%良い)の91%である。 さらに,個別マイトンドリオンのスケールで多種分類,追跡,形態学的関連分析を行う可能性を実証する。

In many real-world scientific problems, generating ground truth (GT) for supervised learning is almost impossible. The causes include limitations imposed by scientific instrument, physical phenomenon itself, or the complexity of modeling. Performing artificial intelligence (AI) tasks such as segmentation, tracking, and analytics of small sub-cellular structures such as mitochondria in microscopy videos of living cells is a prime example. The 3D blurring function of microscope, digital resolution from pixel size, optical resolution due to the character of light, noise characteristics, and complex 3D deformable shapes of mitochondria, all contribute to making this problem GT hard. Manual segmentation of 100s of mitochondria across 1000s of frames and then across many such videos is not only herculean but also physically inaccurate because of the instrument and phenomena imposed limitations. Unsupervised learning produces less than optimal results and accuracy is important if inferences relevant to therapy are to be derived. In order to solve this unsurmountable problem, we bring modeling and deep learning to a nexus. We show that accurate physics based modeling of microscopy data including all its limitations can be the solution for generating simulated training datasets for supervised learning. We show here that our simulation-supervised segmentation approach is a great enabler for studying mitochondrial states and behaviour in heart muscle cells, where mitochondria have a significant role to play in the health of the cells. We report unprecedented mean IoU score of 91% for binary segmentation (19% better than the best performing unsupervised approach) of mitochondria in actual microscopy videos of living cells. We further demonstrate the possibility of performing multi-class classification, tracking, and morphology associated analytics at the scale of individual mitochondrion.
翻訳日:2022-10-24 22:14:28 公開日:2020-08-26
# オブジェクトアクダクタンスを利用したグラフ型認識

Grasp-type Recognition Leveraging Object Affordance ( http://arxiv.org/abs/2009.09813v1 )

ライセンス: Link先を確認
Naoki Wake, Kazuhiro Sasabuchi, Katsushi Ikeuchi(参考訳) ロボット教育における重要な課題は、単一のRGB画像とターゲットオブジェクト名を持つグリップ型認識である。 本稿では,各対象に対する把握型の事前分布を活用し,学習に基づく認識を促進するための簡易かつ効果的なパイプラインを提案する。 パイプラインでは、畳み込みニューラルネットワーク(CNN)がRGB画像からグリップタイプを認識する。 認識結果は、対象オブジェクト名に関連付けられた事前分布(即ち、余裕)を用いてさらに補正される。 実験の結果,提案手法はcnnのみの手法とアプライアンスのみの手法を上回った。 その結果,ロボット教育における把持型認識の強化に言語駆動型オブジェクトアフォーアンスの有効性が強調された。

A key challenge in robot teaching is grasp-type recognition with a single RGB image and a target object name. Here, we propose a simple yet effective pipeline to enhance learning-based recognition by leveraging a prior distribution of grasp types for each object. In the pipeline, a convolutional neural network (CNN) recognizes the grasp type from an RGB image. The recognition result is further corrected using the prior distribution (i.e., affordance), which is associated with the target object name. Experimental results showed that the proposed method outperforms both a CNN-only and an affordance-only method. The results highlight the effectiveness of linguistically-driven object affordance for enhancing grasp-type recognition in robot teaching.
翻訳日:2022-10-24 22:14:00 公開日:2020-08-26
# Wi-Fi屋内測位による博物館のアクセシビリティ

Museum Accessibility Through Wi-Fi Indoor Positioning ( http://arxiv.org/abs/2008.11340v1 )

ライセンス: Link先を確認
Antonio Bracco, Federico Grunwald, Agustin Navcevich, Germ\'an Capdehourat, Federico Larroca(参考訳) アクセシビリティは長年、世界中の主要な博物館の主要な関心事であった。 これはウルグアイの国立視覚芸術博物館(MNAV, National Museum of Visual Arts)の例外ではない。 MNAVは視覚障害者のアクセシビリティーの実現に特別な関心を抱き、これらの訪問者が新しい展示会の周囲をシームレスにツアーできるように、新しいシステムの実装を試みた。 ここでは,開発したシステムと,その展開と利用から学んだ教訓を紹介する。 特に、私たちはWi-Fi屋内位置決め技術を使って、視覚障害者が博物館内の位置情報に基づいて、自分のスマートフォンからAndroidアプリを通じて関連するオーディオを聴けるようにしました。 このシステムはさらに適応され、訪問中に一般市民の立場に応じてテキスト、音声、画像へのアクセスを可能にするために使用された。 さらに、システムのトレーニングに使用される完全なソースコードとデータセットを共有します。

Accessibility has long been a primary concern for major museums around the world. This is no exception for the Museo Nacional de Artes Visuales (MNAV, National Museum of Visual Arts) in Uruguay. Having a special interest in achieving accessibility for visually impaired visitors, the MNAV sought to implement a new system to allow these visitors a seamless tour around a new exhibit. We present here the system we developed and the lessons we learned from its deployment and usage. In particular, we used Wi-Fi indoor positioning techniques, so that visually impaired visitors could hear relevant audios through an Android app from their own smartphones based on their location inside the museum. The system was further adapted and used to assist the general public during their visits, allowing access to texts, audios and images according to their position. We furthermore share the complete source code and the dataset used to train the system.
翻訳日:2022-10-24 22:12:12 公開日:2020-08-26
# 正義の原理に対するAIの影響モデル:AI法理推論の自律的レベルを克服する

An Impact Model of AI on the Principles of Justice: Encompassing the Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2008.12615v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 人工知能(AI)の進歩をさらに進める努力は、法律の実践において重要な要素としてAILR(AI Legal Reasoning)を包含するようになる。 この研究論文では、AIの既存および将来の法的活動への注入と司法構造は、正義の中核的な原則を慎重に観察することによって行う必要があると論じられている。 このように、AIの採用は、正義の原則をつかむか、ディストピア的な方法でそれを行うか、あるいはユートピア的な方法で正義の原則を補強する可能性の2倍の可能性を秘めている。 AI法理推論のレベル・オブ・オートノミー(LoA)における正義の原則を調べることで、正義と集合集合のそれぞれの中核原理に対する影響を実証的に決定できるAIを開発し、展開する努力の根底にある緊張が続いていると判断される。

Efforts furthering the advancement of Artificial Intelligence (AI) will increasingly encompass AI Legal Reasoning (AILR) as a crucial element in the practice of law. It is argued in this research paper that the infusion of AI into existing and future legal activities and the judicial structure needs to be undertaken by mindfully observing an alignment with the core principles of justice. As such, the adoption of AI has a profound twofold possibility of either usurping the principles of justice, doing so in a Dystopian manner, and yet also capable to bolster the principles of justice, doing so in a Utopian way. By examining the principles of justice across the Levels of Autonomy (LoA) of AI Legal Reasoning, the case is made that there is an ongoing tension underlying the efforts to develop and deploy AI that can demonstrably determine the impacts and sway upon each core principle of justice and the collective set.
翻訳日:2022-10-24 22:06:14 公開日:2020-08-26
# 地上移動ロボットの乾燥地における表面正規情報の適用と道路異常検出

Applying Surface Normal Information in Drivable Area and Road Anomaly Detection for Ground Mobile Robots ( http://arxiv.org/abs/2008.11383v1 )

ライセンス: Link先を確認
Hengli Wang, Rui Fan, Yuxiang Sun, Ming Liu(参考訳) 地上移動ロボットにとって,乾燥地と道路異常の同時検出は重要な課題である。 近年,画素レベルのドリブル領域や道路異常検出に使用可能な多くの印象的な意味セグメンテーションネットワークが開発されている。 しかし、検出精度は改善される必要がある。 そこで我々は,高精細深度画像から表面正規情報を高精度かつ効率的に生成できる,NIM(Normal Inference Module)という新しいモジュールを開発した。 我々のNIMは既存の畳み込みニューラルネットワーク(CNN)に展開でき、セグメンテーション性能を改善できる。 NIMの有効性と堅牢性を評価するため,12の最先端CNNに組み込んだ。 実験の結果,NIMは乾燥領域と道路異常検出のためのCNNの性能を大幅に向上させることができることがわかった。 さらに,提案するNIM-RTFNetは,KITTIロードベンチマークで8位であり,リアルタイムの推論速度を示す。

The joint detection of drivable areas and road anomalies is a crucial task for ground mobile robots. In recent years, many impressive semantic segmentation networks, which can be used for pixel-level drivable area and road anomaly detection, have been developed. However, the detection accuracy still needs improvement. Therefore, we develop a novel module named the Normal Inference Module (NIM), which can generate surface normal information from dense depth images with high accuracy and efficiency. Our NIM can be deployed in existing convolutional neural networks (CNNs) to refine the segmentation performance. To evaluate the effectiveness and robustness of our NIM, we embed it in twelve state-of-the-art CNNs. The experimental results illustrate that our NIM can greatly improve the performance of the CNNs for drivable area and road anomaly detection. Furthermore, our proposed NIM-RTFNet ranks 8th on the KITTI road benchmark and exhibits a real-time inference speed.
翻訳日:2022-10-24 22:05:40 公開日:2020-08-26
# 低光度画像強調における参照より優れている:条件付き再エンハンスメントネットワーク

Better Than Reference In Low Light Image Enhancement: Conditional Re-Enhancement Networks ( http://arxiv.org/abs/2008.11434v1 )

ライセンス: Link先を確認
Yu Zhang, Xiaoguang Di, Bin Zhang, Ruihang Ji, and Chunhui Wang(参考訳) 低照度画像は、厳しいノイズ、低い明るさ、低いコントラストなどに悩まされる。 過去の研究では、多くの画像強調法が提案されているが、これらの問題を同時に扱う方法はほとんどない。 本稿では,これらの問題を同時に解決するために,教師付き学習と従来のHSV(Hue, Saturation, Value)やRetinexモデルに基づく画像強調手法を組み合わせた低光画像強調手法を提案する。 まず,hsv色空間とretinex理論の関係を分析し,強調画像のvチャネル(hsv色空間のvチャネル、rgb色空間の最大チャンネルと等しい)がコントラストと輝度の増大過程を表現できることを示す。 次に,データ駆動型条件付き再エンハンスメントネットワーク(CRENet)を提案する。 ネットワークは、低光画像を入力として、拡張vチャネルを条件として、低光画像のコントラストと輝度を再強化すると同時に、ノイズや色歪を低減することができる。 トレーニングプロセスの間、異なる露光時間を持つ任意のペアイメージをトレーニングに使用することができ、多くの時間を節約できる教師付きイメージを慎重に選択する必要はない点に注意が必要だ。 さらに、2080Ti GPU上で解像度400*600のカラー画像を処理するのに20ミリ秒未満である。 最後に,本手法の有効性を証明するために比較実験を行った。 この結果から,本手法は強調画像の品質を著しく向上し,他の画像コントラスト強調法と組み合わせることで,コントラストや輝度の基準画像よりも最終的な強調結果が向上する可能性が示唆された。 (コードはhttps://github.com/hitzhangyu/image-enhancement-with-denoise)。

Low light images suffer from severe noise, low brightness, low contrast, etc. In previous researches, many image enhancement methods have been proposed, but few methods can deal with these problems simultaneously. In this paper, to solve these problems simultaneously, we propose a low light image enhancement method that can combined with supervised learning and previous HSV (Hue, Saturation, Value) or Retinex model based image enhancement methods. First, we analyse the relationship between the HSV color space and the Retinex theory, and show that the V channel (V channel in HSV color space, equals the maximum channel in RGB color space) of the enhanced image can well represent the contrast and brightness enhancement process. Then, a data-driven conditional re-enhancement network (denoted as CRENet) is proposed. The network takes low light images as input and the enhanced V channel as condition, then it can re-enhance the contrast and brightness of the low light image and at the same time reduce noise and color distortion. It should be noted that during the training process, any paired images with different exposure time can be used for training, and there is no need to carefully select the supervised images which will save a lot. In addition, it takes less than 20 ms to process a color image with the resolution 400*600 on a 2080Ti GPU. Finally, some comparative experiments are implemented to prove the effectiveness of the method. The results show that the method proposed in this paper can significantly improve the quality of the enhanced image, and by combining with other image contrast enhancement methods, the final enhancement result can even be better than the reference image in contrast and brightness. (Code will be available at https://github.com/hitzhangyu/image-enhancement-with-denoise)
翻訳日:2022-10-24 22:05:23 公開日:2020-08-26
# 動的フィルタを用いた光フィールド空間超解像のための多次元融合ネットワーク

Multi-Dimension Fusion Network for Light Field Spatial Super-Resolution using Dynamic Filters ( http://arxiv.org/abs/2008.11449v1 )

ライセンス: Link先を確認
Qingyan Sun, Shuo Zhang, Song Chang, Lixi Zhu and Youfang Lin(参考訳) 光界カメラは、3D再構成と仮想現実応用のための強力なツールであることが証明されている。 しかし、光野画像の解像度が限られているため、さらなる情報表示や抽出には多くの困難が伴う。 本稿では,光場の空間分解能を向上させるための新しい学習基盤を提案する。 まず、異なる次元の特徴を並列に抽出し、多次元融合アーキテクチャで融合する。 これらの特徴は動的フィルタの生成に利用され、マイクロレンズ画像からサブピクセル情報を取り出すとともに、差分情報を暗黙的に考慮する。 最後に、アップサンプリング画像に残枝で学習されたより高周波の詳細を加え、最終超解光場を得る。 実験の結果,提案手法のパラメータは少ないが,各種データセットの最先端手法よりも優れた性能が得られることがわかった。 再構成した画像は、サブアパーチャ画像とエピポーラ平面画像の両方において、シャープな細部と異なる線を示す。

Light field cameras have been proved to be powerful tools for 3D reconstruction and virtual reality applications. However, the limited resolution of light field images brings a lot of difficulties for further information display and extraction. In this paper, we introduce a novel learning-based framework to improve the spatial resolution of light fields. First, features from different dimensions are parallelly extracted and fused together in our multi-dimension fusion architecture. These features are then used to generate dynamic filters, which extract subpixel information from micro-lens images and also implicitly consider the disparity information. Finally, more high-frequency details learned in the residual branch are added to the upsampled images and the final super-resolved light fields are obtained. Experimental results show that the proposed method uses fewer parameters but achieves better performances than other state-of-the-art methods in various kinds of datasets. Our reconstructed images also show sharp details and distinct lines in both sub-aperture images and epipolar plane images.
翻訳日:2022-10-24 22:04:52 公開日:2020-08-26
# 意味グラフに基づく3次元点雲の位置認識

Semantic Graph Based Place Recognition for 3D Point Clouds ( http://arxiv.org/abs/2008.11459v1 )

ライセンス: Link先を確認
Xin Kong, Xuemeng Yang, Guangyao Zhai, Xiangrui Zhao, Xianfang Zeng, Mengmeng Wang, Yong Liu, Wanlong Li, Feng Wen(参考訳) 咬合や視点変化に頑健な効果的なディスクリプタの生成が困難であるため,3dポイントクラウドの場所認識は未解決のままである。 原点雲の局所的,大域的,統計的特徴の抽出に焦点をあてた既存の手法と異なり,本手法では,環境変化に対するロバスト性において優れた意味レベルを目標としている。 意味対象を識別し,その関係を捉えて場面を認識する人間の視点に着想を得て,新しい意味グラフに基づく位置認識手法を提案する。 まず,原点クラウドの意味的・トポロジカルな情報を保存して,点クラウドシーンのための新しい意味グラフ表現を提案する。 したがって、位置認識はグラフマッチング問題としてモデル化される。 そして,その類似性を計算するために,高速で効率的なグラフ類似性ネットワークを設計する。 KITTIデータセットの排他的評価は、我々のアプローチが閉塞に対して頑健であり、視点の変化も大きく、最先端の手法よりも優れていることを示している。 私たちのコードは、 \url{https://github.com/kxhit/sg_pr} で利用可能です。

Due to the difficulty in generating the effective descriptors which are robust to occlusion and viewpoint changes, place recognition for 3D point cloud remains an open issue. Unlike most of the existing methods that focus on extracting local, global, and statistical features of raw point clouds, our method aims at the semantic level that can be superior in terms of robustness to environmental changes. Inspired by the perspective of humans, who recognize scenes through identifying semantic objects and capturing their relations, this paper presents a novel semantic graph based approach for place recognition. First, we propose a novel semantic graph representation for the point cloud scenes by reserving the semantic and topological information of the raw point cloud. Thus, place recognition is modeled as a graph matching problem. Then we design a fast and effective graph similarity network to compute the similarity. Exhaustive evaluations on the KITTI dataset show that our approach is robust to the occlusion as well as viewpoint changes and outperforms the state-of-the-art methods with a large margin. Our code is available at: \url{https://github.com/kxhit/SG_PR}.
翻訳日:2022-10-24 22:04:39 公開日:2020-08-26
# アニメから現実への服:画像から画像への翻訳によるコスプレ衣装生成

Anime-to-Real Clothing: Cosplay Costume Generation via Image-to-Image Translation ( http://arxiv.org/abs/2008.11479v1 )

ライセンス: Link先を確認
Koya Tango, Marie Katsurai, Hayato Maki, Ryosuke Goto(参考訳) cosplayはファンコンベンションの始まりから10億ドルの世界的なドレス現象へと成長してきた。 アニメーション画像から実際の衣服への想像と解釈を容易にするために,画像から画像への変換に基づく自動衣装画像生成手法を提案する。 cosplayのアイテムはスタイルや形状がかなり多様であり、従来の手法は、この研究の焦点である衣服画像の幅広いバリエーションに直接適用することはできない。 この問題を解決するために,本手法では,アニメ領域と実領域のクリーンなペアデータセットを作成するために,web画像の収集と前処理から始める。 次に,高品質コスプレ画像生成を容易にするために,gans(generative adversarial network)のための新しいアーキテクチャを提案する。 我々のGANは2つの領域間のギャップを埋め、生成した画像のグローバルな一貫性と局所的な一貫性を改善するために、いくつかの効果的な技術から構成されている。 実験により,2種類の評価指標を用いて,提案したGANは既存手法よりも優れた性能を示した。 また,提案手法により生成された画像は,従来の手法よりもリアルであることを示した。 私たちのコードと事前訓練されたモデルは、Webで利用可能です。

Cosplay has grown from its origins at fan conventions into a billion-dollar global dress phenomenon. To facilitate imagination and reinterpretation from animated images to real garments, this paper presents an automatic costume image generation method based on image-to-image translation. Cosplay items can be significantly diverse in their styles and shapes, and conventional methods cannot be directly applied to the wide variation in clothing images that are the focus of this study. To solve this problem, our method starts by collecting and preprocessing web images to prepare a cleaned, paired dataset of the anime and real domains. Then, we present a novel architecture for generative adversarial networks (GANs) to facilitate high-quality cosplay image generation. Our GAN consists of several effective techniques to fill the gap between the two domains and improve both the global and local consistency of generated images. Experiments demonstrated that, with two types of evaluation metrics, the proposed GAN achieves better performance than existing methods. We also showed that the images generated by the proposed method are more realistic than those generated by the conventional methods. Our codes and pretrained model are available on the web.
翻訳日:2022-10-24 22:04:20 公開日:2020-08-26
# 直感的ヒューマンマシンインタラクションのためのスケルトンデータからのジェスチャー認識

Gesture Recognition from Skeleton Data for Intuitive Human-Machine Interaction ( http://arxiv.org/abs/2008.11497v1 )

ライセンス: Link先を確認
Andr\'e Br\'as, Miguel Sim\~ao, Pedro Neto(参考訳) 人間のジェスチャー認識は、人間と機械の相互作用のような産業応用において重要な役割を担っている。 Kinectセンサによって提供される骨格データから得られた手作り特徴の集合に基づいて,動的ジェスチャーのセグメント化と分類を行う手法を提案する。 ジェスチャー検出用モジュールは、フレームワイドバイナリ分類を実行するフィードフォワードニューラルネットワークに依存している。 ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。 そして、異なる期間のウィンドウを組み合わせることで、マルチテンポラリスケールのアプローチと、さらなるパフォーマンス向上を実現します。 また,近年の時系列領域におけるリカレントニューラルネットワークの成功にともなう,双方向長短期記憶細胞に基づく同時ジェスチャー分割と分類手法を提案する。 私たちはchalearn looking at people challenge 2014で公開されたデータセット上のすべての異なるアプローチを評価します。 最も効果的な方法は、0.75のjaccardインデックスを達成している。 最後に、認識されたジェスチャーは、協調ロボットと対話するために使用される。

Human gesture recognition has assumed a capital role in industrial applications, such as Human-Machine Interaction. We propose an approach for segmentation and classification of dynamic gestures based on a set of handcrafted features, which are drawn from the skeleton data provided by the Kinect sensor. The module for gesture detection relies on a feedforward neural network which performs framewise binary classification. The method for gesture recognition applies a sliding window, which extracts information from both the spatial and temporal dimensions. Then we combine windows of varying durations to get a multi-temporal scale approach and an additional gain in performance. Encouraged by the recent success of Recurrent Neural Networks for time series domains, we also propose a method for simultaneous gesture segmentation and classification based on the bidirectional Long Short-Term Memory cells, which have shown ability for learning the temporal relationships on long temporal scales. We evaluate all the different approaches on the dataset published for the ChaLearn Looking at People Challenge 2014. The most effective method achieves a Jaccard index of 0.75, which suggests a performance almost on pair with that presented by the state-of-the-art techniques. At the end, the recognized gestures are used to interact with a collaborative robot.
翻訳日:2022-10-24 22:04:01 公開日:2020-08-26
# 領域一般化心臓セグメンテーションのためのアンタングル表現

Disentangled Representations for Domain-generalized Cardiac Segmentation ( http://arxiv.org/abs/2008.11514v1 )

ライセンス: Link先を確認
Xiao Liu, Spyridon Thermos, Agisilaos Chartsias, Alison O'Neil and Sotirios A. Tsaftaris(参考訳) 異なる領域の未確認データに対して,既存の手法が良好な性能を達成できないため,ロバスト心画像分割は依然として未解決の課題である。 医療データの取得とアノテーションは費用と時間を要するため、最近の研究は、異なる集団とスキャナーのデータ間のギャップを埋めるために、ドメイン適応と一般化に焦点を当てている。 本稿では、最先端心臓セグメンテーションモデルのドメイン適応と一般化能力の向上に焦点を当てた2つのデータ拡張手法を提案する。 特に,画像の解像度を異なるスキャナープロトコルの範囲内で異なる解像度に再スケーリングすることで,より多様なデータを生成する。 その後,本手法では,元のサンプルを有界空間に投影し,異なる領域から学習された解剖学とモダリティの要素を組み合わせることにより,より多様なデータを生成する。 広範な実験により,ロバストな心臓画像セグメンテーションを実現するためのモデル一般化能力だけでなく,見えない領域と未知領域の効率的な適応の重要性が実証された。

Robust cardiac image segmentation is still an open challenge due to the inability of the existing methods to achieve satisfactory performance on unseen data of different domains. Since the acquisition and annotation of medical data are costly and time-consuming, recent work focuses on domain adaptation and generalization to bridge the gap between data from different populations and scanners. In this paper, we propose two data augmentation methods that focus on improving the domain adaptation and generalization abilities of state-to-the-art cardiac segmentation models. In particular, our "Resolution Augmentation" method generates more diverse data by rescaling images to different resolutions within a range spanning different scanner protocols. Subsequently, our "Factor-based Augmentation" method generates more diverse data by projecting the original samples onto disentangled latent spaces, and combining the learned anatomy and modality factors from different domains. Our extensive experiments demonstrate the importance of efficient adaptation between seen and unseen domains, as well as model generalization ability, to robust cardiac image segmentation.
翻訳日:2022-10-24 22:03:43 公開日:2020-08-26
# 計算病理学のためのオブジェクト指向非教師なし表現学習

Orientation-Disentangled Unsupervised Representation Learning for Computational Pathology ( http://arxiv.org/abs/2008.11673v1 )

ライセンス: Link先を確認
Maxime W. Lafarge, Josien P.W. Pluim and Mitko Veta(参考訳) 教師なし学習は、アノテーションを必要とせずに複雑な画像をモデリングできる。 このようなモデルによって学習された表現は、後の大きな画像データセットの分析を容易にすることができる。 しかし、画像の無関係な変異を引き起こすいくつかの生成要因は、そのような学習された表現に絡み合う可能性があるため、その後の使用に悪影響を及ぼすリスクがある。 例えば、画像化されたオブジェクトの向きは、しばしば任意の/非関連であるため、他のすべての要因から向き情報が切り離された表現を学ぶことが望まれる。 本稿では, 回転同変畳み込みネットワークの群構造を利用して, 組織像の向きの異なる生成因子を学習することにより, 変分自動エンコーダフレームワークの拡張を提案する。 このようにして、向き付けと等方性成分が分離するように、潜在空間の新しい分割を強制する。 核多型と分裂活性を専門の病理学者が評価した組織領域からなるデータセット上で,この構造的表現を評価した。 訓練されたモデルは,単細胞画像の固有方向情報を効率的に分離する。 古典的なアプローチと比較して、結果として生じる細胞のサブ人口の集約表現は、その後のタスクでより高いパフォーマンスを生み出す。

Unsupervised learning enables modeling complex images without the need for annotations. The representation learned by such models can facilitate any subsequent analysis of large image datasets. However, some generative factors that cause irrelevant variations in images can potentially get entangled in such a learned representation causing the risk of negatively affecting any subsequent use. The orientation of imaged objects, for instance, is often arbitrary/irrelevant, thus it can be desired to learn a representation in which the orientation information is disentangled from all other factors. Here, we propose to extend the Variational Auto-Encoder framework by leveraging the group structure of rotation-equivariant convolutional networks to learn orientation-wise disentangled generative factors of histopathology images. This way, we enforce a novel partitioning of the latent space, such that oriented and isotropic components get separated. We evaluated this structured representation on a dataset that consists of tissue regions for which nuclear pleomorphism and mitotic activity was assessed by expert pathologists. We show that the trained models efficiently disentangle the inherent orientation information of single-cell images. In comparison to classical approaches, the resulting aggregated representation of sub-populations of cells produces higher performances in subsequent tasks.
翻訳日:2022-10-24 22:03:26 公開日:2020-08-26
# DRG:人間と物体の相互作用検出のための二重関係グラフ

DRG: Dual Relation Graph for Human-Object Interaction Detection ( http://arxiv.org/abs/2008.11714v1 )

ライセンス: Link先を確認
Chen Gao, Jiarui Xu, Yuliang Zou, Jia-Bin Huang(参考訳) 人-物間相互作用(HOI)検出の課題に対処する。 既存の手法では、人間と物体のペア間の相互作用を分離して認識するか、複雑な外観に基づく特徴に基づく共同推論を行う。 本稿では,2つの関係グラフ(人間中心と物体中心の1つ)を用いて,抽象的空間意味表現を活用し,各対象ペアを記述し,シーンの文脈情報を集約する。 提案する二重関係グラフは,現場からの識別的手がかりを効果的に捉え,局所的な予測からあいまいさを解決する。 我々のモデルは概念的に単純であり、2つの大規模ベンチマークデータセット上での最先端のHOI検出アルゴリズムと比較して良好な結果をもたらす。

We tackle the challenging problem of human-object interaction (HOI) detection. Existing methods either recognize the interaction of each human-object pair in isolation or perform joint inference based on complex appearance-based features. In this paper, we leverage an abstract spatial-semantic representation to describe each human-object pair and aggregate the contextual information of the scene via a dual relation graph (one human-centric and one object-centric). Our proposed dual relation graph effectively captures discriminative cues from the scene to resolve ambiguity from local predictions. Our model is conceptually simple and leads to favorable results compared to the state-of-the-art HOI detection algorithms on two large-scale benchmark datasets.
翻訳日:2022-10-24 21:57:14 公開日:2020-08-26
# ロバスト物体追跡のためのグローバル構造一貫性の学習

Learning Global Structure Consistency for Robust Object Tracking ( http://arxiv.org/abs/2008.11769v1 )

ライセンス: Link先を確認
Bi Li, Chengquan Zhang, Zhibin Hong, Xu Tang, Jingtuo Liu, Junyu Han, Errui Ding, Wenyu Liu(参考訳) 視覚的物体追跡において、外見の変化や類似物体の散逸は最も困難な問題である。 ターゲットのみをモデリングすることに焦点を当てた既存の多くのトラッカーとは異なり、この作業では、シーン全体のenmph{transient variations of the scene} を考える。 重要な洞察は、シーン全体のオブジェクト対応と空間レイアウトが連続したフレームで一貫性があり(すなわち、グローバル構造の一貫性)、ターゲットを邪魔者から遠ざけるのに役立つ、ということである。 さらに、過渡変動のモデリングにより、ターゲットを高速変動下でローカライズすることができる。 具体的には,グローバルな構造的一貫性を短時間で活用し,高速な変動や乱れを処理できる,効率的かつ効率的な短期モデルを提案する。 短期モデリングは、オクルージョンの扱いに不足しているため、ロングショート・ターム・パラダイムを採用し、ターゲットから遠ざかっている場合やターゲットが存在しない場合の短期モデルを修正する長期モデルを用いている。 これら2つのコンポーネントは、トラッキング中の安定性と可塑性のバランスを達成するために慎重に結合される。 提案するトラッカが2つの困難なシナリオに対処し,大規模ベンチマークで検証できることを実証的に検証する。 我々のトラッカーは、VOT2018の最先端性能を0.440から0.460に改善し、GOT-10kは0.611から0.640に、NFSは0.619から0.629に改善した。

Fast appearance variations and the distractions of similar objects are two of the most challenging problems in visual object tracking. Unlike many existing trackers that focus on modeling only the target, in this work, we consider the \emph{transient variations of the whole scene}. The key insight is that the object correspondence and spatial layout of the whole scene are consistent (i.e., global structure consistency) in consecutive frames which helps to disambiguate the target from distractors. Moreover, modeling transient variations enables to localize the target under fast variations. Specifically, we propose an effective and efficient short-term model that learns to exploit the global structure consistency in a short time and thus can handle fast variations and distractors. Since short-term modeling falls short of handling occlusion and out of the views, we adopt the long-short term paradigm and use a long-term model that corrects the short-term model when it drifts away from the target or the target is not present. These two components are carefully combined to achieve the balance of stability and plasticity during tracking. We empirically verify that the proposed tracker can tackle the two challenging scenarios and validate it on large scale benchmarks. Remarkably, our tracker improves state-of-the-art-performance on VOT2018 from 0.440 to 0.460, GOT-10k from 0.611 to 0.640, and NFS from 0.619 to 0.629.
翻訳日:2022-10-24 21:56:32 公開日:2020-08-26
# 非知覚的偽装攻撃の計測駆動型セキュリティ解析

Measurement-driven Security Analysis of Imperceptible Impersonation Attacks ( http://arxiv.org/abs/2008.11772v1 )

ライセンス: Link先を確認
Shasha Li, Karim Khalil, Rameswar Panda, Chengyu Song, Srikanth V. Krishnamurthy, Amit K. Roy-Chowdhury, Ananthram Swami(参考訳) IoT(Internet of Things)の出現は、サイバー空間と物理空間の交差点において、新たなセキュリティ上の課題をもたらす。 主な例として、IoTシステムにおける顔認識(FR)ベースのアクセス制御の脆弱性がある。 これまでの研究では、深層ニューラルネットワーク(dnn)ベースのfrシステム(frs)は、不可避な偽装攻撃の影響を受けやすいことが示されているが、幅広いシナリオにおけるそのような攻撃の能力は十分に調査されていない。 本稿では,大規模データセットを用いたdnnベースのfrシステムの活用可能性について,初めて体系的かつ広域に計測する。 任意の攻撃者が任意の標的を偽装する任意の偽装攻撃は、知覚不能が補助目標である場合、困難である。 具体的には、肌の色、性別、年齢といった要因が、特定のターゲットの被害者に対して、異なる範囲で攻撃を行う能力に影響を及ぼすことを示す。 また,攻撃者の顔の異なるポーズや視点にロバストなユニバーサルアタックを構築する可能性についても検討した。 その結果,攻撃者の視点からは,普遍的摂動の発見ははるかに難しい問題であることがわかった。 最後に、摂動画像は異なるDNNモデル間ではうまく一般化しないことがわかった。 このことは、DNNベースのFRシステムのエクスプロイラビリティを劇的に低下させるセキュリティ対策を示唆している。

The emergence of Internet of Things (IoT) brings about new security challenges at the intersection of cyber and physical spaces. One prime example is the vulnerability of Face Recognition (FR) based access control in IoT systems. While previous research has shown that Deep Neural Network(DNN)-based FR systems (FRS) are potentially susceptible to imperceptible impersonation attacks, the potency of such attacks in a wide set of scenarios has not been thoroughly investigated. In this paper, we present the first systematic, wide-ranging measurement study of the exploitability of DNN-based FR systems using a large scale dataset. We find that arbitrary impersonation attacks, wherein an arbitrary attacker impersonates an arbitrary target, are hard if imperceptibility is an auxiliary goal. Specifically, we show that factors such as skin color, gender, and age, impact the ability to carry out an attack on a specific target victim, to different extents. We also study the feasibility of constructing universal attacks that are robust to different poses or views of the attacker's face. Our results show that finding a universal perturbation is a much harder problem from the attacker's perspective. Finally, we find that the perturbed images do not generalize well across different DNN models. This suggests security countermeasures that can dramatically reduce the exploitability of DNN-based FR systems.
翻訳日:2022-10-24 21:56:06 公開日:2020-08-26
# モジュラーコーデックアバターによる表現的テレプレゼンス

Expressive Telepresence via Modular Codec Avatars ( http://arxiv.org/abs/2008.11789v1 )

ライセンス: Link先を確認
Hang Chu, Shugao Ma, Fernando De la Torre, Sanja Fidler, Yaser Sheikh(参考訳) vr telepresenceは、アバターで表される仮想空間内の他の人間と対話する。 現在、ほとんどのアバターは漫画的だが、近くこの技術はビデオリアリスティックなものを可能にする。 本稿では,VRヘッドセットのカメラによって駆動される超現実的な顔を生成する手法である,Modular Codec Avatars (MCA)を提案する。 mcaは伝統的なコーデックアバター(ca)を拡張し、全体モデルから学習されたモジュラ表現に置き換える。 従来の個人固有のCAは、少数のトレーニングサンプルから学習され、通常、表情の転送時の表現力の制限だけでなく、堅牢性も欠如していることに注意する必要がある。 MCAは、様々な顔成分の適応的なブレンディングと、模範に基づく潜在アライメントを学習することで、これらの問題を解決する。 我々は,MCAが様々な実世界のデータセットや実践シナリオにおいて,CAからCAへの表現性や堅牢性を向上できることを実証した。 最後に,提案モデルによって実現されるvrテレプレゼンスにおける新しいアプリケーションを紹介する。

VR telepresence consists of interacting with another human in a virtual space represented by an avatar. Today most avatars are cartoon-like, but soon the technology will allow video-realistic ones. This paper aims in this direction and presents Modular Codec Avatars (MCA), a method to generate hyper-realistic faces driven by the cameras in the VR headset. MCA extends traditional Codec Avatars (CA) by replacing the holistic models with a learned modular representation. It is important to note that traditional person-specific CAs are learned from few training samples, and typically lack robustness as well as limited expressiveness when transferring facial expressions. MCAs solve these issues by learning a modulated adaptive blending of different facial components as well as an exemplar-based latent alignment. We demonstrate that MCA achieves improved expressiveness and robustness w.r.t to CA in a variety of real-world datasets and practical scenarios. Finally, we showcase new applications in VR telepresence enabled by the proposed model.
翻訳日:2022-10-24 21:55:45 公開日:2020-08-26
# 列型類似度尺度を用いた資源制約機器用文書画像からの表構造検出

Tabular Structure Detection from Document Images for Resource Constrained Devices Using A Row Based Similarity Measure ( http://arxiv.org/abs/2008.11842v1 )

ライセンス: Link先を確認
Soumyadeep Dey, Jayanta Mukhopadhyay, Shamik Sural(参考訳) タブラル構造は、構造的で明快な方法で重要な情報を示すために使用される。 このような領域の検出は、文書の適切な理解において非常に重要である。 表構造は様々なレイアウトと型を持つことができる。 したがって、これらの領域の検出は難しい問題である。 既存の技術のほとんどは、テーブルの構造に関する事前の知識を用いて、ドキュメントイメージからテーブルを検出する。 しかし、これらの手法は一般化された表構造には適用できない。 本研究では,表構造における一対の行間の類似性を求めるための類似度尺度を提案する。 この類似度尺度を用いて表状領域を同定する。 表領域は全ての行間の類似性を利用して検出されるため、訓練データに存在する表領域のレイアウトとは本質的に無関係である。 さらに,近年の深層学習法に関連するパラメータ集合を用いることなく,類似度尺度を用いて表領域の同定を行うことができる。 提案手法は,モバイル機器などの資源制約されたデバイスで,オーバーヘッドを伴わずに容易に利用することができる。

Tabular structures are used to present crucial information in a structured and crisp manner. Detection of such regions is of great importance for proper understanding of a document. Tabular structures can be of various layouts and types. Therefore, detection of these regions is a hard problem. Most of the existing techniques detect tables from a document image by using prior knowledge of the structures of the tables. However, these methods are not applicable for generalized tabular structures. In this work, we propose a similarity measure to find similarities between pairs of rows in a tabular structure. This similarity measure is utilized to identify a tabular region. Since the tabular regions are detected exploiting the similarities among all rows, the method is inherently independent of layouts of the tabular regions present in the training data. Moreover, the proposed similarity measure can be used to identify tabular regions without using large sets of parameters associated with recent deep learning based methods. Thus, the proposed method can easily be used with resource constrained devices such as mobile devices without much of an overhead.
翻訳日:2022-10-24 21:55:28 公開日:2020-08-26
# NMSに代わる決定点プロセス

Determinantal Point Process as an alternative to NMS ( http://arxiv.org/abs/2008.11451v1 )

ライセンス: Link先を確認
Samik Some, Mithun Das Gupta, Vinay P. Namboodiri(参考訳) 我々は、非最大抑圧(NMS)に代わるDPP(Determinantal point process)を考案し、すべての最先端オブジェクト検出フレームワークにおいて不可欠なステップとなった。 DPPはサブセット選択問題の多様性を促進することが示されている。 我々はNMSをサブセット選択問題とし、DPPライクなフレームワークを直接組み込むことでオブジェクト検出システム全体の性能を向上させることができると仮定する。 我々はNMSと同一の入力を持つ最適化問題を提案するが、新しいサブモジュラリティに基づく多様なサブセット選択関数を導入する。 この結果から,本論文で提案する修正は,最先端のオブジェクト検出パイプラインに一貫した改善をもたらすことが示唆された。

We present a determinantal point process (DPP) inspired alternative to non-maximum suppression (NMS) which has become an integral step in all state-of-the-art object detection frameworks. DPPs have been shown to encourage diversity in subset selection problems. We pose NMS as a subset selection problem and posit that directly incorporating DPP like framework can improve the overall performance of the object detection system. We propose an optimization problem which takes the same inputs as NMS, but introduces a novel sub-modularity based diverse subset selection functional. Our results strongly indicate that the modifications proposed in this paper can provide consistent improvements to state-of-the-art object detection pipelines.
翻訳日:2022-10-24 21:49:03 公開日:2020-08-26
# smap: 単発多人数絶対3次元ポーズ推定

SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation ( http://arxiv.org/abs/2008.11469v1 )

ライセンス: Link先を確認
Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, Xiaowei Zhou(参考訳) 単一のRGB画像から絶対スケールで複数の人物の3Dポーズを復元することは、単一の視点から固有の深さとスケールのあいまいさのために難しい問題である。 この曖昧さに対処するには、ボディサイズ、シーンレイアウト、対人関係など、画像全体に様々な手がかりを集約する必要がある。 しかし,従来の手法では,まず2次元ポーズ検出を行うトップダウン方式を採用し,次いで検出された人ごとの3次元ポーズとスケールを回帰し,グローバルな文脈的手がかりを無視する。 本稿では,まず,この2.5D表現に基づいて,まず体部品の2.5D表現を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。 このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。 実験により,提案手法がcmu panopticおよびmupots-3dデータセットの最先端性能を達成し,wildビデオに適用可能であることを示す。

Recovering multi-person 3D poses with absolute scales from a single RGB image is a challenging problem due to the inherent depth and scale ambiguity from a single view. Addressing this ambiguity requires to aggregate various cues over the entire image, such as body sizes, scene layouts, and inter-person relationships. However, most previous methods adopt a top-down scheme that first performs 2D pose detection and then regresses the 3D pose and scale for each detected person individually, ignoring global contextual cues. In this paper, we propose a novel system that first regresses a set of 2.5D representations of body parts and then reconstructs the 3D absolute poses based on these 2.5D representations with a depth-aware part association algorithm. Such a single-shot bottom-up scheme allows the system to better learn and reason about the inter-person depth relationship, improving both 3D and 2D pose estimation. The experiments demonstrate that the proposed approach achieves the state-of-the-art performance on the CMU Panoptic and MuPoTS-3D datasets and is applicable to in-the-wild videos.
翻訳日:2022-10-24 21:48:53 公開日:2020-08-26
# バードアイビュー表示とCNNを用いた混雑ハイウェイシナリオの車両軌道予測

Vehicle Trajectory Prediction in Crowded Highway Scenarios Using Bird Eye View Representations and CNNs ( http://arxiv.org/abs/2008.11493v1 )

ライセンス: Link先を確認
R. Izquierdo, A. Quintanar, I. Parra, D. Fernandez-Llorca, and M. A. Sotelo(参考訳) 本稿では,グラフィック表現を用いた車両軌道予測手法を提案する。 車両はガウス分布を用いてバードアイビューに表現される。 次に、U-netモデルを用いてシーケンス予測を行う。 このディープラーニングベースの方法論は、空中画像から高速道路のシナリオで車両の検出を含むHighDデータセットを使用して訓練されている。 この問題は、交通参加者間の基盤となる関係を学習するためにネットワークを訓練する画像回帰問題である。 このアプローチは、軌跡や数値的な位置ではなく、入力シーンの将来の出現を推定する。 サブピクセル解像度で予測された表現から位置を抽出する余分なステップが実行される。 異なるネットワーク構成がテストされており、予測エラーが3秒先にあるのは、表示解像度の順である。 このモデルは、30台以上の車両を同時に2つの反対の交通流で試験し、質的かつ定量的な結果を示した。

This paper describes a novel approach to perform vehicle trajectory predictions employing graphic representations. The vehicles are represented using Gaussian distributions into a Bird Eye View. Then the U-net model is used to perform sequence to sequence predictions. This deep learning-based methodology has been trained using the HighD dataset, which contains vehicles' detection in a highway scenario from aerial imagery. The problem is faced as an image to image regression problem training the network to learn the underlying relations between the traffic participants. This approach generates an estimation of the future appearance of the input scene, not trajectories or numeric positions. An extra step is conducted to extract the positions from the predicted representation with subpixel resolution. Different network configurations have been tested, and prediction error up to three seconds ahead is in the order of the representation resolution. The model has been tested in highway scenarios with more than 30 vehicles simultaneously in two opposite traffic flow streams showing good qualitative and quantitative results.
翻訳日:2022-10-24 21:48:34 公開日:2020-08-26
# マルチレベル注意領域適応ネットワークによる石油ヤシの交叉数と検出

Cross-regional oil palm tree counting and detection via multi-level attention domain adaptation network ( http://arxiv.org/abs/2008.11505v1 )

ライセンス: Link先を確認
Juepeng Zheng, Haohuan Fu, Weijia Li, Wenzhao Wu, Yi Zhao, Runmin Dong and Le Yu(参考訳) 広い地域でヤシの植林の正確な評価を行うことは、経済と生態の両方に有意義な影響を与える可能性がある。 しかし、この巨大空間スケールと地域ごとの地質学的特徴は、手動による人的監視に基づく限定的な解決法において大きな課題となっている。 近年、ディープラーニングベースのアルゴリズムは、自動化アプローチを形成する可能性を示しているが、異なる領域で異なる特徴をカバーするのに必要なラベル付け作業は、大規模問題におけるその効果に大きく依存している。 本稿では,マルチレベルアテンション領域適応ネットワーク(MADAN)を用いて,地域横断のオイルパームを数える新しい領域適応型オイルパーム木検出手法を提案する。 まず、バッチインスタンス正規化ネットワーク(BIN)ベースの特徴抽出器を用いて、モデルの一般化能力を向上し、バッチ正規化とインスタンス正規化を統合した。 第2に,マルチレベルアテンション機構(MLA)をアーキテクチャに組み込んで,機能レベルのアテンションとエントロピーレベルのアテンションを含むトランスファービリティを向上させる。 次に,エントロピーレベルの注意値をエントロピーペナルティに割り当てることで,分類器予測の信頼性を高めるための最小エントロピー正規化(mer)を考案した。 最後に,スライディングウィンドウに基づく予測とiouに基づく後処理手法を用いて最終検出結果を得た。 大規模ヤシ植林地域の3つの異なる衛星画像を用いて,6つの移動作業による包括的アブレーション実験を行った。 madanは検出精度をベースライン法(daなし)と比較して平均f1スコアで14.98%向上させ、既存のドメイン適応法よりも3.55%-14.49%向上した。

Providing an accurate evaluation of palm tree plantation in a large region can bring meaningful impacts in both economic and ecological aspects. However, the enormous spatial scale and the variety of geological features across regions has made it a grand challenge with limited solutions based on manual human monitoring efforts. Although deep learning based algorithms have demonstrated potential in forming an automated approach in recent years, the labelling efforts needed for covering different features in different regions largely constrain its effectiveness in large-scale problems. In this paper, we propose a novel domain adaptive oil palm tree detection method, i.e., a Multi-level Attention Domain Adaptation Network (MADAN) to reap cross-regional oil palm tree counting and detection. MADAN consists of 4 procedures: First, we adopted a batch-instance normalization network (BIN) based feature extractor for improving the generalization ability of the model, integrating batch normalization and instance normalization. Second, we embedded a multi-level attention mechanism (MLA) into our architecture for enhancing the transferability, including a feature level attention and an entropy level attention. Then we designed a minimum entropy regularization (MER) to increase the confidence of the classifier predictions through assigning the entropy level attention value to the entropy penalty. Finally, we employed a sliding window-based prediction and an IOU based post-processing approach to attain the final detection results. We conducted comprehensive ablation experiments using three different satellite images of large-scale oil palm plantation area with six transfer tasks. MADAN improves the detection accuracy by 14.98% in terms of average F1-score compared with the Baseline method (without DA), and performs 3.55%-14.49% better than existing domain adaptation methods.
翻訳日:2022-10-24 21:48:20 公開日:2020-08-26
# 映像における物体分割のための3次元畳み込みの事例

Making a Case for 3D Convolutions for Object Segmentation in Videos ( http://arxiv.org/abs/2008.11516v1 )

ライセンス: Link先を確認
Sabarinath Mahadevan, Ali Athar, Aljo\v{s}a O\v{s}ep, Sebastian Hennen, Laura Leal-Taix\'e, Bastian Leibe(参考訳) ビデオにおけるオブジェクトセグメンテーションの課題は、通常、標準的な2次元畳み込みネットワークを用いて外見と動き情報を別々に処理し、続いて2つの情報源の融合によって達成される。 一方,3次元畳み込みネットワークは,映像分類タスクにうまく適用されてきたが,2次元畳み込みネットワークに比べ,ピクセル当たりの密接な解釈問題や,前述のネットワークの遅れといった問題に対して,性能面では有効に活用されていない。 本研究では,salient object segmentationのような密集した映像予測タスクに3d cnnを効果的に適用できることを示す。 本稿では,標準的なクロスエントロピー損失を用いてエンドツーエンドにトレーニング可能な3次元畳み込みからなる,シンプルで効果的なエンコーダ・デコーダネットワークアーキテクチャを提案する。 そこで我々は,効率的な3Dエンコーダを活用し,新しい3Dグローバル畳み込み層と3Dリファインメントモジュールからなる3Dデコーダアーキテクチャを提案する。 提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalのベンチマークの高速化に加えて,既存の最先端技術よりも優れ,表現時空間の特徴を効率的に学習し,高品質なビデオセグメンテーションマスクを作成できることを示す。 私たちのコードとモデルは公開されます。

The task of object segmentation in videos is usually accomplished by processing appearance and motion information separately using standard 2D convolutional networks, followed by a learned fusion of the two sources of information. On the other hand, 3D convolutional networks have been successfully applied for video classification tasks, but have not been leveraged as effectively to problems involving dense per-pixel interpretation of videos compared to their 2D convolutional counterparts and lag behind the aforementioned networks in terms of performance. In this work, we show that 3D CNNs can be effectively applied to dense video prediction tasks such as salient object segmentation. We propose a simple yet effective encoder-decoder network architecture consisting entirely of 3D convolutions that can be trained end-to-end using a standard cross-entropy loss. To this end, we leverage an efficient 3D encoder, and propose a 3D decoder architecture, that comprises novel 3D Global Convolution layers and 3D Refinement modules. Our approach outperforms existing state-of-the-arts by a large margin on the DAVIS'16 Unsupervised, FBMS and ViSal dataset benchmarks in addition to being faster, thus showing that our architecture can efficiently learn expressive spatio-temporal features and produce high quality video segmentation masks. Our code and models will be made publicly available.
翻訳日:2022-10-24 21:47:43 公開日:2020-08-26
# EPIC-Kitchensデータセットにおけるシーケンス駆動型時間サンプリングとエゴ運動補償に関する前向き研究

A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion Compensation for Action Recognition in the EPIC-Kitchens Dataset ( http://arxiv.org/abs/2008.11588v1 )

ライセンス: Link先を確認
Alejandro L\'opez-Cifuentes, Marcos Escudero-Vi\~nolo, Jes\'us Besc\'os(参考訳) アクション認識は現在、コンピュータビジョンにおける最上位の研究分野の1つである。 畳み込みニューラルネットワーク(CNN)は、その性能を大幅に向上させたが、解析の固定サイズの時空間ウィンドウに依存し、CNNの時間受容領域を減少させた。 アクション認識データセットでは、エゴセントリックな記録シーケンスが重要な関連性を持つ一方で、追加の課題も伴っている。 提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。 この推定は、ビデオシーケンスを、安定した背景下での動作を示し、コンテンツ駆動のテンポラリサンプリングを可能にする動き補償されたテンポラリ \textit{chunks}に時間分割するために使用される。 エンドツーエンドでトレーニングされたCNNを使用して、遅れた各 \textit{chunk} から時間的特徴を抽出する。 このプロセスは、動作の時間的範囲全体から特徴を抽出し、ネットワークの時間的受容野を増加させる。

Action recognition is currently one of the top-challenging research fields in computer vision. Convolutional Neural Networks (CNNs) have significantly boosted its performance but rely on fixed-size spatio-temporal windows of analysis, reducing CNNs temporal receptive fields. Among action recognition datasets, egocentric recorded sequences have become of important relevance while entailing an additional challenge: ego-motion is unavoidably transferred to these sequences. The proposed method aims to cope with it by estimating this ego-motion or camera motion. The estimation is used to temporally partition video sequences into motion-compensated temporal \textit{chunks} showing the action under stable backgrounds and allowing for a content-driven temporal sampling. A CNN trained in an end-to-end fashion is used to extract temporal features from each \textit{chunk}, which are late fused. This process leads to the extraction of features from the whole temporal range of an action, increasing the temporal receptive field of the network.
翻訳日:2022-10-24 21:47:05 公開日:2020-08-26
# 周期型生成対向ネットワークに基づくテキストベースCAPTCHAのエンドツーエンド攻撃

An End-to-End Attack on Text-based CAPTCHAs Based on Cycle-Consistent Generative Adversarial Network ( http://arxiv.org/abs/2008.11603v1 )

ライセンス: Link先を確認
Chunhui Li, Xingshu Chen, Haizhou Wang, Yu Zhang, Peiming Wang(参考訳) 広くデプロイされたセキュリティスキームとして、テキストベースのCAPTCHAは、マシンラーニングベースの攻撃に抵抗することがますます困難になっている。 これまでに多くの研究者が、さまざまな企業(Microsoft、Amazon、Appleなど)が展開するテキストベースのCAPTCHAの攻撃調査を実施し、特定の結果を得たが、攻撃方法のポータビリティの低下、一連のデータ前処理ステップの要求、大量のCAPTCHAへの依存など、いくつかの欠点がある。 本稿では,サイクル一貫性のある生成対向ネットワークに基づく,効率的かつ簡便なエンドツーエンド攻撃手法を提案する。 従来の研究と比較して,本手法はデータラベリングのコストを大幅に削減する。 さらに、この方法は高いポータビリティを有する。 一般的なテキストベースのCAPTCHAスキームは、いくつかの設定パラメータを変更するだけで攻撃が容易になる。 まず、サイクルGANに基づいてCAPTCHAシンセサイザーを訓練し、偽のサンプルを生成する。 畳み込み型リカレントニューラルネットワークに基づく基本認識器を偽データを用いて訓練する。 次に、少量のラベル付き実世界のcaptchaサンプルを用いて、基本認識器を最適化するアクティブ転送学習方法を採用する。 当社のアプローチは,10のWebサイトが展開するCAPTCHAスキームを効果的に破り,攻撃が極めて一般的であることを示唆している。 さらに,現在最も普及している抗認知機構の解析を行った。 以上の結果より, CAPTCHAの安全性は向上するが, 改善は限定的であることが明らかとなった。 逆に、より複雑なCAPTCHAの生成にはより多くのリソースが必要であり、CAPTCHAの可用性が低下する可能性がある。

As a widely deployed security scheme, text-based CAPTCHAs have become more and more difficult to resist machine learning-based attacks. So far, many researchers have conducted attacking research on text-based CAPTCHAs deployed by different companies (such as Microsoft, Amazon, and Apple) and achieved certain results.However, most of these attacks have some shortcomings, such as poor portability of attack methods, requiring a series of data preprocessing steps, and relying on large amounts of labeled CAPTCHAs. In this paper, we propose an efficient and simple end-to-end attack method based on cycle-consistent generative adversarial networks. Compared with previous studies, our method greatly reduces the cost of data labeling. In addition, this method has high portability. It can attack common text-based CAPTCHA schemes only by modifying a few configuration parameters, which makes the attack easier. Firstly, we train CAPTCHA synthesizers based on the cycle-GAN to generate some fake samples. Basic recognizers based on the convolutional recurrent neural network are trained with the fake data. Subsequently, an active transfer learning method is employed to optimize the basic recognizer utilizing tiny amounts of labeled real-world CAPTCHA samples. Our approach efficiently cracked the CAPTCHA schemes deployed by 10 popular websites, indicating that our attack is likely very general. Additionally, we analyzed the current most popular anti-recognition mechanisms. The results show that the combination of more anti-recognition mechanisms can improve the security of CAPTCHA, but the improvement is limited. Conversely, generating more complex CAPTCHAs may cost more resources and reduce the availability of CAPTCHAs.
翻訳日:2022-10-24 21:46:44 公開日:2020-08-26
# 条件付き対向ネットワークを用いたスペクトル間近視認識

Cross-Spectral Periocular Recognition with Conditional Adversarial Networks ( http://arxiv.org/abs/2008.11604v1 )

ライセンス: Link先を確認
Kevin Hernandez-Diaz, Fernando Alonso-Fernandez, Josef Bigun(参考訳) この研究は、異なるスペクトルで撮影された被写体画像を比較するという課題に対処している。 本研究では,可視スペクトルと近赤外スペクトルの近赤外画像の同時変換を訓練し,同じスペクトルで生体認証を行う条件付き生成逆ネットワークの利用を提案する。 提案されたセットアップは、通常、単一のスペクトルで動作するために最適化された既存の機能メソッドの使用を可能にする。 認識実験は、手作り特徴とCNN記述子の両方に基づいて、市販の近視コンパレータを用いて行われる。 香港ポリテクニク大学クロススペクトルアイリス画像データベース(PolyU)をベンチマークデータセットとして,両画像が同一スペクトルに変換された場合,異なるスペクトルの画像から抽出した特徴に比較して,クロススペクトル性能が著しく向上することを示した。 さらに、ResNet50アーキテクチャに基づいてCNNを微調整し、EER=1%の分光近視性能と、PolyUデータベースの最先端に匹敵する99%の@FAR=1%を得る。

This work addresses the challenge of comparing periocular images captured in different spectra, which is known to produce significant drops in performance in comparison to operating in the same spectrum. We propose the use of Conditional Generative Adversarial Networks, trained to con-vert periocular images between visible and near-infrared spectra, so that biometric verification is carried out in the same spectrum. The proposed setup allows the use of existing feature methods typically optimized to operate in a single spectrum. Recognition experiments are done using a number of off-the-shelf periocular comparators based both on hand-crafted features and CNN descriptors. Using the Hong Kong Polytechnic University Cross-Spectral Iris Images Database (PolyU) as benchmark dataset, our experiments show that cross-spectral performance is substantially improved if both images are converted to the same spectrum, in comparison to matching features extracted from images in different spectra. In addition to this, we fine-tune a CNN based on the ResNet50 architecture, obtaining a cross-spectral periocular performance of EER=1%, and GAR>99% @ FAR=1%, which is comparable to the state-of-the-art with the PolyU database.
翻訳日:2022-10-24 21:46:16 公開日:2020-08-26
# NAS-DIP: ニューラルネットワークによる深層画像の学習

NAS-DIP: Learning Deep Image Prior with Neural Architecture Search ( http://arxiv.org/abs/2008.11713v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Chen Gao, Esther Robb, Jia-Bin Huang(参考訳) 近年の研究では、深層畳み込みニューラルネットワークの構造が、様々な逆画像復元タスクの解決に先立って構造化画像として使用できることが示されている。 手作業で設計したアーキテクチャを使う代わりに、より強力な画像の先行をキャプチャするニューラルネットワークアーキテクチャを提案する。 汎用的なU-Netアーキテクチャを基盤として,(1)アップサンプリングセルのための新しい検索空間を設計し,(2)クロススケールな残差接続のパターンを構築した。 既存のニューラルネットワーク探索アルゴリズム(recurrent neural network controllerを用いた強化学習)を利用して、改良されたネットワークを探索する。 本手法の有効性を検証するために,画像復元,デハジング,画像から画像への変換,行列因子分解などの幅広い応用を行った。 広範な実験結果から,本アルゴリズムは最先端学習フリーアプローチに対して好適に動作し,既存の学習ベース手法との競合性能に到達できることがわかった。

Recent work has shown that the structure of deep convolutional neural networks can be used as a structured image prior for solving various inverse image restoration tasks. Instead of using hand-designed architectures, we propose to search for neural architectures that capture stronger image priors. Building upon a generic U-Net architecture, our core contribution lies in designing new search spaces for (1) an upsampling cell and (2) a pattern of cross-scale residual connections. We search for an improved network by leveraging an existing neural architecture search algorithm (using reinforcement learning with a recurrent neural network controller). We validate the effectiveness of our method via a wide variety of applications, including image restoration, dehazing, image-to-image translation, and matrix factorization. Extensive experimental results show that our algorithm performs favorably against state-of-the-art learning-free approaches and reaches competitive performance with existing learning-based methods in some cases.
翻訳日:2022-10-24 21:45:23 公開日:2020-08-26
# 感情の真正・ポーズ表情の検出 : レビュー

Detection of Genuine and Posed Facial Expressions of Emotion: A Review ( http://arxiv.org/abs/2008.11353v1 )

ライセンス: Link先を確認
Shan Jia, Shuo Wang, Chuanbo Hu, Paula Webster, Xin Li(参考訳) 感情の表情は人間の社会的相互作用において重要な役割を果たす。 しかし、ポーズづけされた演技は、必ずしも本物の感覚と同一ではない。 したがって、顔表情の信頼性評価、すなわち、真(自発)表現と偽(自発)表現とを区別することは、顔表情理解において決定的かつ困難な課題である。 近年,表情の自動検出が急速に進歩している。 本稿では,複数の自発対ポーズ(SVP)表情データベースと様々なコンピュータビジョンに基づく検出方法を含む,関連研究の総括的なレビューを行う。 また,SVP検出手法の性能に影響を及ぼす様々な要因について,オープンな課題や技術的課題とともに論じる。

Facial expressions of emotion play an important role in human social interactions. However, posed acting is not always the same as genuine feeling. Therefore, the credibility assessment of facial expressions, namely, the discrimination of genuine (spontaneous) expressions from posed(deliberate/volitional/deceptive) ones, is a crucial yet challenging task in facial expression understanding. Rapid progress has been made in recent years for automatic detection of genuine and posed facial expressions. This paper presents a general review of the relevant research, including several spontaneous vs. posed (SVP) facial expression databases and various computer vision based detection methods. In addition, a variety of factors that will influence the performance of SVP detection methods are discussed along with open issues and technical challenges.
翻訳日:2022-10-24 21:38:26 公開日:2020-08-26
# 部分領域適応のための識別的クロスドメイン特徴学習

Discriminative Cross-Domain Feature Learning for Partial Domain Adaptation ( http://arxiv.org/abs/2008.11360v1 )

ライセンス: Link先を確認
Taotao Jing, Ming Shao, Zhengming Ding(参考訳) 部分的なドメイン適応は、より大きく多様なソースドメインからより少ないクラスのターゲットドメインに知識を適用することを目的としており、注目されている。 ドメイン適応の最近の実践は、ドメイン間分布の分岐を抑えるために、ターゲットドメインに擬似ラベルを組み込むことによって、効果的な特徴を抽出する。 しかし、ターゲットデータと小さなソースデータだけをアライメントすることが不可欠である。 本稿では,重み付きスキームでクロスドメイングラフを用いたターゲットラベルを反復最適化する,新しい識別的クロスドメイン特徴学習(dcdf)フレームワークを開発した。 具体的には、非有意なソースセンターが無視されるような識別的クロスドメイン特徴学習のために、未ラベルのターゲットデータと関連するソースサンプルとを結合し、限界と条件の相違を同時に緩和するために、重み付きクロスドメイン中心損失と重み付きクロスドメイングラフ伝播を提案する。 評価実験により,提案手法の有効性を実証し,未ラベル対象領域の認識を容易にする手法として,最先端部分領域適応手法と比較した。

Partial domain adaptation aims to adapt knowledge from a larger and more diverse source domain to a smaller target domain with less number of classes, which has attracted appealing attention. Recent practice on domain adaptation manages to extract effective features by incorporating the pseudo labels for the target domain to better fight off the cross-domain distribution divergences. However, it is essential to align target data with only a small set of source data. In this paper, we develop a novel Discriminative Cross-Domain Feature Learning (DCDF) framework to iteratively optimize target labels with a cross-domain graph in a weighted scheme. Specifically, a weighted cross-domain center loss and weighted cross-domain graph propagation are proposed to couple unlabeled target data to related source samples for discriminative cross-domain feature learning, where irrelevant source centers will be ignored, to alleviate the marginal and conditional disparities simultaneously. Experimental evaluations on several popular benchmarks demonstrate the effectiveness of our proposed approach on facilitating the recognition for the unlabeled target domain, through comparing it to the state-of-the-art partial domain adaptation approaches.
翻訳日:2022-10-24 21:37:53 公開日:2020-08-26
# 画像検索と再同定のためのキーポイントアライメント埋め込み

Keypoint-Aligned Embeddings for Image Retrieval and Re-identification ( http://arxiv.org/abs/2008.11368v1 )

ライセンス: Link先を確認
Olga Moskvyak, Frederic Maire, Feras Dayoub and Mahsa Baktashmotlagh(参考訳) 物体のポーズに不変な埋め込みの学習は、視覚画像の検索と再同定において不可欠である。 既存の人物、車両、動物の再識別タスクのアプローチは、変形可能な形状と異なるカメラ視点により、クラス内ばらつきに苦しむ。 この制限を克服するために、画像埋め込みをキーポイントの事前定義された順序に合わせることを提案する。 提案するkeypoint aligned embeddeds model(kae-net)は,キーポイント位置から誘導されるマルチタスク学習を通じて,部分レベルの機能を学ぶ。 具体的には、KAE-Netは特定のキーポイントによって活性化される特徴マップからチャネルを抽出し、このキーポイントのヒートマップ再構成の補助タスクを学習する。 KAE-Netはコンパクトで汎用的で概念的には単純である。 CUB-200-2011、Cars196、VeRi-776の検索および再識別タスクのベンチマークデータセット上でのアートパフォーマンスの状態を達成している。

Learning embeddings that are invariant to the pose of the object is crucial in visual image retrieval and re-identification. The existing approaches for person, vehicle, or animal re-identification tasks suffer from high intra-class variance due to deformable shapes and different camera viewpoints. To overcome this limitation, we propose to align the image embedding with a predefined order of the keypoints. The proposed keypoint aligned embeddings model (KAE-Net) learns part-level features via multi-task learning which is guided by keypoint locations. More specifically, KAE-Net extracts channels from a feature map activated by a specific keypoint through learning the auxiliary task of heatmap reconstruction for this keypoint. The KAE-Net is compact, generic and conceptually simple. It achieves state of the art performance on the benchmark datasets of CUB-200-2011, Cars196 and VeRi-776 for retrieval and re-identification tasks.
翻訳日:2022-10-24 21:37:30 公開日:2020-08-26
# 埋め込みキーポイントシフトを用いた効果的な行動認識

Effective Action Recognition with Embedded Key Point Shifts ( http://arxiv.org/abs/2008.11378v1 )

ライセンス: Link先を確認
Haozhi Cao, Yuecong Xu, Jianfei Yang, Kezhi Mao, Jianxiong Yin and Simon See(参考訳) 時間的特徴抽出はビデオに基づく行動認識において重要な技術である。 キーポイントはスケルトンベースのアクション認識法で利用されてきたが、高価なキーポイントアノテーションを必要とする。 本稿では,時間的特徴抽出のためのキーポイントアノテーションを使わずにビデオフレーム間のチャネル毎のキーポイントシフトを適応的に抽出する,key point shifts embedded module(kpsem$)という新しい時間的特徴抽出モジュールを提案する。 キーポイントは分割領域における最大特徴値を持つ特徴点として適応的に抽出され、キーポイントシフトは対応するキーポイントの空間変位である。 キーポイントシフトは、線形埋め込み層をマルチセットで経由する全体的な時間的特徴として符号化される。 UCF101, something-Something-v1, HMDB51データセット上で, キーポイントシフトを簡単な計算コストで埋め込んで, 82.05%の最先端性能を実現し, 競合性能を実現する。

Temporal feature extraction is an essential technique in video-based action recognition. Key points have been utilized in skeleton-based action recognition methods but they require costly key point annotation. In this paper, we propose a novel temporal feature extraction module, named Key Point Shifts Embedding Module ($KPSEM$), to adaptively extract channel-wise key point shifts across video frames without key point annotation for temporal feature extraction. Key points are adaptively extracted as feature points with maximum feature values at split regions, while key point shifts are the spatial displacements of corresponding key points. The key point shifts are encoded as the overall temporal features via linear embedding layers in a multi-set manner. Our method achieves competitive performance through embedding key point shifts with trivial computational cost, achieving the state-of-the-art performance of 82.05% on Mini-Kinetics and competitive performance on UCF101, Something-Something-v1, and HMDB51 datasets.
翻訳日:2022-10-24 21:37:15 公開日:2020-08-26
# 海運ラベル画像品質検査のためのグローバルローカル特徴の融合

Fusion of Global-Local Features for Image Quality Inspection of Shipping Label ( http://arxiv.org/abs/2008.11440v1 )

ライセンス: Link先を確認
Sungho Suh, Paul Lukowicz and Yong Oh Lee(参考訳) 自動配送アドレス認識と検証の要求は、多数のパッケージを扱うために増加し、配信ミスに伴うコストを削減している。 過去の研究では、出荷先とバーコード領域をキャプチャしたカメラ画像に基づいて、出荷先を認識し、検証する深層学習システムを提案した。 システムの性能は入力画像品質に依存するため、画像の前処理には入力画像品質の検査が必要である。 本稿では,グローバル特徴とローカル特徴を組み合わせた入力画像品質検証手法を提案する。 異なる特徴空間におけるオブジェクト検出とスケール不変の特徴変換を開発し、複数の独立畳み込みニューラルネットワークからグローバルな特徴と局所的な特徴を抽出する。 発送ラベル画像の条件は,大域的特徴と局所的特徴を連結した完全連結核融合層によって分類される。 実撮影および生成画像に関する実験結果から,提案手法が他の手法よりも優れた性能を実現することを示す。 これらの結果は, 分類条件に基づいて異なる画像前処理ステップを適用することにより, 配送アドレス認識および検証システムを改善することが期待される。

The demands of automated shipping address recognition and verification have increased to handle a large number of packages and to save costs associated with misdelivery. A previous study proposed a deep learning system where the shipping address is recognized and verified based on a camera image capturing the shipping address and barcode area. Because the system performance depends on the input image quality, inspection of input image quality is necessary for image preprocessing. In this paper, we propose an input image quality verification method combining global and local features. Object detection and scale-invariant feature transform in different feature spaces are developed to extract global and local features from several independent convolutional neural networks. The conditions of shipping label images are classified by fully connected fusion layers with concatenated global and local features. The experimental results regarding real captured and generated images show that the proposed method achieves better performance than other methods. These results are expected to improve the shipping address recognition and verification system by applying different image preprocessing steps based on the classified conditions.
翻訳日:2022-10-24 21:30:29 公開日:2020-08-26
# DRR4Covid: デジタルリコンストラクションによる新型コロナウイルス感染分離の学習

DRR4Covid: Learning Automated COVID-19 Infection Segmentation from Digitally Reconstructed Radiographs ( http://arxiv.org/abs/2008.11478v1 )

ライセンス: Link先を確認
Pengyi Zhang, Yunxin Zhong, Yulin Deng, Xiaoying Tang, Xiaoqiong Li(参考訳) 胸部X線画像(CXR)に基づく感染自動測定とCOVID-19診断は,迅速検査に重要である。 我々はDRR4Covidと呼ばれる新しいアプローチを提案し、デジタル再構成ラジオグラフィー(DRRs)からCXRの自動診断と感染セグメンテーションを学習する。 DRR4Covidは、感染を意識したDRRジェネレータ、分類及び/またはセグメンテーションネットワーク、およびドメイン適応モジュールからなる。 感染を意識したDRRジェネレータは、新型コロナウイルス感染症の放射線学的徴候の調節可能な強度でDRRを生成し、DRRと正確に一致するピクセルレベルの感染アノテーションを生成することができる。 ドメイン適応モジュールは、未ラベルの実CXRとラベル付きDRRのネットワークによるDRRとCXRのドメイン不一致を低減するために導入され、最大平均離散(MMD)に基づくドメイン適応モジュールと、分類ヘッダとセグメンテーションヘッダを備えたFCNベースのネットワークを用いて、DRR4Covidの単純かつ効果的な実装を提供する。 以上の結果から,CXRのアノテーションを使わずに,AUCとF1スコアの精度による性能評価を行い,正常症例794例,陽性症例794例を対象に,分類スコア(0.954,0.989,0.953)とセグメンテーションスコア(0.957,0.981,0.956)を得た。 また, 合成DRRの放射線学的徴候の強度を調整し, ウイルス感染検出におけるX線画像の感度を推定した。 肺における感染性ボクセルの比率は19.43%で、感染性ボクセルの寄与率の下限は20.0%と推定されている。 私たちのコードはhttps://github.com/PengyiZhang/DRR4Covid.comで公開されます。

Automated infection measurement and COVID-19 diagnosis based on Chest X-ray (CXR) imaging is important for faster examination. We propose a novel approach, called DRR4Covid, to learn automated COVID-19 diagnosis and infection segmentation on CXRs from digitally reconstructed radiographs (DRRs). DRR4Covid comprises of an infection-aware DRR generator, a classification and/or segmentation network, and a domain adaptation module. The infection-aware DRR generator is able to produce DRRs with adjustable strength of radiological signs of COVID-19 infection, and generate pixel-level infection annotations that match the DRRs precisely. The domain adaptation module is introduced to reduce the domain discrepancy between DRRs and CXRs by training networks on unlabeled real CXRs and labeled DRRs together.We provide a simple but effective implementation of DRR4Covid by using a domain adaptation module based on Maximum Mean Discrepancy (MMD), and a FCN-based network with a classification header and a segmentation header. Extensive experiment results have confirmed the efficacy of our method; specifically, quantifying the performance by accuracy, AUC and F1-score, our network without using any annotations from CXRs has achieved a classification score of (0.954, 0.989, 0.953) and a segmentation score of (0.957, 0.981, 0.956) on a test set with 794 normal cases and 794 positive cases. Besides, we estimate the sensitive of X-ray images in detecting COVID-19 infection by adjusting the strength of radiological signs of COVID-19 infection in synthetic DRRs. The estimated detection limit of the proportion of infected voxels in the lungs is 19.43%, and the estimated lower bound of the contribution rate of infected voxels is 20.0% for significant radiological signs of COVID-19 infection. Our codes will be made publicly available at https://github.com/PengyiZhang/DRR4Covid.
翻訳日:2022-10-24 21:30:13 公開日:2020-08-26
# 新型コロナウイルスx線画像データセットの構成と限界について

On the Composition and Limitations of Publicly Available COVID-19 X-Ray Imaging Datasets ( http://arxiv.org/abs/2008.11572v1 )

ライセンス: Link先を確認
Beatriz Garcia Santa Cruz, Jan S\"olter, Matias Nicolas Bossa and Andreas Dominik Husch(参考訳) 画像データから新型コロナウイルスの診断と進行予測を行う機械学習ベースの手法は、ここ数ヶ月、特にディープラーニングモデルの使用によって大きな注目を集めている。 このコンテキストでは、数百のモデルが提案され、大多数が公開データセットでトレーニングされた。 データ不足、トレーニングとターゲットの集団間のミスマッチ、グループ不均衡、ドキュメントの欠如はバイアスの重要な源であり、これらのモデルが現実の臨床に応用されることを妨げる。 データセットがモデルの構築と評価の重要な部分であることを考えると、現在の状況についてより深く理解する必要がある。 本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。 各データセットを簡潔に記述し、潜在的強度、制限、データセット間の相互作用を識別する。 特に、バイアスの原因となる可能性のある現在のデータセットのいくつかの重要な特性が指摘されている。 これらの記述は,これらのデータセットを用いたモデル構築,モデル目標に応じた最適なデータセットの選択,信頼度の高いベンチマーク結果の報告を避けるための特定の制限を考慮した上で,特定の臨床領域における一般化能力への影響を議論するために有用である。

Machine learning based methods for diagnosis and progression prediction of COVID-19 from imaging data have gained significant attention in the last months, in particular by the use of deep learning models. In this context hundreds of models where proposed with the majority of them trained on public datasets. Data scarcity, mismatch between training and target population, group imbalance, and lack of documentation are important sources of bias, hindering the applicability of these models to real-world clinical practice. Considering that datasets are an essential part of model building and evaluation, a deeper understanding of the current landscape is needed. This paper presents an overview of the currently public available COVID-19 chest X-ray datasets. Each dataset is briefly described and potential strength, limitations and interactions between datasets are identified. In particular, some key properties of current datasets that could be potential sources of bias, impairing models trained on them are pointed out. These descriptions are useful for model building on those datasets, to choose the best dataset according the model goal, to take into account the specific limitations to avoid reporting overconfident benchmark results, and to discuss their impact on the generalisation capabilities in a specific clinical setting
翻訳日:2022-10-24 21:29:05 公開日:2020-08-26
# GoogleストリートビューとマスクR-CNNを用いた5Gユーティリティポールプランナ

5G Utility Pole Planner Using Google Street View and Mask R-CNN ( http://arxiv.org/abs/2008.11689v1 )

ライセンス: Link先を確認
Yanyu Zhang, Osama Alshaykh(参考訳) 第5世代(5g)セルラーネットワーク技術の進歩により、スマートシティのための5gネットワークの構築方法に関する多くの研究や研究が行われている。 これまでの研究では、街灯柱とスマート灯柱は5gアクセスポイントとして機能している。 点の位置を決定するために,Mask R-CNNに基づく新たな極の同定手法について論じる。これは,再帰的ベイズフィルタを用いて,提案の伝搬と再利用を行うことにより,高速R-CNNを拡張したものである。 データセットにはgoogleマップの高解像度画像が3000点含まれている。 トレーニングを高速化するために、畳み込み操作の非常に効率的なGPU実装を使用しました。 列車エラー率は7.86%、テストエラー率は32.03%に達した。 ついに私たちは、免疫アルゴリズムを使ってスマートシティに5G極を設定しました。

With the advances of fifth-generation (5G) cellular networks technology, many studies and work have been carried out on how to build 5G networks for smart cities. In the previous research, street lighting poles and smart light poles are capable of being a 5G access point. In order to determine the position of the points, this paper discusses a new way to identify poles based on Mask R-CNN, which extends Fast R-CNNs by making it employ recursive Bayesian filtering and perform proposal propagation and reuse. The dataset contains 3,000 high-resolution images from google map. To make training faster, we used a very efficient GPU implementation of the convolution operation. We achieved a train error rate of 7.86% and a test error rate of 32.03%. At last, we used the immune algorithm to set 5G poles in the smart cities.
翻訳日:2022-10-24 21:28:19 公開日:2020-08-26
# decision tree j48 at semeval-2020 task 9: sentiment analysis for code-mixed social media text (hinglish)

Decision Tree J48 at SemEval-2020 Task 9: Sentiment Analysis for Code-Mixed Social Media Text (Hinglish) ( http://arxiv.org/abs/2008.11398v1 )

ライセンス: Link先を確認
Gaurav Singh(参考訳) 本稿では,コード混在言語Hindiと英語の感情分析が必要なSemEval-2020 Task 9における課題に対する解決策を提供するために使用されるシステムの設計について論じる。 このシステムは、ツイートの分類のための分類器を提供するツールとしてWekaを使用し、提供されたファイルからデータをロードしてクリーニングするためにpythonを使用する。 システム評価を行ったテストデータセット内のツイートを分類するためのシステムには,トレーニングデータの一部のみが提供された。 システム性能は,公式競技評価基準F1スコアを用いて評価した。 分類器は2つの訓練データに基づいて訓練され、その結果F1スコアは0.4972と0.5316となった。

This paper discusses the design of the system used for providing a solution for the problem given at SemEval-2020 Task 9 where sentiment analysis of code-mixed language Hindi and English needed to be performed. This system uses Weka as a tool for providing the classifier for the classification of tweets and python is used for loading the data from the files provided and cleaning it. Only part of the training data was provided to the system for classifying the tweets in the test data set on which evaluation of the system was done. The system performance was assessed using the official competition evaluation metric F1-score. Classifier was trained on two sets of training data which resulted in F1 scores of 0.4972 and 0.5316.
翻訳日:2022-10-24 21:28:06 公開日:2020-08-26
# 日本語コンポジションスコアリングと筆記システム設計の機械学習的アプローチ

Machine learning approach of Japanese composition scoring and writing aided system's design ( http://arxiv.org/abs/2008.11488v1 )

ライセンス: Link先を確認
Wanhong Huang(参考訳) 自動スコアリングシステムはどんな言語でも非常に複雑である。 自然言語自体が複雑なモデルだからです。 自然言語で生成された記事を評価する際には,単語の特徴,文法的特徴,意味的特徴,テキスト構造など,さまざまな側面から記事を見る必要がある。 人間でさえも、同じ記事について異なる意見を持っているため、構成を正しく評価できないことがある。 しかし、合成スコアリングシステムは言語学習者を支援することができる。 何かを出力するプロセスにおいて、言語をリーン化するのです。 日本語,中国語,その他の言語において,意味的・実用的レベルでの構図を直接評価することはいまだに難しいが,構音率や言語学習者の補助となる単語・文法レベルの構図を機械に評価させることが可能である。 特に外国語学習者にとって、語彙内容と構文内容は、通常、彼らがより関心を持っているものである。 実験では、以下の研究を行いました。 1) 単語セグメンテーションツールと辞書を用いて, 記事の単語セグメンテーションを実現し, 単語の特徴を抽出するとともに, 記事の単語の複雑さ特性を生成する。 また,ボウテクニックを用いてテーマの特徴を抽出する。 2) チューリング完全オートマトンモデルを設計し, JLPT試験に現れる文法のための300以上のオートマトンを作成した。 これらのオートマトンを使って文法を抽出できます 3) 構成の特定の主題を評価する統計的手法を提案し, 最終的なスコアはシステムに提出されたすべての文章に依存する。 4) 言語学習のための文法ヒント関数を設計することで,現在どのような文法が利用できるかを知ることができる。

Automatic scoring system is extremely complex for any language. Because natural language itself is a complex model. When we evaluate articles generated by natural language, we need to view the articles from many dimensions such as word features, grammatical features, semantic features, text structure and so on. Even human beings sometimes can't accurately grade a composition because different people have different opinions about the same article. But a composition scoring system can greatly assist language learners. It can make language leaner improve themselves in the process of output something. Though it is still difficult for machines to directly evaluate a composition at the semantic and pragmatic levels, especially for Japanese, Chinese and other language in high context cultures, we can make machine evaluate a passage in word and grammar levels, which can as an assistance of composition rater or language learner. Especially for foreign language learners, lexical and syntactic content are usually what they are more concerned about. In our experiments, we did the follows works: 1) We use word segmentation tools and dictionaries to achieve word segmentation of an article, and extract word features, as well as generate a words' complexity feature of an article. And Bow technique are used to extract the theme features. 2) We designed a Turing-complete automata model and create 300+ automatons for the grammars that appear in the JLPT examination. And extract grammars features by using these automatons. 3) We propose a statistical approach for scoring a specify theme of composition, the final score will depend on all the writings that submitted to the system. 4) We design an grammar hint function for language leaner, so that they can know currently what grammars they can use.
翻訳日:2022-10-24 21:27:54 公開日:2020-08-26
# Sina Weiboを用いたマルチタスク深層学習によるユーザ抑うつ検出

A Multitask Deep Learning Approach for User Depression Detection on Sina Weibo ( http://arxiv.org/abs/2008.11708v1 )

ライセンス: Link先を確認
Yiding Wang, Zhenyi Wang, Chenghao Li, Yilin Zhang, Haizhou Wang(参考訳) 近年、うつ病の精神的な負担により、生活を危険にさらす人が増えてきている。 オンラインソーシャルネットワーク(OSN)は、うつ病に苦しむ個人を検出する別の視点を提供する。 しかし、機械学習に基づく抑うつ検出の既存の研究は、まだ比較的低い分類性能を残しており、その特徴工学における改善の可能性が示唆されている。 本稿では,sina weibo(中国コミュニティで最もアクティブなユーザ数の多いosn),すなわちweibo user depression detection dataset(wu3d)上に,大規模データセットを手作業で構築する。 2万人以上の一般ユーザーと1万人以上の落ち込んだユーザーが含まれており、どちらも手動でラベル付けされ、専門家によって再チェックされる。 ユーザのテキスト、社会的行動、投稿された画像を分析して10の統計的特徴を結論し、提案する。 一方、テキストベースの単語特徴は、一般的な事前学習モデルXLNetを用いて抽出される。 さらに,新しい深層ニューラルネットワーク分類モデルであるfusionnet(fn)を提案し,複数の分類タスクと見なされる上記の特徴を同時に訓練した。 実験の結果,FusionNetはテストデータセットで0.9772のF1スコアを達成した。 既存の研究と比較して,本手法は非バランスなトレーニングサンプルの分類性能とロバスト性を向上する。 私たちの研究は、他のOSNプラットフォームでうつを検知する新しい方法も提供しています。

In recent years, due to the mental burden of depression, the number of people who endanger their lives has been increasing rapidly. The online social network (OSN) provides researchers with another perspective for detecting individuals suffering from depression. However, existing studies of depression detection based on machine learning still leave relatively low classification performance, suggesting that there is significant improvement potential for improvement in their feature engineering. In this paper, we manually build a large dataset on Sina Weibo (a leading OSN with the largest number of active users in the Chinese community), namely Weibo User Depression Detection Dataset (WU3D). It includes more than 20,000 normal users and more than 10,000 depressed users, both of which are manually labeled and rechecked by professionals. By analyzing the user's text, social behavior, and posted pictures, ten statistical features are concluded and proposed. In the meantime, text-based word features are extracted using the popular pretrained model XLNet. Moreover, a novel deep neural network classification model, i.e. FusionNet (FN), is proposed and simultaneously trained with the above-extracted features, which are seen as multiple classification tasks. The experimental results show that FusionNet achieves the highest F1-Score of 0.9772 on the test dataset. Compared to existing studies, our proposed method has better classification performance and robustness for unbalanced training samples. Our work also provides a new way to detect depression on other OSN platforms.
翻訳日:2022-10-24 21:21:34 公開日:2020-08-26
# 人間と機械の倫理行動 -- 機械学習のためのトレーニングデータ品質の評価

Ethical behavior in humans and machines -- Evaluating training data quality for beneficial machine learning ( http://arxiv.org/abs/2008.11463v1 )

ライセンス: Link先を確認
Thilo Hagendorff(参考訳) 学習アルゴリズムに基づくマシンの振る舞いは、異なる品質のデータへの露出によって大きく影響される。 これまでのところ、これらの品質は、教師付き機械学習におけるトレーニングとアノテーションデータの重要な役割にもかかわらず、技術的な用語だけで測定されるが、倫理的なものではない。 これは、教師付き機械学習アプリケーションのためのデータ品質の新しい次元を記述することで、このギャップを埋める最初の研究である。 個人の社会的背景と心理的背景が、人間とコンピュータの相互作用の異なるモードと実際に相関していることの理論的根拠に基づいて、デジタル技術を用いて個人が残した行動データの様々な品質が、機械学習アプリケーションの開発に社会的に関連しているという倫理的視点から説明する。 本研究の具体的な目的は,その起源の行動の倫理的評価に基づいて,トレーニングデータの選択方法を説明することであり,ビッグデータ理論n = allから,機械学習におけるトレーニングセットのより選択的なデータ処理方法に移行するための,革新的なフィルタレジームを確立することである。 この研究の全体的な目的は、産学だけでなく産学にも広く役立つ有用な機械学習アプリケーションを達成するための方法を促進することである。

Machine behavior that is based on learning algorithms can be significantly influenced by the exposure to data of different qualities. Up to now, those qualities are solely measured in technical terms, but not in ethical ones, despite the significant role of training and annotation data in supervised machine learning. This is the first study to fill this gap by describing new dimensions of data quality for supervised machine learning applications. Based on the rationale that different social and psychological backgrounds of individuals correlate in practice with different modes of human-computer-interaction, the paper describes from an ethical perspective how varying qualities of behavioral data that individuals leave behind while using digital technologies have socially relevant ramification for the development of machine learning applications. The specific objective of this study is to describe how training data can be selected according to ethical assessments of the behavior it originates from, establishing an innovative filter regime to transition from the big data rationale n = all to a more selective way of processing data for training sets in machine learning. The overarching aim of this research is to promote methods for achieving beneficial machine learning applications that could be widely useful for industry as well as academia.
翻訳日:2022-10-24 21:21:00 公開日:2020-08-26
# 被写体不変な生理的特徴抽出のための異方性adversarial autoencoder

Disentangled Adversarial Autoencoder for Subject-Invariant Physiological Feature Extraction ( http://arxiv.org/abs/2008.11426v1 )

ライセンス: Link先を確認
Mo Han, Ozan Ozdenizci, Ye Wang, Toshiaki Koike-Akino, Deniz Erdogmus(参考訳) 近年, 生体信号処理の進歩により, 安全かつ信頼性の高い操作装置の生理的地位を利用できるようになった。 生理センシングの大きな課題の1つは、異なるユーザとタスクにわたる生体信号の変動である。 この問題に対処するため,我々は,不連続な普遍表現を活用すべく,トランスファー学習のための逆特徴抽出器を提案する。 本稿では,学習した特徴抽出器が未知ユーザや各種タスクに適用可能であるような潜在表現を操作するために,追加の敵ネットワークやニュアンスネットワークを導入することで,タスク関連特徴とユーザ識別情報のトレードオフを検討する。 クロスオブジェクト転送評価の結果、提案手法の利点が示され、分類の精度が最大8.8%向上し、幅広い対象への適応性が示された。

Recent developments in biosignal processing have enabled users to exploit their physiological status for manipulating devices in a reliable and safe manner. One major challenge of physiological sensing lies in the variability of biosignals across different users and tasks. To address this issue, we propose an adversarial feature extractor for transfer learning to exploit disentangled universal representations. We consider the trade-off between task-relevant features and user-discriminative information by introducing additional adversary and nuisance networks in order to manipulate the latent representations such that the learned feature extractor is applicable to unknown users and various tasks. Results on cross-subject transfer evaluations exhibit the benefits of the proposed framework, with up to 8.8% improvement in average accuracy of classification, and demonstrate adaptability to a broader range of subjects.
翻訳日:2022-10-24 21:20:24 公開日:2020-08-26
# MutaGAN: 進化するタンパク質集団の変異を予測するSeq2seq GANフレームワーク

MutaGAN: A Seq2seq GAN Framework to Predict Mutations of Evolving Protein Populations ( http://arxiv.org/abs/2008.11790v1 )

ライセンス: Link先を確認
Daniel S. Berman (1), Craig Howser (1), Thomas Mehoke (1), Jared D. Evans (1) ((1) Johns Hopkins Applied Physics Laboratory, Laurel, United States)(参考訳) 病原体の進化を予測する能力は、病気を制御、予防、治療する能力を大幅に向上させる。 他の問題空間での著しい進歩にもかかわらず、深層学習は進化する集団の突然変異を予測する問題にはまだ貢献していない。 このギャップに対処するため, GAN(Generative Adversarial Network)とリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を用いた機械学習フレームワークを開発し, 遺伝的変異と将来の生物個体群の進化を正確に予測した。 タンパク質進化の時間的可逆的系統モデルとブートストラップによる最大木推定を用いて,MutaGANと命名された敵対的枠組みの中で配列から配列へのジェネレータを訓練し,将来的なウイルス集団の突然変異で増強されたタンパク質配列を生成する。 インフルエンザウイルスの配列は、毎年新しい株が出現する重要なヒト病原体であり、世界的な監視活動によって国立バイオテクノロジー情報センター(ncbi)のインフルエンザウイルス資源(ivr)から大量の公開データを生み出しているため、このディープラーニングフレームワークの理想的なテストケースとして同定された。 MutaGANは、中央のレベンシュテイン距離が2.00アミノ酸である与えられた「親」タンパク質配列から「子」配列を生成する。 さらに、ジェネレータは、世界的なインフルエンザウイルス集団内で少なくとも1つの変異で、親タンパク質の大部分を増強することができた。 これらの結果は、ミュータGANフレームワークが病原体予測を補助し、あらゆるタンパク質集団の進化予測に幅広い有用性をもたらすことを示す。

The ability to predict the evolution of a pathogen would significantly improve the ability to control, prevent, and treat disease. Despite significant progress in other problem spaces, deep learning has yet to contribute to the issue of predicting mutations of evolving populations. To address this gap, we developed a novel machine learning framework using generative adversarial networks (GANs) with recurrent neural networks (RNNs) to accurately predict genetic mutations and evolution of future biological populations. Using a generalized time-reversible phylogenetic model of protein evolution with bootstrapped maximum likelihood tree estimation, we trained a sequence-to-sequence generator within an adversarial framework, named MutaGAN, to generate complete protein sequences augmented with possible mutations of future virus populations. Influenza virus sequences were identified as an ideal test case for this deep learning framework because it is a significant human pathogen with new strains emerging annually and global surveillance efforts have generated a large amount of publicly available data from the National Center for Biotechnology Information's (NCBI) Influenza Virus Resource (IVR). MutaGAN generated "child" sequences from a given "parent" protein sequence with a median Levenshtein distance of 2.00 amino acids. Additionally, the generator was able to augment the majority of parent proteins with at least one mutation identified within the global influenza virus population. These results demonstrate the power of the MutaGAN framework to aid in pathogen forecasting with implications for broad utility in evolutionary prediction for any protein population.
翻訳日:2022-10-24 21:19:57 公開日:2020-08-26
# 後方値関数によるマルコフ決定過程の制約

Constrained Markov Decision Processes via Backward Value Functions ( http://arxiv.org/abs/2008.11811v1 )

ライセンス: Link先を確認
Harsh Satija, Philip Amortila, Joelle Pineau(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、シミュレーションされた領域において非常に成功したが、特に満たすべき厳しい制約(安全性やリソースなど)がある場合において、物理システムに直接適用できないことが多い。 標準的なRLでは、エージェントは報酬を最大化できる限りあらゆる行動を探求するインセンティブを与えるが、現実の世界では、望ましくない振る舞いは学習プロセスそのものを破壊する方法でシステムまたはエージェントにダメージを与える。 本研究は,制約付きマルコフ決定プロセスとして制約付き学習問題をモデル化し,それを解決するための新しいオン・ポリシーな定式化を提供する。 このアプローチの重要な貢献は累積コスト制約を状態ベースの制約に変換することです。 これを通じて、各ステップで制約が満たされることを確保しつつ、リターンを最大化する安全なポリシー改善手法を定義する。 我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。 このアプローチの計算上の利点も強調する。 本手法の有効性は,深層ニューラルネットワークを用いた安全ナビゲーションタスクおよび安全制約型mujoco環境において実証された。

Although Reinforcement Learning (RL) algorithms have found tremendous success in simulated domains, they often cannot directly be applied to physical systems, especially in cases where there are hard constraints to satisfy (e.g. on safety or resources). In standard RL, the agent is incentivized to explore any behavior as long as it maximizes rewards, but in the real world, undesired behavior can damage either the system or the agent in a way that breaks the learning process itself. In this work, we model the problem of learning with constraints as a Constrained Markov Decision Process and provide a new on-policy formulation for solving it. A key contribution of our approach is to translate cumulative cost constraints into state-based constraints. Through this, we define a safe policy improvement method which maximizes returns while ensuring that the constraints are satisfied at every step. We provide theoretical guarantees under which the agent converges while ensuring safety over the course of training. We also highlight the computational advantages of this approach. The effectiveness of our approach is demonstrated on safe navigation tasks and in safety-constrained versions of MuJoCo environments, with deep neural networks.
翻訳日:2022-10-24 21:19:28 公開日:2020-08-26
# 適応ニューラルネットワークを用いたオイラー流体シミュレーションの高速化

Adaptive Neural Network-Based Approximation to Accelerate Eulerian Fluid Simulation ( http://arxiv.org/abs/2008.11832v1 )

ライセンス: Link先を確認
Wenqian Dong, Jie Liu, Zhen Xie and Dong Li(参考訳) ユーレリア流体シミュレーションは重要なHPC応用である。 ニューラルネットワークはそれを加速するために適用されている。 ニューラルネットワークによる流体シミュレーションを加速する現在の手法には柔軟性と一般化が欠けている。 本稿では,上述の限界に取り組み,オイラー流体シミュレーションにおけるニューラルネットワークの適用性を高めることを目的とする。 モデル生成とアプリケーションを自動化するフレームワークであるsmartfluidnetを紹介する。 既存のニューラルネットワークを入力として与えると、smartfluidnetはシミュレーションの前に複数のニューラルネットワークを生成し、実行時間とシミュレーション品質要件を満たす。 シミュレーション中、Smartfluidnetはニューラルネットワークを動的に切り替えて、シミュレーション品質のユーザ要求に到達するためのベストな取り組みを行う。 20,480の入力問題を評価したところ,Smartfluidnetは最先端のニューラルネットワークモデルとNVIDIA Titan X Pascal GPUの流体シミュレーションと比較して1.46倍,590倍の高速化を実現し,最先端のモデルよりも優れたシミュレーション品質を提供することがわかった。

The Eulerian fluid simulation is an important HPC application. The neural network has been applied to accelerate it. The current methods that accelerate the fluid simulation with neural networks lack flexibility and generalization. In this paper, we tackle the above limitation and aim to enhance the applicability of neural networks in the Eulerian fluid simulation. We introduce Smartfluidnet, a framework that automates model generation and application. Given an existing neural network as input, Smartfluidnet generates multiple neural networks before the simulation to meet the execution time and simulation quality requirement. During the simulation, Smartfluidnet dynamically switches the neural networks to make the best efforts to reach the user requirement on simulation quality. Evaluating with 20,480 input problems, we show that Smartfluidnet achieves 1.46x and 590x speedup comparing with a state-of-the-art neural network model and the original fluid simulation respectively on an NVIDIA Titan X Pascal GPU, while providing better simulation quality than the state-of-the-art model.
翻訳日:2022-10-24 21:19:08 公開日:2020-08-26
# ハイブリッドディープニューラルネットワークによるブラックボックスシステムの状態モデル推定

Hybrid Deep Neural Networks to Infer State Models of Black-Box Systems ( http://arxiv.org/abs/2008.11856v1 )

ライセンス: Link先を確認
Mohammad Jafar Mashhadi and Hadi Hemmati(参考訳) 実行中のソフトウェアシステムの動作モデルを推論することは、プログラム理解、異常検出、テストなど、いくつかの自動化されたソフトウェアエンジニアリングタスクに非常に有用である。 既存の動的モデル推論技術のほとんどはホワイトボックスであり、実行時のトレースを得るためにソースコードをインストルメントする必要がある。 しかし、多くのシステムでは、ソースコード全体を計測することは不可能である(例えば、ブラックボックスのサードパーティライブラリを使用する場合)。 残念なことに、時間とともに状態を検出するほとんどのブラックボックス技術は、単変量またはデータ分布の仮定、あるいは過去の行動の長い期間に学習するための限られた能力を持っている。 そこで本研究では,一連の時系列,入力/出力信号の入力として受け入れるハイブリッドディープニューラルネットワークを提案し,時間とともに信号とパターンの非線形相関を学習するために,畳み込み層と繰り返し層のセットを適用した。 当社のアプローチを,50万行のCコードで,業界パートナのUAV自動操縦ソリューションに適用しました。 888のランダムなシステムレベルのテストケースと推論状態が時間とともに実行されました。 従来の時系列変化点検出技術との比較により,F1スコアによる状態変化点の発見において,提案手法は最大102%の性能向上を示した。 また,我々の状態分類アルゴリズムは平均90.45%のf1スコアを提供し,従来の分類アルゴリズムを最大17%向上させることを示した。

Inferring behavior model of a running software system is quite useful for several automated software engineering tasks, such as program comprehension, anomaly detection, and testing. Most existing dynamic model inference techniques are white-box, i.e., they require source code to be instrumented to get run-time traces. However, in many systems, instrumenting the entire source code is not possible (e.g., when using black-box third-party libraries) or might be very costly. Unfortunately, most black-box techniques that detect states over time are either univariate, or make assumptions on the data distribution, or have limited power for learning over a long period of past behavior. To overcome the above issues, in this paper, we propose a hybrid deep neural network that accepts as input a set of time series, one per input/output signal of the system, and applies a set of convolutional and recurrent layers to learn the non-linear correlations between signals and the patterns, over time. We have applied our approach on a real UAV auto-pilot solution from our industry partner with half a million lines of C code. We ran 888 random recent system-level test cases and inferred states, over time. Our comparison with several traditional time series change point detection techniques showed that our approach improves their performance by up to 102%, in terms of finding state change points, measured by F1 score. We also showed that our state classification algorithm provides on average 90.45% F1 score, which improves traditional classification algorithms by up to 17%.
翻訳日:2022-10-24 21:18:51 公開日:2020-08-26
# SparseRT: ディープラーニング推論のためのGPU上の非構造化空間の高速化

SparseRT: Accelerating Unstructured Sparsity on GPUs for Deep Learning Inference ( http://arxiv.org/abs/2008.11849v1 )

ライセンス: Link先を確認
Ziheng Wang(参考訳) 近年,ディープニューラルネットワークの刈り込みと圧縮に関する研究が盛んに行われている。 初期のアプローチは個別に重み付けをする。 しかし、GPUのような現代的なハードウェアにおいて、結果として生じる非構造化のスパーシティパターンを利用するのは難しい。 結果として、重みに余剰構造を課す刈り取り戦略が人気を博している。 しかしながら、構造的プルーニングアプローチは、通常、非構造化プルーニングよりも高い精度の損失をもたらす。 本稿では,GPU上でのディープラーニング推論におけるスパース線形代数演算を高速化するために,非構造空間を利用するコードジェネレータであるSparseRTを提案する。 1x1畳み込みと完全連結層については、90%のスパース性で同等の密集した計算で3.4倍、95%のスパース性で5.4倍の速度アップの幾何学的平均を示す。 スパース3x3畳み込みでは、ResNet-50のユースケースで5倍以上のスピードアップを示す。

In recent years, there has been a flurry of research in deep neural network pruning and compression. Early approaches prune weights individually. However, it is difficult to take advantage of the resulting unstructured sparsity patterns on modern hardware like GPUs. As a result, pruning strategies which impose sparsity structures in the weights have become more popular. However,these structured pruning approaches typically lead to higher losses in accuracy than unstructured pruning. In this paper, we present SparseRT, a code generator that leverage unstructured sparsity to accelerate sparse linear algebra operations in deep learning inference on GPUs. For 1x1 convolutions and fully connected layers, we demonstrate geometric mean of speedups of 3.4x over the equivalent dense computation at 90% sparsity and 5.4x at 95% sparsity when evaluated on hundreds of test cases in deep learning. For sparse 3x3 convolutions, we show speedups of over 5x on use cases in ResNet-50.
翻訳日:2022-10-24 21:13:04 公開日:2020-08-26
# 強化学習による合成サンプル選択

Synthetic Sample Selection via Reinforcement Learning ( http://arxiv.org/abs/2008.11331v1 )

ライセンス: Link先を確認
Jiarong Ye, Yuan Xue, L. Rodney Long, Sameer Antani, Zhiyun Xue, Keith Cheng, Xiaolei Huang(参考訳) リアルな医用画像の合成は、ディープラーニングに基づく医用画像認識システムにおけるトレーニングデータの不足に対する、実現可能な解決策を提供する。 しかし、データ拡張目的の合成画像の品質管理は未定であり、生成した画像のいくつかは現実的ではなく、実際の画像と混在する場合にデータ分散を歪ませる誤解を招く特徴を含んでいる可能性がある。 したがって、医用画像認識システムにおける合成画像の有効性は、品質保証なしにランダムに追加される場合には保証できない。 本研究では,信頼性と情報的特徴を含む合成画像の選択を学習するRLに基づく合成サンプル選択法を提案する。 評価分類精度を報奨として、変圧器ベースのコントローラを近位ポリシー最適化(ppo)により訓練する。 選択した画像と元のトレーニングデータとを混合し、画像認識システムのトレーニングを改善する。 この方法を検証するために,病理画像認識を例とし,2つの病理組織像データセットについて広範な実験を行った。 胸部データセットとリンパ節データセットを用いた実験では,rlフレームワークで選択した高品質合成画像を用いて画像分類性能をそれぞれ8.1%,2.3%向上させる。 提案手法は汎用的であり,様々な医用画像認識システムの性能向上に大きな可能性を秘めている。

Synthesizing realistic medical images provides a feasible solution to the shortage of training data in deep learning based medical image recognition systems. However, the quality control of synthetic images for data augmentation purposes is under-investigated, and some of the generated images are not realistic and may contain misleading features that distort data distribution when mixed with real images. Thus, the effectiveness of those synthetic images in medical image recognition systems cannot be guaranteed when they are being added randomly without quality assurance. In this work, we propose a reinforcement learning (RL) based synthetic sample selection method that learns to choose synthetic images containing reliable and informative features. A transformer based controller is trained via proximal policy optimization (PPO) using the validation classification accuracy as the reward. The selected images are mixed with the original training data for improved training of image recognition systems. To validate our method, we take the pathology image recognition as an example and conduct extensive experiments on two histopathology image datasets. In experiments on a cervical dataset and a lymph node dataset, the image classification performance is improved by 8.1% and 2.3%, respectively, when utilizing high-quality synthetic images selected by our RL framework. Our proposed synthetic sample selection method is general and has great potential to boost the performance of various medical image recognition systems given limited annotation.
翻訳日:2022-10-24 21:12:24 公開日:2020-08-26
# ディープフェイクの心臓はどのように振る舞うのか? 生体信号による残差の解釈による深部偽検出

How Do the Hearts of Deep Fakes Beat? Deep Fake Source Detection via Interpreting Residuals with Biological Signals ( http://arxiv.org/abs/2008.11363v1 )

ライセンス: Link先を確認
Umur Aybars Ciftci and Ilke Demir and Lijun Yin(参考訳) 偽のポートレートビデオ生成技術は、政治的プロパガンダ、有名人の模倣、偽物証拠、その他のアイデンティティ関連の操作のためのフォトリアリスティックなディープフェイクによって、社会に新たな脅威をもたらしている。 これらの生成技術に従い、その分類精度が高いため、いくつかの検出手法が有用であることが証明されている。 それでも、ディープフェイクの出所を追跡する努力はほとんど行われなかった。 提案手法は,ディープフェイクと実際のビデオとを分離するだけでなく,ディープフェイクの背後にある特定の生成モデルを発見することである。 純粋なディープラーニングベースのアプローチでは、CNNを使用して深いフェイクを分類し、ジェネレータの残余を実際に学習する。 我々はこれらの残留物にはより多くの情報が含まれていると信じており、これらの操作の成果物は生物学的な信号と区別することで明らかにすることができる。 生体信号の時空間パターンは, 残留物の代表的な投影として考えられる。 この観察を正当化するために,実映像と偽映像からppgセルを抽出し,映像毎に生成モデルを検出するための最先端分類ネットワークに供給する。 提案手法は,97.29%の精度で偽動画を検出でき,93.39%の精度でソースモデルを検出できることを示す。

Fake portrait video generation techniques have been posing a new threat to the society with photorealistic deep fakes for political propaganda, celebrity imitation, forged evidences, and other identity related manipulations. Following these generation techniques, some detection approaches have also been proved useful due to their high classification accuracy. Nevertheless, almost no effort was spent to track down the source of deep fakes. We propose an approach not only to separate deep fakes from real videos, but also to discover the specific generative model behind a deep fake. Some pure deep learning based approaches try to classify deep fakes using CNNs where they actually learn the residuals of the generator. We believe that these residuals contain more information and we can reveal these manipulation artifacts by disentangling them with biological signals. Our key observation yields that the spatiotemporal patterns in biological signals can be conceived as a representative projection of residuals. To justify this observation, we extract PPG cells from real and fake videos and feed these to a state-of-the-art classification network for detecting the generative model per video. Our results indicate that our approach can detect fake videos with 97.29% accuracy, and the source model with 93.39% accuracy.
翻訳日:2022-10-24 21:12:02 公開日:2020-08-26
# 行動とポーズ関連特徴を用いたrnnによる歩行者横断予測

RNN-based Pedestrian Crossing Prediction using Activity and Pose-related Features ( http://arxiv.org/abs/2008.11647v1 )

ライセンス: Link先を確認
Javier Lorenzo, Ignacio Parra, Florian Wirth, Christoph Stiller, David Fernandez Llorca and Miguel Angel Sotelo(参考訳) 歩行者の横断予測は自動運転にとって重要な課題である。 多くの研究が、歩行者の意図を早期に見積もることによって、事故の割合を減らしたり回避したりできることを示している。 本稿では,この問題を解決するために,深層学習システムの異なるバリエーションを提案する。 提案モデルはCNNベースの特徴抽出器とRNNモジュールの2つの部分から構成される。 すべてのモデルは、JAADデータセットでトレーニングされ、テストされました。 その結果, 特徴抽出方法の選択, 歩行者の視線方向, 離散方向などの付加変数の導入, 選択したrnnタイプが最終性能に有意な影響を与えていることがわかった。

Pedestrian crossing prediction is a crucial task for autonomous driving. Numerous studies show that an early estimation of the pedestrian's intention can decrease or even avoid a high percentage of accidents. In this paper, different variations of a deep learning system are proposed to attempt to solve this problem. The proposed models are composed of two parts: a CNN-based feature extractor and an RNN module. All the models were trained and tested on the JAAD dataset. The results obtained indicate that the choice of the features extraction method, the inclusion of additional variables such as pedestrian gaze direction and discrete orientation, and the chosen RNN type have a significant impact on the final performance.
翻訳日:2022-10-24 21:10:32 公開日:2020-08-26
# 情報検索のための項目タグ付け:三部グラフニューラルネットワークによるアプローチ

Item Tagging for Information Retrieval: A Tripartite Graph Neural Network based Approach ( http://arxiv.org/abs/2008.11567v1 )

ライセンス: Link先を確認
Kelong Mao, Xi Xiao, Jieming Zhu, Biao Lu, Ruiming Tang, Xiuqiang He(参考訳) タグ付けは情報検索(IR)における関連性マッチング(relevance matching)の促進に成功していると認識されている。 マルチラベルテキスト分類や画像アノテーションに関して、多くの研究がなされている。 しかし、IR専用にアイテムタグ付けをターゲットとする出版作業が不足している。 アイテムタグ付けに従来のマルチラベル分類モデルを直接適用することは、IRのユニークな特徴を無視するため、準最適である。 本研究では,アイテムノードとタグノード間のリンク予測問題として,アイテムタグの定式化を提案する。 項目の表現を充実させるために、IRタスクで利用可能なクエリログを活用し、クエリ-item-tag tripartite graphを構築する。 この定式化により、多種類のノードとエッジを持つ異種グラフニューラルネットワークを利用するTagGNNモデルが得られる。 また,従来の研究と異なり,完全タグ予測と部分タグ補完の双方を,一次的損失機構によって統一したフレームワークで最適化する。 オープンデータセットとインダストリアルデータセットの両方の実験結果から,我々のTagGNNアプローチは最先端のマルチラベル分類手法よりも優れていることが示された。

Tagging has been recognized as a successful practice to boost relevance matching for information retrieval (IR), especially when items lack rich textual descriptions. A lot of research has been done for either multi-label text categorization or image annotation. However, there is a lack of published work that targets at item tagging specifically for IR. Directly applying a traditional multi-label classification model for item tagging is sub-optimal, due to the ignorance of unique characteristics in IR. In this work, we propose to formulate item tagging as a link prediction problem between item nodes and tag nodes. To enrich the representation of items, we leverage the query logs available in IR tasks, and construct a query-item-tag tripartite graph. This formulation results in a TagGNN model that utilizes heterogeneous graph neural networks with multiple types of nodes and edges. Different from previous research, we also optimize both full tag prediction and partial tag completion cases in a unified framework via a primary-dual loss mechanism. Experimental results on both open and industrial datasets show that our TagGNN approach outperforms the state-of-the-art multi-label classification approaches.
翻訳日:2022-10-24 21:09:59 公開日:2020-08-26
# 多目的型分類のためのマルチモーダルシステムの訓練

Training Multimodal Systems for Classification with Multiple Objectives ( http://arxiv.org/abs/2008.11450v1 )

ライセンス: Link先を確認
Jason Armitage, Shramana Thakur, Rishi Tripathi, Jens Lehmann, and Maria Maleshkova(参考訳) 我々は様々な感覚情報から世界について学ぶ。 調査が単一の形式で提示される情報に集中しているため、自動化されたシステムにはこのような能力がない。 アーキテクチャを複数のモダリティから学ぶように適応させることは、世界の豊かな表現を学ぶ可能性を生み出します。 ニューラルネットワークはトレーニング中にサンプリングノイズを学習し、その結果、見えないデータのパフォーマンスが低下する。 本研究は,変分推論を用いて学習したマルチモーダル融合プロセスに対する第2の目的を紹介する。 規則化法は内部トレーニングループに実装され、分散を制御し、モジュール構造は層に追加のニューロンを追加することにより性能を安定化する。 本フレームワークは,テキストおよび視覚入力を用いた多言語分類タスクで評価され,多目的の可能性を実証し,分散を低減し,一般化を改善する確率的手法である。

We learn about the world from a diverse range of sensory information. Automated systems lack this ability as investigation has centred on processing information presented in a single form. Adapting architectures to learn from multiple modalities creates the potential to learn rich representations of the world - but current multimodal systems only deliver marginal improvements on unimodal approaches. Neural networks learn sampling noise during training with the result that performance on unseen data is degraded. This research introduces a second objective over the multimodal fusion process learned with variational inference. Regularisation methods are implemented in the inner training loop to control variance and the modular structure stabilises performance as additional neurons are added to layers. This framework is evaluated on a multilabel classification task with textual and visual inputs to demonstrate the potential for multiple objectives and probabilistic methods to lower variance and improve generalisation.
翻訳日:2022-10-24 21:02:38 公開日:2020-08-26
# HydaLearn: 補助タスクを用いたマルチタスク学習のための動的タスク重み付け

HydaLearn: Highly Dynamic Task Weighting for Multi-task Learning with Auxiliary Tasks ( http://arxiv.org/abs/2008.11643v1 )

ライセンス: Link先を確認
Sam Verboven, Muhammad Hafeez Chaudhary, Jeroen Berrevoets, Wouter Verbeke(参考訳) マルチタスク学習(MTL)は、1つ以上の関連する補助タスクと表現を共有することでタスクのパフォーマンスを向上させることができる。 通常、MTL-networksは、個別のタスク損失の一定の重み付けによる複合損失関数に基づいて訓練される。 実際には、一定の損失の重み付けは2つの理由から悪い結果をもたらす。 (i)補助作業の関連性は、学習過程を通じて徐々に漂うことができる。 (ii) ミニバッチに基づく最適化では, 最適タスクの重み付けは, ミニバッチのサンプル組成によって異なる。 我々は,メインタスクゲインを個別のタスク勾配に結合するインテリジェントな重み付けアルゴリズムであるHydaLearnを導入し,iとiiに対応するミニバッチレベルでの動的損失重み付けを通知する。 hydalearnを用いて,合成データおよび教師付き学習領域における性能向上を報告した。

Multi-task learning (MTL) can improve performance on a task by sharing representations with one or more related auxiliary-tasks. Usually, MTL-networks are trained on a composite loss function formed by a constant weighted combination of the separate task losses. In practice, constant loss weights lead to poor results for two reasons: (i) the relevance of the auxiliary tasks can gradually drift throughout the learning process; (ii) for mini-batch based optimisation, the optimal task weights vary significantly from one update to the next depending on mini-batch sample composition. We introduce HydaLearn, an intelligent weighting algorithm that connects main-task gain to the individual task gradients, in order to inform dynamic loss weighting at the mini-batch level, addressing i and ii. Using HydaLearn, we report performance increases on synthetic data, as well as on two supervised learning domains.
翻訳日:2022-10-24 21:02:24 公開日:2020-08-26
# RBF SVMハイパーパラメータのチューニング方法 18の探索アルゴリズムに関する経験的評価

How to tune the RBF SVM hyperparameters?: An empirical evaluation of 18 search algorithms ( http://arxiv.org/abs/2008.11655v1 )

ライセンス: Link先を確認
Jacques Wainer and Pablo Fonseca(参考訳) RBFカーネルを持つSVMは通常、ほとんどのデータセットで最高の分類アルゴリズムの1つであるが、データ自体に$C$と$\gamma$の2つのハイパーパラメータをチューニングすることが重要である。 一般に、ハイパーパラメータの選択は非凸最適化問題であり、グリッド探索、ランダム探索、ベイズ最適化、シミュレートアニーリング、粒子群最適化、Nelder Meadなど、多くのアルゴリズムがそれを解決するために提案されている。 また、$\gamma$ と $c$ の選択を分離する提案があった。 実生活のバイナリデータセット115に対して,提案した探索アルゴリズムの18(合計47組み合わせのパラメータ化)を実証的に比較した。 我々は,Parzen推定器とパーティクルスワム最適化のツリーが,計算時間をわずかに増加させるだけで,同じ数の評価値を持つグリッドサーチに対して,より優れたハイパーパラメータを選択することを発見した。 また,ハイパーパラメータの探索に過大な労力を費やすことで,将来のデータの性能が向上する可能性は低いこと,また,探索アルゴリズムによって複数のハイパーパラメータが検出された場合の最適セットを選択する手順に有意差がないことも見出した。

SVM with an RBF kernel is usually one of the best classification algorithms for most data sets, but it is important to tune the two hyperparameters $C$ and $\gamma$ to the data itself. In general, the selection of the hyperparameters is a non-convex optimization problem and thus many algorithms have been proposed to solve it, among them: grid search, random search, Bayesian optimization, simulated annealing, particle swarm optimization, Nelder Mead, and others. There have also been proposals to decouple the selection of $\gamma$ and $C$. We empirically compare 18 of these proposed search algorithms (with different parameterizations for a total of 47 combinations) on 115 real-life binary data sets. We find (among other things) that trees of Parzen estimators and particle swarm optimization select better hyperparameters with only a slight increase in computation time with respect to a grid search with the same number of evaluations. We also find that spending too much computational effort searching the hyperparameters will not likely result in better performance for future data and that there are no significant differences among the different procedures to select the best set of hyperparameters when more than one is found by the search algorithms.
翻訳日:2022-10-24 21:01:55 公開日:2020-08-26
# Auxiliary Network: 一貫性のない入力を持つ動的システムのためのスケーラブルでアジャイルなオンライン学習

Auxiliary Network: Scalable and agile online learning for dynamic system with inconsistently available inputs ( http://arxiv.org/abs/2008.11828v1 )

ライセンス: Link先を確認
Rohit Agarwal and Arif Ahmed Sekh and Krishna Agarwal and Dilip K. Prasad(参考訳) ストリーム分類法は、入力特徴の数が固定され、常に受信されると仮定する。 しかし、現実世界の多くのシナリオでは、要求はいくつかの入力機能が信頼できないか一貫性がないかである。 本稿では,スケーラブルでアジャイルな補助ネットワーク(aux-net)と呼ばれる,新たなディープラーニングモデルを提案する。 最終的な結果を得るために分類器の重み付きアンサンブルを用いる。 Aux-Netモデルは、ヘッジアルゴリズムとオンライン勾配勾配に基づく。 シングルパス学習を使用したオンライン環境では,さまざまな深さのモデルを採用している。 Aux-Netは、アドホックまたは一貫性のない入力データを必要とする動的複雑な環境のためのスケーラブルなニューラルネットワークモデルに向けた基礎的な作業である。 Aux-Netの有効性は、パブリックデータセットに示されている。

Streaming classification methods assume the number of input features is fixed and always received. But in many real-world scenarios demand is some input features are reliable while others are unreliable or inconsistent. In this paper, we propose a novel deep learning-based model called Auxiliary Network (Aux-Net), which is scalable and agile. It employs a weighted ensemble of classifiers to give a final outcome. The Aux-Net model is based on the hedging algorithm and online gradient descent. It employs a model of varying depth in an online setting using single pass learning. Aux-Net is a foundational work towards scalable neural network model for a dynamic complex environment requiring ad hoc or inconsistent input data. The efficacy of Aux-Net is shown on public dataset.
翻訳日:2022-10-24 21:01:21 公開日:2020-08-26
# エージェントベースモデルのパラメータ化のための代理支援手法

Surrogate Assisted Methods for the Parameterisation of Agent-Based Models ( http://arxiv.org/abs/2008.11835v1 )

ライセンス: Link先を確認
Rylan Perumal and Terence L van Zyl(参考訳) パラメータキャリブレーションはエージェントベースモデリングとシミュレーション(ABMS)において大きな課題である。 エージェントベースモデル(abms)の複雑さが増すにつれて、キャリブレーションに必要なパラメータの数は増加する。 これにより、 abms は dimensionality の \say{curse} と同値となる。 本稿では,これらの手法がパラメータキャリブレーションや探索に与える影響を評価するために,様々なサンプリング法とサロゲートモデル(sms)の効果的な統合を容易にするabmsフレームワークを提案する。 サーロゲート支援手法は, 標準サンプリング法よりも優れた性能を示す。 さらに, xgboost と decision tree sms は, 解析において, 総合的に最適であることを示した。

Parameter calibration is a major challenge in agent-based modelling and simulation (ABMS). As the complexity of agent-based models (ABMs) increase, the number of parameters required to be calibrated grows. This leads to the ABMS equivalent of the \say{curse of dimensionality}. We propose an ABMS framework which facilitates the effective integration of different sampling methods and surrogate models (SMs) in order to evaluate how these strategies affect parameter calibration and exploration. We show that surrogate assisted methods perform better than the standard sampling methods. In addition, we show that the XGBoost and Decision Tree SMs are most optimal overall with regards to our analysis.
翻訳日:2022-10-24 21:01:12 公開日:2020-08-26
# Richards-Engelhardtフレームワークを用いた学術自然言語処理系図の理解

Understanding scholarly Natural Language Processing system diagrams through application of the Richards-Engelhardt framework ( http://arxiv.org/abs/2008.11785v1 )

ライセンス: Link先を確認
Guy Clarke Marshall, Caroline Jay and Andr\'e Freitas(参考訳) 我々は自然言語処理システム図を理解するツールとしてrichards-engelhardtフレームワークを利用する。 学術的手続きから得られた4つの例を通して、この生態的かつ複雑な領域へのフレームワークの適用は、これらの図を反映するのに有効であることを見出した。 我々は、複数のコーディング、記号的可変性、および図中の視覚的エンコーディング原理の不整合または誤用を記述する語彙を議論する。 さらに, 学術的な自然言語処理システム, 多分システム図への応用のために, 新たなビジュアルエンコーディング原理として「オブジェクトによるグループ化」, 新たなビジュアルエンコーディングタイプとして「強調」を加えることを提案する。

We utilise Richards-Engelhardt framework as a tool for understanding Natural Language Processing systems diagrams. Through four examples from scholarly proceedings, we find that the application of the framework to this ecological and complex domain is effective for reflecting on these diagrams. We argue for vocabulary to describe multiple-codings, semiotic variability, and inconsistency or misuse of visual encoding principles in diagrams. Further, for application to scholarly Natural Language Processing systems, and perhaps systems diagrams more broadly, we propose the addition of "Grouping by Object" as a new visual encoding principle, and "Emphasising" as a new visual encoding type.
翻訳日:2022-10-24 20:54:48 公開日:2020-08-26
# 価値に基づくシーケンス決定のための逆ポリシー評価

Inverse Policy Evaluation for Value-based Sequential Decision-making ( http://arxiv.org/abs/2008.11329v1 )

ライセンス: Link先を確認
Alan Chan, Kris de Asis, Richard S. Sutton(参考訳) 強化学習のための価値に基づく手法は、一般に価値関数から振る舞いを導出する方法を欠いている。 多くのアプローチは、近似値の反復(例えば$Q$-learning)を伴い、状態空間が十分に探索されていることを保証するために、任意のエントロピーの程度で見積もりに対して厳密に行動する。 明示的な欲求化に基づく行動は、その値は、欲求政策が改善されるような『textit{some}』ポリシーを反映していると仮定する。 しかし、値イテレーションは \textit{any} ポリシーに対応しない値関数を生成することができる。 これは、真の値関数が完全に表現できない場合、関数近似レジームにおいて特に関係する。 本稿では,値関数から振る舞いを導出するために,値関数が与えられた可能性のあるポリシーの解法である \textit{inverse policy evaluation} の利用について検討する。 本稿では,逆ポリシー評価と近似値反復アルゴリズムを組み合わせることで,価値に基づく制御の実現可能性を示す理論的,実証的な結果を提供する。

Value-based methods for reinforcement learning lack generally applicable ways to derive behavior from a value function. Many approaches involve approximate value iteration (e.g., $Q$-learning), and acting greedily with respect to the estimates with an arbitrary degree of entropy to ensure that the state-space is sufficiently explored. Behavior based on explicit greedification assumes that the values reflect those of \textit{some} policy, over which the greedy policy will be an improvement. However, value-iteration can produce value functions that do not correspond to \textit{any} policy. This is especially relevant in the function-approximation regime, when the true value function can't be perfectly represented. In this work, we explore the use of \textit{inverse policy evaluation}, the process of solving for a likely policy given a value function, for deriving behavior from a value function. We provide theoretical and empirical results to show that inverse policy evaluation, combined with an approximate value iteration algorithm, is a feasible method for value-based control.
翻訳日:2022-10-24 20:54:35 公開日:2020-08-26
# リアルタイムシステムのためのニューラルネットワークの設計

Designing Neural Networks for Real-Time Systems ( http://arxiv.org/abs/2008.11830v1 )

ライセンス: Link先を確認
Hammond Pearce, Xin Yang, Partha S. Roop, Marc Katzef, T\'orur Biskopst{\o} Str{\o}m(参考訳) 人工ニューラルネットワーク(ANN)は、安全クリティカルなサイバー物理システム(CPS)内でますます使われている。 それらはしばしば従来の組み込みソフトウェアと共存し、アドバイザリやコントロールベースの役割を担っている。 これらのシステムのタイミングと機能的正しさを検証することが重要である。 しかし、文献におけるほとんどのアプローチは、ANNベースのコントローラの機能のみを保証することを考慮している。 この問題は、一般的なニューラルネットワークフレームワークで使用される実装戦略に起因している。その基盤となるソースコードは、静的タイミング分析のような形式的なテクニックには適さないことが多い。 その結果、安全クリティカルなCPSの開発者は、正確性を証明するための測定ベースのアプローチや、保証の弱い技術など、非公式な手法に頼らなければならない。 この作業では、この課題に対処します。 本稿では,一般的なディープラーニングフレームワークであるKerasを用いてトレーニングされたニューラルネットワークを,機能的に等価なCコードにコンパイルする設計パイプラインを提案する。 このCコードは、既存の静的タイミング解析ツールで分析できる単純な構造に制限されている。 結果として、適切な時間予測可能なプラットフォームにコンパイルされると、実行境界はすべて静的に導出される。 このアプローチのメリットを実証するために、レーストラックを走行する自動運転車を駆動するように訓練されたANNを実行しました。 ANNをPatmosのタイム予測可能なコントローラにコンパイルし、最悪のケース実行タイミングを導出できることを示します。

Artificial Neural Networks (ANNs) are increasingly being used within safety-critical Cyber-Physical Systems (CPSs). They are often co-located with traditional embedded software, and may perform advisory or control-based roles. It is important to validate both the timing and functional correctness of these systems. However, most approaches in the literature consider guaranteeing only the functionality of ANN based controllers. This issue stems largely from the implementation strategies used within common neural network frameworks -- their underlying source code is often simply unsuitable for formal techniques such as static timing analysis. As a result, developers of safety-critical CPS must rely on informal techniques such as measurement based approaches to prove correctness, techniques that provide weak guarantees at best. In this work we address this challenge. We propose a design pipeline whereby neural networks trained using the popular deep learning framework Keras are compiled to functionally equivalent C code. This C code is restricted to simple constructs that may be analysed by existing static timing analysis tools. As a result, if compiled to a suitable time-predictable platform all execution bounds may be statically derived. To demonstrate the benefits of our approach we execute an ANN trained to drive an autonomous vehicle around a race track. We compile the ANN to the Patmos time-predictable controller, and show that we can derive worst case execution timings.
翻訳日:2022-10-24 20:54:16 公開日:2020-08-26
# 高速道路における自動運転車の意思決定--連続行動ホライゾンを用いた深層強化学習

Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement Learning with Continuous Action Horizon ( http://arxiv.org/abs/2008.11852v1 )

ライセンス: Link先を確認
Teng Liu, Hong Wang, Bing Lu, Jun Li, Dongpu Cao(参考訳) 自動運転車の意思決定戦略は、特定の航法ミッションを達成するための一連の運転操作を規定する。 本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。 まず、高速道路の車両運動学と運転シナリオを紹介する。 egoの運用目的は、衝突することなく効率的で円滑な方針を実行することである。 次に、PPO(proximal policy optimization)拡張DRLと呼ばれる特定のアルゴリズムを例示する。 学習効率とサンプル非効率の課題を克服するため,本アルゴリズムは高い学習効率と優れた制御性能を実現することができた。 最後に、PPO-DRLに基づく意思決定戦略を、最適性、学習効率、適応性など、複数の観点から推定する。 オンラインアプリケーションの可能性については、同様の運転シナリオに適用することで論じられている。

Decision-making strategy for autonomous vehicles de-scribes a sequence of driving maneuvers to achieve a certain navigational mission. This paper utilizes the deep reinforcement learning (DRL) method to address the continuous-horizon decision-making problem on the highway. First, the vehicle kinematics and driving scenario on the freeway are introduced. The running objective of the ego automated vehicle is to execute an efficient and smooth policy without collision. Then, the particular algorithm named proximal policy optimization (PPO)-enhanced DRL is illustrated. To overcome the challenges in tardy training efficiency and sample inefficiency, this applied algorithm could realize high learning efficiency and excellent control performance. Finally, the PPO-DRL-based decision-making strategy is estimated from multiple perspectives, including the optimality, learning efficiency, and adaptability. Its potential for online application is discussed by applying it to similar driving scenarios.
翻訳日:2022-10-24 20:53:56 公開日:2020-08-26
# 属性によるニューラルネットワークの解釈:暗示信号予測への応用

Making Neural Networks Interpretable with Attribution: Application to Implicit Signals Prediction ( http://arxiv.org/abs/2008.11406v1 )

ライセンス: Link先を確認
Darius Afchar and Romain Hennequin(参考訳) 推奨項目が自分のニーズに関係しているかどうかをユーザが理解し,システムに対する信頼を高めることが示されている。 より一般的に、説明可能な機械学習モデルを設計することが、意思決定プロセスの健全性と堅牢性を確認し、その効率を改善する鍵となるならば、しかしながら、複雑なアーキテクチャ、特に"ブラックボックス"と見なされるディープニューラルネットワークには、依然として課題である。 本稿では,帰属課題のための解釈可能な深層ニューラルネットワークの新規な定式化を提案する。 一般的なポストホック法とは異なり、このアプローチは設計によって解釈可能である。 マスク付きの重量を使って隠れた特徴を深く評価し、いくつかの入力制限されたサブネットワークに分割し、専門家の強化された混合として訓練する。 合成データと実世界のレコメンデーションタスクに関する実験の結果から, 提案手法は, 情報的帰属解釈を提供しつつ, 予測性能の高いモデルの構築を可能にすることが示された。

Explaining recommendations enables users to understand whether recommended items are relevant to their needs and has been shown to increase their trust in the system. More generally, if designing explainable machine learning models is key to check the sanity and robustness of a decision process and improve their efficiency, it however remains a challenge for complex architectures, especially deep neural networks that are often deemed "black-box". In this paper, we propose a novel formulation of interpretable deep neural networks for the attribution task. Differently to popular post-hoc methods, our approach is interpretable by design. Using masked weights, hidden features can be deeply attributed, split into several input-restricted sub-networks and trained as a boosted mixture of experts. Experimental results on synthetic data and real-world recommendation tasks demonstrate that our method enables to build models achieving close predictive performances to their non-interpretable counterparts, while providing informative attribution interpretations.
翻訳日:2022-10-24 20:52:05 公開日:2020-08-26
# 選択的粒子注意:深い強化学習における視覚的特徴に基づく注意

Selective Particle Attention: Visual Feature-Based Attention in Deep Reinforcement Learning ( http://arxiv.org/abs/2008.11491v1 )

ライセンス: Link先を確認
Sam Blakeman, Denis Mareschal(参考訳) 人間の脳は選択的注意を用いて知覚入力をフィルタリングし、行動に有用なコンポーネントのみをその限られた計算資源で処理する。 空間的位置に関わらず,現在の作業において重要な視覚入力の特徴を識別することを目的とした,特徴的注意と呼ばれる視覚的注意の一形態に注目した。 状態表現の次元性を低減し,関連する特徴に学習を導くことにより,強化学習(RL)の効率を向上させるために,視覚的特徴に基づく注意が提案されている。 複雑な知覚運動タスクにおいて人間レベルの性能を達成するにもかかわらず、Deep RLアルゴリズムは、その効率の低下と柔軟性の欠如を一貫して批判されてきた。 したがって、視覚的な特徴に基づく注意は、これらの批判に対処する一つの選択肢である。 それでも、RL中のどの特徴を脳が学べるかは、まだ明らかな疑問である。 そこで我々は,この疑問に答えるために,選択的粒子注意 (spa) と呼ばれる新しいアルゴリズムを提案する。 SPAは、ボトムアップの正当性と将来の報酬の正確な予測に基づいて、どの機能の組み合わせに参加するかを学ぶ。 SPAを複数選択タスクと2Dビデオゲームで評価し、実際の画素入力とタスク構造への動的変化を両立させる。 特徴のすべてのサブセットやランダムなサブセットに鼻で参加するアプローチに対して,SPAの様々な利点を示す。 その結果,(1)深層rlモデルにおける視覚的特徴に基づく注目が学習効率とタスク構造の変化にどう対処できるか,(2)視覚的特徴に基づく注意が脳内でどのように起こるかという現実的な計算的説明を粒子フィルタが表現できることを示した。

The human brain uses selective attention to filter perceptual input so that only the components that are useful for behaviour are processed using its limited computational resources. We focus on one particular form of visual attention known as feature-based attention, which is concerned with identifying features of the visual input that are important for the current task regardless of their spatial location. Visual feature-based attention has been proposed to improve the efficiency of Reinforcement Learning (RL) by reducing the dimensionality of state representations and guiding learning towards relevant features. Despite achieving human level performance in complex perceptual-motor tasks, Deep RL algorithms have been consistently criticised for their poor efficiency and lack of flexibility. Visual feature-based attention therefore represents one option for addressing these criticisms. Nevertheless, it is still an open question how the brain is able to learn which features to attend to during RL. To help answer this question we propose a novel algorithm, termed Selective Particle Attention (SPA), which imbues a Deep RL agent with the ability to perform selective feature-based attention. SPA learns which combinations of features to attend to based on their bottom-up saliency and how accurately they predict future reward. We evaluate SPA on a multiple choice task and a 2D video game that both involve raw pixel input and dynamic changes to the task structure. We show various benefits of SPA over approaches that naively attend to either all or random subsets of features. Our results demonstrate (1) how visual feature-based attention in Deep RL models can improve their learning efficiency and ability to deal with sudden changes in task structure and (2) that particle filters may represent a viable computational account of how visual feature-based attention occurs in the brain.
翻訳日:2022-10-24 20:46:04 公開日:2020-08-26
# ラベル不均衡のための動的重み付き100言語におけるマルチラベル感性解析

Multi-Label Sentiment Analysis on 100 Languages with Dynamic Weighting for Label Imbalance ( http://arxiv.org/abs/2008.11573v1 )

ライセンス: Link先を確認
Selim F. Yilmaz, E. Batuhan Kaynak, Aykut Ko\c{c}, Hamdi Dibeklio\u{g}lu and Suleyman S. Kozat(参考訳) 本研究では,市場研究,政治学,社会科学など様々な分野に応用されている言語間感情分析について検討する。 特に,plutchikの感情の車輪に従うマルチラベル設定における感情分析フレームワークを導入する。 従来の静的重み付け法とは異なり,授業中の各クラスからの貢献のバランスをとる新しい動的重み付け法を提案する。 さらに,単一ラベルの物体認識文献から複数のラベル設定への難易度を優先する焦点損失を適応させた。 さらに、線形時間複雑性においてマクロf1スコアを最大化する最適なクラス固有しきい値を選択する方法を提案する。 提案手法は,1つのモデルを用いて3つの異なる言語における9つの指標のうち7つの指標において,共通ベースラインと1つのセメバルコンペティションにおける最良法と比較して,最先端のパフォーマンスが得られることを示す。 私たちは、100の言語で感情分析ができる私たちのモデルのコードを公に公開し、さらなる研究を支援しています。

We investigate cross-lingual sentiment analysis, which has attracted significant attention due to its applications in various areas including market research, politics and social sciences. In particular, we introduce a sentiment analysis framework in multi-label setting as it obeys Plutchik wheel of emotions. We introduce a novel dynamic weighting method that balances the contribution from each class during training, unlike previous static weighting methods that assign non-changing weights based on their class frequency. Moreover, we adapt the focal loss that favors harder instances from single-label object recognition literature to our multi-label setting. Furthermore, we derive a method to choose optimal class-specific thresholds that maximize the macro-f1 score in linear time complexity. Through an extensive set of experiments, we show that our method obtains the state-of-the-art performance in 7 of 9 metrics in 3 different languages using a single model compared to the common baselines and the best-performing methods in the SemEval competition. We publicly share our code for our model, which can perform sentiment analysis in 100 languages, to facilitate further research.
翻訳日:2022-10-24 20:45:06 公開日:2020-08-26
# 視覚概念推論ネットワーク

Visual Concept Reasoning Networks ( http://arxiv.org/abs/2008.11783v1 )

ライセンス: Link先を確認
Taesup Kim, Sungwoong Kim, Yoshua Bengio(参考訳) 分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。 複数の分岐を明示的に定義することで、疎結合ネットワークを近似し、異なる視覚概念や特性を持つ表現を同時に学習する。 しかし、これらの表現間の依存や相互作用は一般に密接かつ局所的な操作によって定義される。 本稿では,この戦略を活用し,視覚概念推論ネットワーク(vcrnet)と組み合わせることで,高レベルの視覚概念間の推論を可能にすることを提案する。 我々は各ブランチを視覚概念に関連付け,アテンションモジュールを通していくつかのローカル記述子を選択することで,コンパクトな概念状態を生成する。 これらの概念状態はグラフベースの相互作用によって更新され、局所ディスクリプタを適応的に変調するために使用される。 本稿では,高度にモジュール化されたアーキテクチャを選択することで実装した分割変換-attend-interact-modulate-mergeによるモデルについて述べる。 画像分類,セマンティックセグメンテーション,オブジェクト検出,シーン認識,行動認識などの視覚的タスクに関する大規模な実験により,提案するモデルであるVCRNetは,パラメータ数を1%未満に増やすことで,一貫した性能向上を図っている。

A split-transform-merge strategy has been broadly used as an architectural constraint in convolutional neural networks for visual recognition tasks. It approximates sparsely connected networks by explicitly defining multiple branches to simultaneously learn representations with different visual concepts or properties. Dependencies or interactions between these representations are typically defined by dense and local operations, however, without any adaptiveness or high-level reasoning. In this work, we propose to exploit this strategy and combine it with our Visual Concept Reasoning Networks (VCRNet) to enable reasoning between high-level visual concepts. We associate each branch with a visual concept and derive a compact concept state by selecting a few local descriptors through an attention module. These concept states are then updated by graph-based interaction and used to adaptively modulate the local descriptors. We describe our proposed model by split-transform-attend-interact-modulate-merge stages, which are implemented by opting for a highly modularized architecture. Extensive experiments on visual recognition tasks such as image classification, semantic segmentation, object detection, scene recognition, and action recognition show that our proposed model, VCRNet, consistently improves the performance by increasing the number of parameters by less than 1%.
翻訳日:2022-10-24 20:44:14 公開日:2020-08-26
# 不均衡データ分類における性能指標の適切性:分析

Appropriateness of Performance Indices for Imbalanced Data Classification: An Analysis ( http://arxiv.org/abs/2008.11752v1 )

ライセンス: Link先を確認
Sankha Subhra Mullick and Shounak Datta and Sourish Gunesh Dhekane and Swagatam Das(参考訳) クラス不均衡下での分類器の性能を定量化する指標は、テストセットの構成やクラス固有の分類精度に依存する歪みに悩まされ、分類器の利点を評価するのに困難が生じる。 各クラスのテストインスタンス数とテストセット内のクラス数の変更に対して,パフォーマンス指標がそれぞれレジリエントでなければならない2つの基本的な条件を特定した。 これらの条件を踏まえ、クラス不均衡の影響により、二項分類器の評価によく用いられる4つの指標と、多項分類器の一般的な5つの指標を理論的に分析する。 いずれかの条件に違反する指標については、修正と正規化を推奨する。 さらに、分類器がいくつかのクラスに極端な性能を示す場合でも、すべてのクラスに対して分類性能に関する情報を保持する指標の能力について検討する。 クラス不均衡処理に適した4つの最先端分類器を用いて、ImageNetデータセットのサブセットの高次元深部表現についてシミュレーション研究を行った。 最後に,本研究の理論的知見と実証的エビデンスに基づき,クラス不均衡の存在下での分類器の性能評価に用いるべき適切な指標を推薦する。

Indices quantifying the performance of classifiers under class-imbalance, often suffer from distortions depending on the constitution of the test set or the class-specific classification accuracy, creating difficulties in assessing the merit of the classifier. We identify two fundamental conditions that a performance index must satisfy to be respectively resilient to altering number of testing instances from each class and the number of classes in the test set. In light of these conditions, under the effect of class imbalance, we theoretically analyze four indices commonly used for evaluating binary classifiers and five popular indices for multi-class classifiers. For indices violating any of the conditions, we also suggest remedial modification and normalization. We further investigate the capability of the indices to retain information about the classification performance over all the classes, even when the classifier exhibits extreme performance on some classes. Simulation studies are performed on high dimensional deep representations of subset of the ImageNet dataset using four state-of-the-art classifiers tailored for handling class imbalance. Finally, based on our theoretical findings and empirical evidence, we recommend the appropriate indices that should be used to evaluate the performance of classifiers in presence of class-imbalance.
翻訳日:2022-10-24 20:43:51 公開日:2020-08-26
# reconfigurable diffractive processing unitを用いた大規模ニューロモルフィック光電子計算

Large-scale neuromorphic optoelectronic computing with a reconfigurable diffractive processing unit ( http://arxiv.org/abs/2008.11659v1 )

ライセンス: Link先を確認
Tiankuang Zhou, Xing Lin, Jiamin Wu, Yitong Chen, Hao Xie, Yipeng Li, Jintao Fan, Huaqiang Wu, Lu Fang and Qionghai Dai(参考訳) アプリケーション固有の光学プロセッサは、人工知能(ai)の開発を根本的に加速し、計算性能を大幅に向上できる現代コンピューティングの破壊的技術とみなされてきた。 様々な機械学習タスクを実行するために、光ニューラルネットワークアーキテクチャの最近の進歩が応用されている。 しかし、既存のアーキテクチャは複雑さとパフォーマンスが限られており、デプロイ後に異なるアプリケーションのために異なるニューラルネットワークモデルを切り替えるように再構成できない独自の設計が必要である。 本稿では、異なるニューラルネットワークを効率的にサポートし、数百万のニューロンで高いモデル複雑性を達成するディフュージョン処理ユニット(dpu)を構築することで、光電子再構成可能なコンピューティングパラダイムを提案する。 ほぼ全ての計算処理を光学的に割り当て、光学変調器と光検出器を動的にプログラミングすることで、非常に高速なデータ変調と大規模ネットワークパラメータの更新を実現する。 各種拡散フィードフォワードおよびリカレントニューラルネットワークを実装するためのDPUの再構成を実証し,システム欠陥を回避するための適応トレーニング手法を開発した。 ベンチマークデータセット上で,手書き文字画像とヒューマンアクションビデオの高速分類に訓練されたネットワークを適用し,電子計算機の手法と同等の分類精度を示した。 さらに,市販のオプトエレクトロニック部品を用いたプロトタイプシステムでは,最先端のグラフィックス処理ユニット(GPU)の性能を数倍上回り,システムエネルギー効率は1桁以上である。

Application-specific optical processors have been considered disruptive technologies for modern computing that can fundamentally accelerate the development of artificial intelligence (AI) by offering substantially improved computing performance. Recent advancements in optical neural network architectures for neural information processing have been applied to perform various machine learning tasks. However, the existing architectures have limited complexity and performance; and each of them requires its own dedicated design that cannot be reconfigured to switch between different neural network models for different applications after deployment. Here, we propose an optoelectronic reconfigurable computing paradigm by constructing a diffractive processing unit (DPU) that can efficiently support different neural networks and achieve a high model complexity with millions of neurons. It allocates almost all of its computational operations optically and achieves extremely high speed of data modulation and large-scale network parameter updating by dynamically programming optical modulators and photodetectors. We demonstrated the reconfiguration of the DPU to implement various diffractive feedforward and recurrent neural networks and developed a novel adaptive training approach to circumvent the system imperfections. We applied the trained networks for high-speed classifying of handwritten digit images and human action videos over benchmark datasets, and the experimental results revealed a comparable classification accuracy to the electronic computing approaches. Furthermore, our prototype system built with off-the-shelf optoelectronic components surpasses the performance of state-of-the-art graphics processing units (GPUs) by several times on computing speed and more than an order of magnitude on system energy efficiency.
翻訳日:2022-10-24 20:43:29 公開日:2020-08-26