このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201016となっている論文です。

PDF登録状況(公開日: 20201016)

TitleAuthorsAbstract論文公表日・翻訳日
# 複雑ネットワークのノード埋め込みと完全低ランク表現

Node Embeddings and Exact Low-Rank Representations of Complex Networks ( http://arxiv.org/abs/2006.05592v2 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Cameron Musco, Konstantinos Sotiropoulos, Charalampos E. Tsourakakis(参考訳) 低次元埋め込みは、古典的なスペクトル埋め込みから現代のニューラルネットに触発された手法まで、複雑なネットワークのモデリングと解析の基盤である。 Seshadhriらによる最近の研究(PNAS 2020)は、そのような埋め込みが複雑なネットワークで生じる局所構造を捉えることができないことを示唆している。 特に、自然低次元モデルから生成される任意のネットワークはスパースであり得ず、多くの実世界のネットワークの2つのホールマーク特性である高三角密度(高クラスタリング係数)を持つ。 本研究では、seshadhriらの結果が、複雑なネットワークの低次元構造よりも、彼らが使用するモデルと密接な関係にあることを示す。 具体的には、これらのモデルの小さな緩和が高三角密度のスパースグラフを生成できることを証明している。 驚くべきことに、このモデルが多くの実世界のネットワークの正確な低次元分解に繋がることを示す。 本稿では,ロジスティックな主成分分析(LPCA)に基づく簡単なアルゴリズムを提案する。 最後に,実世界のネットワークにおける局所構造を捉えるために,非常に低次元の埋め込みの能力を検証する実験を多数実施した。

Low-dimensional embeddings, from classical spectral embeddings to modern neural-net-inspired methods, are a cornerstone in the modeling and analysis of complex networks. Recent work by Seshadhri et al. (PNAS 2020) suggests that such embeddings cannot capture local structure arising in complex networks. In particular, they show that any network generated from a natural low-dimensional model cannot be both sparse and have high triangle density (high clustering coefficient), two hallmark properties of many real-world networks. In this work we show that the results of Seshadhri et al. are intimately connected to the model they use rather than the low-dimensional structure of complex networks. Specifically, we prove that a minor relaxation of their model can generate sparse graphs with high triangle density. Surprisingly, we show that this same model leads to exact low-dimensional factorizations of many real-world networks. We give a simple algorithm based on logistic principal component analysis (LPCA) that succeeds in finding such exact embeddings. Finally, we perform a large number of experiments that verify the ability of very low-dimensional embeddings to capture local structure in real-world networks.
翻訳日:2022-11-23 05:08:19 公開日:2020-10-16
# 送電電圧制御のための深部強化学習

Deep Reinforcement Learning for Electric Transmission Voltage Control ( http://arxiv.org/abs/2006.06728v2 )

ライセンス: Link先を確認
Brandon L. Thayer and Thomas J. Overbye(参考訳) 今日、人間のオペレーターは主に電力系統の電圧制御を行っている。 グリッドの複雑さが増すにつれて、操作も難しくなり、追加の自動化が有効になる可能性がある。 深層強化学習(DRL)として知られる機械学習のサブセットは、人間が通常行うタスクの実行において、最近約束されている。 本稿では,drlを伝送電圧制御問題に適用し,電圧制御のためのオープンソースdrl環境を提示し,dqn(deep q network)アルゴリズムの新しい修正を提案し,500台までのシステムで大規模に実験を行う。 drlを電圧制御に適用するという約束は実証されているが、drlベースの手法が従来の手法を一貫して上回るためには、さらなる研究が必要である。

Today, human operators primarily perform voltage control of the electric transmission system. As the complexity of the grid increases, so does its operation, suggesting additional automation could be beneficial. A subset of machine learning known as deep reinforcement learning (DRL) has recently shown promise in performing tasks typically performed by humans. This paper applies DRL to the transmission voltage control problem, presents open-source DRL environments for voltage control, proposes a novel modification to the "deep Q network" (DQN) algorithm, and performs experiments at scale with systems up to 500 buses. The promise of applying DRL to voltage control is demonstrated, though more research is needed to enable DRL-based techniques to consistently outperform conventional methods.
翻訳日:2022-11-22 13:40:29 公開日:2020-10-16
# 多様体上の回帰に対するサンプル複雑性と有効次元

Sample complexity and effective dimension for regression on manifolds ( http://arxiv.org/abs/2006.07642v3 )

ライセンス: Link先を確認
Andrew McRae and Justin Romberg and Mark Davenport(参考訳) 我々は、カーネルヒルベルト空間法を用いて多様体上の回帰の理論を考える。 我々の目標は、多様体構造を利用する様々な暗黙的および明示的な次元的還元法の有効性を理解することにある。 最初の重要な貢献は、微分幾何学から新しいワイル法則の漸近版を確立することである。 このことから、多様体上の滑らかな函数のある空間が、任意の周囲のデータ次元よりも多様体次元に従ってスケールする複雑性を持つ実効有限次元であることが示せる。 最後に、多様体上のランダムに取られる(潜在的に騒がしい)関数値が与えられたとき、(多様体のスペクトル分解に由来する)カーネル回帰推定器は、有効次元によって制御されるミニマックス最適誤差境界を生成する。

We consider the theory of regression on a manifold using reproducing kernel Hilbert space methods. Manifold models arise in a wide variety of modern machine learning problems, and our goal is to help understand the effectiveness of various implicit and explicit dimensionality-reduction methods that exploit manifold structure. Our first key contribution is to establish a novel nonasymptotic version of the Weyl law from differential geometry. From this we are able to show that certain spaces of smooth functions on a manifold are effectively finite-dimensional, with a complexity that scales according to the manifold dimension rather than any ambient data dimension. Finally, we show that given (potentially noisy) function values taken uniformly at random over a manifold, a kernel regression estimator (derived from the spectral decomposition of the manifold) yields minimax-optimal error bounds that are controlled by the effective dimension.
翻訳日:2022-11-21 21:01:48 公開日:2020-10-16
# 身体的神経認知モデルにおける言語接地

Crossmodal Language Grounding in an Embodied Neurocognitive Model ( http://arxiv.org/abs/2006.13546v2 )

ライセンス: Link先を確認
Stefan Heinrich, Yuan Yao, Tobias Hinz, Zhiyuan Liu, Thomas Hummel, Matthias Kerzel, Cornelius Weber, and Stefan Wermter(参考訳) ヒトの幼児は早期に自然言語を習得することができる。 彼らの言語学習は、他の認知機能を学ぶと同時に、環境や介護者と遊び心のある相互作用も同時に起こるように思われる。 神経科学的な観点では、自然言語は具現化され、ほとんどすべてではなく、感覚と感覚のモダリティに基礎を置いており、クロスモーダルな統合によって獲得される。 しかし、脳の基盤となるメカニズムを特徴づけることは困難であり、言語の基礎をクロスモーダルな知覚と行動で説明することは依然として困難である。 本稿では,時間スケールの暗黙的適応やエンドツーエンドのマルチモーダル抽象化といったバイオインスパイアされたメカニズムを反映した言語基盤の神経認知モデルを提案する。 開発ロボティクスに対処し、より大規模な知識ベースのデータを用いて学習能力を拡張する。 このシナリオでは,認知ロボットが介護者から言語ラベルを受信しながら,子どもの遊び場環境内の物体と対話するEMILデータ収集に,ヒューマノイドロボットNICOを利用する。 モデル解析により, 環境中の物体との相互作用を通じて, 感覚入力からのみ言語を得るには, クロスモーダル統合表現が十分であることが示された。 自己組織を階層的に表現し、構成と分解を通じて時空間情報を埋め込む。 このモデルは、知覚的に基底付けられた認知表現のさらなる相互統合の基盤を提供することもできる。

Human infants are able to acquire natural language seemingly easily at an early age. Their language learning seems to occur simultaneously with learning other cognitive functions as well as with playful interactions with the environment and caregivers. From a neuroscientific perspective, natural language is embodied, grounded in most, if not all, sensory and sensorimotor modalities, and acquired by means of crossmodal integration. However, characterising the underlying mechanisms in the brain is difficult and explaining the grounding of language in crossmodal perception and action remains challenging. In this paper, we present a neurocognitive model for language grounding which reflects bio-inspired mechanisms such as an implicit adaptation of timescales as well as end-to-end multimodal abstraction. It addresses developmental robotic interaction and extends its learning capabilities using larger-scale knowledge-based data. In our scenario, we utilise the humanoid robot NICO in obtaining the EMIL data collection, in which the cognitive robot interacts with objects in a children's playground environment while receiving linguistic labels from a caregiver. The model analysis shows that crossmodally integrated representations are sufficient for acquiring language merely from sensory input through interaction with objects in an environment. The representations self-organise hierarchically and embed temporal and spatial information through composition and decomposition. This model can also provide the basis for further crossmodal integration of perceptually grounded cognitive representations.
翻訳日:2022-11-17 08:58:47 公開日:2020-10-16
# 空間カウントデータモデルの高速ベイズ推定

Fast Bayesian Estimation of Spatial Count Data Models ( http://arxiv.org/abs/2007.03681v2 )

ライセンス: Link先を確認
Prateek Bansal, Rico Krueger, Daniel J. Graham(参考訳) 空間カウントデータモデルは、国勢調査区域や道路セグメントのような地理的に異なる実体における交通事故などの現象の頻度を説明・予測するために使用される。 これらのモデルは通常、ベイジアンマルコフ連鎖モンテカルロ(mcmc)シミュレーション法を用いて推定されるが、計算コストは高く、大規模データセットではスケールしない。 機械学習の手法である変分ベイズ(VB)は、シミュレーション問題ではなく最適化問題としてベイズ推定をキャストすることでMCMCの欠点に対処する。 これらのVBの利点を全て考慮して、VB法は、観測されていないパラメータの不均一性と空間的依存を持つ負二項モデルにおける後部推論のために導出される。 P'olya-Gamma augmentation は負二項性確率の非共役性を扱うために使用され、後続の依存関係を捉えるために変分分布の統合的非分解仕様を採用する。 提案手法の利点はモンテカルロの研究では実証され、ニューヨーク市の国勢調査における若年者歩行者数の推定に実証的な応用がなされた。 VBアプローチは、シミュレーションと経験的研究において、通常の8コアプロセッサ上でのMCMCの45~50倍の速度で、同様の推定と予測精度を提供する。 計算資源の可用性を条件として、提案するvb法の恥ずかしい並列アーキテクチャを利用して、その推定を最大20倍高速化することができる。

Spatial count data models are used to explain and predict the frequency of phenomena such as traffic accidents in geographically distinct entities such as census tracts or road segments. These models are typically estimated using Bayesian Markov chain Monte Carlo (MCMC) simulation methods, which, however, are computationally expensive and do not scale well to large datasets. Variational Bayes (VB), a method from machine learning, addresses the shortcomings of MCMC by casting Bayesian estimation as an optimisation problem instead of a simulation problem. Considering all these advantages of VB, a VB method is derived for posterior inference in negative binomial models with unobserved parameter heterogeneity and spatial dependence. P\'olya-Gamma augmentation is used to deal with the non-conjugacy of the negative binomial likelihood and an integrated non-factorised specification of the variational distribution is adopted to capture posterior dependencies. The benefits of the proposed approach are demonstrated in a Monte Carlo study and an empirical application on estimating youth pedestrian injury counts in census tracts of New York City. The VB approach is around 45 to 50 times faster than MCMC on a regular eight-core processor in a simulation and an empirical study, while offering similar estimation and predictive accuracy. Conditional on the availability of computational resources, the embarrassingly parallel architecture of the proposed VB method can be exploited to further accelerate its estimation by up to 20 times.
翻訳日:2022-11-12 19:24:28 公開日:2020-10-16
# KAPLAN: シェイプコンプリートのための3Dポイントディスクリプタ

KAPLAN: A 3D Point Descriptor for Shape Completion ( http://arxiv.org/abs/2008.00096v2 )

ライセンス: Link先を確認
Audrey Richard, Ian Cherabier, Martin R. Oswald, Marc Pollefeys, Konrad Schindler(参考訳) 本研究では,非構造点雲を直接操作し,ボクセルグリッドのような資源集約的なデータ構造を避ける新しい3次元形状補完手法を提案する。 そこで本研究では,局所的な形状情報を2次元畳み込みによって集約する3次元点記述子KAPLANを紹介する。 鍵となる考え方は、局所近傍の点を異なる向きを持つ複数の平面に投影することである。 各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。 すべての平面は共同で符号化されるので、結果として得られる表現はそれらの相関を捉え、高価な3D畳み込みなしに基礎となる3次元形状に関する知識を保持することができる。 公開データセットの実験では、KAPLANは3D形状の完成のために最先端のパフォーマンスを達成する。

We present a novel 3D shape completion method that operates directly on unstructured point clouds, thus avoiding resource-intensive data structures like voxel grids. To this end, we introduce KAPLAN, a 3D point descriptor that aggregates local shape information via a series of 2D convolutions. The key idea is to project the points in a local neighborhood onto multiple planes with different orientations. In each of those planes, point properties like normals or point-to-plane distances are aggregated into a 2D grid and abstracted into a feature representation with an efficient 2D convolutional encoder. Since all planes are encoded jointly, the resulting representation nevertheless can capture their correlations and retains knowledge about the underlying 3D shape, without expensive 3D convolutions. Experiments on public datasets show that KAPLAN achieves state-of-the-art performance for 3D shape completion.
翻訳日:2022-11-04 06:47:07 公開日:2020-10-16
# 攻撃的税制計画戦略を評価するための知識グラフ

A Knowledge Graph for Assessing Aggressive Tax Planning Strategies ( http://arxiv.org/abs/2008.05239v3 )

ライセンス: Link先を確認
Niklas L\"udemann, Ageda Shiba, Nikolaos Thymianis, Nicolas Heist, Christopher Ludwig, and Heiko Paulheim(参考訳) 多国籍企業の課税は、いくつかの州の法律の影響を受けており、複雑な分野である。 異なる州の法律は予期せぬ相互作用効果を持つ可能性があり、多国籍企業が税を最小化することで利用することができる。 本稿では,多国籍企業とその関係に関する知識グラフについて述べる。 一般に知られている税制計画戦略は,そのグラフへのサブグラフクエリとして定式化され,特定の戦略を用いて企業を特定することができることを示す。 さらに,税計画戦略の可能性を示唆するグラフ上の異常を識別できることを実証し,フェデレーションクエリを用いてウィキデータからの情報を取り込むことにより,それらの分析の強化方法を示す。

The taxation of multi-national companies is a complex field, since it is influenced by the legislation of several states. Laws in different states may have unforeseen interaction effects, which can be exploited by allowing multinational companies to minimize taxes, a concept known as tax planning. In this paper, we present a knowledge graph of multinational companies and their relationships, comprising almost 1.5M business entities. We show that commonly known tax planning strategies can be formulated as subgraph queries to that graph, which allows for identifying companies using certain strategies. Moreover, we demonstrate that we can identify anomalies in the graph which hint at potential tax planning strategies, and we show how to enhance those analyses by incorporating information from Wikidata using federated queries.
翻訳日:2022-10-31 05:39:07 公開日:2020-10-16
# 深部体積環境咬合

Deep Volumetric Ambient Occlusion ( http://arxiv.org/abs/2008.08345v2 )

ライセンス: Link先を確認
Dominik Engel, Timo Ropinski(参考訳) 本稿では,音量直接レンダリングの文脈における音量環境咬合の深層学習に基づく新しい手法を提案する。 提案するdvao(deep volumetric ambient occlusion)アプローチは,転送関数によるグローバル情報を考慮して,voxel単位の空間的閉塞を予測できる。 提案するニューラルネットワークは,このグローバル情報の変更時にのみ実行する必要があるため,リアルタイムボリュームインタラクションがサポートされている。 そこで本研究では,DVAOが直接ボリュームレンダリング内で対話的に適用できるように,ボリューム周囲の閉塞を予測する能力を示す。 最良な結果を得るために,深層ニューラルネットワークのための様々な伝達関数表現と注入戦略を提案し,解析する。 得られた結果に基づいて、同様のボリューム学習シナリオに適用可能な推奨も提供する。 最後に,dvaoはctデータのみに基づいて訓練されているにもかかわらず,様々なモードに一般化していることを示す。

We present a novel deep learning based technique for volumetric ambient occlusion in the context of direct volume rendering. Our proposed Deep Volumetric Ambient Occlusion (DVAO) approach can predict per-voxel ambient occlusion in volumetric data sets, while considering global information provided through the transfer function. The proposed neural network only needs to be executed upon change of this global information, and thus supports real-time volume interaction. Accordingly, we demonstrate DVAOs ability to predict volumetric ambient occlusion, such that it can be applied interactively within direct volume rendering. To achieve the best possible results, we propose and analyze a variety of transfer function representations and injection strategies for deep neural networks. Based on the obtained results we also give recommendations applicable in similar volume learning scenarios. Lastly, we show that DVAO generalizes to a variety of modalities, despite being trained on computed tomography data only.
翻訳日:2022-10-27 08:40:38 公開日:2020-10-16
# ハフ層を用いた軽量CNNによる線検出

Line detection via a lightweight CNN with a Hough Layer ( http://arxiv.org/abs/2008.08884v2 )

ライセンス: Link先を確認
Lev Teplyakov, Kirill Kaymakov, Evgeny Shvets, Dmitry Nikolaev(参考訳) ライン検出は、伝統的にハフ変換によって解決された重要なコンピュータビジョンタスクである。 しかし、ディープラーニングの進歩により、ライン検出へのトレーニング可能なアプローチが普及した。 本稿では,ネットワークニューロンがグローバルにストリップ状受容野を持つためのパラメータフリーhough層を組み込んだ,ライン検出のための軽量cnnを提案する。 従来の畳み込みネットワークは、ライン検出のタスクに適用されると2つの固有の問題があり、ハフ層がネットワークにどのように挿入されるかを示す。 さらに、線検出に使われる現在のデータセットにおけるいくつかの大きな不整合を指摘する。

Line detection is an important computer vision task traditionally solved by Hough Transform. With the advance of deep learning, however, trainable approaches to line detection became popular. In this paper we propose a lightweight CNN for line detection with an embedded parameter-free Hough layer, which allows the network neurons to have global strip-like receptive fields. We argue that traditional convolutional networks have two inherent problems when applied to the task of line detection and show how insertion of a Hough layer into the network solves them. Additionally, we point out some major inconsistencies in the current datasets used for line detection.
翻訳日:2022-10-27 03:40:31 公開日:2020-10-16
# 深部強化学習による静的ニューラルネットワーク最適化

Static Neural Compiler Optimization via Deep Reinforcement Learning ( http://arxiv.org/abs/2008.08951v3 )

ライセンス: Link先を確認
Rahim Mammadli, Ali Jannesari and Felix Wolf(参考訳) 現代のコンパイラのフェーズオーダリング問題は、長年にわたって研究コミュニティから多くの注目を集めてきたが、ほとんど解決されていない。 ユーザに公開される様々な最適化シーケンスは、コンパイラ開発者が手動で設計する。 このようなシーケンスを設計するには、最適化パスのセット、パラメータ、シーケンス内の順序を選択する必要がある。 結果のシーケンスは通常、与えられたソースコードの最適なランタイムの達成に至らず、最適化されていないバージョンと比較してパフォーマンスが低下することもある。 本稿では,位相順序付け問題に対して,深い強化学習手法を適用する。 LLVMのO3シークエンスを構成するサブシーケンスを用いて,トレーニングに使用するソースコードセット上でO3シークエンスを上回り,検証セット上での競合性能を最大1.32倍に向上させる。 特に我々のアプローチは、最適化決定を成功させるためにプログラムの1つ以上のテスト実行に依存せず、自動チューニング方法とは異なる。 動的機能には依存しないが、静的に許容可能なソースコードの中間表現にのみ依存する。 このアプローチでトレーニングされたモデルは、まずはニューラルネットワーク最適化エージェントとして現代のコンパイラに統合され、最終的には手作りの最適化シーケンスを置き換えることができると考えています。

The phase-ordering problem of modern compilers has received a lot of attention from the research community over the years, yet remains largely unsolved. Various optimization sequences exposed to the user are manually designed by compiler developers. In designing such a sequence developers have to choose the set of optimization passes, their parameters and ordering within a sequence. Resulting sequences usually fall short of achieving optimal runtime for a given source code and may sometimes even degrade the performance when compared to unoptimized version. In this paper, we employ a deep reinforcement learning approach to the phase-ordering problem. Provided with sub-sequences constituting LLVM's O3 sequence, our agent learns to outperform the O3 sequence on the set of source codes used for training and achieves competitive performance on the validation set, gaining up to 1.32x speedup on previously-unseen programs. Notably, our approach differs from autotuning methods by not depending on one or more test runs of the program for making successful optimization decisions. It has no dependence on any dynamic feature, but only on the statically-attainable intermediate representation of the source code. We believe that the models trained using our approach can be integrated into modern compilers as neural optimization agents, at first to complement, and eventually replace the hand-crafted optimization sequences.
翻訳日:2022-10-27 03:06:23 公開日:2020-10-16
# スパイラル畳み込みメトリックラーニングによる3次元顔照合と人口動態のバイオメトリック・フュージョンネット

3D Facial Matching by Spiral Convolutional Metric Learning and a Biometric Fusion-Net of Demographic Properties ( http://arxiv.org/abs/2009.04746v2 )

ライセンス: Link先を確認
Soha Sadat Mahdi (1), Nele Nauwelaers (1), Philip Joris (1), Giorgos Bouritsas (2), Shunwang Gong (2), Sergiy Bokhnyak (3), Susan Walsh (4), Mark D. Shriver (5), Michael Bronstein (2,3,6), Peter Claes (1,7). ((1) KU Leuven, ESAT/PSI - UZ Leuven, MIRC, (2) Imperial College London, Department of Computing, (3) USI Lugano, Institute of Computational Science, (4) Indiana University-Purdue University-Indianapolis, Department of Biology, (5) Penn State University, Department of Anthropology, (6) Twitter, (7) KU Leuven, Department of Human Genetics)(参考訳) 顔認識は広く受け入れられている生体認証ツールであり、顔には人物の身元に関する情報が多数含まれている。 本研究では,3次元顔の形状を複数のDNA関連特性(性別,年齢,BMI,ゲノム背景)に適合させる2段階のニューラルベースパイプラインを提案する。 最初のステップは、顔の形状を低次元の埋め込みに圧縮するトリプルトロスベースのメトリック学習器から成り、興味のある特性に関する情報を保存します。 計量学習の分野におけるほとんどの研究は、2次元ユークリッドデータのみに焦点を当てている。 本研究では,3次元顔メッシュから直接学習するために幾何学的深層学習が用いられる。 この目的のために、スパイラル畳み込みと、異なるレベルの解像度で均一にサンプリングされた3dポイントを保持する新しいメッシュサンプリングスキームが用いられる。 第2のステップは、完全に接続されたニューラルネットワークによるマルチバイオメトリック融合である。 ネットワークは入力として埋め込みとプロパティラベルのアンサンブルを取り、真偽と偽のスコアを返す。 埋め込みは入力として受け入れられるので、異なるプロパティの分類器をトレーニングする必要はなく、利用可能なデータはより効率的に使用できる。 生体認証のための10倍のクロスバリデーションにより得られた結果は、複数の特性を組み合わせることでより強力な生体認証システムが得られることを示している。 さらに,提案するニューラルベースパイプラインは,主成分分析から得られた線形ベースラインを,線形サポートベクターマシンとナイーブベイズベースのスコアfuserで分類する。

Face recognition is a widely accepted biometric verification tool, as the face contains a lot of information about the identity of a person. In this study, a 2-step neural-based pipeline is presented for matching 3D facial shape to multiple DNA-related properties (sex, age, BMI and genomic background). The first step consists of a triplet loss-based metric learner that compresses facial shape into a lower dimensional embedding while preserving information about the property of interest. Most studies in the field of metric learning have only focused on 2D Euclidean data. In this work, geometric deep learning is employed to learn directly from 3D facial meshes. To this end, spiral convolutions are used along with a novel mesh-sampling scheme that retains uniformly sampled 3D points at different levels of resolution. The second step is a multi-biometric fusion by a fully connected neural network. The network takes an ensemble of embeddings and property labels as input and returns genuine and imposter scores. Since embeddings are accepted as an input, there is no need to train classifiers for the different properties and available data can be used more efficiently. Results obtained by a 10-fold cross-validation for biometric verification show that combining multiple properties leads to stronger biometric systems. Furthermore, the proposed neural-based pipeline outperforms a linear baseline, which consists of principal component analysis, followed by classification with linear support vector machines and a Naive Bayes-based score-fuser.
翻訳日:2022-10-20 03:20:55 公開日:2020-10-16
# 位相振幅結合学習による生体信号分類の一般化

Boosting Generalization in Bio-Signal Classification by Learning the Phase-Amplitude Coupling ( http://arxiv.org/abs/2009.07664v2 )

ライセンス: Link先を確認
Abdelhak Lemkhenter and Paolo Favaro(参考訳) 生体信号の様々な手作り特徴表現は、主に特定の周波数帯域における信号の振幅やパワーに依存する。 位相成分は振幅よりもサンプリング特異度が高くノイズに敏感であるため、しばしば破棄される。 しかし、一般に、相成分は基盤となる生物学的プロセスに関連する情報も持っている。 実際,本論文では,生体信号の位相成分と振幅成分の結合を学習する利点を示す。 我々は,異なる音源から振幅と位相をマージして生体信号が得られたことを検知する,新しい自己教師型学習タスク「Phase-Swap」を導入する。 我々は、このタスクでトレーニングされたニューラルネットワークが、完全に教師されたセッションよりも、被験者や録音セッションをより一般化できることを、我々の評価で示している。

Various hand-crafted features representations of bio-signals rely primarily on the amplitude or power of the signal in specific frequency bands. The phase component is often discarded as it is more sample specific, and thus more sensitive to noise, than the amplitude. However, in general, the phase component also carries information relevant to the underlying biological processes. In fact, in this paper we show the benefits of learning the coupling of both phase and amplitude components of a bio-signal. We do so by introducing a novel self-supervised learning task, which we call Phase-Swap, that detects if bio-signals have been obtained by merging the amplitude and phase from different sources. We show in our evaluation that neural networks trained on this task generalize better across subjects and recording sessions than their fully supervised counterpart.
翻訳日:2022-10-17 22:52:56 公開日:2020-10-16
# ミュータント:視覚質問応答における分散一般化のためのトレーニングパラダイム

MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering ( http://arxiv.org/abs/2009.08566v2 )

ライセンス: Link先を確認
Tejas Gokhale and Pratyay Banerjee and Chitta Baral and Yezhou Yang(参考訳) リーダーボードに答える視覚的な質問は進歩してきたが、モデルはしばしば、i.d.d.設定下のデータセットにおける刺激的な相関と先行を利用する。 このように、一般化のプロキシとして、out-of-distribution (ood) テストサンプルの評価が現れている。 本稿では,vqa-cp 課題のような ood 一般化を改善するために,入力の知覚的に類似するが意味的に異なる変異を提示する学習パラダイムである mut を提案する。 このパラダイムの下では、モデルは一貫性に制約された訓練目標を使用して、入力(クエクションとイメージのペア)が出力(回答)に与える影響を理解する。 VQA-CPの既存の手法とは異なり、MUTANTは列車と試験応答の分布に関する知識に依存していない。 MUTANTは、VQA-CPに新しい最先端の精度を10.57セントで確立している。 本研究は,質問応答におけるOOD一般化に意味的入力突然変異を用いるための道を開くものである。

While progress has been made on the visual question answering leaderboards, models often utilize spurious correlations and priors in datasets under the i.i.d. setting. As such, evaluation on out-of-distribution (OOD) test samples has emerged as a proxy for generalization. In this paper, we present MUTANT, a training paradigm that exposes the model to perceptually similar, yet semantically distinct mutations of the input, to improve OOD generalization, such as the VQA-CP challenge. Under this paradigm, models utilize a consistency-constrained training objective to understand the effect of semantic changes in input (question-image pair) on the output (answer). Unlike existing methods on VQA-CP, MUTANT does not rely on the knowledge about the nature of train and test answer distributions. MUTANT establishes a new state-of-the-art accuracy on VQA-CP with a $10.57\%$ improvement. Our work opens up avenues for the use of semantic input mutations for OOD generalization in question answering.
翻訳日:2022-10-17 02:14:04 公開日:2020-10-16
# DeepDyve: ディープニューラルネットワークの動的検証

DeepDyve: Dynamic Verification for Deep Neural Networks ( http://arxiv.org/abs/2009.09663v2 )

ライセンス: Link先を確認
Yu Li, Min Li, Bo Luo, Ye Tian, and Qiang Xu(参考訳) ディープニューラルネットワーク(DNN)は、自律運転や医療画像解析など、多くの安全クリティカルなアプリケーションにおいて実現可能な技術の1つとなっている。 しかし、DNNシステムは、敵のサンプル攻撃や障害注入攻撃など、様々な種類の脅威に悩まされている。 悪意ある入力に対して多くの防御手法が提案されているが、DNNシステム自体(例えばパラメータや計算)で提示される障害に対する解決策は、はるかに少ない。 本稿では,従来のDNNよりもはるかにシンプルで小さくトレーニング済みのニューラルネットワークを用いて動的検証を行うDNNベースのシステムのための,新しい軽量フォールトトレラントソリューションであるDeepDyveを開発する。 このような軽量なチェックを可能にする鍵は、小さなニューラルネットワークが障害カバレッジを犠牲にすることなく、初期タスクの近似結果のみを生成する必要があることである。 我々は,DeepDyveにおけるリスク/オーバヘッドトレードオフの最適化を実現するために,効率的かつ効率的なアーキテクチャとタスク探索手法を開発した。 実験の結果、DeepDyveはリスクの90%を約10%のオーバーヘッドで削減できることがわかった。

Deep neural networks (DNNs) have become one of the enabling technologies in many safety-critical applications, e.g., autonomous driving and medical image analysis. DNN systems, however, suffer from various kinds of threats, such as adversarial example attacks and fault injection attacks. While there are many defense methods proposed against maliciously crafted inputs, solutions against faults presented in the DNN system itself (e.g., parameters and calculations) are far less explored. In this paper, we develop a novel lightweight fault-tolerant solution for DNN-based systems, namely DeepDyve, which employs pre-trained neural networks that are far simpler and smaller than the original DNN for dynamic verification. The key to enabling such lightweight checking is that the smaller neural network only needs to produce approximate results for the initial task without sacrificing fault coverage much. We develop efficient and effective architecture and task exploration techniques to achieve optimized risk/overhead trade-off in DeepDyve. Experimental results show that DeepDyve can reduce 90% of the risks at around 10% overhead.
翻訳日:2022-10-16 03:48:42 公開日:2020-10-16
# PennSyn2Real:人間ラベルなしの物体認識モデル

PennSyn2Real: Training Object Recognition Models without Human Labeling ( http://arxiv.org/abs/2009.10292v2 )

ライセンス: Link先を確認
Ty Nguyen, Ian D. Miller, Avi Cohen, Dinesh Thakur, Shashank Prasad, Camillo J. Taylor, Pratik Chaudrahi, Vijay Kumar(参考訳) スケーラブルなトレーニングデータ生成は、ディープラーニングにおいて重要な問題である。 我々は20種以上の小型航空機(mav)の10万以上の4k画像からなる,フォトリアリスティックな合成データセットであるpennsyn2realを提案する。 このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用できる。 我々のデータ生成フレームワークであるブートストラップクロマキーは、モーショントラッキングシステムを備えた成熟した撮影技術であり、オブジェクトの向きや照明が制御されるアーティファクトフリーでキュレーションされた注釈付き画像を提供する。 このフレームワークはセットアップが容易で、広範囲のオブジェクトに適用でき、合成データと実世界のデータのギャップを減らします。 このフレームワークを用いて生成された合成データは、検出やセグメンテーションなどの一般的なオブジェクト認識タスクに対してcnnモデルをトレーニングするために直接使用できることを示す。 実画像のみを用いたトレーニングと比較し,競争性能を示す。 さらに、生成した合成データを数ショットの学習でブートストラップすることで、全体的な性能が大幅に向上し、所望の精度を達成するために必要なトレーニングデータサンプルの数を減らすことができる。

Scalable training data generation is a critical problem in deep learning. We propose PennSyn2Real - a photo-realistic synthetic dataset consisting of more than 100,000 4K images of more than 20 types of micro aerial vehicles (MAVs). The dataset can be used to generate arbitrary numbers of training images for high-level computer vision tasks such as MAV detection and classification. Our data generation framework bootstraps chroma-keying, a mature cinematography technique with a motion tracking system, providing artifact-free and curated annotated images where object orientations and lighting are controlled. This framework is easy to set up and can be applied to a broad range of objects, reducing the gap between synthetic and real-world data. We show that synthetic data generated using this framework can be directly used to train CNN models for common object recognition tasks such as detection and segmentation. We demonstrate competitive performance in comparison with training using only real images. Furthermore, bootstrapping the generated synthetic data in few-shot learning can significantly improve the overall performance, reducing the number of required training data samples to achieve the desired accuracy.
翻訳日:2022-10-15 22:32:56 公開日:2020-10-16
# 自動注釈付きデータセットによる視覚活動検出の学習

Learning Visual Voice Activity Detection with an Automatically Annotated Dataset ( http://arxiv.org/abs/2009.11204v2 )

ライセンス: Link先を確認
Sylvain Guy, St\'ephane Lathuili\`ere, Pablo Mesejo and Radu Horaud(参考訳) 視覚音声アクティビティ検出(v-vad)は、人が話しているかどうかを予測するのに視覚機能を使用する。 V-VADは、音響信号の分析が難しいか、単に欠落しているため、オーディオVAD(A-VAD)が非効率である場合に役立つ。 本稿では,V-VADのための2つの深いアーキテクチャを提案する。 さらに、学習やV-VADのテストに使用される利用可能なデータセットには、コンテンツのばらつきがない。 我々は、A-VADと顔検出と追跡を組み合わせることで、非常に大きなデータセット(WildVVAD)を自動的に作成し、注釈付けする新しい手法を紹介します。 詳細な経験的評価は、提案した深部V-VADモデルをこのデータセットでトレーニングする利点を示している。

Visual voice activity detection (V-VAD) uses visual features to predict whether a person is speaking or not. V-VAD is useful whenever audio VAD (A-VAD) is inefficient either because the acoustic signal is difficult to analyze or because it is simply missing. We propose two deep architectures for V-VAD, one based on facial landmarks and one based on optical flow. Moreover, available datasets, used for learning and for testing V-VAD, lack content variability. We introduce a novel methodology to automatically create and annotate very large datasets in-the-wild -- WildVVAD -- based on combining A-VAD with face detection and tracking. A thorough empirical evaluation shows the advantage of training the proposed deep V-VAD models with this dataset.
翻訳日:2022-10-15 16:19:03 公開日:2020-10-16
# ECOVNet: 胸部X線から新型コロナウイルスを検出する効率的なネットワークに基づく深層畳み込みニューラルネットワーク

ECOVNet: An Ensemble of Deep Convolutional Neural Networks Based on EfficientNet to Detect COVID-19 From Chest X-rays ( http://arxiv.org/abs/2009.11850v2 )

ライセンス: Link先を確認
Nihad Karim Chowdhury, Muhammad Ashad Kabir, Md. Muhtadir Rahman, Noortaz Rezoana(参考訳) 本稿では,ECOVNetと呼ばれるEfficientNetに基づく深部畳み込みニューラルネットワーク(CNN)のアンサンブルを提案し,胸部X線データセットを用いてCOVID-19を検出する。 まず、オープンアクセスの大型胸部x線コレクションを増設し、その後、imagenet pre-trained weights for efficientnetをカスタマイズした微調整トップレイヤーで転送し、さらにモデルスナップショットをアンサンブルして、covid-19、正常、肺炎に対応する胸部x線を分類する。 モデルスナップショットの予測は、1つのトレーニングの間に作成され、ハードアンサンブルとソフトアンサンブルという2つのアンサンブル戦略によって組み合わせられ、胸部x線を分類する関連タスクにおける分類性能と一般化を改善する。

This paper proposed an ensemble of deep convolutional neural networks (CNN) based on EfficientNet, named ECOVNet, to detect COVID-19 using a large chest X-ray data set. At first, the open-access large chest X-ray collection is augmented, and then ImageNet pre-trained weights for EfficientNet is transferred with some customized fine-tuning top layers that are trained, followed by an ensemble of model snapshots to classify chest X-rays corresponding to COVID-19, normal, and pneumonia. The predictions of the model snapshots, which are created during a single training, are combined through two ensemble strategies, i.e., hard ensemble and soft ensemble to ameliorate classification performance and generalization in the related task of classifying chest X-rays.
翻訳日:2022-10-15 05:06:03 公開日:2020-10-16
# Seagull: 負荷予測とリソース割り当て最適化のためのインフラストラクチャ

Seagull: An Infrastructure for Load Prediction and Optimized Resource Allocation ( http://arxiv.org/abs/2009.12922v2 )

ライセンス: Link先を確認
Olga Poppe, Tayo Amuneke, Dalitso Banda, Aritra De, Ari Green, Manon Knoertzer, Ehi Nosakhare, Karthik Rajendran, Deepak Shankargouda, Meina Wang, Alan Au, Carlo Curino, Qun Guo, Alekh Jindal, Ajay Kalhan, Morgan Oslake, Sonia Parchani, Vijay Ramani, Raj Sellappan, Saikat Sen, Sheetal Shrotri, Soundararajan Srinivasan, Ping Xia, Shize Xu, Alicia Yang, Yiwen Zhu(参考訳) Microsoft Azureは、顧客に対する高品質なサービスの保証、特に高い顧客活動期間におけるコスト管理に重点を置いている。 データサイエンス(ds)駆動のソリューションを使ってユーザの負荷を予測し、これらの予測を利用してリソース割り当てを最適化します。 この目的のために、サーバ単位のテレメトリ処理、データ検証、トレーニング、MLモデルのデプロイを行なうSeagullインフラストラクチャを構築しました。 これらのモデルは、サーバ毎の顧客負荷(将来24時間)の予測とサービスオペレーションの最適化に使用される。 Seagullは、予測の精度を継続的に再評価し、既知の優れたモデルにフォールバックし、適切な警告をトリガーする。 このインフラストラクチャをすべてのazureリージョンにpostgresqlとmysqlサーバ用に本番環境にデプロイし、低負荷時のサーババックアップのスケジューリング問題に適用しました。 これにより、ユーザの負荷に対する干渉を最小限に抑え、顧客エクスペリエンスを向上させる。

Microsoft Azure is dedicated to guarantee high quality of service to its customers, in particular, during periods of high customer activity, while controlling cost. We employ a Data Science (DS) driven solution to predict user load and leverage these predictions to optimize resource allocation. To this end, we built the Seagull infrastructure that processes per-server telemetry, validates the data, trains and deploys ML models. The models are used to predict customer load per server (24h into the future), and optimize service operations. Seagull continually re-evaluates accuracy of predictions, fallback to previously known good models and triggers alerts as appropriate. We deployed this infrastructure in production for PostgreSQL and MySQL servers across all Azure regions, and applied it to the problem of scheduling server backups during low-load time. This minimizes interference with user-induced load and improves customer experience.
翻訳日:2022-10-14 03:59:57 公開日:2020-10-16
# 潜伏深さを持つ深部変圧器

Deep Transformers with Latent Depth ( http://arxiv.org/abs/2009.13102v2 )

ライセンス: Link先を確認
Xian Li, Asa Cooper Stickland, Yuqing Tang, and Xiang Kong(参考訳) Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。 しかし、モデルキャパシティを大小さまざまな深さで活用する方法は、まだオープンな課題である。 本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。 この枠組みの拡張として,多言語機械翻訳のための1つの共有トランスフォーマネットワークを学習する新しい手法を提案する。 提案手法は, 脱落勾配問題を緩和し, 深い変圧器(例えば100層)の安定な訓練を可能にする。 我々は、wmtの英語-ドイツ語機械翻訳とマスキング言語モデリングタスクについて評価し、より深いトランスフォーマーを訓練するための既存の手法を上回っている。 多言語機械翻訳の実験は、このアプローチがモデル容量の増大を効果的に活用し、多言語対と多言語対による多言語・多言語翻訳の両方に普遍的な改善をもたらすことを示した。

The Transformer model has achieved state-of-the-art performance in many sequence modeling tasks. However, how to leverage model capacity with large or variable depths is still an open challenge. We present a probabilistic framework to automatically learn which layer(s) to use by learning the posterior distributions of layer selection. As an extension of this framework, we propose a novel method to train one shared Transformer network for multilingual machine translation with different layer selection posteriors for each language pair. The proposed method alleviates the vanishing gradient issue and enables stable training of deep Transformers (e.g. 100 layers). We evaluate on WMT English-German machine translation and masked language modeling tasks, where our method outperforms existing approaches for training deeper Transformers. Experiments on multilingual machine translation demonstrate that this approach can effectively leverage increased model capacity and bring universal improvement for both many-to-one and one-to-many translation with diverse language pairs.
翻訳日:2022-10-13 20:56:49 公開日:2020-10-16
# discern:会話機械読解のための談話認識関連推論ネットワーク

Discern: Discourse-Aware Entailment Reasoning Network for Conversational Machine Reading ( http://arxiv.org/abs/2010.01838v3 )

ライセンス: Link先を確認
Yifan Gao, Chien-Sheng Wu, Jingjing Li, Shafiq Joty, Steven C.H. Hoi, Caiming Xiong, Irwin King, Michael R. Lyu(参考訳) 文書解釈と対話理解は会話機械読解における2つの大きな課題である。 本稿では,文と対話の接続性を強化し,理解を深めるために,談話対応推論ネットワークであるdiscernを提案する。 具体的には,事前学習された談話セグメンテーションモデルを用いて文を節状初等談話単位(edu)に分割し,各eduが会話におけるユーザフィードバックによって関与しているかを弱教師付きで学習する。 学習したEDUとentailment表現に基づいて、最初の質問の「yes/no/irrelevant」という最終決定をユーザに返信するか、さらに情報を求めるためにフォローアップ質問を生成します。 筆者らはShARCベンチマーク(盲点, ホールドアウトテストセット)を用いて, 意思決定におけるマクロ平均精度78.3%, 追従質問生成における64.0 BLEU1の最先端結果を得た。 コードとモデルはhttps://github.com/Yifan-Gao/Discern.comで公開されている。

Document interpretation and dialog understanding are the two major challenges for conversational machine reading. In this work, we propose Discern, a discourse-aware entailment reasoning network to strengthen the connection and enhance the understanding for both document and dialog. Specifically, we split the document into clause-like elementary discourse units (EDU) using a pre-trained discourse segmentation model, and we train our model in a weakly-supervised manner to predict whether each EDU is entailed by the user feedback in a conversation. Based on the learned EDU and entailment representations, we either reply to the user our final decision "yes/no/irrelevant" of the initial question, or generate a follow-up question to inquiry more information. Our experiments on the ShARC benchmark (blind, held-out test set) show that Discern achieves state-of-the-art results of 78.3% macro-averaged accuracy on decision making and 64.0 BLEU1 on follow-up question generation. Code and models are released at https://github.com/Yifan-Gao/Discern.
翻訳日:2022-10-10 19:34:59 公開日:2020-10-16
# 安全かつ効率的に作業を行うための人間教師付き半自律移動マニピュレータ

Human-Supervised Semi-Autonomous Mobile Manipulators for Safely and Efficiently Executing Machine Tending Tasks ( http://arxiv.org/abs/2010.04899v2 )

ライセンス: Link先を確認
Sarah Al-Hussaini, Shantanu Thakar, Hyojeong Kim, Pradeep Rajendran, Brual C. Shah, Jeremy A. Marvel, Satyandra K. Gupta(参考訳) 移動マニピュレータは、小型製造アプリケーションにおける機械の傾向や材料処理のタスクに使用できる。 これらのアプリケーションは通常、半構造化された作業環境を持つ。 このような用途に完全自律移動マニピュレータを使用することは、作業スペースの不正確なモデルが高価な機器にダメージを与える可能性があるため、リスクが高い。 一方、完全に遠隔操作された移動マニピュレータの使用は、かなりの量の操作時間を必要とする可能性がある。 本稿では,人事監督下での機械作業の安全かつ効率的に実施するために,半自律移動マニピュレータを開発した。 ロボットは、ハイレベルなタスク記述から動作計画を生成し、人間にシミュレーション結果を提示して承認することができる。 人間のオペレータは、自動生成されたプランの実行をロボットに許可するか、プランナーに追加のインプットを提供することでプランを洗練することができる。 ワークスペースモデルの一部の部分で不確実性のレベルが高い場合、人間はタスクを安全に実行するために遠隔操作を行うことを決定できる。 予備的なユーザトライアルでは,非専門家がシステムの使用を迅速に学習し,機械の操作を行うことができる。

Mobile manipulators can be used for machine tending and material handling tasks in small volume manufacturing applications. These applications usually have semi-structured work environment. The use of a fully autonomous mobile manipulator for such applications can be risky, as an inaccurate model of the workspace may result in damage to expensive equipment. On the other hand, the use of a fully teleoperated mobile manipulator may require a significant amount of operator time. In this paper, a semi-autonomous mobile manipulator is developed for safely and efficiently carrying out machine tending tasks under human supervision. The robot is capable of generating motion plans from the high-level task description and presenting simulation results to the human for approval. The human operator can authorize the robot to execute the automatically generated plan or provide additional input to the planner to refine the plan. If the level of uncertainty in some parts of the workspace model is high, then the human can decide to perform teleoperation to safely execute the task. Our preliminary user trials show that non-expert operators can quickly learn to use the system and perform machine tending tasks.
翻訳日:2022-10-08 23:30:19 公開日:2020-10-16
# 微生物データから複数のネットワークを推定するphd法

PhD dissertation to infer multiple networks from microbial data ( http://arxiv.org/abs/2010.05909v2 )

ライセンス: Link先を確認
Sahar Tavakoli(参考訳) 微生物群集の構成員間の相互作用は, 群集の全体行動と構成員の豊富度を決定する上で重要な役割を果たしている。 これらの相互作用は、ノードが微生物の分類を表し、エッジが対的な相互作用を表すネットワークを用いてモデル化することができる。 微生物ネットワークは、サンプル・タキサ数行列から構築された重み付きグラフであり、微生物群の構成員の共起および/または相互作用のモデル化に使用できる。 このグラフのノードは微生物分類群を表し、エッジはこれらの分類群間の対関係を表す。 微生物ネットワークは通常、複数の生物学的サンプルをシークエンシングし、タクサカウントを同定して得られるサンプルタクサカウントマトリックスから構築される。 微生物群集の組成や相互作用が環境因子や宿主因子に影響されていることが明らかとなった。 したがって、複数の環境パラメータや臨床パラメータを含む大規模な研究の一部として生成されたサンプルタキサマトリックスが、複数の微生物ネットワークに関連付けられるとは考えられない。 しかし,これまでに提案した微生物ネットワーク推定法では,サンプルタキサ行列が単一ネットワークに関連付けられていると推定されている。

The interactions among the constituent members of a microbial community play a major role in determining the overall behavior of the community and the abundance levels of its members. These interactions can be modeled using a network whose nodes represent microbial taxa and edges represent pairwise interactions. A microbial network is a weighted graph that is constructed from a sample-taxa count matrix, and can be used to model co-occurrences and/or interactions of the constituent members of a microbial community. The nodes in this graph represent microbial taxa and the edges represent pairwise associations amongst these taxa. A microbial network is typically constructed from a sample-taxa count matrix that is obtained by sequencing multiple biological samples and identifying taxa counts. From large-scale microbiome studies, it is evident that microbial community compositions and interactions are impacted by environmental and/or host factors. Thus, it is not unreasonable to expect that a sample-taxa matrix generated as part of a large study involving multiple environmental or clinical parameters can be associated with more than one microbial network. However, to our knowledge, microbial network inference methods proposed thus far assume that the sample-taxa matrix is associated with a single network.
翻訳日:2022-10-08 07:42:34 公開日:2020-10-16
# 推定段階最適化による3次元ポーズ推定のためのマルチスケールネットワーク

Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage Optimization ( http://arxiv.org/abs/2010.06844v2 )

ライセンス: Link先を確認
Cheng Yu, Bo Wang, Bo Yang, Robby T. Tan(参考訳) 単眼ビデオから3d人間のポーズを推定することは依然として難しい課題である。 既存の方法の多くは、対象者が他のオブジェクトにオクルードされた場合や、トレーニングデータのスケールや速度に対して動作が速すぎる場合などに低下する。 さらに、これらの手法の多くは、厳密な閉塞下で設計や訓練が行われておらず、閉塞処理のパフォーマンスが損なわれている。 これらの問題に対処するため,ロバストな3次元ポーズ推定のための時空間ネットワークを提案する。 映像中の人間が異なるスケールで出現し、様々な動き速度を持つため、各フレームの2次元関節やキーポイント予測にマルチスケール空間特徴を適用し、マルチストライド時間畳み込みネットワーク(tcns)を用いて3次元関節やキーポイントを推定する。 さらに,身体構造に基づく時空間判別器と手足運動をデザインし,予測されたポーズが有効なポーズか有効な動きかを評価する。 訓練中,軽度咬合から重度咬合まで,様々な咬合症例をシミュレートするためのキーポイントを明示的にマスクし,ネットワークがより良く学習し,各種咬合に対して頑健になるようにした。 3次元地上データに制限があるため、2次元映像データを利用して半教師あり学習機能をネットワークに注入する。 また,映像と画像のトレーニングデータセットのポーズ変動が異なるため,3次元ポーズ予測と2次元ポーズ推定に差があることを観察した。 そこで我々は,2次元ポーズ推定に適合する3次元ポーズプロジェクションを適応的に適用し,最終的なポーズ予測精度をさらに向上する信頼性ベースの推論ステージ最適化を提案する。 提案手法の有効性を検証する公開データセット実験を行い,ネットワークの個々のサブモジュールの長所について検討した。

Estimating 3D human poses from a monocular video is still a challenging task. Many existing methods' performance drops when the target person is occluded by other objects, or the motion is too fast/slow relative to the scale and speed of the training data. Moreover, many of these methods are not designed or trained under severe occlusion explicitly, making their performance on handling occlusion compromised. Addressing these problems, we introduce a spatio-temporal network for robust 3D human pose estimation. As humans in videos may appear in different scales and have various motion speeds, we apply multi-scale spatial features for 2D joints or keypoints prediction in each individual frame, and multi-stride temporal convolutional networks (TCNs) to estimate 3D joints or keypoints. Furthermore, we design a spatio-temporal discriminator based on body structures as well as limb motions to assess whether the predicted pose forms a valid pose and a valid movement. During training, we explicitly mask out some keypoints to simulate various occlusion cases, from minor to severe occlusion, so that our network can learn better and becomes robust to various degrees of occlusion. As there are limited 3D ground-truth data, we further utilize 2D video data to inject a semi-supervised learning capability to our network. Moreover, we observe that there is a discrepancy between 3D pose prediction and 2D pose estimation due to different pose variations between video and image training datasets. We, therefore propose a confidence-based inference stage optimization to adaptively enforce 3D pose projection to match 2D pose estimation to further improve final pose prediction accuracy. Experiments on public datasets validate the effectiveness of our method, and our ablation studies show the strengths of our network's individual submodules.
翻訳日:2022-10-08 00:15:27 公開日:2020-10-16
# PointManifold: ポイントクラウド分類にManifold Learningを使用する

PointManifold: Using Manifold Learning for Point Cloud Classification ( http://arxiv.org/abs/2010.07215v2 )

ライセンス: Link先を確認
Dinghao Yang, Wei Gao(参考訳) 本稿では,グラフニューラルネットワークと多様体学習に基づく点雲分類手法を提案する。 本稿では,従来の点雲解析法と異なり,平面上の幾何学的連続性を考慮した点雲特徴の埋め込みに多様体学習アルゴリズムを用いる。 そして、低次元空間において点雲の性質を把握でき、元の3次元空間の特徴と連結された後、特徴表現能力と分類ネットワーク性能の両方を改善することができる。 そこで我々は,局所線形埋め込みアルゴリズムに基づく2つの多様体学習モジュールを提案し,もう1つはニューラルネットワークアーキテクチャに基づく非線形投影法を提案する。 どちらも最先端のベースラインよりも優れたパフォーマンスを得ることができる。 その後、グラフモデルはk近傍のアルゴリズムを用いて構築され、エッジ機能はポイントクラウド分類の実装のために効果的に集約される。 実験により,提案手法は平均クラス精度 (ma) が90.2%, 全体精度 (oa) が93.2%となり, 既存手法と比較して性能が向上した。

In this paper, we propose a point cloud classification method based on graph neural network and manifold learning. Different from the conventional point cloud analysis methods, this paper uses manifold learning algorithms to embed point cloud features for better considering the geometric continuity on the surface. Then, the nature of point cloud can be acquired in low dimensional space, and after being concatenated with features in the original three-dimensional (3D)space, both the capability of feature representation and the classification network performance can be improved. We pro-pose two manifold learning modules, where one is based on locally linear embedding algorithm, and the other is a non-linear projection method based on neural network architecture. Both of them can obtain better performances than the state-of-the-art baseline. Afterwards, the graph model is constructed by using the k nearest neighbors algorithm, where the edge features are effectively aggregated for the implementation of point cloud classification. Experiments show that the proposed point cloud classification methods obtain the mean class accuracy (mA) of 90.2% and the overall accuracy (oA)of 93.2%, which reach competitive performances compared with the existing state-of-the-art related methods.
翻訳日:2022-10-07 13:47:04 公開日:2020-10-16
# ネットワーク科学における深部生成モデリングと公共政策研究への応用

Deep Generative Modeling in Network Science with Applications to Public Policy Research ( http://arxiv.org/abs/2010.07870v2 )

ライセンス: Link先を確認
Gavin S. Hartnett, Raffaele Vardavas, Lawrence Baker, Michael Chaykowsky, C. Ben Gibson, Federico Girosi, David P. Kennedy, Osonde A. Osoba(参考訳) ネットワークデータは、量的、データ駆動の公共政策研究でますます使われている。 これらは典型的には、複雑な相関や相互依存を含む非常にリッチなデータセットである。 この豊かさは、ポリシー研究に非常に有用であると同時に、これらのデータセットから情報を抽出するのに有用な課題であると同時に、新しいデータ分析メソッドを要求する課題でもある。 本報告では,様々な分野の政策研究において,解決法が新たな進歩をもたらす重要な方法論問題の研究課題を定式化する。 次に、ネットワークデータに深層学習を適用する最近の進歩を概観し、これらの手法が、我々が特定した方法論的問題の多くにどのように役立つかを示す。 我々は特に、重要な公共政策問題を伝えることができるマイクロシミュレーションやエージェントベースモデルに有用なリアルな合成ネットワークを生成するために使用できる、深層生成手法を強調している。 疫学モデルでよく用いられる大規模社会接触ネットワークに適用可能な新しい生成フレームワークを開発することで、これらの最近の進歩を拡大する。 コンテキストに関しては、これらのニューラルネットワークベースのアプローチを、従来型の指数ランダムグラフモデルと比較し、対比します。 最後に、さらなる進展が必要なオープンな問題について議論する。

Network data is increasingly being used in quantitative, data-driven public policy research. These are typically very rich datasets that contain complex correlations and inter-dependencies. This richness both promises to be quite useful for policy research, while at the same time posing a challenge for the useful extraction of information from these datasets - a challenge which calls for new data analysis methods. In this report, we formulate a research agenda of key methodological problems whose solutions would enable new advances across many areas of policy research. We then review recent advances in applying deep learning to network data, and show how these methods may be used to address many of the methodological problems we identified. We particularly emphasize deep generative methods, which can be used to generate realistic synthetic networks useful for microsimulation and agent-based models capable of informing key public policy questions. We extend these recent advances by developing a new generative framework which applies to large social contact networks commonly used in epidemiological modeling. For context, we also compare and contrast these recent neural network-based approaches with the more traditional Exponential Random Graph Models. Lastly, we discuss some open problems where more progress is needed.
翻訳日:2022-10-07 05:19:31 公開日:2020-10-16
# 学習エネルギーに基づく潜在変数モデルのための2レベルスコアマッチング

Bi-level Score Matching for Learning Energy-based Latent Variable Models ( http://arxiv.org/abs/2010.07856v2 )

ライセンス: Link先を確認
Fan Bao, Chongxuan Li, Kun Xu, Hang Su, Jun Zhu, Bo Zhang(参考訳) スコアマッチング(SM)は、分割関数の計算を避けてエネルギーベースモデル(EBM)を学習するための魅力的なアプローチを提供する。 しかしながら、いくつかの特別なケースを除いて、エネルギーベースの潜在変数モデル(EBLVM)を学ぶことは、ほとんどオープンである。 本稿では,両レベル最適化問題としてSMを再構成し,一般的な構造でEBLVMを学習するバイレベルスコアマッチング(BiSM)手法を提案する。 上位レベルは潜伏変数の変分後部を導入し、修正されたSM目標を最適化し、下位レベルは変分後部を真の後部に合わせて最適化する。 BiSMを効率よく解くために,勾配をアンロールする確率最適化アルゴリズムを開発した。 理論的には、BiSMの一貫性と確率的アルゴリズムの収束を解析する。 経験的に、ガウスの制限されたボルツマンマシンと、深い畳み込みニューラルネットワークによってパラメータ化された非構造的EBLVMにおけるBiSMの約束を示す。 BiSMは適用可能な場合、広く採用されているコントラスト分岐法やSM法に匹敵するものであり、複雑なEBLVMを学習して自然画像を生成することができる。

Score matching (SM) provides a compelling approach to learn energy-based models (EBMs) by avoiding the calculation of partition function. However, it remains largely open to learn energy-based latent variable models (EBLVMs), except some special cases. This paper presents a bi-level score matching (BiSM) method to learn EBLVMs with general structures by reformulating SM as a bi-level optimization problem. The higher level introduces a variational posterior of the latent variables and optimizes a modified SM objective, and the lower level optimizes the variational posterior to fit the true posterior. To solve BiSM efficiently, we develop a stochastic optimization algorithm with gradient unrolling. Theoretically, we analyze the consistency of BiSM and the convergence of the stochastic algorithm. Empirically, we show the promise of BiSM in Gaussian restricted Boltzmann machines and highly nonstructural EBLVMs parameterized by deep convolutional neural networks. BiSM is comparable to the widely adopted contrastive divergence and SM methods when they are applicable; and can learn complex EBLVMs with intractable posteriors to generate natural images.
翻訳日:2022-10-07 04:45:27 公開日:2020-10-16
# 因子保存によるマルチソースドメイン適応の改善

Improved Multi-Source Domain Adaptation by Preservation of Factors ( http://arxiv.org/abs/2010.07783v2 )

ライセンス: Link先を確認
Sebastian Schrom and Stephan Hasler and J\"urgen Adamy(参考訳) ドメイン適応(DA)は、ディープニューラルネットワークによる画像分類に関して、非常に関連する研究トピックである。 分類モデルを最適化する洗練された方法で複数のソースドメインを組み合わせることで、対象ドメインへの一般化を改善することができる。 ここでは、ソースとターゲットの画像データセットのデータ分布の違いが大きな役割を果たす。 本稿では,現実のシーンが一般的に画像に現れる視覚的要因の理論と,最近のDAデータセットがどのように構成されているかを説明する。 異なるドメインは、ドメイン内の値が一貫性があるが、ドメイン間で変化しうるいわゆるドメインファクターのセットによって記述できることを示す。 多くのDAアプローチは、すべてのドメイン要素を特徴表現からドメイン不変として取り除こうとします。 本稿では,タスクインフォーマティブな要素が失われる可能性があるため,このことが負の転送に繋がることを示す。 そこで本研究では,マルチドメインシナリオにおいて特定のタスクに関連する因子を保存可能な,深い敵意のない教師なしdaモデルを学習するための因子保存da(fp-da)を提案する。 我々は、多くのドメインを持つデータセットであるCORe50について、PCAと組み合わせた単一ドメイン間の標準的な1対1転送実験によって、そのような要因をいかに特定できるかを示す。 FP-DAを適用することで,最も高い平均および最小性能が得られることを示す。

Domain Adaptation (DA) is a highly relevant research topic when it comes to image classification with deep neural networks. Combining multiple source domains in a sophisticated way to optimize a classification model can improve the generalization to a target domain. Here, the difference in data distributions of source and target image datasets plays a major role. In this paper, we describe based on a theory of visual factors how real-world scenes appear in images in general and how recent DA datasets are composed of such. We show that different domains can be described by a set of so called domain factors, whose values are consistent within a domain, but can change across domains. Many DA approaches try to remove all domain factors from the feature representation to be domain invariant. In this paper we show that this can lead to negative transfer since task-informative factors can get lost as well. To address this, we propose Factor-Preserving DA (FP-DA), a method to train a deep adversarial unsupervised DA model, which is able to preserve specific task relevant factors in a multi-domain scenario. We demonstrate on CORe50, a dataset with many domains, how such factors can be identified by standard one-to-one transfer experiments between single domains combined with PCA. By applying FP-DA, we show that the highest average and minimum performance can be achieved.
翻訳日:2022-10-07 04:19:21 公開日:2020-10-16
# 反実予測のための二重ロバスト表現学習

Double Robust Representation Learning for Counterfactual Prediction ( http://arxiv.org/abs/2010.07866v2 )

ライセンス: Link先を確認
Shuxi Zeng, Serge Assaad, Chenyang Tao, Shounak Datta, Lawrence Carin, Fan Li(参考訳) 因果推論は、医療、政策、社会科学における意思決定の中心である。 観察研究において,高次元データを用いた因果推定を非バイアス化するために,最近の進歩は,傾向スコアと結果関数の両方に機械学習モデルを組み合わせることの重要性を示唆している。 提案手法は,正当性スコアと結果のどちらかのモデルが正しく指定されていれば,因果推定が一貫した因果推定となるような,対実予測のための2つのロバスト表現を学習する,新しいスケーラブルな手法を提案する。 具体的には、エントロピーバランス法を用いて、処理群と制御群の間の表現のジェンセン=シャノン分散を最小限に抑える重みを学習し、個々の処理効果と平均処理効果の両方に対して堅牢かつ効率的な反実的予測を行う。 提案手法の理論的正当性について述べる。 このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。

Causal inference, or counterfactual prediction, is central to decision making in healthcare, policy and social sciences. To de-bias causal estimators with high-dimensional data in observational studies, recent advances suggest the importance of combining machine learning models for both the propensity score and the outcome function. We propose a novel scalable method to learn double-robust representations for counterfactual predictions, leading to consistent causal estimation if the model for either the propensity score or the outcome, but not necessarily both, is correctly specified. Specifically, we use the entropy balancing method to learn the weights that minimize the Jensen-Shannon divergence of the representation between the treated and control groups, based on which we make robust and efficient counterfactual predictions for both individual and average treatment effects. We provide theoretical justifications for the proposed method. The algorithm shows competitive performance with the state-of-the-art on real world and synthetic data.
翻訳日:2022-10-07 03:15:25 公開日:2020-10-16
# 連続制御のための多タスク深部強化学習における知識伝達

Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control ( http://arxiv.org/abs/2010.07494v2 )

ライセンス: Link先を確認
Zhiyuan Xu, Kun Wu, Zhengping Che, Jian Tang, Jieping Ye(参考訳) Deep Reinforcement Learning(DRL)は多くの複雑なタスクに対して有望なアプローチとして登場したが、複数の異なる継続的制御タスクを実行することができる単一のDRLエージェントをトレーニングすることは依然として難しい。 本稿では,KTM-DRL(Knowledge Transfer based Multi-task Deep Reinforcement Learning framework)を継続的制御のためのフレームワークとして提案する。 KTM-DRLにおいて、マルチタスクエージェントは、まず、特にアクター・クリティカルなアーキテクチャのために設計されたオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習し、その後、オンライン学習アルゴリズムを使用して、教師の指導の下で新しいオンライン移行サンプルから学習することで、自分自身をさらに改善する。 MuJoCo連続制御タスクスイートの2つの一般的なベンチマークを用いて総合的な実証的研究を行う。 実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。

While Deep Reinforcement Learning (DRL) has emerged as a promising approach to many complex tasks, it remains challenging to train a single DRL agent that is capable of undertaking multiple different continuous control tasks. In this paper, we present a Knowledge Transfer based Multi-task Deep Reinforcement Learning framework (KTM-DRL) for continuous control, which enables a single DRL agent to achieve expert-level performance in multiple different tasks by learning from task-specific teachers. In KTM-DRL, the multi-task agent first leverages an offline knowledge transfer algorithm designed particularly for the actor-critic architecture to quickly learn a control policy from the experience of task-specific teachers, and then it employs an online learning algorithm to further improve itself by learning from new online transition samples under the guidance of those teachers. We perform a comprehensive empirical study with two commonly-used benchmarks in the MuJoCo continuous control task suite. The experimental results well justify the effectiveness of KTM-DRL and its knowledge transfer and online learning algorithms, as well as its superiority over the state-of-the-art by a large margin.
翻訳日:2022-10-07 03:07:31 公開日:2020-10-16
# Flow-FL:マルチロボットシステムにおける時空間予測のためのデータ駆動型フェデレーション学習

Flow-FL: Data-Driven Federated Learning for Spatio-Temporal Predictions in Multi-Robot Systems ( http://arxiv.org/abs/2010.08595v1 )

ライセンス: Link先を確認
Nathalie Majcherczyk, Nishan Srishankar and Carlo Pinciroli(参考訳) 本稿では,連携学習(federated learning, ffl)フレームワークが,ロボットチームにおける分散データから集団学習を実現する方法を示す。 このフレームワークは通常、データをローカルに収集し、モデルのニューラルネットワーク重みを更新し、グローバルモデルに集約するためにサーバにアップデートを送信する。 この概念の2つの変種を比較し,FLの設計空間について検討する。 最初の変種は、サーバがローカルモデルを集約する従来のFLアプローチに従っている。 Flow-FLと呼ばれる第2のバリエーションでは、ゴシップベースの共有データ構造を使用することで、集約プロセスはサーバレスになります。 両変種とも、ロボットが十分なデータを集める際にモデル更新に貢献する学習プロセスの同期にデータ駆動機構を用いる。 エージェント軌道予測問題を用いて,マルチエージェント環境でのアプローチを検証する。 集中型実装をベースラインとして,オンラインデータ収集の停滞の影響,データフローの変動,参加ロボットの数,マルチロボット環境におけるフレームワークの分散化による遅延時間について検討した。

In this paper, we show how the Federated Learning (FL) framework enables learning collectively from distributed data in connected robot teams. This framework typically works with clients collecting data locally, updating neural network weights of their model, and sending updates to a server for aggregation into a global model. We explore the design space of FL by comparing two variants of this concept. The first variant follows the traditional FL approach in which a server aggregates the local models. In the second variant, that we call Flow-FL, the aggregation process is serverless thanks to the use of a gossip-based shared data structure. In both variants, we use a data-driven mechanism to synchronize the learning process in which robots contribute model updates when they collect sufficient data. We validate our approach with an agent trajectory forecasting problem in a multi-agent setting. Using a centralized implementation as a baseline, we study the effects of staggered online data collection, and variations in data flow, number of participating robots, and time delays introduced by the decentralization of the framework in a multi-robot setting.
翻訳日:2022-10-06 22:24:28 公開日:2020-10-16
# アーリーアダプターデータとオーディオ特徴に基づくヒット歌予測

Hit Song Prediction Based on Early Adopter Data and Audio Features ( http://arxiv.org/abs/2010.09489v1 )

ライセンス: Link先を確認
Dorien Herremans, Tom Bergmans(参考訳) 毎年何十億ものusdが音楽業界から新しいアーティストや楽曲に投資されている。 この研究は、歌のヒットの可能性を評価するための新しい戦略を提供し、企業が投資決定を支援するのに役立つ。 音声データとソーシャルメディアのリスニング行動に基づく新機能の両方を使用する多くのモデルが開発された。 その結果、アーリーアダプターの行動に基づくモデルでは、トップ20のダンスヒットを予測できる。

Billions of USD are invested in new artists and songs by the music industry every year. This research provides a new strategy for assessing the hit potential of songs, which can help record companies support their investment decisions. A number of models were developed that use both audio data, and a novel feature based on social media listening behaviour. The results show that models based on early adopter behaviour perform well when predicting top 20 dance hits.
翻訳日:2022-10-06 22:23:55 公開日:2020-10-16
# 予測に基づく自律走行車両のGNSSスポーフィング検出

Prediction-Based GNSS Spoofing Attack Detection for Autonomous Vehicles ( http://arxiv.org/abs/2010.11722v1 )

ライセンス: Link先を確認
Sagar Dasgupta, Mizanur Rahman, Mhafuzul Islam, Mashrur Chowdhury(参考訳) グローバル・ナビゲーション・サテライト・システム(GNSS)は、衛星と無線通信を利用した自律走行車(AV)の測位、ナビゲーション、タイミング(PNT)サービスを提供する。 暗号の欠如、粗い取得符号(C/A)のオープンアクセス、信号の強度の低さにより、GNSSはAVの航法能力を損なう攻撃に対して脆弱である。 スプーファー(スプーフ攻撃を行う攻撃者)がGNSS信号を模倣し、不正確な位置座標をAVに送信できるため、スプーフ攻撃を検出するのは難しい。 本研究では,Long Short-term memory(LSTM)モデル,リカレントニューラルネットワークモデルを用いて,予測に基づくスプーフィング攻撃検出戦略を開発した。 LSTMモデルは、自動運転車の2つの連続した位置間を走行する距離を予測するために使用される。 LSTM予測モデルを開発するために、我々は利用可能な実世界のコマ2k19駆動データセットを使用した。 訓練データセットは、avsの制御エリアネットワーク(can)、gss、慣性測定ユニット(imu)センサから抽出された異なる特徴(加速度、操舵ホイール角、速度および2つの連続した位置間の距離)を含む。 GNSS装置の位置誤差と、現在位置と近未来の位置との間を走行した距離に関する予測誤差(最大絶対誤差)とを用いて、現在位置と近未来位置との間を走行した予測距離とに基づいてしきい値を確立する。 解析の結果,予測に基づくspoofed攻撃検出戦略がリアルタイムに攻撃を検知できることが判明した。

Global Navigation Satellite System (GNSS) provides Positioning, Navigation, and Timing (PNT) services for autonomous vehicles (AVs) using satellites and radio communications. Due to the lack of encryption, open-access of the coarse acquisition (C/A) codes, and low strength of the signal, GNSS is vulnerable to spoofing attacks compromising the navigational capability of the AV. A spoofed attack is difficult to detect as a spoofer (attacker who performs spoofing attack) can mimic the GNSS signal and transmit inaccurate location coordinates to an AV. In this study, we have developed a prediction-based spoofing attack detection strategy using the long short-term memory (LSTM) model, a recurrent neural network model. The LSTM model is used to predict the distance traveled between two consecutive locations of an autonomous vehicle. In order to develop the LSTM prediction model, we have used a publicly available real-world comma2k19 driving dataset. The training dataset contains different features (i.e., acceleration, steering wheel angle, speed, and distance traveled between two consecutive locations) extracted from the controlled area network (CAN), GNSS, and inertial measurement unit (IMU) sensors of AVs. Based on the predicted distance traveled between the current location and the immediate future location of an autonomous vehicle, a threshold value is established using the positioning error of the GNSS device and prediction error (i.e., maximum absolute error) related to distance traveled between the current location and the immediate future location. Our analysis revealed that the prediction-based spoofed attack detection strategy can successfully detect the attack in real-time.
翻訳日:2022-10-06 22:23:47 公開日:2020-10-16
# 協調学習分析のためのディープニューラルネットワーク:学生視線予測を用いたチームコラボレーションの評価

Deep neural networks for collaborative learning analytics: Evaluating team collaborations using student gaze point prediction ( http://arxiv.org/abs/2010.12012v1 )

ライセンス: Link先を確認
Zang Guo and Roghayeh Barmaki(参考訳) 協調作業中のチームパフォーマンスの自動評価と評価は、学習分析とコンピュータ支援協調作業研究の鍵となる。 チームのコラボレーションと協力性を評価するために、視線指向の手がかりを使うことに対する関心が高まっている。 しかし,アイトラッカを用いた視線データの収集は,時間やコストの制約から必ずしも実現可能とは限らない。 本稿では,コンピュータビジョンソリューションによって抽出された視線点とJVA情報に基づく自動チームアセスメントツールを提案する。 次に,大学生の解剖学学習活動(N=60,30チーム)におけるチームコラボレーションを,テストユーザスタディとして評価した。 その結果,高等JVAは学生の学習結果(r(30)=0.50,p<0.005)と正の相関を示した。 さらに,2つの実験グループに参加し,対話型3次元解剖モデルを用いた実験では,制御群よりもjva (f(1,28)=6.65,p<0.05)が高く,知識保持率 (f(1,28) =7.56,p<0.05) が高かった。 また、チームの性別構成が異なる場合、JVAによる有意差はみられなかった。 この研究から得られた知見は、チームコラボレーションのダイナミクスを客観的に評価するための、新しい相互注意に基づく尺度を提供することによって、学習科学と協調コンピューティングに影響を及ぼす。

Automatic assessment and evaluation of team performance during collaborative tasks is key to the learning analytics and computer-supported cooperative work research. There is a growing interest in the use of gaze-oriented cues for evaluating the collaboration and cooperativeness of teams. However, collecting gaze data using eye-trackers is not always feasible due to time and cost constraints. In this paper, we introduce an automated team assessment tool based on gaze points and joint visual attention (JVA) information extracted by computer vision solutions. We then evaluate team collaborations in an undergraduate anatomy learning activity (N=60, 30 teams) as a test user-study. The results indicate that higher JVA was positively associated with student learning outcomes (r(30)=0.50,p<0.005). Moreover, teams who participated in two experimental groups, and used interactive 3-D anatomy models, had higher JVA (F(1,28)=6.65,p<0.05) and better knowledge retention (F(1,28) =7.56,p<0.05) than those in the control group. Also, no significant difference was observed based on JVA for different gender compositions of teams. The findings from this work offer implications in learning sciences and collaborative computing by providing a novel mutual attention-based measure to objectively evaluate team collaboration dynamics.
翻訳日:2022-10-06 22:23:15 公開日:2020-10-16
# 臨床時系列の信頼性と説明可能な予測のための不確実性を考慮した深層アンサンブル

Uncertainty-Aware Deep Ensembles for Reliable and Explainable Predictions of Clinical Time Series ( http://arxiv.org/abs/2010.11310v1 )

ライセンス: Link先を確認
Kristoffer Wickstr{\o}m, Karl {\O}yvind Mikalsen, Michael Kampffmeyer, Arthur Revhaug, Robert Jenssen(参考訳) 深層学習に基づくサポートシステムは、時系列データの処理を含む多くの臨床応用において奨励的な結果を示してきた。 このようなシステムは、しばしば非常に正確であるが、その予測に何が影響したのかを説明する固有のメカニズムを持たない。 しかし、既存の説明可能性技術は信頼性と信頼性のある意思決定支援、すなわち不確実性の概念にとって重要な要素を欠いている。 本稿では,dnnの集合を独立に訓練する深層アンサンブルアプローチを提案することにより,この不確実性の欠如に対処する。 関連スコアにおける不確実性の尺度は、各モデルが生成する関連スコアの標準偏差をアンサンブルに当てはめ、説明をより信頼性の高いものにすることで計算される。 クラスアクティベーションマッピングメソッドは、時系列の各時間ステップの関連スコアを割り当てるために使用される。 その結果、提案手法は、関連する時間ステップの特定においてより正確であり、ランダム初期化間で一貫性があり、モデルがより信頼できるものとなる。 本提案手法は,医療関連業務における臨床時系列処理のための信頼性・信頼性の高い支援システムの構築方法である。

Deep learning-based support systems have demonstrated encouraging results in numerous clinical applications involving the processing of time series data. While such systems often are very accurate, they have no inherent mechanism for explaining what influenced the predictions, which is critical for clinical tasks. However, existing explainability techniques lack an important component for trustworthy and reliable decision support, namely a notion of uncertainty. In this paper, we address this lack of uncertainty by proposing a deep ensemble approach where a collection of DNNs are trained independently. A measure of uncertainty in the relevance scores is computed by taking the standard deviation across the relevance scores produced by each model in the ensemble, which in turn is used to make the explanations more reliable. The class activation mapping method is used to assign a relevance score for each time step in the time series. Results demonstrate that the proposed ensemble is more accurate in locating relevant time steps and is more consistent across random initializations, thus making the model more trustworthy. The proposed methodology paves the way for constructing trustworthy and dependable support systems for processing clinical time series for healthcare related tasks.
翻訳日:2022-10-06 22:17:58 公開日:2020-10-16
# 画像分解学習のための固定点付き一般化交叉アルゴリズム

Generalized Intersection Algorithms with Fixpoints for Image Decomposition Learning ( http://arxiv.org/abs/2010.08661v1 )

ライセンス: Link先を確認
Robin Richter, Duy H. Thai and Stephan F. Huckemann(参考訳) 画像処理において、古典的手法は、計算可能性(汎関数の凸性は理想)と所望の画像分解を反映する適切なペナルティとをバランスさせる適切な関数を最小化する。 このような最小化問題から派生したアルゴリズムが(深い)学習アーキテクチャを構築するのに使えるという事実は、特に望ましい画像分解(例えば、漫画やテクスチャ)のために訓練できるアルゴリズムの開発を促した。 多くの手法は非常に成功したが、理論的な保証はほとんど得られない。 この目的を達成するために,多岐にわたる(学習された)画像分解モデルを含む交叉点問題の一般クラスを定式化し,そのような問題の大きな部分クラス,すなわち対応するアルゴリズムの固定点の存在についての存在結果を与える。 このクラスは、tv-l2-モデルやより一般的なtv-ヒルベルトモデルのような古典的なモデルに基づく変分問題を一般化する。 学習アルゴリズムの可能性を説明するために、クラス内の新しい(非学習的な)選択は、装飾やテクスチャ除去において同等の結果を示す。

In image processing, classical methods minimize a suitable functional that balances between computational feasibility (convexity of the functional is ideal) and suitable penalties reflecting the desired image decomposition. The fact that algorithms derived from such minimization problems can be used to construct (deep) learning architectures has spurred the development of algorithms that can be trained for a specifically desired image decomposition, e.g. into cartoon and texture. While many such methods are very successful, theoretical guarantees are only scarcely available. To this end, in this contribution, we formalize a general class of intersection point problems encompassing a wide range of (learned) image decomposition models, and we give an existence result for a large subclass of such problems, i.e. giving the existence of a fixpoint of the corresponding algorithm. This class generalizes classical model-based variational problems, such as the TV-l2 -model or the more general TV-Hilbert model. To illustrate the potential for learned algorithms, novel (non learned) choices within our class show comparable results in denoising and texture removal.
翻訳日:2022-10-06 22:17:29 公開日:2020-10-16
# segmented functional classification analysis (sfca) による代替データからの睡眠・労働時間の推定

Estimating Sleep & Work Hours from Alternative Data by Segmented Functional Classification Analysis (SFCA) ( http://arxiv.org/abs/2010.08102v1 )

ライセンス: Link先を確認
Klaus Ackermann, Simon D. Angus, Paul A. Raschky(参考訳) 代替データは、人間と経済の行動を予測するためにますます適応されている。 本稿では,インターネットを世界規模でデータ駆動型インサイトプラットフォームとして再概念化し,新たな代替データを提案する。 エンドユーザーインターネット接続の1.5兆以上の観測から得られたユニークなインターネット活動とロケーションデータセットのデータを用いて、7年間に1,600都市をカバーし、時間分解能はわずか15分である機能データセットを構築した。 このデータから睡眠と作業活動の正確な時間的パターンを予測するため、我々は新しい手法、セグメンテッド機能分類解析(SFCA)を開発し、その性能を幅広い線形・機能的・分類法と比較した。 SFCAの広範な適用性を確認するため,第2の応用として,米国全都市電力需要関数データから,SFCAを用いて睡眠と作業活動を予測する。 どちらの問題においても、SFCAは現在の手法よりも優れていた。

Alternative data is increasingly adapted to predict human and economic behaviour. This paper introduces a new type of alternative data by re-conceptualising the internet as a data-driven insights platform at global scale. Using data from a unique internet activity and location dataset drawn from over 1.5 trillion observations of end-user internet connections, we construct a functional dataset covering over 1,600 cities during a 7 year period with temporal resolution of just 15min. To predict accurate temporal patterns of sleep and work activity from this data-set, we develop a new technique, Segmented Functional Classification Analysis (SFCA), and compare its performance to a wide array of linear, functional, and classification methods. To confirm the wider applicability of SFCA, in a second application we predict sleep and work activity using SFCA from US city-wide electricity demand functional data. Across both problems, SFCA is shown to out-perform current methods.
翻訳日:2022-10-06 22:17:01 公開日:2020-10-16
# バイリンガル録音とクロスリンガル音声変換の混合に基づく自然言語・コードスイッチ音声合成に向けて

Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion ( http://arxiv.org/abs/2010.08136v1 )

ライセンス: Link先を確認
Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma(参考訳) 最近の最先端の音声合成モデルであるTTS(Neural Text-to-Speech)は、テキストから生成された音声の可知性と自然性を大幅に改善した。 しかし、特定の音声に対して優れたバイリンガルまたはコードスイッチトTTSを構築することは依然として課題である。 主な理由は、両方の言語でネイティブレベルフルーエンシーを達成する話者からバイリンガルコーパスを得ることが容易ではないためである。 本稿では、マンダリン話者からのマンダリン音声記録と、英語話者からの英語音声記録を用いて、双方の話者に対して高品質なバイリンガルおよびコードスイッチングTTSを構築する。 タコトロン2を母語とする言語間音声変換システムを用いて,マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。 得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。 これらのデータを用いて、3つのニューラルTSモデル(Tacotron2、Transformer、FastSpeech)をバイリンガルおよびコードスイッチングTSの構築に適用する。 主観的評価の結果,3つのシステムはすべて,各話者に対して(ほぼ)ネイティブレベルの発話を両言語で生成できることがわかった。

Recent state-of-the-art neural text-to-speech (TTS) synthesis models have dramatically improved intelligibility and naturalness of generated speech from text. However, building a good bilingual or code-switched TTS for a particular voice is still a challenge. The main reason is that it is not easy to obtain a bilingual corpus from a speaker who achieves native-level fluency in both languages. In this paper, we explore the use of Mandarin speech recordings from a Mandarin speaker, and English speech recordings from another English speaker to build high-quality bilingual and code-switched TTS for both speakers. A Tacotron2-based cross-lingual voice conversion system is employed to generate the Mandarin speaker's English speech and the English speaker's Mandarin speech, which show good naturalness and speaker similarity. The obtained bilingual data are then augmented with code-switched utterances synthesized using a Transformer model. With these data, three neural TTS models -- Tacotron2, Transformer and FastSpeech are applied for building bilingual and code-switched TTS. Subjective evaluation results show that all the three systems can produce (near-)native-level speech in both languages for each of the speaker.
翻訳日:2022-10-06 22:16:43 公開日:2020-10-16
# 逐次学習による金融資産テールダイナミクスの微妙な量的回帰

Parsimonious Quantile Regression of Financial Asset Tail Dynamics via Sequential Learning ( http://arxiv.org/abs/2010.08263v1 )

ライセンス: Link先を確認
Xing Yan, Weizhong Zhang, Lin Ma, Wei Liu, Qi Wu(参考訳) 本稿では、金融資産返却の動的テール挙動を学習するための擬似量子回帰フレームワークを提案する。 本モデルは,金融時系列の時間変動特性と非対称重テール特性の両方をよく捉えている。 これは、一般的な逐次ニューラルネットワークモデル、すなわちLSTMの利点と、資産返却の条件分布を表すために構築される新しいパラメトリック量子関数を組み合わせる。 我々のモデルはまた、ボラティリティだけでなく、高次モーメントのシリアル依存を個別にキャプチャする。 幅広い資産クラスにわたって、我々のモデルの条件付分位数やvarの予測は、garchファミリーを上回っている。 さらに、提案手法は、量子交差の問題に悩まされず、パラメトリック確率密度関数のアプローチと比較して、不適切な結果に曝されることもない。

We propose a parsimonious quantile regression framework to learn the dynamic tail behaviors of financial asset returns. Our model captures well both the time-varying characteristic and the asymmetrical heavy-tail property of financial time series. It combines the merits of a popular sequential neural network model, i.e., LSTM, with a novel parametric quantile function that we construct to represent the conditional distribution of asset returns. Our model also captures individually the serial dependences of higher moments, rather than just the volatility. Across a wide range of asset classes, the out-of-sample forecasts of conditional quantiles or VaR of our model outperform the GARCH family. Further, the proposed approach does not suffer from the issue of quantile crossing, nor does it expose to the ill-posedness comparing to the parametric probability density function approach.
翻訳日:2022-10-06 22:15:53 公開日:2020-10-16
# 非定常マルコフ決定過程における継続作業に対する政策勾配

Policy Gradient for Continuing Tasks in Non-stationary Markov Decision Processes ( http://arxiv.org/abs/2010.08443v1 )

ライセンス: Link先を確認
Santiago Paternain, Juan Andres Bazerque and Alejandro Ribeiro(参考訳) 強化学習は、未知の遷移確率を持つマルコフ決定過程において、期待累積報酬を最大化するポリシーを見つける問題を考える。 本稿では,再生核ヒルベルト空間 (rkhs) に属することを前提として,最適方針を求める問題を考える。 その目的のために、我々はポリシーを更新するために上昇方向として使用する値関数の偏りのない確率的勾配を計算する。 ポリシー勾配型アルゴリズムの大きな欠点は、定常性仮定を課さない限り、それらはエピソディックタスクに限定されていることである。 したがって、これらのアルゴリズムがオンラインに完全に実装されるのを防ぐことは、新しいタスクやデプロイメント環境に適応する必要があるシステムにとって望ましい特性である。 ポリシー勾配アルゴリズムが機能する主な要件は、任意の時点における勾配の推定が初期値関数の上昇方向であることである。 本研究では、オンラインアルゴリズムを初期値関数の臨界点に収束させることができるのは、この場合であることを示す。 数値的な例は、エージェントが目標地点にループしなければならないナビゲーションと監視の問題を解決するために、オンラインアルゴリズムが学習できることを示しています。 この例は、後続の確率勾配の上昇方向に関する理論的知見を裏付けるものである。 また、オンラインアルゴリズムを実行するエージェントが、非エピソディックトレーニングの文献における標準定常性仮定に従わない継続的な循環軌道に従って、ナビゲートの学習を成功させる方法も示しています。

Reinforcement learning considers the problem of finding policies that maximize an expected cumulative reward in a Markov decision process with unknown transition probabilities. In this paper we consider the problem of finding optimal policies assuming that they belong to a reproducing kernel Hilbert space (RKHS). To that end we compute unbiased stochastic gradients of the value function which we use as ascent directions to update the policy. A major drawback of policy gradient-type algorithms is that they are limited to episodic tasks unless stationarity assumptions are imposed. Hence preventing these algorithms to be fully implemented online, which is a desirable property for systems that need to adapt to new tasks and/or environments in deployment. The main requirement for a policy gradient algorithm to work is that the estimate of the gradient at any point in time is an ascent direction for the initial value function. In this work we establish that indeed this is the case which enables to show the convergence of the online algorithm to the critical points of the initial value function. A numerical example shows the ability of our online algorithm to learn to solve a navigation and surveillance problem, in which an agent must loop between to goal locations. This example corroborates our theoretical findings about the ascent directions of subsequent stochastic gradients. It also shows how the agent running our online algorithm succeeds in learning to navigate, following a continuing cyclic trajectory that does not comply with the standard stationarity assumptions in the literature for non episodic training.
翻訳日:2022-10-06 22:15:39 公開日:2020-10-16
# 疫学モデルにおける機械学習による緩和政策最適化

Machine Learning-Powered Mitigation Policy Optimization in Epidemiological Models ( http://arxiv.org/abs/2010.08478v1 )

ライセンス: Link先を確認
Jayaraman J. Thiagarajan, Peer-Timo Bremer, Rushil Anirudh, Timothy C. Germann, Sara Y. Del Valle, Frederick H. Streitz(参考訳) 公衆衛生危機を管理する上で重要な側面は、社会経済的影響を考慮しつつ、予防と緩和戦略を効果的にバランスさせることである。 特に、ワクチンがいつ利用可能になるかの不確実性を考えると、公共資源の有効利用に対する異なる非医薬品介入(NPI)の影響を決定することは重要な問題である。 本稿では, 疫学モデルに基づいて, 異なる介入による疾患進行を特徴づける最適な政策レコメンデーションを得るための新しいアプローチと, 流行の異なる段階で適切なNPIを選択するためのルックアヘッド報酬最適化戦略を提案する。 疫学モデルに固有の時間遅延と,特に非管理的流行の指数性を考えると,このようなルックアヘッド戦略は,規定された制約に順応する非自明な政策を推測する。 本研究では,SEIR と EpiCast の2つの異なる疫学モデルを用いて,毎日の新規症例数に制約を課して最適な NPI ポリシーを決定するアルゴリズムの評価を行った。

A crucial aspect of managing a public health crisis is to effectively balance prevention and mitigation strategies, while taking their socio-economic impact into account. In particular, determining the influence of different non-pharmaceutical interventions (NPIs) on the effective use of public resources is an important problem, given the uncertainties on when a vaccine will be made available. In this paper, we propose a new approach for obtaining optimal policy recommendations based on epidemiological models, which can characterize the disease progression under different interventions, and a look-ahead reward optimization strategy to choose the suitable NPI at different stages of an epidemic. Given the time delay inherent in any epidemiological model and the exponential nature especially of an unmanaged epidemic, we find that such a look-ahead strategy infers non-trivial policies that adhere well to the constraints specified. Using two different epidemiological models, namely SEIR and EpiCast, we evaluate the proposed algorithm to determine the optimal NPI policy, under a constraint on the number of daily new cases and the primary reward being the absence of restrictions.
翻訳日:2022-10-06 22:09:10 公開日:2020-10-16
# mTBIデータの測定と共有のための新しいオープンAccessプラットフォーム

A New Open-Access Platform for Measuring and Sharing mTBI Data ( http://arxiv.org/abs/2010.08485v1 )

ライセンス: Link先を確認
August G. Domel, Samuel J. Raymond, Chiara Giordano, Yuzhe Liu, Seyed Abdolmajid Yousefsani, Michael Fanton, Ileana Pirozzi, Ali Kight, Brett Avery, Athanasia Boumis, Tyler Fetters, Simran Jandu, William M Mehring, Sam Monga, Nicole Mouchawar, India Rangel, Eli Rice, Pritha Roy, Sohrab Sami, Heer Singh, Lyndia Wu, Calvin Kuo, Michael Zeineh, Gerald Grant, David B. Camarillo(参考訳) 多くの研究努力にもかかわらず、脳梗塞の正確なメカニズムはまだ明らかになっていない。 コンタクトスポーツ選手などの高リスク人口に関する臨床研究はより一般的になり、ウェアラブルセンサーと神経学的検査を用いて、衝撃重大度と脳損傷リスクとの関係について洞察を与えている。 しかし、これらの研究を行う機関の数が増加するにつれて、脳卒中メカニズムの理解と適切な診断ツールの開発を支援するために、これらのデータを共有するプラットフォームの必要性が高まっている。 そのために本稿では,2つのコントリビューションを行う。 1)連邦政府の外傷性脳損傷研究情報システム(fitbir)と連携して、頭部衝撃データを保存・共有するための集中型オープンソースのプラットフォーム 2) バイオメカニカルに検証されたマウスガードセンサ(MiG2.0)の頭部衝撃と偽陽性を区別する深層学習影響検出アルゴリズム(MiGNet)を開発した。 ニューラルネットワークモデルに基づくMiGNetによる96%の精度を報告し,91%の精度を達成したSupport Vector Machinesに基づくこれまでの作業を改善した。 統合mig2.0とfitbirシステムは、複数の機関にまたがる共同研究ツールとして機能し、脳震動バイオメカニクスの知識を深めるための標準化データセットを作成する。

Despite numerous research efforts, the precise mechanisms of concussion have yet to be fully uncovered. Clinical studies on high-risk populations, such as contact sports athletes, have become more common and give insight on the link between impact severity and brain injury risk through the use of wearable sensors and neurological testing. However, as the number of institutions operating these studies grows, there is a growing need for a platform to share these data to facilitate our understanding of concussion mechanisms and aid in the development of suitable diagnostic tools. To that end, this paper puts forth two contributions: 1) a centralized, open-source platform for storing and sharing head impact data, in collaboration with the Federal Interagency Traumatic Brain Injury Research informatics system (FITBIR), and 2) a deep learning impact detection algorithm (MiGNet) to differentiate between true head impacts and false positives for the previously biomechanically validated instrumented mouthguard sensor (MiG2.0), all of which easily interfaces with FITBIR. We report 96% accuracy using MiGNet, based on a neural network model, improving on previous work based on Support Vector Machines achieving 91% accuracy, on an out of sample dataset of high school and collegiate football head impacts. The integrated MiG2.0 and FITBIR system serve as a collaborative research tool to be disseminated across multiple institutions towards creating a standardized dataset for furthering the knowledge of concussion biomechanics.
翻訳日:2022-10-06 22:08:51 公開日:2020-10-16
# 不完全フィードバックによるオンライン非凸最適化

Online non-convex optimization with imperfect feedback ( http://arxiv.org/abs/2010.08496v1 )

ライセンス: Link先を確認
Am\'elie H\'eliou and Matthieu Martin and Panayotis Mertikopoulos and Thibaud Rahier(参考訳) 非凸損失を伴うオンライン学習の問題を考える。 フィードバックの観点では、学習者が各段階で遭遇する損失関数に対する不正確なモデルを観察する(あるいは構成する)と仮定し、二重平均化に基づく混合戦略学習方針を提案する。 この一般的な文脈では、学習者の静的な(外部の)後悔と、後見において最高の動的政策に反する後悔の両方に対して、一連の後悔の最小化保証を導出する。 その後、学習者がプロセスの各段階で発生した実際の損失にのみアクセス可能な場合に、この一般的なテンプレートを適用する。 これは、学習者の実現した損失のみを入力として、各ラウンドの損失関数に対して不正確なモデルを生成するカーネルベースの推定器によって達成される。

We consider the problem of online learning with non-convex losses. In terms of feedback, we assume that the learner observes - or otherwise constructs - an inexact model for the loss function encountered at each stage, and we propose a mixed-strategy learning policy based on dual averaging. In this general context, we derive a series of tight regret minimization guarantees, both for the learner's static (external) regret, as well as the regret incurred against the best dynamic policy in hindsight. Subsequently, we apply this general template to the case where the learner only has access to the actual loss incurred at each stage of the process. This is achieved by means of a kernel-based estimator which generates an inexact model for each round's loss function using only the learner's realized losses as input.
翻訳日:2022-10-06 22:08:24 公開日:2020-10-16
# 最適部分構造抽出のための近似アルゴリズム

An Approximation Algorithm for Optimal Subarchitecture Extraction ( http://arxiv.org/abs/2010.08512v1 )

ライセンス: Link先を確認
Adrian de Wynter(参考訳) 我々は、パラメータサイズ、推論速度、エラーレートの3つの指標の下で最適な、選択されたディープニューラルネットワークのアーキテクチャパラメータのセットを見つける問題を考える。 In this paper we state the problem formally, and present an approximation algorithm that, for a large subset of instances behaves like an FPTAS with an approximation error of $\rho \leq |{1\epsilon}|$, and that runs in $O(|{\Xi}| + |{W^*_T}|(1 + |{\Theta}||{B}||{\Xi}|/({\epsilon\, s^{3/2})}))$ steps, where $\epsilon$ and $s$ are input parameters; $|{B}|$ is the batch size; $|{W^*_T}|$ denotes the cardinality of the largest weight set assignment; and $|{\Xi}|$ and $|{\Theta}|$ are the cardinalities of the candidate architecture and hyperparameter spaces, respectively.

We consider the problem of finding the set of architectural parameters for a chosen deep neural network which is optimal under three metrics: parameter size, inference speed, and error rate. In this paper we state the problem formally, and present an approximation algorithm that, for a large subset of instances behaves like an FPTAS with an approximation error of $\rho \leq |{1- \epsilon}|$, and that runs in $O(|{\Xi}| + |{W^*_T}|(1 + |{\Theta}||{B}||{\Xi}|/({\epsilon\, s^{3/2})}))$ steps, where $\epsilon$ and $s$ are input parameters; $|{B}|$ is the batch size; $|{W^*_T}|$ denotes the cardinality of the largest weight set assignment; and $|{\Xi}|$ and $|{\Theta}|$ are the cardinalities of the candidate architecture and hyperparameter spaces, respectively.
翻訳日:2022-10-06 22:08:10 公開日:2020-10-16
# スパースゲート配列エンコーダを用いたタンパク質間相互作用予測のための解釈可能な構造化学習

Interpretable Structured Learning with Sparse Gated Sequence Encoder for Protein-Protein Interaction Prediction ( http://arxiv.org/abs/2010.08514v1 )

ライセンス: Link先を確認
Kishan KC, Feng Cui, Anne Haake, Rui Li(参考訳) アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。 シームズアーキテクチャにおける様々なディープラーニングモデルは、シーケンスからPPIをモデル化するために提案されているが、これらの手法は、ペアエンコーディングプロセスにより、多くのPPIに対して計算コストがかかる。 さらに、タンパク質配列から配列表現への非直感的マッピングのため、これらの手法の解釈は困難である。 これらの課題に対処するため,我々はシーケンシャルからppisをモデル化し,予測するための新しい深層フレームワークを提案する。 本モデルでは,双方向ゲートリカレントユニットを組み込んで,シーケンスからの文脈情報や逐次情報を活用し,シーケンス表現を学習する。 さらに、アミノ酸間の長距離依存性をモデル化し、重要なアミノ酸(タンパク質モチーフ)を選択するためにスパース正規化を用い、解釈可能性を高める。 さらに、符号化プロセスの新たな設計により、我々のモデルは計算効率が高く、より多くの対話にスケーラブルになる。 最新のインタラクションデータセットによる実験結果から,本モデルが他の最先端手法と比較して優れた性能を発揮することが示された。 文献に基づくケーススタディでは,モデルが予測を解釈するための生物学的洞察を提供する能力が示されている。

Predicting protein-protein interactions (PPIs) by learning informative representations from amino acid sequences is a challenging yet important problem in biology. Although various deep learning models in Siamese architecture have been proposed to model PPIs from sequences, these methods are computationally expensive for a large number of PPIs due to the pairwise encoding process. Furthermore, these methods are difficult to interpret because of non-intuitive mappings from protein sequences to their sequence representation. To address these challenges, we present a novel deep framework to model and predict PPIs from sequence alone. Our model incorporates a bidirectional gated recurrent unit to learn sequence representations by leveraging contextualized and sequential information from sequences. We further employ a sparse regularization to model long-range dependencies between amino acids and to select important amino acids (protein motifs), thus enhancing interpretability. Besides, the novel design of the encoding process makes our model computationally efficient and scalable to an increasing number of interactions. Experimental results on up-to-date interaction datasets demonstrate that our model achieves superior performance compared to other state-of-the-art methods. Literature-based case studies illustrate the ability of our model to provide biological insights to interpret the predictions.
翻訳日:2022-10-06 22:07:54 公開日:2020-10-16
# グラフニューラルネットワークを用いた神経科学における機械学習の一般化

Generalizable Machine Learning in Neuroscience using Graph Neural Networks ( http://arxiv.org/abs/2010.08569v1 )

ライセンス: Link先を確認
Paul Y. Wang, Sandalika Sapra, Vivek Kurien George, Gabriel A. Silva(参考訳) 神経科学の深層学習について多くの研究がなされているが、これらのアルゴリズムの顕微鏡スケールでの神経系への応用、すなわち低スケールの組織に関係のあるパラメータは比較的新しい。 全身脳イメージングの進歩に動機づけられ, 線虫c. elegansのカルシウムイメージングデータを用いて, 微視的神経動力学および創発的行動に関するディープラーニングモデルの性能について検討した。 ニューラルネットワークは,ニューロンレベルダイナミクスの予測と行動状態の分類の両方において非常によく機能する。 さらに,構造非依存ニューラルネットワークとグラフニューラルネットワークの性能比較を行い,グラフ構造を有利な帰納バイアスとして活用できるかどうかについて検討した。 本研究では,神経活動からニューロン間の関係を明示的に推論し,計算中のグラフ構造を利用したグラフニューラルネットワークの設計を行った。 実験の結果, グラフニューラルネットワークは構造非依存モデルよりも優れ, 目に見えない生物の一般化に優れており, 神経科学における一般化可能な機械学習への道のりが示唆された。

Although a number of studies have explored deep learning in neuroscience, the application of these algorithms to neural systems on a microscopic scale, i.e. parameters relevant to lower scales of organization, remains relatively novel. Motivated by advances in whole-brain imaging, we examined the performance of deep learning models on microscopic neural dynamics and resulting emergent behaviors using calcium imaging data from the nematode C. elegans. We show that neural networks perform remarkably well on both neuron-level dynamics prediction, and behavioral state classification. In addition, we compared the performance of structure agnostic neural networks and graph neural networks to investigate if graph structure can be exploited as a favorable inductive bias. To perform this experiment, we designed a graph neural network which explicitly infers relations between neurons from neural activity and leverages the inferred graph structure during computations. In our experiments, we found that graph neural networks generally outperformed structure agnostic models and excel in generalization on unseen organisms, implying a potential path to generalizable machine learning in neuroscience.
翻訳日:2022-10-06 22:07:32 公開日:2020-10-16
# 新しいディープアーキテクチャを用いたWiFiにおけるワイヤレスローカライゼーション

Wireless Localisation in WiFi using Novel Deep Architectures ( http://arxiv.org/abs/2010.08658v1 )

ライセンス: Link先を確認
Peizheng Li, Han Cui, Aftab Khan, Usman Raza, Robert Piechocki, Angela Doufexi, Tim Farnham(参考訳) 本稿では,製品用チップセットと標準チャネル音声を用いたwi-fiデバイスの屋内ローカライズについて検討する。 まず、異なるアンテナで受信されたWiFiサブキャリアに対応するチャネル状態情報(CSI)から特徴を抽出し、モデルを訓練する新しい浅層ニューラルネットワーク(SNN)を提案する。 このローカライゼーションニューラルネットワークの単一層アーキテクチャは、計算リソースに制約のあるデバイスに軽量で容易にデプロイできる。 さらに、畳み込みニューラルネットワーク(CNN)と長期記憶(LSTM)のためのディープラーニングモデルの使用のローカライズと新しいアーキテクチャの設計について検討する。 屋内環境における連続追跡のための局所化アルゴリズムを広範囲に評価した。 実験の結果,snnモデルであっても,注意深い手作り特徴抽出によって正確な局所化を実現できることがわかった。 一方、よく組織されたアーキテクチャを用いて、csiからの生データと直接ニューラルネットワークモデルを訓練することができ、正確な位置推定を達成するために、局所化機能を自動的に抽出することができる。 また,ニューラルネットワークに基づく手法の性能は,その構造によらず,アンカーアクセスポイント(aps)の数によって直接影響を受けることがわかった。 3つのapsを用いて,本論文で提案するニューラルネットワークモデルは,約0.5mの局所化精度が得られる。 さらに,提案する深層nnアーキテクチャは,テストベッドで収集したデータを用いた浅層nnと比較して,データ前処理時間を6.5時間短縮する。 デプロイフェーズでは、推論時間もサンプルあたり0.1msに大幅に短縮される。 また,学習対象の異なる移動特性を用いたモデルの評価を行い,提案手法の一般化可能性を示す。

This paper studies the indoor localisation of WiFi devices based on a commodity chipset and standard channel sounding. First, we present a novel shallow neural network (SNN) in which features are extracted from the channel state information (CSI) corresponding to WiFi subcarriers received on different antennas and used to train the model. The single-layer architecture of this localisation neural network makes it lightweight and easy-to-deploy on devices with stringent constraints on computational resources. We further investigate for localisation the use of deep learning models and design novel architectures for convolutional neural network (CNN) and long-short term memory (LSTM). We extensively evaluate these localisation algorithms for continuous tracking in indoor environments. Experimental results prove that even an SNN model, after a careful handcrafted feature extraction, can achieve accurate localisation. Meanwhile, using a well-organised architecture, the neural network models can be trained directly with raw data from the CSI and localisation features can be automatically extracted to achieve accurate position estimates. We also found that the performance of neural network-based methods are directly affected by the number of anchor access points (APs) regardless of their structure. With three APs, all neural network models proposed in this paper can obtain localisation accuracy of around 0.5 metres. In addition the proposed deep NN architecture reduces the data pre-processing time by 6.5 hours compared with a shallow NN using the data collected in our testbed. In the deployment phase, the inference time is also significantly reduced to 0.1 ms per sample. We also demonstrate the generalisation capability of the proposed method by evaluating models using different target movement characteristics to the ones in which they were trained.
翻訳日:2022-10-06 22:06:36 公開日:2020-10-16
# 活性部分空間によるスカラー関数の低内在次元近似のための多重忠実データ融合

Multi-fidelity data fusion for the approximation of scalar functions with low intrinsic dimensionality through active subspaces ( http://arxiv.org/abs/2010.08349v1 )

ライセンス: Link先を確認
Francesco Romor, Marco Tezzele, Gianluigi Rozza(参考訳) ガウス過程はベイズ設定の非パラメトリック回帰に使用される。 線形回帰を一般化し、無限次元再現核ヒルベルト空間内の潜在多様体に入力を埋め込む。 入力を低忠実度モデルの観測で増やすことで、より表現力のある潜在多様体を学習し、モデルの精度を増すことができる。 これは漸進的に高い忠実度を持つガウス過程の連鎖で再帰的に実現することができる。 これらの多元性モデルの実現を、高次元の入力空間に影響を受けるが本質的な次元は低いケーススタディに拡張したい。 この場合、物理的なサポートまたは純粋に数値的な低次モデルは、応答を問い合わせたときの次元の呪いによってまだ影響を受ける。 モデルの勾配情報が提供されると、活性部分空間の存在を利用して低忠実度応答面を設計し、新しいシミュレーションを行うことなく、ガウス過程の多重忠実度回帰を可能にする。 これはデータ不足の場合に特に有用である。 本研究では,アクティブな部分空間を含む多元性アプローチを提案し,これを2つの異なる高次元ベンチマークで検証する。

Gaussian processes are employed for non-parametric regression in a Bayesian setting. They generalize linear regression, embedding the inputs in a latent manifold inside an infinite-dimensional reproducing kernel Hilbert space. We can augment the inputs with the observations of low-fidelity models in order to learn a more expressive latent manifold and thus increment the model's accuracy. This can be realized recursively with a chain of Gaussian processes with incrementally higher fidelity. We would like to extend these multi-fidelity model realizations to case studies affected by a high-dimensional input space but with low intrinsic dimensionality. In this cases physical supported or purely numerical low-order models are still affected by the curse of dimensionality when queried for responses. When the model's gradient information is provided, the presence of an active subspace can be exploited to design low-fidelity response surfaces and thus enable Gaussian process multi-fidelity regression, without the need to perform new simulations. This is particularly useful in the case of data scarcity. In this work we present a multi-fidelity approach involving active subspaces and we test it on two different high-dimensional benchmarks.
翻訳日:2022-10-06 22:00:12 公開日:2020-10-16
# 強凸集合によるプロジェクションフリーオンライン学習

Projection-free Online Learning over Strongly Convex Sets ( http://arxiv.org/abs/2010.08177v1 )

ライセンス: Link先を確認
Yuanyu Wan and Lijun Zhang(参考訳) 複雑な制約でオンライン問題を効率的に解決するために、オンライン・フランクウルフ(OFW)とその変種を含むプロジェクションフリーなアルゴリズムが近年注目されている。 しかし、一般的な場合では、既存のプロジェクションフリーアルゴリズムは、$o(t^{3/4})$のリットバウンドしか達成しておらず、これは、$t$が決定ラウンドの数であるプロジェクションベースのアルゴリズムのリットよりも悪い。 本稿では,強凸集合に対するオンライン学習の特別な場合について検討し,ofw が一般凸集合に対して $o(t^{2/3})$ の後悔を味わうことを最初に証明する。 鍵となるアイデアは、単純な行探索ルールによって元のofwの崩壊するステップサイズを洗練することだ。 さらに, 強凸損失に対しては, ofw におけるサーロゲート損失関数を再定義することにより, 強凸型ofwを提案する。 一般凸集合上の$O(T^{2/3})$の後悔境界と強凸集合上の$O(\sqrt{T})$のより良い後悔境界を達成することを示す。

To efficiently solve online problems with complicated constraints, projection-free algorithms including online frank-wolfe (OFW) and its variants have received significant interest recently. However, in the general case, existing projection-free algorithms only achieved the regret bound of $O(T^{3/4})$, which is worse than the regret of projection-based algorithms, where $T$ is the number of decision rounds. In this paper, we study the special case of online learning over strongly convex sets, for which we first prove that OFW enjoys a better regret bound of $O(T^{2/3})$ for general convex losses. The key idea is to refine the decaying step-size in the original OFW by a simple line search rule. Furthermore, for strongly convex losses, we propose a strongly convex variant of OFW by redefining the surrogate loss function in OFW. We show that it achieves a regret bound of $O(T^{2/3})$ over general convex sets and a better regret bound of $O(\sqrt{T})$ over strongly convex sets.
翻訳日:2022-10-06 21:58:58 公開日:2020-10-16
# 観察と実証からの模倣学習のほぼ同値性について

On the Guaranteed Almost Equivalence between Imitation Learning from Observation and Demonstration ( http://arxiv.org/abs/2010.08353v1 )

ライセンス: Link先を確認
Zhihao Cheng, Liu Liu, Aishan Liu, Hao Sun, Meng Fang, Dacheng Tao(参考訳) 観察からの模倣学習(LfO)は、専門家データから専門家の方針を再構築する際、専門家の行動が不要なため、実証からの模倣学習(LfD)よりも好ましい。 しかし,従来の研究では,LfOの性能がLfDより劣っていることが示唆されており,実際にLfOを採用することは困難である。 一方,本論文では,LfOは決定論的ロボット環境においてLfDとほぼ同等であり,より一般的にはランダム性を持つロボット環境においても同等であることを示す。 決定論的ロボット環境では、制御理論の観点から、LfOとLfDの逆動力学の相違がゼロに近づき、LfOはほぼLfDに等しいことを示す。 さらに, 決定論的制約を緩和し, 実用環境への適応性を高めるために, ロボット環境における有界ランダム性を考慮し, より一般化された環境でLfDとLfOの最適化対象がほぼ同じであることを証明する。 複数のロボットタスクに対する大規模な実験を行い、LfOがLfDに匹敵する性能を実証した。 実際、現実の一般的なロボットシステムは、有界ランダム性を持つロボット環境(すなわち、本論文が考慮した環境)である。 したがって,本研究はLfOの可能性を大きく拡張し,実際にLfDと比較して性能を犠牲にすることなく安全にLfOを適用できることが示唆された。

Imitation learning from observation (LfO) is more preferable than imitation learning from demonstration (LfD) due to the nonnecessity of expert actions when reconstructing the expert policy from the expert data. However, previous studies imply that the performance of LfO is inferior to LfD by a tremendous gap, which makes it challenging to employ LfO in practice. By contrast, this paper proves that LfO is almost equivalent to LfD in the deterministic robot environment, and more generally even in the robot environment with bounded randomness. In the deterministic robot environment, from the perspective of the control theory, we show that the inverse dynamics disagreement between LfO and LfD approaches zero, meaning that LfO is almost equivalent to LfD. To further relax the deterministic constraint and better adapt to the practical environment, we consider bounded randomness in the robot environment and prove that the optimizing targets for both LfD and LfO remain almost same in the more generalized setting. Extensive experiments for multiple robot tasks are conducted to empirically demonstrate that LfO achieves comparable performance to LfD. In fact, most common robot systems in reality are the robot environment with bounded randomness (i.e., the environment this paper considered). Hence, our findings greatly extend the potential of LfO and suggest that we can safely apply LfO without sacrificing the performance compared to LfD in practice.
翻訳日:2022-10-06 21:57:42 公開日:2020-10-16
# 騒音条件下での少数ショットモデルに基づく適応

Few-shot model-based adaptation in noisy conditions ( http://arxiv.org/abs/2010.08397v1 )

ライセンス: Link先を確認
Karol Arndt, Ali Ghadirzadeh, Murtaza Hazara, Ville Kyrki(参考訳) ロボット工学におけるシミュレーションから現実への移動の文脈では、少数ショット適応は困難な問題であり、安全で情報的なデータ収集を必要とする。 物理システムでは、事実上全ての実世界のアプリケーションに存在するドメインノイズによって追加の課題が発生する可能性がある。 本稿では,不確実性を考慮したカルマンフィルタに基づくニューラルネットワークアーキテクチャを用いて,雑音条件下での動力学的モデルのマイズショット適応を行う。 提案手法は,ブラックボックス適応LSTMベースラインと,適応的かつ情報的政策を同時に学習しようとするモデルなしのオンライン強化学習手法を用いて,ドメインノイズを明示的に処理し,少数ショット適応誤差を改善する。 提案手法は,適応前後のモデル隠れ状態を解析することにより,システム解析を可能にする。

Few-shot adaptation is a challenging problem in the context of simulation-to-real transfer in robotics, requiring safe and informative data collection. In physical systems, additional challenge may be posed by domain noise, which is present in virtually all real-world applications. In this paper, we propose to perform few-shot adaptation of dynamics models in noisy conditions using an uncertainty-aware Kalman filter-based neural network architecture. We show that the proposed method, which explicitly addresses domain noise, improves few-shot adaptation error over a blackbox adaptation LSTM baseline, and over a model-free on-policy reinforcement learning approach, which tries to learn an adaptable and informative policy at the same time. The proposed method also allows for system analysis by analyzing hidden states of the model during and after adaptation.
翻訳日:2022-10-06 21:57:14 公開日:2020-10-16
# 敵攻撃によるAMIにおける深層学習によるエネルギー盗難検出の爆発的脆弱性

Exploiting Vulnerabilities of Deep Learning-based Energy Theft Detection in AMI through Adversarial Attacks ( http://arxiv.org/abs/2010.09212v1 )

ライセンス: Link先を確認
Jiangnan Li, Yingyuan Yang, Jinyuan Stella Sun(参考訳) エネルギー盗難の効果的な検出は、ユーティリティ企業の収益損失を防止し、スマートグリッドセキュリティにとっても重要である。 近年,大規模細粒度スマートメータデータにより,高度計測インフラ(ami)のエネルギー盗難検出のための文献において,ディープラーニング(dl)手法が普及している。 しかしながら、ニューラルネットワークは敵の例に弱いことが示されているため、DLモデルのセキュリティは懸念される。 本研究では,一段階攻撃や反復攻撃を含む敵攻撃によるDLベースエネルギー盗難検出の脆弱性について検討する。 攻撃者の視点では、我々は、構成する \textit{SearchFromFree} フレームワークを設計する。 1)盗難利益を最大化するための無作為逆計測初期化手法 2)ブラックボックス反復攻撃の性能を高めるためのステップサイズの探索手法。 3種類のニューラルネットワークによる評価は,DLモデルによって検出されることなく,敵攻撃者が極めて低消費電力の測定をユーティリティに報告できることを示唆している。 エネルギー盗難検知における敵攻撃に対する防御機構について論じる。

Effective detection of energy theft can prevent revenue losses of utility companies and is also important for smart grid security. In recent years, enabled by the massive fine-grained smart meter data, deep learning (DL) approaches are becoming popular in the literature to detect energy theft in the advanced metering infrastructure (AMI). However, as neural networks are shown to be vulnerable to adversarial examples, the security of the DL models is of concern. In this work, we study the vulnerabilities of DL-based energy theft detection through adversarial attacks, including single-step attacks and iterative attacks. From the attacker's point of view, we design the \textit{SearchFromFree} framework that consists of 1) a randomly adversarial measurement initialization approach to maximize the stolen profit and 2) a step-size searching scheme to increase the performance of black-box iterative attacks. The evaluation based on three types of neural networks shows that the adversarial attacker can report extremely low consumption measurements to the utility without being detected by the DL models. We finally discuss the potential defense mechanisms against adversarial attacks in energy theft detection.
翻訳日:2022-10-06 21:51:29 公開日:2020-10-16
# 入力型動的バックドア攻撃

Input-Aware Dynamic Backdoor Attack ( http://arxiv.org/abs/2010.08138v1 )

ライセンス: Link先を確認
Anh Nguyen and Anh Tran(参考訳) 近年、ニューラルネットワークのバックドア攻撃は、ディープラーニングシステムに対する潜在的なセキュリティ脅威と考えられている。 このようなシステムはクリーンなデータで最先端のパフォーマンスを実現しつつ、事前に定義されたトリガーで入力を異常に実行する。 しかし、現在のバックドア技術は均一なトリガーパターンに依存しており、現在の防御方法によって容易に検出され緩和される。 本研究では,入力から入力までのトリガが異なる新しいバックドア攻撃手法を提案する。 この目的を達成するために、多様性の損失によって駆動される入力対応トリガ発生器を実装した。 新たなクロストリガー試験が適用され、非可逆性を強制し、バックドアの検証が不可能となる。 実験の結果,本手法は様々な攻撃シナリオや複数のデータセットにおいて有効であることがわかった。 我々はさらに,我々のバックドアが技術防衛手法の状態をバイパスできることを実証する。 有名なニューラルネットワークインスペクタによる分析は、提案された攻撃のステルス性を再び証明する。 私たちのコードはhttps://github.com/vinairesearch/input-aware-backdoor-attack-releaseで公開されています。

In recent years, neural backdoor attack has been considered to be a potential security threat to deep learning systems. Such systems, while achieving the state-of-the-art performance on clean data, perform abnormally on inputs with predefined triggers. Current backdoor techniques, however, rely on uniform trigger patterns, which are easily detected and mitigated by current defense methods. In this work, we propose a novel backdoor attack technique in which the triggers vary from input to input. To achieve this goal, we implement an input-aware trigger generator driven by diversity loss. A novel cross-trigger test is applied to enforce trigger nonreusablity, making backdoor verification impossible. Experiments show that our method is efficient in various attack scenarios as well as multiple datasets. We further demonstrate that our backdoor can bypass the state of the art defense methods. An analysis with a famous neural network inspector again proves the stealthiness of the proposed attack. Our code is publicly available at https://github.com/VinAIResearch/input-aware-backdoor-attack-release.
翻訳日:2022-10-06 21:50:51 公開日:2020-10-16
# 3次元視覚系における量子化誤差の体積計算

Volumetric Calculation of Quantization Error in 3-D Vision Systems ( http://arxiv.org/abs/2010.08390v1 )

ライセンス: Link先を確認
Eleni Bohacek, Andrew J. Coates, David R. Selviah(参考訳) 本論文では,カメラセンサの固有量子化が3次元マッピングにおける観測特徴の計算位置の不確かさをいかに引き起こすかを検討する。 通常、ピクセルとシーンの特徴はポイントであると仮定されるが、ピクセルはシーン内の複数のポイントにマップされる2次元領域である。 この不確実領域は、計算された点位置における量子化誤差のバウンドである。 初期の研究では、ピラミッドと円錐をピクセルからシーンに投影することで、2つの交差するピクセルビューの体積を計算した。 本稿では、シーンポイントの配列を生成し、各カメラの画素によってどのシーンポイントが検出されるかを計算することにより、このアプローチを逆転させる。 これにより、複雑な形状を近似することなく、所定のカメラシステムに対する各画素対応の不確かさ領域を1つの計算でマップできる。 不確実領域の体積がカメラベースライン長、焦点長、画素サイズ、被写体の距離に依存することは、以前の研究では少なくとも2倍の量子化誤差を過大評価していたことを示している。 静止カメラシステムでは、不一致マップを計算する必要なしに、ボリュームシーンの形状を決定するためにも使用できる。

This paper investigates how the inherent quantization of camera sensors introduces uncertainty in the calculated position of an observed feature during 3-D mapping. It is typically assumed that pixels and scene features are points, however, a pixel is a two-dimensional area that maps onto multiple points in the scene. This uncertainty region is a bound for quantization error in the calculated point positions. Earlier studies calculated the volume of two intersecting pixel views, approximated as a cuboid, by projecting pyramids and cones from the pixels into the scene. In this paper, we reverse this approach by generating an array of scene points and calculating which scene points are detected by which pixel in each camera. This enables us to map the uncertainty regions for every pixel correspondence for a given camera system in one calculation, without approximating the complex shapes. The dependence of the volumes of the uncertainty regions on camera baseline length, focal length, pixel size, and distance to object, shows that earlier studies overestimated the quantization error by at least a factor of two. For static camera systems the method can also be used to determine volumetric scene geometry without the need to calculate disparity maps.
翻訳日:2022-10-06 21:49:45 公開日:2020-10-16
# バイオメディカル画像分割のための低精度モデルの構築

Ensembling Low Precision Models for Binary Biomedical Image Segmentation ( http://arxiv.org/abs/2010.08648v1 )

ライセンス: Link先を確認
Tianyu Ma, Hang Zhang, Hanley Ong, Amar Vora, Thanh D. Nguyen, Ajay Gupta, Yi Wang, Mert Sabuncu(参考訳) 血管や医療画像の小さな病変などの興味のある解剖学的領域の分割は、専門家による手動入力によってしばしば取り組まれる難しい問題である。 この課題の主な課題の1つは、前景(陽性)領域の出現が背景(陰性)領域と類似していることである。 その結果、多くの自動セグメンテーションアルゴリズムは非対称な誤りを示し、一般に偽陰性よりも偽陽性を生じる。 本稿では,この非対称性を活用することを目的として,精度を犠牲にしながら,非常に高いリコールで多様なモデルのアンサンブルを訓練する。 低い精度と高いリコールモデルの多様なアンサンブルは、異なる偽陽性エラー(画像のさまざまな部分で背景を前景として分類する)を発生させる可能性があるが、真の正は一貫性がある傾向にある。 したがって、偽陽性エラーを集約するとキャンセルされ、アンサンブルのパフォーマンスが向上する。 我々の戦略は一般的であり、どんなセグメンテーションモデルでも適用できる。 3つの異なる応用(頸部CT血管造影における頸動脈セグメンテーション,心臓血管MRIにおける心筋セグメンテーション,脳MRIにおける多発性硬化病変セグメンテーション)において,提案手法がベースラインセグメンテーション法の性能を大幅に向上させることを示す。

Segmentation of anatomical regions of interest such as vessels or small lesions in medical images is still a difficult problem that is often tackled with manual input by an expert. One of the major challenges for this task is that the appearance of foreground (positive) regions can be similar to background (negative) regions. As a result, many automatic segmentation algorithms tend to exhibit asymmetric errors, typically producing more false positives than false negatives. In this paper, we aim to leverage this asymmetry and train a diverse ensemble of models with very high recall, while sacrificing their precision. Our core idea is straightforward: A diverse ensemble of low precision and high recall models are likely to make different false positive errors (classifying background as foreground in different parts of the image), but the true positives will tend to be consistent. Thus, in aggregate the false positive errors will cancel out, yielding high performance for the ensemble. Our strategy is general and can be applied with any segmentation model. In three different applications (carotid artery segmentation in a neck CT angiography, myocardium segmentation in a cardiovascular MRI and multiple sclerosis lesion segmentation in a brain MRI), we show how the proposed approach can significantly boost the performance of a baseline segmentation method.
翻訳日:2022-10-06 21:49:25 公開日:2020-10-16
# 共有電気自動車システム最適化のためのディープラーニングによるアイドル車移動戦略

Idle Vehicle Relocation Strategy through Deep Learning for Shared Autonomous Electric Vehicle System Optimization ( http://arxiv.org/abs/2010.09847v1 )

ライセンス: Link先を確認
Seongsin Kim, Ungki Lee, Ikjin Lee, Namwoo Kang(参考訳) 共有自律型電気自動車(saev)システムの最適化において,運転コストと待ち時間を削減するためには,アイドル車両の移動戦略が重要である。 しかし、オンデマンドサービスでは、アイドル車両のリロケーションの継続的な最適化は計算コストが高く、効果的ではない。 本研究では,様々な交通条件下でのアイドル車両移動問題に対する最適解を瞬時に予測できる深層学習に基づくアルゴリズムを提案する。 提案手法は3段階からなる。 まず,タクシービッグデータを用いた深層学習に基づく乗客需要予測モデルを構築した。 次に、予測要求に基づいてアイドル車両の移動問題を解き、最適解データを収集する。 最後に、最適解データを用いたディープラーニングモデルを構築し、再配置を解決することなく最適な戦略を推定する。 さらに,SAEVシステムの最適化に応用して,アイドル車配置モデルの有効性を検証した。 本稿では,SAEV車両と充電ステーションの設計を含む最適サービスシステムを提案する。 さらに,提案手法は,オンデマンドサービスの運用コストと待ち時間を劇的に削減できることを示す。

In optimization of a shared autonomous electric vehicle (SAEV) system, idle vehicle relocation strategies are important to reduce operation costs and customers' wait time. However, for an on-demand service, continuous optimization for idle vehicle relocation is computationally expensive, and thus, not effective. This study proposes a deep learning-based algorithm that can instantly predict the optimal solution to idle vehicle relocation problems under various traffic conditions. The proposed relocation process comprises three steps. First, a deep learning-based passenger demand prediction model using taxi big data is built. Second, idle vehicle relocation problems are solved based on predicted demands, and optimal solution data are collected. Finally, a deep learning model using the optimal solution data is built to estimate the optimal strategy without solving relocation. In addition, the proposed idle vehicle relocation model is validated by applying it to optimize the SAEV system. We present an optimal service system including the design of SAEV vehicles and charging stations. Further, we demonstrate that the proposed strategy can drastically reduce operation costs and wait times for on-demand services.
翻訳日:2022-10-06 21:41:51 公開日:2020-10-16
# イベント抽象化のためのフレキシブルなアクティビティツリーを用いた階層プロセスの発見

Discovering Hierarchical Processes Using Flexible Activity Trees for Event Abstraction ( http://arxiv.org/abs/2010.08302v1 )

ライセンス: Link先を確認
Xixi Lu, Avigdor Gal, Hajo A. Reijers(参考訳) 患者経路のようなプロセスは非常に複雑で、数百のアクティビティと数十のインターリーブされたサブプロセスからなる。 既存のプロセス発見アルゴリズムは、構造化プロセスのクリーンログ上で高品質なモデルを構築することが証明されているが、複雑なプロセスのログにアルゴリズムが適用されているときはまだ問題である。 プロセスのマルチレベルで階層的な表現を作ることは、この複雑さを管理するのに役立ちます。 しかし、このアイデアを追求する現在のアプローチには、さまざまな弱点がある。 特に、それらはインターリーブサブプロセスにうまく対応しません。 本稿では,FlexHMinerを提案する。FlexHMinerは,マルチレベルのインターリーブサブプロセスによるプロセス発見のための3段階のアプローチである。 オープンソースProcess Mining Toolkit ProMにFlexHMinerを実装しました。 ドメイン知識やランダムクラスタリング、フラットなアプローチで発見された階層モデルの質を比較するために、7つの実時間ログを使用しました。 以上の結果から,flexhminer が生成する階層的プロセスモデルは階層構造を活用しないアプローチと比較して好適であることが示唆された。

Processes, such as patient pathways, can be very complex, comprising of hundreds of activities and dozens of interleaved subprocesses. While existing process discovery algorithms have proven to construct models of high quality on clean logs of structured processes, it still remains a challenge when the algorithms are being applied to logs of complex processes. The creation of a multi-level, hierarchical representation of a process can help to manage this complexity. However, current approaches that pursue this idea suffer from a variety of weaknesses. In particular, they do not deal well with interleaving subprocesses. In this paper, we propose FlexHMiner, a three-step approach to discover processes with multi-level interleaved subprocesses. We implemented FlexHMiner in the open source Process Mining toolkit ProM. We used seven real-life logs to compare the qualities of hierarchical models discovered using domain knowledge, random clustering, and flat approaches. Our results indicate that the hierarchical process models that the FlexHMiner generates compare favorably to approaches that do not exploit hierarchy.
翻訳日:2022-10-06 21:41:17 公開日:2020-10-16
# peer-assisted robot learning: クラウドロボットシステムのためのデータ駆動協調学習アプローチ

Peer-Assisted Robotic Learning: A Data-Driven Collaborative Learning Approach for Cloud Robotic Systems ( http://arxiv.org/abs/2010.08303v1 )

ライセンス: Link先を確認
Boyi Liu, Lujia Wang, Xinquan Chen, Lexiong Huang, Cheng-Zhong Xu(参考訳) データ駆動型ディープラーニング技術によるロボティクスの分野では、技術革命が起きている。 しかし、ローカルロボットごとにデータセットを構築するのは手間がかかる。 一方、ローカルロボット間のデータ島は、データを協調的に利用できない。 この問題に対処するため、この研究は認知心理学と教育学のピアアシスト学習に触発されたロボット工学におけるピアアシストロボット学習(parl)を提案する。 parlはクラウドロボットシステムのフレームワークとデータコラボレーションを実装している。 データとモデルは、セマンティックコンピューティングとローカルトレーニングの後、ロボットによってクラウドに共有されます。 クラウドはデータを集約し、拡張、統合、転送を行います。 最後に、クラウド上のこの大きな共有データセットをローカルロボットにチューニングする。 さらに,データ処理をPARLで実装するためのDATネットワーク(Data Augmentation and Transfering Network)を提案する。 DATネットワークは、マルチローカルロボットからのデータの増大を実現することができる。 ロボット(自動車)のための簡易な自動運転タスクの実験を行った。 DAT Networkは、自動運転シナリオの強化において、大幅に改善されている。 これに加えて、自動運転実験の結果は、PARLがローカルロボットのデータコラボレーションによる学習効果を向上させることも示している。

A technological revolution is occurring in the field of robotics with the data-driven deep learning technology. However, building datasets for each local robot is laborious. Meanwhile, data islands between local robots make data unable to be utilized collaboratively. To address this issue, the work presents Peer-Assisted Robotic Learning (PARL) in robotics, which is inspired by the peer-assisted learning in cognitive psychology and pedagogy. PARL implements data collaboration with the framework of cloud robotic systems. Both data and models are shared by robots to the cloud after semantic computing and training locally. The cloud converges the data and performs augmentation, integration, and transferring. Finally, fine tune this larger shared dataset in the cloud to local robots. Furthermore, we propose the DAT Network (Data Augmentation and Transferring Network) to implement the data processing in PARL. DAT Network can realize the augmentation of data from multi-local robots. We conduct experiments on a simplified self-driving task for robots (cars). DAT Network has a significant improvement in the augmentation in self-driving scenarios. Along with this, the self-driving experimental results also demonstrate that PARL is capable of improving learning effects with data collaboration of local robots.
翻訳日:2022-10-06 21:41:01 公開日:2020-10-16
# SMAC: 共生型マルチエージェントの構築

SMAC: Symbiotic Multi-Agent Construction ( http://arxiv.org/abs/2010.08473v1 )

ライセンス: Link先を確認
Caleb Wagner, Neel Dhanaraj, Trevor Rizzo, Josue Contreras, Hannan Liang, Gregory Lewin, Carlo Pinciroli(参考訳) 本稿では,自律三次元構築のための異種分散プラットフォームの概念を提案する。 プラットフォームは、協調的で補完的な動作をする2種類のロボットで構成されている。 (一 成長可能なスマートマターの形式として機能し、自己の状態及び建設進捗を計画・監視することができる通信用スマートビルディングブロックの集合体 (ii)スマートブロックの誘導に従って3d構造をナビゲートし、修正するインキワーム型ビルダーロボットのチーム。 ハードウェアの設計を記述し、幅広い3D構造をサポートするナビゲーションと構築のためのアルゴリズムを導入する。 シミュレーションと実ロボット実験により,我々の概念の能力を実証し,その性能を特徴付ける。

We present a novel concept of a heterogeneous, distributed platform for autonomous 3D construction. The platform is composed of two types of robots acting in a coordinated and complementary fashion: (i) A collection of communicating smart construction blocks behaving as a form of growable smart matter, and capable of planning and monitoring their own state and the construction progress; and (ii) A team of inchworm-shaped builder robots designed to navigate and modify the 3D structure, following the guidance of the smart blocks. We describe the design of the hardware and introduce algorithms for navigation and construction that support a wide class of 3D structures. We demonstrate the capabilities of our concept and characterize its performance through simulations and real-robot experiments.
翻訳日:2022-10-06 21:40:44 公開日:2020-10-16
# 複数のOCRテーブルの検出と抽出のコングロマリット

A Conglomerate of Multiple OCR Table Detection and Extraction ( http://arxiv.org/abs/2010.08591v1 )

ライセンス: Link先を確認
Smita Pallavi, Raj Ratn Pranesh, Sumit Kumar(参考訳) テーブルとしての情報表現はコンパクトで簡潔な方法であり、検索、インデックス化、ストレージ要件が容易である。 parsableドキュメントからのテーブルの抽出とクローニングは簡単で広く利用されているが、ocrドキュメントやイメージからテーブルの検出と抽出にはまだ課題がある。 本稿では,OCR文書から複数のテーブルを検出し抽出するアルゴリズムを提案する。 このアルゴリズムは、画像処理技術とテキスト認識と手続き符号化の組み合わせを使用して、同一画像内の異なるテーブルを特定し、コンマ分離値、データベース、excel、その他の利用可能な複数のフォーマットとして格納可能なデータフレーム内の適切な対応するセルにテキストをマップする。

Information representation as tables are compact and concise method that eases searching, indexing, and storage requirements. Extracting and cloning tables from parsable documents is easier and widely used, however industry still faces challenge in detecting and extracting tables from OCR documents or images. This paper proposes an algorithm that detects and extracts multiple tables from OCR document. The algorithm uses a combination of image processing techniques, text recognition and procedural coding to identify distinct tables in same image and map the text to appropriate corresponding cell in dataframe which can be stored as Comma-separated values, Database, Excel and multiple other usable formats.
翻訳日:2022-10-06 21:40:10 公開日:2020-10-16
# Zoom-CAM:イメージラベルから微細なピクセルアノテーションを生成する

Zoom-CAM: Generating Fine-grained Pixel Annotations from Image Labels ( http://arxiv.org/abs/2010.08644v1 )

ライセンス: Link先を確認
Xiangwei Shi, Seyran Khademi, Yunqiang Li, Jan van Gemert(参考訳) 現在の弱い教師付きオブジェクトのローカライゼーションとセグメンテーションは、ピクセルレベルのトレーニングのために擬似ラベルを生成するためにクラス差別的可視化技術に依存している。 クラスアクティベーションマッピング(CAM)やGrad-CAMといった視覚化手法では、最も深い低解像度の畳み込み層のみを使用し、中間層にすべての情報がない。 中間層におけるすべてのアクティベーション上の重要マップを統合することで、最下位の解像度層を超えるZoom-CAMを提案する。 Zoom-CAMは、様々な識別クラスインスタンスのための細粒度の小さなオブジェクトをキャプチャする。 クラスラベルからピクセルレベルの擬似ラベルを生成することに注力する。 imagenetローカライズタスクで評価した擬似ラベルの品質はtop-1エラーの2.8%以上向上した。 弱い教師付きセマンティックセグメンテーションのために、生成した擬似ラベルは、アートモデルの状態を1.1%改善する。

Current weakly supervised object localization and segmentation rely on class-discriminative visualization techniques to generate pseudo-labels for pixel-level training. Such visualization methods, including class activation mapping (CAM) and Grad-CAM, use only the deepest, lowest resolution convolutional layer, missing all information in intermediate layers. We propose Zoom-CAM: going beyond the last lowest resolution layer by integrating the importance maps over all activations in intermediate layers. Zoom-CAM captures fine-grained small-scale objects for various discriminative class instances, which are commonly missed by the baseline visualization methods. We focus on generating pixel-level pseudo-labels from class labels. The quality of our pseudo-labels evaluated on the ImageNet localization task exhibits more than 2.8% improvement on top-1 error. For weakly supervised semantic segmentation our generated pseudo-labels improve a state of the art model by 1.1%.
翻訳日:2022-10-06 21:33:22 公開日:2020-10-16
# ALdataset:プールベースのアクティブラーニングのためのベンチマーク

ALdataset: a benchmark for pool-based active learning ( http://arxiv.org/abs/2010.08161v1 )

ライセンス: Link先を確認
Xueying Zhan, Antoni Bert Chan(参考訳) アクティブ・ラーニング(AL)は機械学習(ML)のサブフィールドであり、学習アルゴリズムは新しいデータポイントをラベル付けするためにユーザ/オーラルを対話的にクエリすることで、トレーニングサンプルの少ない精度で学習できる。 プールベースのALは多くのMLタスクにおいて、ラベルのないデータが豊富にあるが、ラベルを得るのは難しい。 多くのプールベースのALメソッドが開発されているが、比較ベンチマークや技術の統合が欠如しているため、難しい。 1) 最先端技術を決定すること。 2) データセットの各種特性に対する新規手法の相対的利益を評価する。 3) 特定の問題がより注目に値するものを理解すること 4)時間とともにフィールドの進捗を測定する。 AL手法の比較評価を容易にするため,ベンチマークデータセットと総合的な性能を要約した定量的メトリクスからなるプールベースアクティブラーニングのベンチマークタスクを提案する。 本研究では,最近提案された手法と古典的手法の両方を用いて,様々なアクティブラーニング戦略の実験結果を示し,その結果から洞察を得る。

Active learning (AL) is a subfield of machine learning (ML) in which a learning algorithm could achieve good accuracy with less training samples by interactively querying a user/oracle to label new data points. Pool-based AL is well-motivated in many ML tasks, where unlabeled data is abundant, but their labels are hard to obtain. Although many pool-based AL methods have been developed, the lack of a comparative benchmarking and integration of techniques makes it difficult to: 1) determine the current state-of-the-art technique; 2) evaluate the relative benefit of new methods for various properties of the dataset; 3) understand what specific problems merit greater attention; and 4) measure the progress of the field over time. To conduct easier comparative evaluation among AL methods, we present a benchmark task for pool-based active learning, which consists of benchmarking datasets and quantitative metrics that summarize overall performance. We present experiment results for various active learning strategies, both recently proposed and classic highly-cited methods, and draw insights from the results.
翻訳日:2022-10-06 21:31:52 公開日:2020-10-16
# 高次グラフ畳み込みネットワークによるバイオメディカル相互作用の予測

Predicting Biomedical Interactions with Higher-Order Graph Convolutional Networks ( http://arxiv.org/abs/2010.08516v1 )

ライセンス: Link先を確認
Kishan KC, Rui Li, Feng Cui, Anne Haake(参考訳) バイオメディカル相互作用ネットワークは、生物学的に意味のある相互作用の予測、病気のネットワークバイオマーカーの同定、薬剤標的の発見に極めて有用である。 近年, 生物医学的実体の表現を効果的に学習するグラフニューラルネットワークが提案され, 生体医学的相互作用予測に最先端の結果が得られた。 これらの手法は近隣住民の情報のみを考察するが、様々な距離で近隣住民から特徴の一般的な混合を学べない。 本稿では,生物医学的相互作用予測のための高次近傍からの情報を集約する高次グラフ畳み込みネットワーク(HOGCN)を提案する。 具体的には、HOGCNは、様々な距離で隣人の特徴表現を収集し、それらの線形混合を学び、生体医学的実体の情報表現を得る。 タンパク質-タンパク質、薬物-ドラッグ、薬物-ターゲット、遺伝子-放出相互作用を含む4つの相互作用ネットワークの実験は、HOGCNがより正確で校正された予測を達成することを示す。 HOGCNは、様々な距離における隣人の特徴表現を考慮した場合、ノイズの多い疎結合ネットワーク上でよく機能する。 さらに、文献に基づくケーススタディにより、一連の新しい相互作用予測が検証される。

Biomedical interaction networks have incredible potential to be useful in the prediction of biologically meaningful interactions, identification of network biomarkers of disease, and the discovery of putative drug targets. Recently, graph neural networks have been proposed to effectively learn representations for biomedical entities and achieved state-of-the-art results in biomedical interaction prediction. These methods only consider information from immediate neighbors but cannot learn a general mixing of features from neighbors at various distances. In this paper, we present a higher-order graph convolutional network (HOGCN) to aggregate information from the higher-order neighborhood for biomedical interaction prediction. Specifically, HOGCN collects feature representations of neighbors at various distances and learns their linear mixing to obtain informative representations of biomedical entities. Experiments on four interaction networks, including protein-protein, drug-drug, drug-target, and gene-disease interactions, show that HOGCN achieves more accurate and calibrated predictions. HOGCN performs well on noisy, sparse interaction networks when feature representations of neighbors at various distances are considered. Moreover, a set of novel interaction predictions are validated by literature-based case studies.
翻訳日:2022-10-06 21:31:09 公開日:2020-10-16
# 長期記憶ニューラルネットを用いたplaya浸水予測

Predicting Playa Inundation Using a Long Short-Term Memory Neural Network ( http://arxiv.org/abs/2010.08605v1 )

ライセンス: Link先を確認
Kylen Solvik, Anne M. Bartuszevige, Meghan Bogaerts, and Maxwell B. Joseph(参考訳) 五大平原では、遊牧地は渡り鳥にとって重要な湿地生息地であり、農業上重要な高原帯水層への充電源である。 一時的な湿地は複雑な水文学を示し、地元の雨嵐によって急速に満たし、蒸発と地下水の浸透によって乾燥する。 これらの複雑なプロセスを説明するためにlstm(long short-term memory)ニューラルネットワークを使用して、1984年から2018年にかけてグレートプレーンズで71,842playasのplayaインダクションをモデル化した。 個々のplayasのレベルでは、モデルは保留されたテストセット上で0.538のf1-scoreを達成し、複雑な浸水パターンを予測する能力を示した。 地域全体のplayaを平均すると、干ばつ期間であっても、このモデルは浸水傾向を非常に密接に追跡することができる。 その結果,LSTMを用いて複雑な流体力学をモデル化できる可能性が示唆された。 我々のモデリングアプローチは、異なる気候条件下でのplayaの浸水をモデル化し、湿地生息地や地下水が気候の変化にどのように影響するかをよりよく理解するために利用することができる。

In the Great Plains, playas are critical wetland habitats for migratory birds and a source of recharge for the agriculturally-important High Plains aquifer. The temporary wetlands exhibit complex hydrology, filling rapidly via local rain storms and then drying through evaporation and groundwater infiltration. Using a long short-term memory (LSTM) neural network to account for these complex processes, we modeled playa inundation for 71,842 playas in the Great Plains from 1984-2018. At the level of individual playas, the model achieved an F1-score of 0.538 on a withheld test set, displaying the ability to predict complex inundation patterns. When averaging over all the playas in the entire region, the model is able to very closely track inundation trends, even during periods of drought. Our results demonstrate potential for using LSTMs to model complex hydrological dynamics. Our modeling approach could be used to model playa inundation into the future under different climate scenarios to better understand how wetland habitats and groundwater will be impacted by changing climate.
翻訳日:2022-10-06 21:30:48 公開日:2020-10-16
# 深層マルチモーダルコンテンツ理解の新しい考え方と動向

New Ideas and Trends in Deep Multimodal Content Understanding: A Review ( http://arxiv.org/abs/2010.08189v1 )

ライセンス: Link先を確認
Wei Chen and Weiping Wang and Li Liu and Michael S. Lew(参考訳) 本研究の目的は,マルチモーダル深層学習の2つのモダリティ(画像とテキスト)の分析である。 本稿では,VGG,ResNet,Inceptionモジュールなどのモノモーダル画像分類器が中心となるディープラーニングの古典的レビューと異なり,自動エンコーダや生成逆数ネットなどを含む最近のマルチモーダル深層モデルと構造について検討する。 これらのモデルは、一方向(例えば、画像キャプション、画像生成)と双方向(例えば、クロスモーダル検索、視覚的質問応答)のマルチモーダルタスクを実行できる単純な画像分類器を越えている。 さらに,この課題の2つの側面を,深いマルチモーダルアプリケーションにおけるより良いコンテンツ理解の観点から分析する。 次に,上記の課題を克服する上で不可欠な特徴埋め込みアプローチや客観的関数設計など,マルチモーダル機能学習における現在の考え方とトレンドを紹介する。 最後に、今後の研究に期待できる方向をいくつか挙げる。

The focus of this survey is on the analysis of two modalities of multimodal deep learning: image and text. Unlike classic reviews of deep learning where monomodal image classifiers such as VGG, ResNet and Inception module are central topics, this paper will examine recent multimodal deep models and structures, including auto-encoders, generative adversarial nets and their variants. These models go beyond the simple image classifiers in which they can do uni-directional (e.g. image captioning, image generation) and bi-directional (e.g. cross-modal retrieval, visual question answering) multimodal tasks. Besides, we analyze two aspects of the challenge in terms of better content understanding in deep multimodal applications. We then introduce current ideas and trends in deep multimodal feature learning, such as feature embedding approaches and objective function design, which are crucial in overcoming the aforementioned challenges. Finally, we include several promising directions for future research.
翻訳日:2022-10-06 21:24:46 公開日:2020-10-16
# ヒト知覚に基づく超高分解能細胞膜セグメンテーションの評価基準

Human Perception-based Evaluation Criterion for Ultra-high Resolution Cell Membrane Segmentation ( http://arxiv.org/abs/2010.08209v1 )

ライセンス: Link先を確認
Ruohua Shi, Wenyao Wang, Zhixuan Li, Liuyuan He, Kaiwen Sheng, Lei Ma, Kai Du, Tingting Jiang, Tiejun Huang(参考訳) コンピュータビジョン技術は、生物学や医学のデータ分析や理解に広く使われている。 しかし、細胞膜セグメンテーションの分野には依然として2つの大きなボトルネックがあり、さらなる研究を著しく妨げている。 この2つの問題を解決するために,本論文ではまず,複数の反復アノテーションと非圧縮高分解能生データを用いたセル膜用最大のアノテート電子顕微鏡データセットであるU-RISCという,セル膜用超高分解能画像分割データセットを提案する。 U-RISCの分析過程において,現在普及しているセグメンテーション評価基準は人間の知覚と矛盾していることがわかった。 この興味深い現象は、20人を含む主観的な実験によって確認される。 さらに,この不整合を解消するために,細胞膜セグメンテーションの結果の質を評価するために,Perceptual Hausdorff Distance (PHD) と呼ばれる新しい評価基準を提案する。 既存の評価基準下での2つの反復的手動アノテーション結果とPHDによる古典的セグメンテーション手法の詳細な性能比較と議論を行う。

Computer vision technology is widely used in biological and medical data analysis and understanding. However, there are still two major bottlenecks in the field of cell membrane segmentation, which seriously hinder further research: lack of sufficient high-quality data and lack of suitable evaluation criteria. In order to solve these two problems, this paper first proposes an Ultra-high Resolution Image Segmentation dataset for the Cell membrane, called U-RISC, the largest annotated Electron Microscopy (EM) dataset for the Cell membrane with multiple iterative annotations and uncompressed high-resolution raw data. During the analysis process of the U-RISC, we found that the current popular segmentation evaluation criteria are inconsistent with human perception. This interesting phenomenon is confirmed by a subjective experiment involving twenty people. Furthermore, to resolve this inconsistency, we propose a new evaluation criterion called Perceptual Hausdorff Distance (PHD) to measure the quality of cell membrane segmentation results. Detailed performance comparison and discussion of classic segmentation methods along with two iterative manual annotation results under existing evaluation criteria and PHD is given.
翻訳日:2022-10-06 21:24:27 公開日:2020-10-16
# HPERL:RGBとLiDARによる3次元人物位置推定

HPERL: 3D Human Pose Estimation from RGB and LiDAR ( http://arxiv.org/abs/2010.08221v1 )

ライセンス: Link先を確認
Michael F\"urst, Shriya T. P. Gupta, Ren\'e Schuster, Oliver Wasenm\"uller, Didier Stricker(参考訳) 野生の人間のポーズ推定は、アニメーションやアクション認識から意図認識、自動運転の予測まで、さまざまな分野において大きな可能性を秘めている。 現在の最先端技術は、人間の3Dポーズを予測するためのRGBとRGB-Dアプローチのみに焦点を当てている。 しかし、正確なライダー深度情報を使用しないことは性能を制限し、非常に不正確な絶対ポーズ推定につながる。 ロボットや自動運転車のセットアップにおいて、LiDARセンサーがより安価で一般的なものになると、RGBとLiDARを用いたエンドツーエンドアーキテクチャを提案し、絶対的な3D人間のポーズを前例のない精度で予測する。 さらに,PedX [1]から2次元ポーズアノテーションを用いて3次元予測を生成する手法を提案する。 これにより、3d人間のポーズ推定の分野で多くの新しい機会が生まれる。

In-the-wild human pose estimation has a huge potential for various fields, ranging from animation and action recognition to intention recognition and prediction for autonomous driving. The current state-of-the-art is focused only on RGB and RGB-D approaches for predicting the 3D human pose. However, not using precise LiDAR depth information limits the performance and leads to very inaccurate absolute pose estimation. With LiDAR sensors becoming more affordable and common on robots and autonomous vehicle setups, we propose an end-to-end architecture using RGB and LiDAR to predict the absolute 3D human pose with unprecedented precision. Additionally, we introduce a weakly-supervised approach to generate 3D predictions using 2D pose annotations from PedX [1]. This allows for many new opportunities in the field of 3D human pose estimation.
翻訳日:2022-10-06 21:24:08 公開日:2020-10-16
# 深部ベイズ系セマンティックシーンの完成

In Depth Bayesian Semantic Scene Completion ( http://arxiv.org/abs/2010.08310v1 )

ライセンス: Link先を確認
David Gillsj\"o, Kalle {\AA}str\"om(参考訳) 本研究は,一部の領域が隠されているにもかかわらず,周囲の3次元的な意味的セグメンテーションを予測することを目的とした意味的シーン補完について研究する。 そのため、ベイズ畳み込みニューラルネットワーク(BCNN)を構築し、セグメンテーションを行うだけでなく、モデルの不確実性を予測できる。 これは標準cnnにはない重要な機能である。 MNISTデータセット上では, 精度, 精度, リコールにおいて, トレーニングフェーズで見えない桁の処理を行う場合, ベイズ的手法が標準CNNと同等以上の性能を示すことを示す。 より良いキャリブレーションスコアとモデルの不確実性を表現できることのメリットが加わった。 次に、SUNCGデータセット上でテスト時にカテゴリを導入するセマンティックシーン補完タスクの結果を示す。 このより複雑なタスクでは、ベイズ的アプローチは標準CNNよりも優れている。 平均精度と分離スコアでユニオンスコアよりも優れたインターセクションを示す。

This work studies Semantic Scene Completion which aims to predict a 3D semantic segmentation of our surroundings, even though some areas are occluded. For this we construct a Bayesian Convolutional Neural Network (BCNN), which is not only able to perform the segmentation, but also predict model uncertainty. This is an important feature not present in standard CNNs. We show on the MNIST dataset that the Bayesian approach performs equal or better to the standard CNN when processing digits unseen in the training phase when looking at accuracy, precision and recall. With the added benefit of having better calibrated scores and the ability to express model uncertainty. We then show results for the Semantic Scene Completion task where a category is introduced at test time on the SUNCG dataset. In this more complex task the Bayesian approach outperforms the standard CNN. Showing better Intersection over Union score and excels in Average Precision and separation scores.
翻訳日:2022-10-06 21:23:04 公開日:2020-10-16
# 群衆シーン映像における人物レベルの行動認識の精度向上に向けて

Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes ( http://arxiv.org/abs/2010.08365v1 )

ライセンス: Link先を確認
Li Yuan, Yichen Zhou, Shuning Chang, Ziyuan Huang, Yunpeng Chen, Xuecheng Nie, Tao Wang, Jiashi Feng, Shuicheng Yan(参考訳) 混み合ったシーンの動画におけるヒューマンアクションの検出と認識は、複雑な環境と多様性のイベントのために難しい問題である。 先行作品では,(1)シーンの情報の活用の欠如,(2)群衆や複雑なシーンにおけるトレーニングデータの欠如,という2つの側面からこの問題に対処することができない。 本稿では,シーンの情報を完全に活用し,新たなデータ収集を行い,時空間的行動認識の改善に焦点をあてる。 トップダウン戦略は制限を克服するために使用される。 具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。 そして,HIEデータセットとインターネットの多様なシーンを持つ新しいデータの両方の動画フレームから時空間情報を得るために,行動認識モデルを適用し,モデルの一般化能力を向上させる。 また、シーン情報はセマンティックセグメンテーションモデルによって抽出され、プロセスを補助する。 その結果、平均26.05wf\_mAP(ACM MMグランドチャレンジ2020: Human in Eventsで1位)を達成した。

Detecting and recognizing human action in videos with crowded scenes is a challenging problem due to the complex environment and diversity events. Prior works always fail to deal with this problem in two aspects: (1) lacking utilizing information of the scenes; (2) lacking training data in the crowd and complex scenes. In this paper, we focus on improving spatio-temporal action recognition by fully-utilizing the information of scenes and collecting new data. A top-down strategy is used to overcome the limitations. Specifically, we adopt a strong human detector to detect the spatial location of each frame. We then apply action recognition models to learn the spatio-temporal information from video frames on both the HIE dataset and new data with diverse scenes from the internet, which can improve the generalization ability of our model. Besides, the scenes information is extracted by the semantic segmentation model to assistant the process. As a result, our method achieved an average 26.05 wf\_mAP (ranking 1st place in the ACM MM grand challenge 2020: Human in Events).
翻訳日:2022-10-06 21:22:38 公開日:2020-10-16
# 空中画像からの自動森林健康診断に基づく深層学習

Deep Learning based Automated Forest Health Diagnosis from Aerial Images ( http://arxiv.org/abs/2010.08437v1 )

ライセンス: Link先を確認
Chia-Yen Chiang, Chloe Barnes, Plamen Angelov, and Richard Jiang(参考訳) 地球温暖化は我々の環境に大きな影響を与えた。 これまでの研究では、地球規模の気候変動による害虫災害は、膨大な数の樹木が枯渇し、森林火災の要因となった可能性があることが示されていた。 森林火災の重要な原因は森林の状態である。 空中画像に基づく森林分析は、死木と生木を早期に検出することができる。 本稿では,画像データセットを拡大する合成手法を適用し,再学習されたMask RCNN(Mask Region-based Convolutional Neural Network)アプローチを用いて,空中画像からの枯木自動検出のための新しいフレームワークを提案する。 この枠組みを航空画像データセットに適用し,8種類の微調整モデルを比較した。 これらのモデルの最高値の平均精度スコア(map)は54%に達する。 自動検出により,森林環境変化の因果分析と森林火災の予測可能性との関連性を示す指標として,画像中の枯死木をラベル付けする枯死木マスクを自動生成・算出することが可能となった。

Global climate change has had a drastic impact on our environment. Previous study showed that pest disaster occured from global climate change may cause a tremendous number of trees died and they inevitably became a factor of forest fire. An important portent of the forest fire is the condition of forests. Aerial image-based forest analysis can give an early detection of dead trees and living trees. In this paper, we applied a synthetic method to enlarge imagery dataset and present a new framework for automated dead tree detection from aerial images using a re-trained Mask RCNN (Mask Region-based Convolutional Neural Network) approach, with a transfer learning scheme. We apply our framework to our aerial imagery datasets,and compare eight fine-tuned models. The mean average precision score (mAP) for the best of these models reaches 54%. Following the automated detection, we are able to automatically produce and calculate number of dead tree masks to label the dead trees in an image, as an indicator of forest health that could be linked to the causal analysis of environmental changes and the predictive likelihood of forest fire.
翻訳日:2022-10-06 21:22:19 公開日:2020-10-16
# 火炎噴霧熱分解ナノ粒子合成のオンラインステアリングに向けて

Towards Online Steering of Flame Spray Pyrolysis Nanoparticle Synthesis ( http://arxiv.org/abs/2010.08486v1 )

ライセンス: Link先を確認
Maksim Levental, Ryan Chard, Joseph A. Libera, Kyle Chard, Aarthi Koripelly, Jakob R. Elias, Marcus Schwarting, Ben Blaiszik, Marius Stan, Santanu Chaudhuri, Ian Foster(参考訳) 火炎噴霧熱分解 (fsp) は、触媒、エネルギー材料、複合材料などへの応用のために製造されたナノ粒子を大量生産する製造技術である。 FSP機器は、燃料噴射速度、燃料と酸素の混合、温度など様々な調整可能なパラメータに大きく依存しており、得られたナノ粒子の品質、量、性質に大きな影響を与える。 fsp合成の最適化には, 実験条件の監視, 解析, キャラクタリゼーション, および修正が必要である。ここでは, 未燃焼溶液の体積分布を特徴付けるガウス法 (dog) のハイブリッド cpu-gpu 差分を提案する。 標準実装との比較により,本手法は桁違いに効率的であることが示された。 このサロゲート信号は、合成収率を最大化するオンラインエンドツーエンドパイプラインのコンポーネントとしてデプロイすることができる。

Flame Spray Pyrolysis (FSP) is a manufacturing technique to mass produce engineered nanoparticles for applications in catalysis, energy materials, composites, and more. FSP instruments are highly dependent on a number of adjustable parameters, including fuel injection rate, fuel-oxygen mixtures, and temperature, which can greatly affect the quality, quantity, and properties of the yielded nanoparticles. Optimizing FSP synthesis requires monitoring, analyzing, characterizing, and modifying experimental conditions.Here, we propose a hybrid CPU-GPU Difference of Gaussians (DoG)method for characterizing the volume distribution of unburnt solution, so as to enable near-real-time optimization and steering of FSP experiments. Comparisons against standard implementations show our method to be an order of magnitude more efficient. This surrogate signal can be deployed as a component of an online end-to-end pipeline that maximizes the synthesis yield.
翻訳日:2022-10-06 21:21:59 公開日:2020-10-16
# 非構造音声マスキングを用いたマルチモーダル音声認識

Multimodal Speech Recognition with Unstructured Audio Masking ( http://arxiv.org/abs/2010.08642v1 )

ライセンス: Link先を確認
Tejas Srinivasan, Ramon Sanabria, Florian Metze, Desmond Elliott(参考訳) 視覚的コンテキストは、音声信号が雑音や破損しているときに自動音声認識(ASR)システムに有用であることが示されている。 しかし、以前の研究は、固定された単語のセットがオーディオに体系的にマスクされる非現実的な環境での視覚的コンテキストの有用性を実証しただけであった。 本稿では,任意の単語セグメントに対してマスキングを行うRandWordMaskと呼ばれるモデルトレーニングにおいて,より現実的なマスキングシナリオをシミュレートする。 Flickr 8K Audio Captions Corpusの実験では、マルチモーダルASRは、この非構造化マスキング設定において、様々な種類のマスキング語を復元する。 さらに,本分析により,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが示唆された。 これらの結果から,マルチモーダルASRシステムはより一般化された雑音のシナリオで視覚信号を利用することができることがわかった。

Visual context has been shown to be useful for automatic speech recognition (ASR) systems when the speech signal is noisy or corrupted. Previous work, however, has only demonstrated the utility of visual context in an unrealistic setting, where a fixed set of words are systematically masked in the audio. In this paper, we simulate a more realistic masking scenario during model training, called RandWordMask, where the masking can occur for any word segment. Our experiments on the Flickr 8K Audio Captions Corpus show that multimodal ASR can generalize to recover different types of masked words in this unstructured masking setting. Moreover, our analysis shows that our models are capable of attending to the visual signal when the audio signal is corrupted. These results show that multimodal ASR systems can leverage the visual signal in more generalized noisy scenarios.
翻訳日:2022-10-06 21:16:11 公開日:2020-10-16
# CoDA: 自然言語理解のためのコントラスト強化と多様性促進のためのデータ拡張

CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding ( http://arxiv.org/abs/2010.08670v1 )

ライセンス: Link先を確認
Yanru Qu, Dinghan Shen, Yelong Shen, Sandra Sajeev, Jiawei Han, Weizhu Chen(参考訳) データ拡張はモデル一般化とデータ効率を改善する効果的な戦略として実証されている。 しかし、自然言語の離散的な性質から、テキストデータに対するラベル保存変換の設計はより難しい傾向がある。 本稿では,複数の変換を有機的に統合することで,多種多様な付加例を合成する,CoDAと呼ばれる新しいデータ拡張フレームワークを提案する。 さらに、全データサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。 さらに、メモリバンクと共に運動量エンコーダを利用してコントラスト損失を推定する。 提案手法の有効性を検証するため,多種多様な自然言語理解タスクにおけるトランスフォーマーモデルにCoDAを適用した。 GLUEベンチマークでは、CoDAはRoBERTa-largeモデルに適用しながら平均2.2%の改善を実現している。 さらに重要なのは、競争力のあるデータ拡張と敵のトレーニングベースライン(低リソース設定を含む)に対して、一貫して強力な結果を示すことだ。 広範な実験により、提案されたコントラスト目的とさまざまなデータ拡張アプローチを柔軟に組み合わせて、パフォーマンスをさらに向上し、CoDAフレームワークの広範な適用性を強調している。

Data augmentation has been demonstrated as an effective strategy for improving model generalization and data efficiency. However, due to the discrete nature of natural language, designing label-preserving transformations for text data tends to be more challenging. In this paper, we propose a novel data augmentation framework dubbed CoDA, which synthesizes diverse and informative augmented examples by integrating multiple transformations organically. Moreover, a contrastive regularization objective is introduced to capture the global relationship among all the data samples. A momentum encoder along with a memory bank is further leveraged to better estimate the contrastive loss. To verify the effectiveness of the proposed framework, we apply CoDA to Transformer-based models on a wide range of natural language understanding tasks. On the GLUE benchmark, CoDA gives rise to an average improvement of 2.2% while applied to the RoBERTa-large model. More importantly, it consistently exhibits stronger results relative to several competitive data augmentation and adversarial training base-lines (including the low-resource settings). Extensive experiments show that the proposed contrastive objective can be flexibly combined with various data augmentation approaches to further boost their performance, highlighting the wide applicability of the CoDA framework.
翻訳日:2022-10-06 21:15:54 公開日:2020-10-16
# 偽ニュース検出のためのレキシコン生成

Lexicon generation for detecting fake news ( http://arxiv.org/abs/2010.11089v1 )

ライセンス: Link先を確認
U\u{g}ur Merto\u{g}lu, Burkay Gen\c{c}(参考訳) メディアのデジタル化に伴い、主流メディアやソーシャルネットワークを含むオンラインソースによって膨大な量のニュースデータが生成されるようになった。 しかし、生産と流通の容易さにより、偽ニュースや信頼できる本物のニュースが流通した。 偽ニュースの普及は、個人や社会に極端に悪影響を及ぼす。 それゆえ、偽ニュース検出は最近、社会科学や言語学を含む多くの研究分野から大きな注目を集めている学際研究分野として注目されている。 本研究では,トルコ語における偽ニュースの検出を容易にするためのスコアリングシステムを含む,主に辞書に基づく手法を提案する。 我々は,トルコ語ニュースの新しい,大規模かつ信頼性の高いデータセットを収集し,トルコ語で最初の偽ニュース検出レキシコンを構築し,文献に寄与する。

With the digitization of media, an immense amount of news data has been generated by online sources, including mainstream media outlets as well as social networks. However, the ease of production and distribution resulted in circulation of fake news as well as credible, authentic news. The pervasive dissemination of fake news has extreme negative impacts on individuals and society. Therefore, fake news detection has recently become an emerging topic as an interdisciplinary research field that is attracting significant attention from many research disciplines, including social sciences and linguistics. In this study, we propose a method primarily based on lexicons including a scoring system to facilitate the detection of the fake news in Turkish. We contribute to the literature by collecting a novel, large scale, and credible dataset of Turkish news, and by constructing the first fake news detection lexicon for Turkish.
翻訳日:2022-10-06 21:15:37 公開日:2020-10-16
# 校正ディリクレ事前RNNによるSLUにおける未知概念学習のためのトークンレベルの不確かさのモデル化

Modeling Token-level Uncertainty to Learn Unknown Concepts in SLU via Calibrated Dirichlet Prior RNN ( http://arxiv.org/abs/2010.08101v1 )

ライセンス: Link先を確認
Yilin Shen, Wenhu Chen, Hongxia Jin(参考訳) 現代のパーソナルアシスタントにおける音声言語理解(SLU)の主な課題は、スロットフィリングと呼ばれる発話から意味論的概念を抽出することである。 既存のスロット充填モデルは、トレーニングデータに見られない新しい概念の抽出を改善しようとしたが、実際の性能はまだ満足していない。 最近の研究では、大量のデータ収集の努力のために、疑問と答えの付いたデータを収集し、何が未知で何が必要かを知る。 本稿では,softmaxベースのスロット充填ニューラルアーキテクチャを組み込んで,疑うことなくシーケンスの不確かさをモデル化する。 RNNモデルトレーニングのためのソフトマックス層を縮退させて高次不確実性をモデル化するためのディリクレ事前RNNを設計する。 不確実性モデリングのロバスト性をさらに高めるために,ディリクレ濃度パラメータを校正する新しいマルチタスクトレーニングを提案する。 SLUベンチマークデータセットSnipsとATISの2つのテストデータセットを作成するために、目に見えない概念を収集します。 これら2つの既存のコンセプト学習ベンチマークデータセットについて,我々のアプローチが最先端のアプローチを最大8.18%上回っていることを示す。 本手法は汎用的であり,任意の RNN や Transformer ベースのスロットフィリングモデルに適用可能である。

One major task of spoken language understanding (SLU) in modern personal assistants is to extract semantic concepts from an utterance, called slot filling. Although existing slot filling models attempted to improve extracting new concepts that are not seen in training data, the performance in practice is still not satisfied. Recent research collected question and answer annotated data to learn what is unknown and should be asked, yet not practically scalable due to the heavy data collection effort. In this paper, we incorporate softmax-based slot filling neural architectures to model the sequence uncertainty without question supervision. We design a Dirichlet Prior RNN to model high-order uncertainty by degenerating as softmax layer for RNN model training. To further enhance the uncertainty modeling robustness, we propose a novel multi-task training to calibrate the Dirichlet concentration parameters. We collect unseen concepts to create two test datasets from SLU benchmark datasets Snips and ATIS. On these two and another existing Concept Learning benchmark datasets, we show that our approach significantly outperforms state-of-the-art approaches by up to 8.18%. Our method is generic and can be applied to any RNN or Transformer based slot filling models with a softmax layer.
翻訳日:2022-10-06 21:15:06 公開日:2020-10-16
# 公共部門における人間と機械のインタラクションのモニタリング

Monitoring Trust in Human-Machine Interactions for Public Sector Applications ( http://arxiv.org/abs/2010.08140v1 )

ライセンス: Link先を確認
Farhana Faruqe, Ryan Watkins, and Larry Medsker(参考訳) 今回報告された研究は、脳波(EEG)とGalvanic Skin Response(GSR)を用いて、AIが支援するHuman-Machine Interaction(HMI)を用いて、人間の信頼レベルを検出する心理生理学的センサーの容量と測定値に対処する。 EEGとGSRデータの解析の改善は、従来のツールよりも、あるいはより優れたモデルを生成する可能性がある。 脳波とGSRデータを分析する上での課題は、測定値に多数の変数があるため、大量のトレーニングデータを必要とすることである。 研究者は、ANN(Artificial Neural Network)、サポートベクターマシン(SVM)、K-nearest neighbors(KNN)などの標準的な機械学習分類器を常用している。 伝統的に、これらは脳波とGSRデータのどの特徴がより正確で正確な予測を促進するかについての洞察をほとんど提供していない。 信頼センサ研究結果を現実の状況に適用し、作業環境における信頼を監視する上で重要な要素は、どの重要な機能が信頼に寄与しているかを理解し、実用的応用に必要なデータ量を削減することだ。 我々は、HMIシステムの信頼性を監視・強化するために必要なデータ量を削減するプロセスとして、Local Interpretable Model-Anostic Explanations(LIME)モデルを使用しました。 説明可能なAIは、HMIシステムを透過化し、信頼を促進する。 政府機関のカスタマーサービスや、コミュニティレベルの非営利の公共サービス組織から、軍事・サイバーセキュリティ機関まで、多くの公共セクター組織は、信頼に値する、バイアスのない、意図しない否定的な結果のないサービスで効果的かつ倫理的なHMIを持つことをますます懸念している。

The work reported here addresses the capacity of psychophysiological sensors and measures using Electroencephalogram (EEG) and Galvanic Skin Response (GSR) to detect levels of trust for humans using AI-supported Human-Machine Interaction (HMI). Improvements to the analysis of EEG and GSR data may create models that perform as well, or better than, traditional tools. A challenge to analyzing the EEG and GSR data is the large amount of training data required due to a large number of variables in the measurements. Researchers have routinely used standard machine-learning classifiers like artificial neural networks (ANN), support vector machines (SVM), and K-nearest neighbors (KNN). Traditionally, these have provided few insights into which features of the EEG and GSR data facilitate the more and least accurate predictions - thus making it harder to improve the HMI and human-machine trust relationship. A key ingredient to applying trust-sensor research results to practical situations and monitoring trust in work environments is the understanding of which key features are contributing to trust and then reducing the amount of data needed for practical applications. We used the Local Interpretable Model-agnostic Explanations (LIME) model as a process to reduce the volume of data required to monitor and enhance trust in HMI systems - a technology that could be valuable for governmental and public sector applications. Explainable AI can make HMI systems transparent and promote trust. From customer service in government agencies and community-level non-profit public service organizations to national military and cybersecurity institutions, many public sector organizations are increasingly concerned to have effective and ethical HMI with services that are trustworthy, unbiased, and free of unintended negative consequences.
翻訳日:2022-10-06 21:14:43 公開日:2020-10-16
# Deep-HOSeq:マルチモーダル感度解析のための高次系列融合

Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2010.08218v1 )

ライセンス: Link先を確認
Sunny Verma, Jiwei Wang, Zhefeng Ge, Rujia Shen, Fan Jin, Yang Wang, Fang Chen, and Wei Liu(参考訳) マルチモーダル感情分析は、感情分類に複数の異種モダリティを利用する。 最近のマルチモーダル融合方式ではLSTMをカスタマイズしてモーダル内ダイナミクスを発見し、マルチモーダルシーケンスからモーダル間ダイナミクスを発見するための高度な注意機構を設計している。 しかし、これらのスキームは2つの大きな欠点のために問題となる注意機構に完全に依存している。 1)偽りの注意マスク、及び 2) 力学のトレーニング。 しかしながら、これらの統合アーキテクチャのハイパーパラメータ、特に注意体系に制約されたカスタム設計のLSTMの最適化には、厳しい努力が必要である。 本研究では,まず,基本lstmとテンソルに基づく畳み込みネットワークを用いて,モーダル内とモーダル間の両方のダイナミクスを探索する共通ネットワークを提案する。 次に,非同期シーケンス内の情報抽出に必須なモダリティ間の時間的粒度をカプセル化するユニークなネットワークを提案する。 次に、これらの2種類の情報を融合層を介して統合し、新しいマルチモーダルフュージョンスキームをDeep-HOSeq(高次共通シーケンス情報付きディープネットワーク)と呼ぶ。 提案したDeep-HOSeqはマルチモーダルシーケンスから全重要情報を効率よく発見し、CMU-MOSEIおよびCMU-MOSIベンチマークデータセット上で両タイプの情報を活用する効果を実証的に示す。 Deep-HOSeqのソースコードはhttps://github.com/sverma88/Deep-HOSeq--ICDM-2020で公開されている。

Multimodal sentiment analysis utilizes multiple heterogeneous modalities for sentiment classification. The recent multimodal fusion schemes customize LSTMs to discover intra-modal dynamics and design sophisticated attention mechanisms to discover the inter-modal dynamics from multimodal sequences. Although powerful, these schemes completely rely on attention mechanisms which is problematic due to two major drawbacks 1) deceptive attention masks, and 2) training dynamics. Nevertheless, strenuous efforts are required to optimize hyperparameters of these consolidate architectures, in particular their custom-designed LSTMs constrained by attention schemes. In this research, we first propose a common network to discover both intra-modal and inter-modal dynamics by utilizing basic LSTMs and tensor based convolution networks. We then propose unique networks to encapsulate temporal-granularity among the modalities which is essential while extracting information within asynchronous sequences. We then integrate these two kinds of information via a fusion layer and call our novel multimodal fusion scheme as Deep-HOSeq (Deep network with higher order Common and Unique Sequence information). The proposed Deep-HOSeq efficiently discovers all-important information from multimodal sequences and the effectiveness of utilizing both types of information is empirically demonstrated on CMU-MOSEI and CMU-MOSI benchmark datasets. The source code of our proposed Deep-HOSeq is and available at https://github.com/sverma88/Deep-HOSeq--ICDM-2020.
翻訳日:2022-10-06 21:14:10 公開日:2020-10-16
# 動的LiDARデータによる人間のセグメンテーション

Human Segmentation with Dynamic LiDAR Data ( http://arxiv.org/abs/2010.08092v1 )

ライセンス: Link先を確認
Tao Zhong, Wonjik Kim, Masayuki Tanaka and Masatoshi Okutomi(参考訳) 圧縮LiDARスキャンは、単一のフレームよりも豊富な情報を含む動的3Dシーケンスを構成する。 画像と映像の知覚の発達史と同様に、静的な3次元データ知覚の研究を刺激した後、動的3次元シーケンス認識が見え始める。 この研究は、動的LiDAR点雲を用いた人間のセグメンテーションのための時空間ニューラルネットワークを提案する。 深度画像のシーケンスを入力として取得する。 二次元分岐構造、すなわち空間分割枝と時間速度推定枝を有する。 速度推定枝は入力シーケンスから動きキューを捕捉し、他の分岐に伝播するように設計されている。 セグメンテーションブランチは、空間的特徴と時間的特徴の両方に応じて人間をセグメンテーションする。 これら2つのブランチは、人間の認識のために生成された動的ポイントクラウドデータセットで共同で学習される。 私たちの作品は、動的点雲知覚の空白を点雲の球面表現で満たし、高い精度を達成する。 実験の結果,時間的特徴の導入は動的点雲のセグメンテーションに有効であることが示唆された。

Consecutive LiDAR scans compose dynamic 3D sequences, which contain more abundant information than a single frame. Similar to the development history of image and video perception, dynamic 3D sequence perception starts to come into sight after inspiring research on static 3D data perception. This work proposes a spatio-temporal neural network for human segmentation with the dynamic LiDAR point clouds. It takes a sequence of depth images as input. It has a two-branch structure, i.e., the spatial segmentation branch and the temporal velocity estimation branch. The velocity estimation branch is designed to capture motion cues from the input sequence and then propagates them to the other branch. So that the segmentation branch segments humans according to both spatial and temporal features. These two branches are jointly learned on a generated dynamic point cloud dataset for human recognition. Our works fill in the blank of dynamic point cloud perception with the spherical representation of point cloud and achieves high accuracy. The experiments indicate that the introduction of temporal feature benefits the segmentation of dynamic point cloud.
翻訳日:2022-10-06 21:13:22 公開日:2020-10-16
# ギリシャ語からmBERT:多言語BERTからの単語レベル翻訳の導入

It's not Greek to mBERT: Inducing Word-Level Translations from Multilingual BERT ( http://arxiv.org/abs/2010.08275v1 )

ライセンス: Link先を確認
Hila Gonen, Shauli Ravfogel, Yanai Elazar, Yoav Goldberg(参考訳) 近年の研究では、多言語BERT (mBERT) が言語間の移動を可能にするリッチな言語間表現を学習していることが示されている。 我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。 その結果、これらの情報のほとんどは非線形にエンコードされ、一部の情報は純粋に線形なツールで復元できることが示唆された。 分析の一環として、mBERTは言語符号化コンポーネントと抽象言語間コンポーネントの両方を含む表現を学習し、mBERT表現内の経験的言語同一性部分空間を明示的に識別する仮説を検証した。

Recent works have demonstrated that multilingual BERT (mBERT) learns rich cross-lingual representations, that allow for transfer across languages. We study the word-level translation information embedded in mBERT and present two simple methods that expose remarkable translation capabilities with no fine-tuning. The results suggest that most of this information is encoded in a non-linear way, while some of it can also be recovered with purely linear tools. As part of our analysis, we test the hypothesis that mBERT learns representations which contain both a language-encoding component and an abstract, cross-lingual component, and explicitly identify an empirical language-identity subspace within mBERT representations.
翻訳日:2022-10-06 21:06:57 公開日:2020-10-16
# QA2Explanation:知識グラフによる質問応答システムの構築と評価

QA2Explanation: Generating and Evaluating Explanations for Question Answering Systems over Knowledge Graph ( http://arxiv.org/abs/2010.08323v1 )

ライセンス: Link先を確認
Saeedeh Shekarpour, Abhishek Nadgeri and Kuldeep Singh(参考訳) 大きな知識グラフの時代、質問回答(QA)システムは、そのパフォーマンスと実現可能性においてマイルストーンに達した。 しかし、その適用性、特に生物医学領域のような特定の領域では、透明性、公平性、説明責任を阻害する「ブラックボックス」の性質のため、広く受け入れられていない。 したがって、ユーザーは特定の質問に対する回答の仕方や理由を理解することができない。 この課題に対処するため,パイプラインベースのQAシステムにおいて,様々な段階で説明を自動生成する手法を開発した。 我々のアプローチは教師付きかつ自動的なアプローチであり、関連するQAコンポーネントの出力を注釈付けするための3つのクラス(成功、答えなし、間違った回答)を考える。 我々の予測では、テンプレートの説明が選択され、対応するコンポーネントの出力に統合される。 提案手法の有効性を評価するため,非専門家が生成した説明をどう知覚するかをユーザ調査した。 本研究の結果は,人間とコンピュータの相互作用コミュニティから,人的要因の4次元に顕著な増加が見られた。

In the era of Big Knowledge Graphs, Question Answering (QA) systems have reached a milestone in their performance and feasibility. However, their applicability, particularly in specific domains such as the biomedical domain, has not gained wide acceptance due to their "black box" nature, which hinders transparency, fairness, and accountability of QA systems. Therefore, users are unable to understand how and why particular questions have been answered, whereas some others fail. To address this challenge, in this paper, we develop an automatic approach for generating explanations during various stages of a pipeline-based QA system. Our approach is a supervised and automatic approach which considers three classes (i.e., success, no answer, and wrong answer) for annotating the output of involved QA components. Upon our prediction, a template explanation is chosen and integrated into the output of the corresponding component. To measure the effectiveness of the approach, we conducted a user survey as to how non-expert users perceive our generated explanations. The results of our study show a significant increase in the four dimensions of the human factor from the Human-computer interaction community.
翻訳日:2022-10-06 21:06:30 公開日:2020-10-16
# 効率的なオープンドメイン質問応答のためのトランスコーダにおける遅延相互作用層

Delaying Interaction Layers in Transformer-based Encoders for Efficient Open Domain Question Answering ( http://arxiv.org/abs/2010.08422v1 )

ライセンス: Link先を確認
Wissam Siblini, Mohamed Challal and Charlotte Pasqual(参考訳) Open Domain Question Answering (ODQA) は、大規模なドキュメントのコーパス(例えばウィキペディア)について、コンピュータ科学における重要な課題である。 Bert のようなトランスフォーマーベースの言語モデルは、SQuAD 上で小さな文節で答えを抽出する能力を示したが、より大きな検索空間に直面すると、その複雑さに悩まされる。 この問題を解決する最も一般的な方法は、コーパスを深くフィルタリングし、関連するパスだけを保持するための予備情報検索ステップを追加することである。 本稿では,入力部分間の注意を遅らせ,より効率的な計算管理を可能にするために,トランスフォーマモデルアーキテクチャに汎用的な変更を適用することで,より直接的な補完的ソリューションを提案する。 結果の変種は、抽出作業における元のモデルと競合し、ODQA設定では、大幅なスピードアップ、そして多くのケースでパフォーマンス改善が可能である。

Open Domain Question Answering (ODQA) on a large-scale corpus of documents (e.g. Wikipedia) is a key challenge in computer science. Although transformer-based language models such as Bert have shown on SQuAD the ability to surpass humans for extracting answers in small passages of text, they suffer from their high complexity when faced to a much larger search space. The most common way to tackle this problem is to add a preliminary Information Retrieval step to heavily filter the corpus and only keep the relevant passages. In this paper, we propose a more direct and complementary solution which consists in applying a generic change in the architecture of transformer-based models to delay the attention between subparts of the input and allow a more efficient management of computations. The resulting variants are competitive with the original models on the extractive task and allow, on the ODQA setting, a significant speedup and even a performance improvement in many cases.
翻訳日:2022-10-06 21:06:12 公開日:2020-10-16
# オンライン教授レビューにおける客観言語検出

Detecting Objectifying Language in Online Professor Reviews ( http://arxiv.org/abs/2010.08540v1 )

ライセンス: Link先を確認
Angie Waller and Kyle Gorman(参考訳) 学生の評論は、しばしば教授の身体的外観に言及する。 最近まで、この研究の焦点のウェブサイトであるRateMyProfessors.comは、大学の教授の「ホットかどうか」評価を促進するためにデザイン機能を使用していた。 近年の#MeTooと#TimesUpの動きにより、これらのレビューの不適切さに対する社会的認識は増大しているが、コメントの客観化は引き続きこのオンライン・コンテキストに掲載されている。 本稿では,2つの教師付きテキスト分類器について述べる。 次に、これらの分類器をアンサンブルし、結果のモデルを用いて、大規模に客観的なコメントを追跡する。 対象化解説,レビューwebサイトインタフェースの変更,教師の性別との相関を10年間にわたって測定した。

Student reviews often make reference to professors' physical appearances. Until recently RateMyProfessors.com, the website of this study's focus, used a design feature to encourage a "hot or not" rating of college professors. In the wake of recent #MeToo and #TimesUp movements, social awareness of the inappropriateness of these reviews has grown; however, objectifying comments remain and continue to be posted in this online context. We describe two supervised text classifiers for detecting objectifying commentary in professor reviews. We then ensemble these classifiers and use the resulting model to track objectifying commentary at scale. We measure correlations between objectifying commentary, changes to the review website interface, and teacher gender across a ten-year period.
翻訳日:2022-10-06 21:05:42 公開日:2020-10-16
# webクレームのファクトチェックサマリーを生成する

Generating Fact Checking Summaries for Web Claims ( http://arxiv.org/abs/2010.08570v1 )

ライセンス: Link先を確認
Rahul Mishra and Dhruv Gupta and Markus Leippold(参考訳) 我々は,テキスト文書(ニュース記事やWebドキュメントなど)の形での証拠に基づいて,テキストクレームの正当性を確立することを学習する,神経的注意に基づくアプローチSUMOを提案する。 SUMOはさらに、テキストクレームの正確性に関する決定を説明する文書から、多種多様な文群を提示することにより、抽出要約を生成する。 ファクトチェックとエビデンス抽出の問題を解決するための従来のアプローチは、クレーム駆動重み計算の入力としてクレームと文書語埋め込みの単純な結合に依存してきた。 これは、クレームの正当性を確立するのに役立つ文書から有能な単語や文を抽出するために行われる。 しかし、このクレーム駆動型アテンションの設計は文書の文脈情報を適切に捉えていない。 従来の手法を改良したクレームとタイトルガイド付き階層的注意力を用いて,効果的な文脈的手がかりをモデル化する。 政治、医療、環境問題に関するデータセットに対する我々のアプローチの有効性を示す。

We present SUMO, a neural attention-based approach that learns to establish the correctness of textual claims based on evidence in the form of text documents (e.g., news articles or Web documents). SUMO further generates an extractive summary by presenting a diversified set of sentences from the documents that explain its decision on the correctness of the textual claim. Prior approaches to address the problem of fact checking and evidence extraction have relied on simple concatenation of claim and document word embeddings as an input to claim driven attention weight computation. This is done so as to extract salient words and sentences from the documents that help establish the correctness of the claim. However, this design of claim-driven attention does not capture the contextual information in documents properly. We improve on the prior art by using improved claim and title guided hierarchical attention to model effective contextual cues. We show the efficacy of our approach on datasets concerning political, healthcare, and environmental issues.
翻訳日:2022-10-06 21:05:03 公開日:2020-10-16
# substance over style: ドキュメントレベルのターゲティングコンテンツ転送

Substance over Style: Document-Level Targeted Content Transfer ( http://arxiv.org/abs/2010.08618v1 )

ライセンス: Link先を確認
Allison Hegel, Sudha Rao, Asli Celikyilmaz and Bill Dolan(参考訳) 既存の言語モデルはゼロから書くのに優れているが、現実のシナリオの多くは制約に合うように既存のドキュメントを書き直す必要がある。 文レベルの書き直しはかなりよく研究されているが、文書全体を一貫した書き直しという課題に対処する作業はほとんどない。 そこで本研究では,レシピを文書として,食事制限(ビーガンや乳製品フリーなど)を対象とする,文書レベルのターゲットコンテンツ転送のタスクを導入し,レシピドメインでそれに対応する。 本稿では、生成事前学習言語モデル(GPT-2)に基づく新しいモデルを提案し、多数の概ね整列したレシピペア(https://github.com/microsoft/document-level-targeted-content-transfer)をトレーニングする。 自動評価とヒューマン評価の両方により,本モデルが既存の手法よりも優れており,制約に従うような一貫性と多彩な書き直しを生成でき,元の文書に近い結果が得られる。 最後に,本モデルの書き直しを分析し,言語生成をスタイリスティックではなく静的な制約に適応させる目的に向けての進捗を評価する。

Existing language models excel at writing from scratch, but many real-world scenarios require rewriting an existing document to fit a set of constraints. Although sentence-level rewriting has been fairly well-studied, little work has addressed the challenge of rewriting an entire document coherently. In this work, we introduce the task of document-level targeted content transfer and address it in the recipe domain, with a recipe as the document and a dietary restriction (such as vegan or dairy-free) as the targeted constraint. We propose a novel model for this task based on the generative pre-trained language model (GPT-2) and train on a large number of roughly-aligned recipe pairs (https://github.com/microsoft/document-level-targeted-content-transfer). Both automatic and human evaluations show that our model out-performs existing methods by generating coherent and diverse rewrites that obey the constraint while remaining close to the original document. Finally, we analyze our model's rewrites to assess progress toward the goal of making language generation more attuned to constraints that are substantive rather than stylistic.
翻訳日:2022-10-06 21:04:26 公開日:2020-10-16
# ディープニューラルネットワークを用いた背景雑音からのヒッグス粒子の信号抽出

Extracting Signals of Higgs Boson From Background Noise Using Deep Neural Networks ( http://arxiv.org/abs/2010.08201v1 )

ライセンス: Link先を確認
Muhammad Abbas, Asifullah Khan, Aqsa Saeed Qureshi, Muhammad Waleed Khan(参考訳) ヒッグス粒子は基本粒子であり、ヒッグス信号の分類は高エネルギー物理学においてよく知られた問題である。 ヒッグス信号の識別は、その信号が背景信号と類似しているため、難しい課題である。 本研究では,無作為な森林,オートエンコーダ,ディープオートエンコーダを組み合わせたヒッグス信号分類手法を提案し,背景雑音からヒッグス信号を識別する頑健で一般化されたヒッグス粒子予測システムを構築した。 提案するアンサンブル手法は, 意思決定空間における多様性の達成と, 個人のリーダーボード上での優れた識別力, 受信者動作特性曲線0.9と近似メディア意義スコア3.429の領域の達成に基づく。

Higgs boson is a fundamental particle, and the classification of Higgs signals is a well-known problem in high energy physics. The identification of the Higgs signal is a challenging task because its signal has a resemblance to the background signals. This study proposes a Higgs signal classification using a novel combination of random forest, auto encoder and deep auto encoder to build a robust and generalized Higgs boson prediction system to discriminate the Higgs signal from the background noise. The proposed ensemble technique is based on achieving diversity in the decision space, and the results show good discrimination power on the private leaderboard; achieving an area under the Receiver Operating Characteristic curve of 0.9 and an Approximate Median Significance score of 3.429.
翻訳日:2022-10-06 20:57:56 公開日:2020-10-16
# 自然言語における推論対称性

Inferring symmetry in natural language ( http://arxiv.org/abs/2010.08090v1 )

ライセンス: Link先を確認
Chelsea Tanchip, Lei Yu, Aotao Xu, Yang Xu(参考訳) 自然言語における動詞述語の対称性を推定するための方法論的枠組みを提案する。 述語対称性に関する実証研究は2つの主要なアプローチを取っている。 特徴に基づくアプローチは、対称性に関連する言語的特徴に焦点を当てている。 文脈に基づくアプローチは絶対対称性の存在を否定するが、そのような推論は文脈依存であると主張する。 我々はこれらのアプローチを形式化し、対称性非対称性のスペクトルにまたがる400の文の自然主義的用法からなる新しい対称性推論文(SIS)データセットに対して評価する手法を開発した。 この結果から,言語特徴と文脈化言語モデルを統合するハイブリッドトランスファー学習モデルが最も忠実に経験的データを予測できることが示唆された。 我々の研究は、自然言語の対称性に対する既存のアプローチを統合し、対称性推論が最先端言語モデルの体系性をどのように改善するかを示唆する。

We present a methodological framework for inferring symmetry of verb predicates in natural language. Empirical work on predicate symmetry has taken two main approaches. The feature-based approach focuses on linguistic features pertaining to symmetry. The context-based approach denies the existence of absolute symmetry but instead argues that such inference is context dependent. We develop methods that formalize these approaches and evaluate them against a novel symmetry inference sentence (SIS) dataset comprised of 400 naturalistic usages of literature-informed verbs spanning the spectrum of symmetry-asymmetry. Our results show that a hybrid transfer learning model that integrates linguistic features with contextualized language models most faithfully predicts the empirical data. Our work integrates existing approaches to symmetry in natural language and suggests how symmetry inference can improve systematicity in state-of-the-art language models.
翻訳日:2022-10-06 20:57:08 公開日:2020-10-16
# 名前付きエンティティ認識のための粗と偽の事前学習

Coarse-to-Fine Pre-training for Named Entity Recognition ( http://arxiv.org/abs/2010.08210v1 )

ライセンス: Link先を確認
Mengge Xue, Bowen Yu, Zhenyu Zhang, Tingwen Liu, Yue Zhang, Bin Wang(参考訳) 最近では、named Entity RecognitionはBERTのような事前学習型アポウキリの助けを借りて大きな進歩を遂げた。 しかし、現在の事前学習技術は、名前付きエンティティ関連の知識を無視して、ジェネラル表現を学習するためのランゲージモデリングの目的を構築することに焦点を当てている。 そこで本研究では, 事前学習モデルに対して, 粗粒から細粒までの自動マイニングを行うための, ner 固有の事前学習フレームワークを提案する。 本稿では,まず,Wikipediaアンカーを用いて学習し,そのモデルを一般型のエンティティとみなすことにより,そのモデルのウォームアップを行う。 次に,セガゼッタを基盤とした遠方監視戦略を用いて粗粒度抽出モデルを訓練する。 最後に,クラスタリングによるきめ細かい名前付き知識のマイニングを目的とした自己教師付き補助的タスクを考案し,これらのフレームワークが事前訓練されたベースラインに対して大幅な改善を達成できることを示す3つのNERデータセットに関する実証的研究を行い,新しい3つのベンチマーク上での最先端のパフォーマンスを確立した。 さらに,当社のフレームワークは,ラベル付きトレーニングデータを用いずに,有望な再sultsを獲得し,ラベルfewおよび低リソースシナリオでの有効性を示す。

More recently, Named Entity Recognition hasachieved great advances aided by pre-trainingapproaches such as BERT. However, currentpre-training techniques focus on building lan-guage modeling objectives to learn a gen-eral representation, ignoring the named entity-related knowledge. To this end, we proposea NER-specific pre-training framework to in-ject coarse-to-fine automatically mined entityknowledge into pre-trained models. Specifi-cally, we first warm-up the model via an en-tity span identification task by training it withWikipedia anchors, which can be deemed asgeneral-typed entities. Then we leverage thegazetteer-based distant supervision strategy totrain the model extract coarse-grained typedentities. Finally, we devise a self-supervisedauxiliary task to mine the fine-grained namedentity knowledge via clustering.Empiricalstudies on three public NER datasets demon-strate that our framework achieves significantimprovements against several pre-trained base-lines, establishing the new state-of-the-art per-formance on three benchmarks. Besides, weshow that our framework gains promising re-sults without using human-labeled trainingdata, demonstrating its effectiveness in label-few and low-resource scenarios
翻訳日:2022-10-06 20:56:33 公開日:2020-10-16
# wnut-2020タスク2: インフォメーション・covid-19英語ツイートの識別

WNUT-2020 Task 2: Identification of Informative COVID-19 English Tweets ( http://arxiv.org/abs/2010.08232v1 )

ライセンス: Link先を確認
Dat Quoc Nguyen, Thanh Vu, Afshin Rahimi, Mai Hoang Dao, Linh The Nguyen and Long Doan(参考訳) 本稿では,wnut-2020の共有タスクの概要について述べる。 10Kツイートのコーパスを構築し、このタスクの開発と評価フェーズを整理する方法について述べる。 また,55チームの最終システム評価結果から得られた結果の簡単な要約も提示し,その有効性を確認した。 (i)多くのシステムは0.91F1スコアまで非常に高い性能を得る。 (二 提出書の大多数は、fastText(Joulin et al., 2017)のベースラインよりも大幅に高い結果が得られる。 3) 関連言語データに対する訓練済み言語モデルの微調整を行い, 教師付き訓練を施した。

In this paper, we provide an overview of the WNUT-2020 shared task on the identification of informative COVID-19 English Tweets. We describe how we construct a corpus of 10K Tweets and organize the development and evaluation phases for this task. In addition, we also present a brief summary of results obtained from the final system evaluation submissions of 55 teams, finding that (i) many systems obtain very high performance, up to 0.91 F1 score, (ii) the majority of the submissions achieve substantially higher results than the baseline fastText (Joulin et al., 2017), and (iii) fine-tuning pre-trained language models on relevant language data followed by supervised training performs well in this task.
翻訳日:2022-10-06 20:56:10 公開日:2020-10-16
# 事前学習階層変換器による教師なし抽出要約

Unsupervised Extractive Summarization by Pre-training Hierarchical Transformers ( http://arxiv.org/abs/2010.08242v1 )

ライセンス: Link先を確認
Shusheng Xu, Xingxing Zhang, Yi Wu, Furu Wei and Ming Zhou(参考訳) 教師なし抽出文書要約(unsupervised extractive document summarization)は、訓練中にラベル付き要約を用いずに文書から重要な文を選択することを目的としている。 既存の手法は主にグラフベースで、文をノードとして、エッジ重量を文類似度で測定する。 本研究では,教師なし抽出要約のための文のランク付けにトランスフォーマーの注意を利用できることを示す。 具体的には,ラベルなし文書のみを用いて階層型トランスフォーマーモデルを事前学習した。 そこで本稿では,文レベルの自己意図と事前学習目標を用いた文のランク付け手法を提案する。 cnn/dailymail と new york times のデータセットを用いた実験により,教師なし要約による最先端のパフォーマンスが得られた。 また,本モデルでは文の位置に依存しない実験を行った。 我々のモデルと最近の教師なしモデルとの線形結合を用いて文の位置を明示的にモデル化する場合、さらによい結果が得られる。

Unsupervised extractive document summarization aims to select important sentences from a document without using labeled summaries during training. Existing methods are mostly graph-based with sentences as nodes and edge weights measured by sentence similarities. In this work, we find that transformer attentions can be used to rank sentences for unsupervised extractive summarization. Specifically, we first pre-train a hierarchical transformer model using unlabeled documents only. Then we propose a method to rank sentences using sentence-level self-attentions and pre-training objectives. Experiments on CNN/DailyMail and New York Times datasets show our model achieves state-of-the-art performance on unsupervised summarization. We also find in experiments that our model is less dependent on sentence positions. When using a linear combination of our model and a recent unsupervised model explicitly modeling sentence positions, we obtain even better results.
翻訳日:2022-10-06 20:55:42 公開日:2020-10-16
# DeepIntent: InlicitIntentベースのAndroid IDSとE2Eディープラーニングアーキテクチャ

DeepIntent: ImplicitIntent based Android IDS with E2E Deep Learning architecture ( http://arxiv.org/abs/2010.08607v1 )

ライセンス: Link先を確認
Mohit Sewak, Sanjay K. Sahay and Hemant Rathore(参考訳) AndroidのIntentは、プロセス間およびプロセス間通信において重要な役割を果たす。 アプリケーションが受け入れる可能性のある暗黙のIntentはそのマニフェストで宣言され、apkから抽出する最も簡単な機能のひとつです。 Implicit Intentsはオンラインでリアルタイムで抽出することもできる。 これまでのところ、暗黙のIntentのみに基づく侵入検知システムの実現可能性や、暗黙のIntentのみに基づくマルウェア分類器のベンチマークは検討されていない。 Intentは暗黙的で明確に宣言されているが、悪意のないアプリケーションと悪質なアプリケーションを区別するための非常に直感的な洞察を提供することができる。 自動エンコーダとMulti-Layer-Perceptronの40以上のエンドツーエンドのDeep-to-end Learning構成を用いて、暗黙のIntentのみで動作するマルウェア分類器のベンチマークを作成するための徹底的な実験を行った。 実験の結果を用いて,暗黙のインテントとエンドツーエンドのディープラーニングアーキテクチャのみを用いた侵入検知システムを構築する。 また,drebinデータセット上では,0.81,77.2%,偽陽性率は0.11であった。

The Intent in Android plays an important role in inter-process and intra-process communications. The implicit Intent that an application could accept are declared in its manifest and are amongst the easiest feature to extract from an apk. Implicit Intents could even be extracted online and in real-time. So far neither the feasibility of developing an Intrusion Detection System solely on implicit Intent has been explored, nor are any benchmarks available of a malware classifier that is based on implicit Intent alone. We demonstrate that despite Intent is implicit and well declared, it can provide very intuitive insights to distinguish malicious from non-malicious applications. We conducted exhaustive experiments with over 40 different end-to-end Deep Learning configurations of Auto-Encoders and Multi-Layer-Perceptron to create a benchmark for a malware classifier that works exclusively on implicit Intent. Using the results from the experiments we create an intrusion detection system using only the implicit Intents and end-to-end Deep Learning architecture. We obtained an area-under-curve statistic of 0.81, and accuracy of 77.2% along with false-positive-rate of 0.11 on Drebin dataset.
翻訳日:2022-10-06 20:49:52 公開日:2020-10-16
# doom: ids強化のための新しいadversarial-drlベースのop-codeレベルメタモルフィックマルウェアobfuscator

DOOM: A Novel Adversarial-DRL-Based Op-Code Level Metamorphic Malware Obfuscator for the Enhancement of IDS ( http://arxiv.org/abs/2010.08608v1 )

ライセンス: Link先を確認
Mohit Sewak, Sanjay K. Sahay and Hemant Rathore(参考訳) 我々は,IDSの強化のために,逆の深い強化学習を用いてマルウェアをオプトコードレベルで難読化する新しいシステムであるDOOM(Adversarial-DRL-Opcode level Obfuscator)を開発した。 DOOMの最終的な目標は、サイバー攻撃者の手に強力な武器を与えるのではなく、先進的なゼロデイ攻撃に対する防御機構を構築することである。 実験結果から,DOOMが生成した難読化マルウェアは,複数同時ゼロデイ攻撃を効果的に模倣できることが示唆された。 われわれの知る限り、doomは個々のオペコードレベルに詳細な難読化マルウェアを生成できる最初のシステムだ。 DOOMはまた、マルウェアの発生と防御の領域において、効率的な継続的行動制御に基づく深層強化学習を利用する最初のシステムである。 実験の結果,DOOMが生成する変成性マルウェアの67%以上は,最も強力なIDSであっても容易に検出できることがわかった。 この成果は、DOOMが生成したマルウェアによって、先進的なルーティングサブシステムによるIDS拡張も容易に回避できるため、重要なものとなっている。

We designed and developed DOOM (Adversarial-DRL based Opcode level Obfuscator to generate Metamorphic malware), a novel system that uses adversarial deep reinforcement learning to obfuscate malware at the op-code level for the enhancement of IDS. The ultimate goal of DOOM is not to give a potent weapon in the hands of cyber-attackers, but to create defensive-mechanisms against advanced zero-day attacks. Experimental results indicate that the obfuscated malware created by DOOM could effectively mimic multiple-simultaneous zero-day attacks. To the best of our knowledge, DOOM is the first system that could generate obfuscated malware detailed to individual op-code level. DOOM is also the first-ever system to use efficient continuous action control based deep reinforcement learning in the area of malware generation and defense. Experimental results indicate that over 67% of the metamorphic malware generated by DOOM could easily evade detection from even the most potent IDS. This achievement gains significance, as with this, even IDS augment with advanced routing sub-system can be easily evaded by the malware generated by DOOM.
翻訳日:2022-10-06 20:49:31 公開日:2020-10-16
# 解析的深部ニューラルネットワークの連続的特徴選択

Consistent Feature Selection for Analytic Deep Neural Networks ( http://arxiv.org/abs/2010.08097v1 )

ライセンス: Link先を確認
Vu Dinh, Lam Si Tung Ho(参考訳) ニューラルネットワークモデルの解釈可能性と説明可能性のための最も重要なステップの1つは、関連する機能のサブセットを特定することを目的とした特徴選択である。 この分野での理論的結果は、モデルの厳密な非線形性と識別不能性のために、ディープニューラルネットワークの特徴選択整合性に関する研究が事実上行われていないという問題の予測的な側面に主に焦点を当てている。 この理論基盤の欠如は、特徴の正しい解釈が中心的な役割を果たす文脈への深層学習の適用性に疑問を投げかけている。 本研究では,分析深層ネットワークにおける特徴選択の問題について検討する。 我々は、ディープフィードフォワードニューラルネットワーク、畳み込みニューラルネットワーク、および残留ニューラルネットワークの主要サブクラスを含む幅広い種類のネットワークに対して、ベース推定器としてGroup Lassoを用いたAdaptive Group Lasso選択手順が一貫性があることを証明する。 この研究は、Group Lassoがニューラルネットワークによる特徴選択に非効率である可能性のさらなる証拠を提供し、人気のあるGroup LassoよりもAdaptive Group Lassoを使用することを提唱している。

One of the most important steps toward interpretability and explainability of neural network models is feature selection, which aims to identify the subset of relevant features. Theoretical results in the field have mostly focused on the prediction aspect of the problem with virtually no work on feature selection consistency for deep neural networks due to the model's severe nonlinearity and unidentifiability. This lack of theoretical foundation casts doubt on the applicability of deep learning to contexts where correct interpretations of the features play a central role. In this work, we investigate the problem of feature selection for analytic deep networks. We prove that for a wide class of networks, including deep feed-forward neural networks, convolutional neural networks, and a major sub-class of residual neural networks, the Adaptive Group Lasso selection procedure with Group Lasso as the base estimator is selection-consistent. The work provides further evidence that Group Lasso might be inefficient for feature selection with neural networks and advocates the use of Adaptive Group Lasso over the popular Group Lasso.
翻訳日:2022-10-06 20:48:45 公開日:2020-10-16
# 行列多項式からの多重グラフの合同推論

Joint Inference of Multiple Graphs from Matrix Polynomials ( http://arxiv.org/abs/2010.08120v1 )

ライセンス: Link先を確認
Madeline Navarro, Yuhao Wang, Antonio G. Marques, Caroline Uhler, Santiago Segarra(参考訳) ノード上の観測からグラフ構造を推定することは重要かつ一般的なネットワーク科学課題である。 単一グラフのより一般的な推測と社会的・生物学的ネットワークによる動機付けから分離し,探索されたグラフに静止していると考えられるノードの信号(グラフ信号)の観測から複数のグラフを共同で推定する問題を考察する。 数学的な観点から見ると、グラフの定常性は、信号の共分散と基礎となるグラフを表すスパース行列の間の写像が行列多項式によって与えられることを意味する。 マルコフ確率場の顕著な例は、共分散の逆が興味のスパース行列をもたらすものである。 モデリングの観点からは、静止グラフ信号は一連の(必ずしも知られていない)ネットワーク上で進化する線形ネットワークプロセスのモデル化に使用できる。 行列多項式の可換性を利用して、完全共分散情報が得られるときに真のグラフの回復を保証する十分な条件とともに凸最適化法が提供される。 特に, 経験的観点からは, 観測された信号数と他の主要な問題パラメータの関数として, 回復誤差に対する高い確率的境界を与える。 合成および実世界のデータを用いた数値実験により,提案手法の完全共分散情報と雑音環境におけるロバスト性が実証された。

Inferring graph structure from observations on the nodes is an important and popular network science task. Departing from the more common inference of a single graph and motivated by social and biological networks, we study the problem of jointly inferring multiple graphs from the observation of signals at their nodes (graph signals), which are assumed to be stationary in the sought graphs. From a mathematical point of view, graph stationarity implies that the mapping between the covariance of the signals and the sparse matrix representing the underlying graph is given by a matrix polynomial. A prominent example is that of Markov random fields, where the inverse of the covariance yields the sparse matrix of interest. From a modeling perspective, stationary graph signals can be used to model linear network processes evolving on a set of (not necessarily known) networks. Leveraging that matrix polynomials commute, a convex optimization method along with sufficient conditions that guarantee the recovery of the true graphs are provided when perfect covariance information is available. Particularly important from an empirical viewpoint, we provide high-probability bounds on the recovery error as a function of the number of signals observed and other key problem parameters. Numerical experiments using synthetic and real-world data demonstrate the effectiveness of the proposed method with perfect covariance information as well as its robustness in the noisy regime.
翻訳日:2022-10-06 20:48:25 公開日:2020-10-16
# 主成分回帰のための量子インスパイアされた古典アルゴリズム

Quantum-Inspired Classical Algorithm for Principal Component Regression ( http://arxiv.org/abs/2010.08626v1 )

ライセンス: Link先を確認
Daniel Chen, Yekun Xu, Betis Baheri, Chuan Bi, Ying Mao, Qiang Quan, Shuai Xu(参考訳) 本稿では,主成分回帰に対する線形古典アルゴリズムを提案する。 このアルゴリズムは、タングが開発した量子インスパイアされた線形代数を用いる。 この手法を用いて、レコメンデーションシステムのアルゴリズムは、その量子系よりも多項式的に遅い時間しか実行できなかった。 彼女の仕事はすぐに、線形時間複雑性の他の多くの問題を解決した。 本研究では,データ点数に対して時間的多値性を有する主成分回帰のアルゴリズムを開発した。このアルゴリズムは,標準に基づくサンプリング手順をサポートするデータ構造に入力が与えられるという軽微な仮定の下で,最先端のアルゴリズムよりも指数的に高速である。 この指数的なスピードアップは、より大きなデータセットにおける潜在的な応用を可能にする。

This paper presents a sublinear classical algorithm for principal component regression. The algorithm uses quantum-inspired linear algebra, an idea developed by Tang. Using this technique, her algorithm for recommendation systems achieved runtime only polynomially slower than its quantum counterpart. Her work was quickly adapted to solve many other problems in sublinear time complexity. In this work, we developed an algorithm for principal component regression that runs in time polylogarithmic to the number of data points, an exponential speed up over the state-of-the-art algorithm, under the mild assumption that the input is given in some data structure that supports a norm-based sampling procedure. This exponential speed up allows for potential applications in much larger data sets.
翻訳日:2022-10-06 20:47:51 公開日:2020-10-16
# 高次分割基準による決定木誘導の普遍的保証

Universal guarantees for decision tree induction via a higher-order splitting criterion ( http://arxiv.org/abs/2010.08633v1 )

ライセンス: Link先を確認
Guy Blanc, Neha Gupta, Jane Lange, Li-Yang Tan(参考訳) 本稿では,ID3,C4.5,CARTなどのトップダウン決定木学習ヒューリスティックスの簡易拡張を提案する。 本アルゴリズムは,全対象関数に対する証明可能な保証値である$f: \{-1,1\}^n \to \{-1,1\}$を均一分布に対して達成する。 我々の拡張の要点は、その属性の$f$と小さなサブセットの相関を考慮に入れた、新しい分割基準である。 既存のヒューリスティックの分割基準(例えば、giniの不純物と情報ゲイン)は、対照的に、$f$とその個々の属性の相関のみに基づいている。 すべての対象関数$f : \{-1,1\}^n \to \{-1,1\}$, sizes $s\in \mathbb{n}$, and error parameters $\epsilon$に対しては、$s^{\tilde{o}((\log s)^2/\epsilon^2)} というサイズの決定木を構築し、$\le o(\mathsf{opt}_s) + \epsilon$, ここで $\mathsf{opt}_s$ は最適なサイズ$s$ 決定ツリーのエラーを表す。 我々の分析を駆動する重要な技術的概念は、よく研究された滑らか度尺度である$f$のノイズ安定性である。

We propose a simple extension of top-down decision tree learning heuristics such as ID3, C4.5, and CART. Our algorithm achieves provable guarantees for all target functions $f: \{-1,1\}^n \to \{-1,1\}$ with respect to the uniform distribution, circumventing impossibility results showing that existing heuristics fare poorly even for simple target functions. The crux of our extension is a new splitting criterion that takes into account the correlations between $f$ and small subsets of its attributes. The splitting criteria of existing heuristics (e.g. Gini impurity and information gain), in contrast, are based solely on the correlations between $f$ and its individual attributes. Our algorithm satisfies the following guarantee: for all target functions $f : \{-1,1\}^n \to \{-1,1\}$, sizes $s\in \mathbb{N}$, and error parameters $\epsilon$, it constructs a decision tree of size $s^{\tilde{O}((\log s)^2/\epsilon^2)}$ that achieves error $\le O(\mathsf{opt}_s) + \epsilon$, where $\mathsf{opt}_s$ denotes the error of the optimal size $s$ decision tree. A key technical notion that drives our analysis is the noise stability of $f$, a well-studied smoothness measure.
翻訳日:2022-10-06 20:47:17 公開日:2020-10-16
# ドメイン固有言語モデルとデータ拡張アプローチによるesgトピックの検出

Detecting ESG topics using domain-specific language models and data augmentation approaches ( http://arxiv.org/abs/2010.08319v1 )

ライセンス: Link先を確認
Tim Nugent, Nicole Stelea and Jochen L. Leidner(参考訳) ディープラーニングベースの言語モデリングの最近の進歩にもかかわらず、適切なラベル付きデータのポーシティのため、金融分野における多くの自然言語処理(nlp)タスクは依然として困難である。 タスク性能を制限する他の問題として、一般的なコーパス(通常訓練前の言語モデルに使用される)と金融コーパス(特殊言語や記号を表すことが多い)の単語分布の違いがある。 本稿では,これらの問題を緩和するための2つのアプローチを検討する。 まず、ビジネスおよび財務ニュースから大量のドメイン内データを用いて、さらなる言語モデルの事前学習実験を行う。 次に、モデル微調整のためのデータセットのサイズを増やすために拡張アプローチを適用します。 我々は,環境・社会・ガバナンス(ESG)の議論データセットについて報告し,両者のアプローチが分類作業の精度に有益であることを実証した。

Despite recent advances in deep learning-based language modelling, many natural language processing (NLP) tasks in the financial domain remain challenging due to the paucity of appropriately labelled data. Other issues that can limit task performance are differences in word distribution between the general corpora - typically used to pre-train language models - and financial corpora, which often exhibit specialized language and symbology. Here, we investigate two approaches that may help to mitigate these issues. Firstly, we experiment with further language model pre-training using large amounts of in-domain data from business and financial news. We then apply augmentation approaches to increase the size of our dataset for model fine-tuning. We report our findings on an Environmental, Social and Governance (ESG) controversies dataset and demonstrate that both approaches are beneficial to accuracy in classification tasks.
翻訳日:2022-10-06 20:40:59 公開日:2020-10-16
# Mischief: トランスフォーマーアーキテクチャに対する単純なブラックボックス攻撃

Mischief: A Simple Black-Box Attack Against Transformer Architectures ( http://arxiv.org/abs/2010.08542v1 )

ライセンス: Link先を確認
Adrian de Wynter(参考訳) 言語モデルのための、可読性のある現実的な逆例のクラスを作成するための、シンプルで軽量な方法である mischief を紹介する。 4つのトランスフォーマーベースのアーキテクチャ、様々な下流タスク、およびそれらの例の集中度に基づいて、アルゴリズムを徹底的に実験する。 以上の結果から,本テストにおける悪質な生成した敵のサンプルの存在は,報告されたベースラインに対して,これらのモデルの性能を著しく低下させる(最大20-%$)ことが判明した。 それにもかかわらず、トレーニングセットに類似の例を含めることで、敵のテストセットのベースラインスコアを復元できることを実証する。 さらに、特定のタスクに対して、Mischiefセットでトレーニングされたモデルは、元の非敵ベースラインに対して、パフォーマンスがわずかに向上することを示している。

We introduce Mischief, a simple and lightweight method to produce a class of human-readable, realistic adversarial examples for language models. We perform exhaustive experimentations of our algorithm on four transformer-based architectures, across a variety of downstream tasks, as well as under varying concentrations of said examples. Our findings show that the presence of Mischief-generated adversarial samples in the test set significantly degrades (by up to $20\%$) the performance of these models with respect to their reported baselines. Nonetheless, we also demonstrate that, by including similar examples in the training set, it is possible to restore the baseline scores on the adversarial test set. Moreover, for certain tasks, the models trained with Mischief set show a modest increase on performance with respect to their original, non-adversarial baseline.
翻訳日:2022-10-06 20:40:20 公開日:2020-10-16
# 抽出データ要約のためのディープサブモジュラーネットワーク

Deep Submodular Networks for Extractive Data Summarization ( http://arxiv.org/abs/2010.08593v1 )

ライセンス: Link先を確認
Suraj Kothawade, Jiten Girdhar, Chandrashekhar Lavania, Rishabh Iyer(参考訳) 複雑な特徴の相互作用や表現を学習する能力があるため、要約問題(文書、ビデオ、画像など)において、深層モデルがますます普及している。 しかし、それらは多様性、表現、カバレッジといった特徴をモデル化していない。 一方、部分モジュラ関数は帰納性が低下するため、自然にこれらの特性をモデル化する。 部分モジュラ関数のモデリングと学習のアプローチのほとんどは、部分モジュラ関数の重み付き混合のような非常に単純なモデルに依存している。 残念なことに、これらのモデルは異なる部分モジュラ函数(多様性、表現、重要性など)の相対的な重要性しか学ばないが、より複雑な特徴表現は学べない。 我々は,より複雑な特徴とよりリッチな関数の学習を容易にするエンドツーエンド学習フレームワークであるDeep Submodular Networks (DSN)を提案する。 DSNフレームワークは、スクラッチから要約に適した機能を学ぶために使用できる。 本稿では,dsnの汎用的およびクエリ重視のイメージコレクション要約における有用性を示すとともに,最先端技術に対する大幅な改善を示す。 特に,dsnは本棚の特徴を用いた単純な混合モデルよりも優れていることを示す。 第2に,dsnの4つの部分モジュラ関数をエンドツーエンド学習で使用するだけで,手作りの574のコンポーネントセットで最先端の混合モデルに比較可能であり,画像収集の他の手法に勝ることを示す。

Deep Models are increasingly becoming prevalent in summarization problems (e.g. document, video and images) due to their ability to learn complex feature interactions and representations. However, they do not model characteristics such as diversity, representation, and coverage, which are also very important for summarization tasks. On the other hand, submodular functions naturally model these characteristics because of their diminishing returns property. Most approaches for modelling and learning submodular functions rely on very simple models, such as weighted mixtures of submodular functions. Unfortunately, these models only learn the relative importance of the different submodular functions (such as diversity, representation or importance), but cannot learn more complex feature representations, which are often required for state-of-the-art performance. We propose Deep Submodular Networks (DSN), an end-to-end learning framework that facilitates the learning of more complex features and richer functions, crafted for better modelling of all aspects of summarization. The DSN framework can be used to learn features appropriate for summarization from scratch. We demonstrate the utility of DSNs on both generic and query focused image-collection summarization, and show significant improvement over the state-of-the-art. In particular, we show that DSNs outperform simple mixture models using off the shelf features. Secondly, we also show that just using four submodular functions in a DSN with end-to-end learning performs comparably to the state-of-the-art mixture model with a hand-crafted set of 594 components and outperforms other methods for image collection summarization.
翻訳日:2022-10-06 20:40:07 公開日:2020-10-16
# オーディオガンの潜時ベクトル回復

Latent Vector Recovery of Audio GANs ( http://arxiv.org/abs/2010.08534v1 )

ライセンス: Link先を確認
Andrew Keyes, Nicky Bayat, Vahid Reza Khazaie, Yalda Mohsenzadeh(参考訳) GAN(Advanced Generative Adversarial Networks)は、ランダムな潜伏ベクトルから知的な音声を生成する際、顕著である。 本稿では,合成音声と実音声の両方の潜時ベクトルを復元する作業について検討する。 以前の研究では、ganと並行してエンコーダネットワークを訓練するオートエンコーダインスパイア技術によって、与えられたオーディオの潜在ベクトルを回復した。 提案手法では,WaveGANで合成した音声をほぼ同一の再構成性能で対応する潜在空間に投影するディープ残差ニューラルネットワークアーキテクチャを訓練する。 実音声に対する元の潜時ベクトルの欠如に対応するため、実音声サンプルと予測潜時ベクトルの再構成音声との知覚的損失に対する残差ネットワークを最適化する。 合成音声の場合、基底真実と復元された潜在ベクトルとの間の平均正方形誤差(MSE)も最小化される。 さらに,予測潜在ベクトルに複数の勾配最適化ステップを適用した際の音声再構成性能について検討した。 深層ニューラルネットワークを用いた実音声と合成音声の学習手法により,実音声の合理的な再構成に対応する潜在ベクトルを予測できる。 提案手法は WaveGAN 上で評価するが,提案手法は普遍的であり,他の GAN にも適用可能である。

Advanced Generative Adversarial Networks (GANs) are remarkable in generating intelligible audio from a random latent vector. In this paper, we examine the task of recovering the latent vector of both synthesized and real audio. Previous works recovered latent vectors of given audio through an auto-encoder inspired technique that trains an encoder network either in parallel with the GAN or after the generator is trained. With our approach, we train a deep residual neural network architecture to project audio synthesized by WaveGAN into the corresponding latent space with near identical reconstruction performance. To accommodate for the lack of an original latent vector for real audio, we optimize the residual network on the perceptual loss between the real audio samples and the reconstructed audio of the predicted latent vectors. In the case of synthesized audio, the Mean Squared Error (MSE) between the ground truth and recovered latent vector is minimized as well. We further investigated the audio reconstruction performance when several gradient optimization steps are applied to the predicted latent vector. Through our deep neural network based method of training on real and synthesized audio, we are able to predict a latent vector that corresponds to a reasonable reconstruction of real audio. Even though we evaluated our method on WaveGAN, our proposed method is universal and can be applied to any other GANs.
翻訳日:2022-10-06 20:39:39 公開日:2020-10-16
# 自動車用エッジコンピューティングネットワークにおける収益とエネルギー効率による遅延制約コンピューティングタスクのオフロードとリソース割り当て:深層強化学習アプローチ

Revenue and Energy Efficiency-Driven Delay Constrained Computing Task Offloading and Resource Allocation in a Vehicular Edge Computing Network: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2010.08119v1 )

ライセンス: Link先を確認
Xinyu Huang, Lijun He, Xing Chen, Liejun Wang, Fan Li(参考訳) 車載アプリケーション、タスクタイプ、および車両の状態情報、すなわち車両の速度は、タスクの遅延要求に大きな影響を与える。 しかし、タスクの遅延制約に対するタスクタイプと車両速度の併用効果は研究されておらず、この研究の欠如は、タスクの遅延要求と割り当てた計算と無線リソースとのミスマッチを引き起こす可能性がある。 本稿では,タスク実行におけるvehiclのエネルギーコストを削減し,遅延制約内でタスク処理を行う車両の収益を増大させるため,共同作業型および車両速度対応タスクオフロードと資源配分戦略を提案する。 まず,共同作業型と車両速度を考慮した遅延制約モデルを確立する。 そして、車両エッジコンピューティング(VEC)サーバ、ローカル端末および他の車両の端末におけるタスク実行の遅延、エネルギーコスト、収益を算出する。 タスク実行によるエネルギーコストと収益に基づいて、車両の実用機能を取得する。 次に,タスクの遅延や計算資源,無線リソースの制約を受ける車両の実用レベルを最大化するために,タスクのオフロードとリソース割り当てを共同で最適化する。 定式化問題の準最適解を得るために,多エージェントの深層決定性ポリシー勾配(JORA-MADDPG)に基づく共同オフロードと資源配分を提案し,車両の実用レベルを最大化する。 シミュレーションの結果,本アルゴリズムはタスク完了遅延,車両のエネルギーコスト,処理収益において優れた性能が得られることがわかった。

For in-vehicle application,task type and vehicle state information, i.e., vehicle speed, bear a significant impact on the task delay requirement. However, the joint impact of task type and vehicle speed on the task delay constraint has not been studied, and this lack of study may cause a mismatch between the requirement of the task delay and allocated computation and wireless resources. In this paper, we propose a joint task type and vehicle speed-aware task offloading and resource allocation strategy to decrease the vehicl's energy cost for executing tasks and increase the revenue of the vehicle for processing tasks within the delay constraint. First, we establish the joint task type and vehicle speed-aware delay constraint model. Then, the delay, energy cost and revenue for task execution in the vehicular edge computing (VEC) server, local terminal and terminals of other vehicles are calculated. Based on the energy cost and revenue from task execution,the utility function of the vehicle is acquired. Next, we formulate a joint optimization of task offloading and resource allocation to maximize the utility level of the vehicles subject to the constraints of task delay, computation resources and wireless resources. To obtain a near-optimal solution of the formulated problem, a joint offloading and resource allocation based on the multi-agent deep deterministic policy gradient (JORA-MADDPG) algorithm is proposed to maximize the utility level of vehicles. Simulation results show that our algorithm can achieve superior performance in task completion delay, vehicles' energy cost and processing revenue.
翻訳日:2022-10-06 20:39:17 公開日:2020-10-16
# 多変量時系列におけるネットワーク異常検出のための生成モデルの利用について

On the Usage of Generative Models for Network Anomaly Detection in Multivariate Time-Series ( http://arxiv.org/abs/2010.08286v1 )

ライセンス: Link先を確認
Gast\'on Garc\'ia Gonz\'alez, Pedro Casas, Alicia Fern\'andez, and Gabriel G\'omez(参考訳) 長年にわたって研究されてきた異常検出の試みやアプローチにもかかわらず、データ通信ネットワークにおけるまれな事象の自動検出は依然として複雑な問題である。 本稿では,リカレントニューラルネットワーク(RNN)とGAN(Generative Adversarial Network)を用いて,時系列におけるネットワーク異常検出の新しいアプローチであるNet-GANを紹介する。 従来は単変量測定に重点を置いていた技術と異なり、Net-GANは多変量時系列における異常を検出し、RNNを通して時間的依存関係を利用する。 net-ganはベースラインである多変量データの分散を、その性質を仮定することなく発見し、複雑なネットワーク監視データのモデル化が難しいネットワーク異常を検出する強力なアプローチを提供する。 さらに、ネットワーク異常検出のためのNet-GANの補完的アプローチであるNet-VAEを可変オートエンコーダ(VAE)に基づいて、生成モデルの背後にある概念を活用する。 我々は,IoTセンサデータの異常検出やネットワーク計測における侵入検出など,さまざまな監視シナリオにおいてNet-GANとNet-VAEを評価する。 生成モデルはネットワーク異常検出に有望なアプローチであり、特に運用ネットワークで監視する複雑さと継続する時系列数を考慮すればよい。

Despite the many attempts and approaches for anomaly detection explored over the years, the automatic detection of rare events in data communication networks remains a complex problem. In this paper we introduce Net-GAN, a novel approach to network anomaly detection in time-series, using recurrent neural networks (RNNs) and generative adversarial networks (GAN). Different from the state of the art, which traditionally focuses on univariate measurements, Net-GAN detects anomalies in multivariate time-series, exploiting temporal dependencies through RNNs. Net-GAN discovers the underlying distribution of the baseline, multivariate data, without making any assumptions on its nature, offering a powerful approach to detect anomalies in complex, difficult to model network monitoring data. We further exploit the concepts behind generative models to conceive Net-VAE, a complementary approach to Net-GAN for network anomaly detection, based on variational auto-encoders (VAE). We evaluate Net-GAN and Net-VAE in different monitoring scenarios, including anomaly detection in IoT sensor data, and intrusion detection in network measurements. Generative models represent a promising approach for network anomaly detection, especially when considering the complexity and ever-growing number of time-series to monitor in operational networks.
翻訳日:2022-10-06 20:38:40 公開日:2020-10-16
# 知識グラフによる強化経路推論に基づく解釈可能な疾患予測

Interpretable Disease Prediction based on Reinforcement Path Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2010.08300v1 )

ライセンス: Link先を確認
Zhoujian Sun, Wei Dong, Jinlong Shi and Zhengxing Huang(参考訳) 目的: 医療知識と医療データを組み合わせて、疾患のリスクを解釈的に予測すること。 方法: 疾患予測タスクを知識グラフ(KG)に沿ってランダムウォークとして定式化した。 具体的には、診断された医療知識に基づいて、疾患と危険因子の関係を記録するためのKGを構築する。 そして、数学的対象がkgに沿って歩く。 患者の現在の疾患または危険因子に基づいてkgを接続し、予測された疾患を表す疾患実体で停止する患者実体を歩行開始する。 対象が生成する軌跡は、与えられた患者の解釈可能な疾患進行経路を表す。 オブジェクトのダイナミクスはポリシーベースの強化学習(RL)モジュールによって制御され、電子健康記録(EHR)によってトレーニングされる。 実験: 実世界の2つのEHRデータセットを用いて, モデルの性能評価を行った。 疾患予測タスクでは,2つのデータセットの循環系疾患53の予測において,曲線(AUC)下のマクロ領域で0.743と0.639を達成する。 このパフォーマンスは、医学研究で一般的に使用される機械学習(ML)モデルに匹敵する。 質的分析では,本モデルが生成する疾患進行経路をレビューし,その解釈性と信頼性を提唱した。 結論: 実験結果は, 疾患予測の解釈と最適化において, 提案モデルの有効性を検証した。 意義:我々の研究は,予測タスクの解釈に医療知識と医療データの活用に寄与する。

Objective: To combine medical knowledge and medical data to interpretably predict the risk of disease. Methods: We formulated the disease prediction task as a random walk along a knowledge graph (KG). Specifically, we build a KG to record relationships between diseases and risk factors according to validated medical knowledge. Then, a mathematical object walks along the KG. It starts walking at a patient entity, which connects the KG based on the patient current diseases or risk factors and stops at a disease entity, which represents the predicted disease. The trajectory generated by the object represents an interpretable disease progression path of the given patient. The dynamics of the object are controlled by a policy-based reinforcement learning (RL) module, which is trained by electronic health records (EHRs). Experiments: We utilized two real-world EHR datasets to evaluate the performance of our model. In the disease prediction task, our model achieves 0.743 and 0.639 in terms of macro area under the curve (AUC) in predicting 53 circulation system diseases in the two datasets, respectively. This performance is comparable to the commonly used machine learning (ML) models in medical research. In qualitative analysis, our clinical collaborator reviewed the disease progression paths generated by our model and advocated their interpretability and reliability. Conclusion: Experimental results validate the proposed model in interpretably evaluating and optimizing disease prediction. Significance: Our work contributes to leveraging the potential of medical knowledge and medical data jointly for interpretable prediction tasks.
翻訳日:2022-10-06 20:38:17 公開日:2020-10-16
# 行列分解のための学習可能なグラフ正規化

Learnable Graph-regularization for Matrix Decomposition ( http://arxiv.org/abs/2010.08513v1 )

ライセンス: Link先を確認
Penglong Zhai and Shihua Zhang(参考訳) データ行列の低ランク近似モデルは、コンピュータビジョン、テキストマイニング、バイオインフォマティクスなど、多くの分野で機械学習やデータマイニングツールとして重要になっている。 これらは低次元空間に高次元データを埋め込むことができ、ノイズの影響を緩和し、潜在関係を明らかにする。 学習した表現を元のデータの構造を継承させるため、グラフ正規化項が損失関数に追加されることが多い。 しかし、事前のグラフ構成は、しばしば真のネットワーク接続と本質的な関係を反映しない。 加えて、多くのグラフ正規化法は双対空間を考慮に入れない。 確率モデルはしばしば表現の分布をモデル化するために使用されるが、従来の手法の多くは隠れた変数は独立であり、単純さのために同一に分布していると仮定する。 そこで本研究では,グラフ正規化法と確率行列分解モデルとの橋渡しを構築する行列分解モデル(lgmd)を提案する。 LGMDは2つのグラフィカル構造(すなわち2つの精度行列)をスパース精度行列推定によってリアルタイムで学習し、ノイズや欠落したエントリに対してより堅牢である。 大規模な数値結果と競合する手法との比較は,その有効性を示している。

Low-rank approximation models of data matrices have become important machine learning and data mining tools in many fields including computer vision, text mining, bioinformatics and many others. They allow for embedding high-dimensional data into low-dimensional spaces, which mitigates the effects of noise and uncovers latent relations. In order to make the learned representations inherit the structures in the original data, graph-regularization terms are often added to the loss function. However, the prior graph construction often fails to reflect the true network connectivity and the intrinsic relationships. In addition, many graph-regularized methods fail to take the dual spaces into account. Probabilistic models are often used to model the distribution of the representations, but most of previous methods often assume that the hidden variables are independent and identically distributed for simplicity. To this end, we propose a learnable graph-regularization model for matrix decomposition (LGMD), which builds a bridge between graph-regularized methods and probabilistic matrix decomposition models. LGMD learns two graphical structures (i.e., two precision matrices) in real-time in an iterative manner via sparse precision matrix estimation and is more robust to noise and missing entries. Extensive numerical results and comparison with competing methods demonstrate its effectiveness.
翻訳日:2022-10-06 20:37:55 公開日:2020-10-16
# スピン型2層線形ネットワークが完全に接続された入力層でニューラルネットワークをホイップする一例

A case where a spindly two-layer linear network whips any neural network with a fully connected input layer ( http://arxiv.org/abs/2010.08625v1 )

ライセンス: Link先を確認
Manfred K. Warmuth, Wojciech Kot{\l}owski, Ehsan Amid(参考訳) 任意の構造のニューラルネットワークとノードの任意の微分可能な転送関数は、勾配降下でトレーニングされた場合、次の問題サンプルを効率的に学習できないと推測された: インスタンスは$d$-dimensional hadamard行列の行であり、ターゲットは特徴の1つである、すなわち非常にスパースである。 この予想を本質的に証明する:我々は、サイズ$k < d$のランダムなトレーニングセットを受け取った後、期待の平方損失は1-\frac{k}{(d-1)}$である。 必要な唯一の要件は、入力層が完全に接続され、入力ノードの初期重みベクトルが回転不変分布から選択されることである。 驚くべきことに、同じタイプの問題は、$d$入力が出力ノードに長さ2のチェーンで接続される単純な2層線形ニューラルネットワークにより、大幅に効率良く解決できる(入力層は入力毎に1つのエッジしか持たない)。 そのようなネットワークが勾配降下によって訓練された場合、その期待平方損失は$\frac{\log d}{k}$であることが示されている。 我々の下限は、サンプル数が入力特徴数より少ない場合、スパース目標を勾配降下で効率的に学習するためにスパース入力層が必要であることを示している。

It was conjectured that any neural network of any structure and arbitrary differentiable transfer functions at the nodes cannot learn the following problem sample efficiently when trained with gradient descent: The instances are the rows of a $d$-dimensional Hadamard matrix and the target is one of the features, i.e. very sparse. We essentially prove this conjecture: We show that after receiving a random training set of size $k < d$, the expected square loss is still $1-\frac{k}{(d-1)}$. The only requirement needed is that the input layer is fully connected and the initial weight vectors of the input nodes are chosen from a rotation invariant distribution. Surprisingly the same type of problem can be solved drastically more efficient by a simple 2-layer linear neural network in which the $d$ inputs are connected to the output node by chains of length 2 (Now the input layer has only one edge per input). When such a network is trained by gradient descent, then it has been shown that its expected square loss is $\frac{\log d}{k}$. Our lower bounds essentially show that a sparse input layer is needed to sample efficiently learn sparse targets with gradient descent when the number of examples is less than the number of input features.
翻訳日:2022-10-06 20:31:13 公開日:2020-10-16
# 画像分類のための低コスト同質機械学習モデルアルゴリズムの性能評価と応用

Performance evaluation and application of computation based low-cost homogeneous machine learning model algorithm for image classification ( http://arxiv.org/abs/2010.08087v1 )

ライセンス: Link先を確認
W. H. Huang(参考訳) 画像分類機械学習モデルは入力画像のカテゴリを予測する目的で訓練された。 複数の最先端のアンサンブルモデル手法が公開されているが,本研究では,最新のクラウドベースアプリケーションにシームレスに統合可能な,低コストでシンプルなアルゴリズムの性能を評価する。 データのサブセットの代わりにフルでトレーニングされた均質なモデルは、互いに異なるハイパーパラメータと神経層を含んでいる。 これらのモデルの推論は、条件付き確率理論に基づいている新しいアルゴリズムによって処理される。 最終的な出力を評価する。

The image classification machine learning model was trained with the intention to predict the category of the input image. While multiple state-of-the-art ensemble model methodologies are openly available, this paper evaluates the performance of a low-cost, simple algorithm that would integrate seamlessly into modern production-grade cloud-based applications. The homogeneous models, trained with the full instead of subsets of data, contains varying hyper-parameters and neural layers from one another. These models' inferences will be processed by the new algorithm, which is loosely based on conditional probability theories. The final output will be evaluated.
翻訳日:2022-10-06 20:30:50 公開日:2020-10-16
# グローバル衛星画像を用いた機械学習への一般化とアクセシブルアプローチ

A Generalizable and Accessible Approach to Machine Learning with Global Satellite Imagery ( http://arxiv.org/abs/2010.08168v1 )

ライセンス: Link先を確認
Esther Rolf, Jonathan Proctor, Tamma Carleton, Ian Bolliger, Vaishaal Shankar, Miyabi Ishihara, Benjamin Recht, Solomon Hsiang(参考訳) 衛星画像と機械学習(SIML)を組み合わせることで、データ貧しい地域での社会経済と環境条件をリモートで推定することで、グローバルな課題に対処することができるが、SIMLのリソース要件はアクセシビリティと利用を制限する。 衛星画像の符号化は,様々な予測タスク(森林被覆,住宅価格,道路長など)にまたがって一般化できることを示す。 提案手法は,計算コストの桁違いの精度で深層ニューラルネットワークと競合し,世界規模でスケールし,ラベルの超解像予測を行い,不確実性のキャラクタリゼーションを容易にする。 画像符号化はタスク間で共有されるため、最先端のSIML性能を達成するために、線形回帰のみを自身の基底真理データに適合させる必要のある、無制限の研究者に中央的に計算および分散することができる。

Combining satellite imagery with machine learning (SIML) has the potential to address global challenges by remotely estimating socioeconomic and environmental conditions in data-poor regions, yet the resource requirements of SIML limit its accessibility and use. We show that a single encoding of satellite imagery can generalize across diverse prediction tasks (e.g. forest cover, house price, road length). Our method achieves accuracy competitive with deep neural networks at orders of magnitude lower computational cost, scales globally, delivers label super-resolution predictions, and facilitates characterizations of uncertainty. Since image encodings are shared across tasks, they can be centrally computed and distributed to unlimited researchers, who need only fit a linear regression to their own ground truth data in order to achieve state-of-the-art SIML performance.
翻訳日:2022-10-06 20:30:39 公開日:2020-10-16
# イベントカメラを用いたリアルタイム顔・視線追跡と瞬目検出

Real-Time Face & Eye Tracking and Blink Detection using Event Cameras ( http://arxiv.org/abs/2010.08278v1 )

ライセンス: Link先を確認
Cian Ryan, Brian O Sullivan, Amr Elrasad, Joe Lemley, Paul Kielty, Christoph Posch and Etienne Perot(参考訳) イベントカメラには、各ピクセルの局所的な光強度の変化を捉え、非同期イベントのストリームを生成する、新しいニューロモルフィックな視覚センサが含まれている。 この視覚情報を取得する方法は、従来のフレームベースのカメラから切り離され、低消費電力、高時間分解能、高ダイナミックレンジ、低レイテンシといったいくつかの大きな利点を提供する。 ドライバー監視システム(英: Driver monitoring system、DMS)は、ドライバーの身体的および認知状態を検出し理解するために設計されたキャビン内安全システムである。 イベントカメラは、DMS固有の利点のために特に適している。 本稿では,ドライバ監視のための顔と目を同時に検出し追跡する新しい手法を提案する。 ユニークな、完全な畳み込みリカレントニューラルネットワークアーキテクチャを示す。 このネットワークをトレーニングするために、合成イベントベースのデータセットは、Neuromorphic HELENと呼ばれる正確なバウンディングボックスアノテーションでシミュレートされる。 また,イベントカメラの高時間分解能を活用し,ドライバアイリンクの検出と解析を行う手法を提案する。 点滅の振る舞いは、ドライバーの疲労や眠気のレベルに関する洞察を与える。 ブリンクにはユニークな時間的シグネチャがあり、イベントカメラでよりよく捉えられることを示す。

Event cameras contain emerging, neuromorphic vision sensors that capture local light intensity changes at each pixel, generating a stream of asynchronous events. This way of acquiring visual information constitutes a departure from traditional frame based cameras and offers several significant advantages: low energy consumption, high temporal resolution, high dynamic range and low latency. Driver monitoring systems (DMS) are in-cabin safety systems designed to sense and understand a drivers physical and cognitive state. Event cameras are particularly suited to DMS due to their inherent advantages. This paper proposes a novel method to simultaneously detect and track faces and eyes for driver monitoring. A unique, fully convolutional recurrent neural network architecture is presented. To train this network, a synthetic event-based dataset is simulated with accurate bounding box annotations, called Neuromorphic HELEN. Additionally, a method to detect and analyse drivers eye blinks is proposed, exploiting the high temporal resolution of event cameras. Behaviour of blinking provides greater insights into a driver level of fatigue or drowsiness. We show that blinks have a unique temporal signature that can be better captured by event cameras.
翻訳日:2022-10-06 20:30:23 公開日:2020-10-16
# G-DARTS-A:注意を伴うチャンネル並列サンプリングのグループ

G-DARTS-A: Groups of Channel Parallel Sampling with Attention ( http://arxiv.org/abs/2010.08360v1 )

ライセンス: Link先を確認
Zhaowen Wang, Wei Zhang, Zhiming Wang(参考訳) Differentiable Architecture Search (DARTS) は、効率的なネットワークアーキテクチャに基づく勾配を探索するためのベースラインを提供するが、ネットワークアーキテクチャの探索と訓練には膨大な計算オーバーヘッドが伴う。 近年、多くの小説がダーツを改良した。 特に、部分連結DARTS(PC-DARTS)は、良好な結果を得た部分チャネルサンプリング手法を提案した。 本研究では、DARTSが提供するバックボーンが過度に適合する傾向があることを発見した。 そこで本研究では,グループDARTS (Group-DARTS with Attention, G-DARTS-A) という手法を提案する。 PC-DARTSの部分サンプリング戦略に着想を得て,ネットワーク情報の相対的整合性を維持しつつ,グループチャネルを用いてより効率的な探索を行う。 Squeeze-and-Excitation Networkでは,チャネルグループ間の競合を緩和し,チャネルバランスを維持するために,注目メカニズムに従う。 各チャネルのグループは、検索のための異なる提案を提供する、定義された重みを共有します。 検索されたアーキテクチャはより強力で、異なるデプロイメントに適応しています。 具体的には、DARTSのアテンションモジュールのみを使用することで、CIFAR10/100では2.82%/16.36%、CIFAR10では0.3GPU日というエラー率を達成した。 G-DARTS-AをDARTS/PC-DARTSに適用すると、CIFAR10では2.57%/2.61%のエラー率と0.5/0.4GPU日が達成される。

Differentiable Architecture Search (DARTS) provides a baseline for searching effective network architectures based gradient, but it is accompanied by huge computational overhead in searching and training network architecture. Recently, many novel works have improved DARTS. Particularly, Partially-Connected DARTS(PC-DARTS) proposed the partial channel sampling technique which achieved good results. In this work, we found that the backbone provided by DARTS is prone to overfitting. To mitigate this problem, we propose an approach named Group-DARTS with Attention (G-DARTS-A), using multiple groups of channels for searching. Inspired by the partially sampling strategy of PC-DARTS, we use groups channels to sample the super-network to perform a more efficient search while maintaining the relative integrity of the network information. In order to relieve the competition between channel groups and keep channel balance, we follow the attention mechanism in Squeeze-and-Excitation Network. Each group of channels shares defined weights thence they can provide different suggestion for searching. The searched architecture is more powerful and better adapted to different deployments. Specifically, by only using the attention module on DARTS we achieved an error rate of 2.82%/16.36% on CIFAR10/100 with 0.3GPU-days for search process on CIFAR10. Apply our G-DARTS-A to DARTS/PC-DARTS, an error rate of 2.57%/2.61% on CIFAR10 with 0.5/0.4 GPU-days is achieved.
翻訳日:2022-10-06 20:29:47 公開日:2020-10-16
# 差分差分:PG-GANの分岐正規化と絡み合い

Difference-in-Differences: Bridging Normalization and Disentanglement in PG-GAN ( http://arxiv.org/abs/2010.08402v1 )

ライセンス: Link先を確認
Xiao Liu, Jiajie Zhang, Siting Li, Zuotong Wu, Yang Yu(参考訳) GANの絡み合いの原因は何か? 絡み合ったGANの発達は十分に注目されているが、GAN変換によってどのように絡み合いが生じるかは不明である。 本研究では,GAN(PG-GAN)上の絡み合い機構を解析する実験を設計するための差分差分法(DID)対応フレームワークを提案する。 本実験では,画素正規化がpg-ganのエンタングルメントを引き起こすメカニズムを明らかにする。 画素の正規化が物体の絡み合いを引き起こすことを発見した。 また,画素正規化が物体の絡み合いを引き起こすかどうかを,単位対象関係で決定する。 didフレームワークは理論的に、我々が発見するメカニズムがしっかりと説明可能で包括的なものであることを保証します。

What mechanisms causes GAN's entanglement? Although developing disentangled GAN has attracted sufficient attention, it is unclear how entanglement is originated by GAN transformation. We in this research propose a difference-in-difference (DID) counterfactual framework to design experiments for analyzing the entanglement mechanism in on of the Progressive-growing GAN (PG-GAN). Our experiment clarify the mechanisms how pixel normalization causes PG-GAN entanglement during a input-unit-ablation transformation. We discover that pixel normalization causes object entanglement by in-painting the area occupied by ablated objects. We also discover the unit-object relation determines whether and how pixel normalization causes objects entanglement. Our DID framework theoretically guarantees that the mechanisms that we discover is solid, explainable and comprehensively.
翻訳日:2022-10-06 20:29:22 公開日:2020-10-16
# ストリーミング決定木における創発的および非特定的行動

Emergent and Unspecified Behaviors in Streaming Decision Trees ( http://arxiv.org/abs/2010.08199v1 )

ライセンス: Link先を確認
Chaitanya Manapragada and Geoffrey I Webb and Mahsa Salehi and Albert Bifet(参考訳) Hoeffding Treeは、データストリームの進化のための決定木学習における最先端の手法である。 これらの非常に高速な決定木は、その効率のためにデータがリアルタイムで生成される多くの実アプリケーションで使われます。 本稿では,定常ストリームと非定常ストリーム(hoeffdingtree と hoeffdingadaptivetree)のストリーミング決定木アルゴリズムが,それらと同じように動作する理由を説明する。 そこで我々は, アルゴリズムの本質を必ずしも変えることなく, アルゴリズムの性能を向上する設計決定を, 予測精度に実質的かつ連続的に与える理論構成と実装の両方において, 13 個の独特な設計決定を同定する。 我々は、モデルだけでなく、アルゴリズムの成功に責任を負うプロセスについても、説明可能性に関するより大きな議論を始めます。

Hoeffding trees are the state-of-the-art methods in decision tree learning for evolving data streams. These very fast decision trees are used in many real applications where data is created in real-time due to their efficiency. In this work, we extricate explanations for why these streaming decision tree algorithms for stationary and nonstationary streams (HoeffdingTree and HoeffdingAdaptiveTree) work as well as they do. In doing so, we identify thirteen unique unspecified design decisions in both the theoretical constructs and their implementations with substantial and consequential effects on predictive accuracy---design decisions that, without necessarily changing the essence of the algorithms, drive algorithm performance. We begin a larger conversation about explainability not just of the model but also of the processes responsible for an algorithm's success.
翻訳日:2022-10-06 20:22:59 公開日:2020-10-16
# トレンドフィルタによる予測型深部時間ニューラルネットワークの改良

Improved Predictive Deep Temporal Neural Networks with Trend Filtering ( http://arxiv.org/abs/2010.08234v1 )

ライセンス: Link先を確認
Youngjin Park, Deokjun Eom, Byoungki Seo, Jaesik Choi(参考訳) 多変量時系列による予測は、前と現在の複数の単変量時系列データから得られる将来の値を予測することを目的として、数十年にわたって研究され、その一例がARIMAである。 金融時系列データの急激な変動において,ノイズと情報信号が混在する程度を測定することは困難であるため,優れた予測モデルの設計は簡単な作業ではない。 近年、多くの研究者がリカレントニューラルネットワークや注意に基づくニューラルネットワークに興味を持ち、財務予測に応用している。 これらの手法を長期の時間依存の把握に活用し、正確な予測を行うために多変量時系列データにおいてより重要な特徴を選択する試みが数多く行われている。 本稿では,ディープニューラルネットワークに基づく新しい予測フレームワークと,ノイズ時系列データを区分線形に変換するトレンドフィルタリングを提案する。 学習データをトレンドフィルタリングにより時間処理した場合,ディープテンポラルニューラルネットワークの予測性能が向上することが明らかとなった。 本フレームワークの有効性を検証するため,時系列ファイナンスデータにおける予測のための技術モデルである3つの深部時間ニューラルネットワークを用いて,トレンドフィルタリングを入力特徴とするモデルと比較した。 実世界の多変量時系列データに対する広範囲な実験は,提案手法が既存のベースライン法よりも効果的かつ著しく優れていることを示している。

Forecasting with multivariate time series, which aims to predict future values given previous and current several univariate time series data, has been studied for decades, with one example being ARIMA. Because it is difficult to measure the extent to which noise is mixed with informative signals within rapidly fluctuating financial time series data, designing a good predictive model is not a simple task. Recently, many researchers have become interested in recurrent neural networks and attention-based neural networks, applying them in financial forecasting. There have been many attempts to utilize these methods for the capturing of long-term temporal dependencies and to select more important features in multivariate time series data in order to make accurate predictions. In this paper, we propose a new prediction framework based on deep neural networks and a trend filtering, which converts noisy time series data into a piecewise linear fashion. We reveal that the predictive performance of deep temporal neural networks improves when the training data is temporally processed by a trend filtering. To verify the effect of our framework, three deep temporal neural networks, state of the art models for predictions in time series finance data, are used and compared with models that contain trend filtering as an input feature. Extensive experiments on real-world multivariate time series data show that the proposed method is effective and significantly better than existing baseline methods.
翻訳日:2022-10-06 20:22:47 公開日:2020-10-16
# 光ランダム特徴を持つ高速グラフカーネル

Fast Graph Kernel with Optical Random Features ( http://arxiv.org/abs/2010.08270v1 )

ライセンス: Link先を確認
Hashem Ghanem and Nicolas Keriven and Nicolas Tremblay(参考訳) グラフレットカーネルは、グラフ分類における古典的な方法である。 しかし、それはそれが含む同型テストのために高い計算コストを被る。 汎用的なプロキシとして、そして一般に、いくつかの情報を失うコストで、このテストは、様々なグラフ特性を計算するユーザ定義マッピングに置き換えられる。 本稿では,graphletフレームワーク内のカーネルランダムな特徴を活用し,平均カーネルメトリックとの理論的リンクを確立することを提案する。 この手法が通常のランダムな特徴に対して常に費用がかかる場合、一定の時間内に計算できる光学的ランダムな特徴を組み込む。 実験の結果, 結果のアルゴリズムは, グラフレットカーネルと同じ, あるいはそれ以上の精度で, 桁違いに高速であることがわかった。

The graphlet kernel is a classical method in graph classification. It however suffers from a high computation cost due to the isomorphism test it includes. As a generic proxy, and in general at the cost of losing some information, this test can be efficiently replaced by a user-defined mapping that computes various graph characteristics. In this paper, we propose to leverage kernel random features within the graphlet framework, and establish a theoretical link with a mean kernel metric. If this method can still be prohibitively costly for usual random features, we then incorporate optical random features that can be computed in constant time. Experiments show that the resulting algorithm is orders of magnitude faster that the graphlet kernel for the same, or better, accuracy.
翻訳日:2022-10-06 20:21:41 公開日:2020-10-16
# 逆学習を用いたオンライン配置問題に対するロバストアルゴリズムの学習

Learning Robust Algorithms for Online Allocation Problems Using Adversarial Training ( http://arxiv.org/abs/2010.08418v1 )

ライセンス: Link先を確認
Goran Zuzic, Di Wang, Aranyak Mehta, D. Sivakumar(参考訳) 機械学習アプローチを用いて、オンラインアロケーション(二部マッチング)のアルゴリズムを見つけるという課題に対処する。 本稿では,従来のオンライン予算マッチング問題であるAdWords問題に着目し,理論的および実用的意義の両面から考察する。 既存の研究とは対照的に、我々のゴールはアルゴリズム設計を達成すること、すなわち、最適化問題の目的と制約を規定する以外に、人為的な洞察や専門家による訓練データがないことである。 我々は,ゲーム理論,敵対的トレーニング,およびGANsキーからの洞察とアイデアに基づくフレームワークを構築し,アルゴリズムの弱点を露呈する敵例を生成する。 私たちのコンテキストにおけるユニークな課題は、与えられた例を摂動するのではなく、スクラッチから完全な例を生成することです。 このフレームワークを用いて,アルゴリズムネットワークと逆ネットワークが平衡に収束するまでの協調学習を行う。 このアプローチは、既知の最適結果と一致するアルゴリズムや逆例を見つける。 次に,本アルゴリズムのロバスト性の問題,すなわち,実用的分布下では強いアルゴリズムを設計でき,また,敵インスタンスに対するロバストな性能を示すことができる。 これを実現するために,電力規則のような逆分布と実用的な分布を混合してアルゴリズムネットワークを訓練し,その結果,二つの入力レジーム間のスムーズなトレードオフを示す。

We address the challenge of finding algorithms for online allocation (i.e. bipartite matching) using a machine learning approach. In this paper, we focus on the AdWords problem, which is a classical online budgeted matching problem of both theoretical and practical significance. In contrast to existing work, our goal is to accomplish algorithm design {\em tabula rasa}, i.e., without any human-provided insights or expert-tuned training data beyond specifying the objective and constraints of the optimization problem. We construct a framework based on insights and ideas from game theory, adversarial training and GANs Key to our approach is to generate adversarial examples that expose the weakness of any given algorithm. A unique challenge in our context is to generate complete examples from scratch rather than perturbing given examples and we demonstrate this can be accomplished for the Adwords problem. We use this framework to co-train an algorithm network and an adversarial network against each other until they converge to an equilibrium. This approach finds algorithms and adversarial examples that are consistent with known optimal results. Secondly, we address the question of robustness of the algorithm, namely can we design algorithms that are both strong under practical distributions, as well as exhibit robust performance against adversarial instances. To accomplish this, we train algorithm networks using a mixture of adversarial and practical distributions like power-laws; the resulting networks exhibit a smooth trade-off between the two input regimes.
翻訳日:2022-10-06 20:20:57 公開日:2020-10-16
# WMT2020におけるDiDiの機械翻訳システム

DiDi's Machine Translation System for WMT2020 ( http://arxiv.org/abs/2010.08185v1 )

ライセンス: Link先を確認
Tanfang Chen, Weiwei Wang, Wenyang Wei, Xing Shi, Xiangang Li, Jieping Ye, Kevin Knight(参考訳) 本稿では、WMT2020ニュース翻訳共有タスクへのDiDi AI Labsの提出について述べる。 我々は中国語>英語の翻訳指導に参加する。 この方向では、Transformerをベースラインモデルとして使用し、データフィルタリング、データ選択、バックトランスレーション、微調整、モデルエンハンスブル、再ランク付けなど、モデル拡張のためのいくつかの技術を統合する。 その結果、私たちの投稿は、中国語で36.6ドルのbleuスコアを達成しました。

This paper describes DiDi AI Labs' submission to the WMT2020 news translation shared task. We participate in the translation direction of Chinese->English. In this direction, we use the Transformer as our baseline model, and integrate several techniques for model enhancement, including data filtering, data selection, back-translation, fine-tuning, model ensembling, and re-ranking. As a result, our submission achieves a BLEU score of $36.6$ in Chinese->English.
翻訳日:2022-10-06 20:13:56 公開日:2020-10-16
# マルチモーダルコントラスト学習による教師なし自然言語推論

Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning ( http://arxiv.org/abs/2010.08200v1 )

ライセンス: Link先を確認
Wanyun Cui, Guangyu Zheng, Wei Wang(参考訳) 本稿では,タスク非依存型マルチモーダル事前学習による推論ラベルの監督なしに自然言語推論問題を解くことを提案する。 近年の多モーダル自己教師型学習の研究も言語的・視覚的文脈を表現しているが、異なるモダリティのためのエンコーダが結合されている。 そのため、平文だけでは視覚情報を組み込むことはできない。 本稿では,Multimodal Aligned Contrastive Decoupled Learning(MACD)ネットワークを提案する。 macdは、分離されたテキストエンコーダに、コントラスト学習を通じて視覚情報を表現させる。 そのため、平文推論においても視覚的知識を組み込む。 テキスト推論データセット(SNLI,STS-B)について総合的な実験を行った。 教師なしMACDはSTS-BのBiLSTMとBiLSTM+ELMOよりも優れています。

We propose to solve the natural language inference problem without any supervision from the inference labels via task-agnostic multimodal pretraining. Although recent studies of multimodal self-supervised learning also represent the linguistic and visual context, their encoders for different modalities are coupled. Thus they cannot incorporate visual information when encoding plain text alone. In this paper, we propose Multimodal Aligned Contrastive Decoupled learning (MACD) network. MACD forces the decoupled text encoder to represent the visual information via contrastive learning. Therefore, it embeds visual knowledge even for plain text inference. We conducted comprehensive experiments over plain text inference datasets (i.e. SNLI and STS-B). The unsupervised MACD even outperforms the fully-supervised BiLSTM and BiLSTM+ELMO on STS-B.
翻訳日:2022-10-06 20:13:48 公開日:2020-10-16
# サブイベントシーケンス予測のためのアナログプロセス構造誘導

Analogous Process Structure Induction for Sub-event Sequence Prediction ( http://arxiv.org/abs/2010.08525v1 )

ライセンス: Link先を確認
Hongming Zhang, Muhao Chen, Haoyu Wang, Yangqiu Song, Dan Roth(参考訳) イベント理解の計算的および認知的研究は、イベントの同定、理解、予測は、イベントのシーケンスの構造化された表現を持ち、そのコンポーネントを(ソフトな)イベントカテゴリに概念化(抽象)することに依存していることを示唆している。 したがって、「車を買う」といった既知のプロセスに関する知識は、「家を買う」といった新しいが類似したプロセスの文脈で利用できる。 それでも、NLPにおけるほとんどのイベント理解作業は、まだ基盤レベルであり、抽象化を考慮していない。 本稿では,プロセス間の類似とサブイベントインスタンスの概念化を利用して,未確認のオープンドメインプロセスのサブイベントシーケンス全体を予測する,アナログプロセス構造誘導APSIフレームワークを提案する。 実験と分析が示すように、apsiは未発見のプロセスに対して有意義なサブイベントシーケンスの生成をサポートし、欠落したイベントを予測するのに役立ちます。

Computational and cognitive studies of event understanding suggest that identifying, comprehending, and predicting events depend on having structured representations of a sequence of events and on conceptualizing (abstracting) its components into (soft) event categories. Thus, knowledge about a known process such as "buying a car" can be used in the context of a new but analogous process such as "buying a house". Nevertheless, most event understanding work in NLP is still at the ground level and does not consider abstraction. In this paper, we propose an Analogous Process Structure Induction APSI framework, which leverages analogies among processes and conceptualization of sub-event instances to predict the whole sub-event sequence of previously unseen open-domain processes. As our experiments and analysis indicate, APSI supports the generation of meaningful sub-event sequences for unseen processes and can help predict missing events.
翻訳日:2022-10-06 20:13:38 公開日:2020-10-16
# ニューラルマシン翻訳のためのマルチタスク学習によるフレキシブル深層モデルの学習

Training Flexible Depth Model by Multi-Task Learning for Neural Machine Translation ( http://arxiv.org/abs/2010.08265v1 )

ライセンス: Link先を確認
Qiang Wang, Tong Xiao, Jingbo Zhu(参考訳) 標準的なニューラルマシン翻訳モデルは、トレーニングと同じ深さ設定でしかデコードできない。 この機能によって制限されるため、異なる端末デバイス(携帯電話など)のハードウェア条件が大きく異なるため、同じ翻訳レイテンシを維持するために、さまざまなサイズのモデルをデプロイする必要があります。 このような個別のトレーニングは、特に業界において、モデルのメンテナンスコストの増大とモデルのイテレーションの遅れにつながる。 本研究では、マルチタスク学習を用いて、推論中に異なる深度構成に適応できるフレキシブルな深度モデルを訓練することを提案する。 実験の結果,24深度のデコードを同時にサポートでき,個別のトレーニングやフレキシブルな深さモデルトレーニング手法である layerdrop よりも優れていることがわかった。

The standard neural machine translation model can only decode with the same depth configuration as training. Restricted by this feature, we have to deploy models of various sizes to maintain the same translation latency, because the hardware conditions on different terminal devices (e.g., mobile phones) may vary greatly. Such individual training leads to increased model maintenance costs and slower model iterations, especially for the industry. In this work, we propose to use multi-task learning to train a flexible depth model that can adapt to different depth configurations during inference. Experimental results show that our approach can simultaneously support decoding in 24 depth configurations and is superior to the individual training and another flexible depth model training method -- LayerDrop.
翻訳日:2022-10-06 20:13:22 公開日:2020-10-16
# ホワイトボックスLSTMを用いた属性評価

Evaluating Attribution Methods using White-Box LSTMs ( http://arxiv.org/abs/2010.08606v1 )

ライセンス: Link先を確認
Yiding Hao(参考訳) ニューラルネットワークの解釈可能性の手法は、テストに一般的に使用されるブラックボックスモデルが理解できないため、評価が難しい。 本稿では,ホワイトボックスネットワークと呼ばれる手作業で構築したネットワークを用いて解釈可能性を評価する手法を提案する。 形式言語に基づくタスクに対するホワイトボックスLSTM分類器に適用することにより、属性ヒートマップを生成する5つの方法を評価する。 我々のホワイトボックス分類器はタスクを完璧かつ透過的に解決するが、5つの帰属法は全て期待されるモデル説明を生成できない。

Interpretability methods for neural networks are difficult to evaluate because we do not understand the black-box models typically used to test them. This paper proposes a framework in which interpretability methods are evaluated using manually constructed networks, which we call white-box networks, whose behavior is understood a priori. We evaluate five methods for producing attribution heatmaps by applying them to white-box LSTM classifiers for tasks based on formal languages. Although our white-box classifiers solve their tasks perfectly and transparently, we find that all five attribution methods fail to produce the expected model explanations.
翻訳日:2022-10-06 20:12:44 公開日:2020-10-16
# マルチ展開損失によるセグメンテーションマップのセマンティクス編集

Semantic Editing On Segmentation Map Via Multi-Expansion Loss ( http://arxiv.org/abs/2010.08128v1 )

ライセンス: Link先を確認
Jianfeng He, Xuchao Zhang, Shuo Lei, Shuhui Wang, Qingming Huang, Chang-Tien Lu, Bei Xiao(参考訳) セグメンテーションマップのセマンティクス編集は,様々な画像生成タスクにおいて柔軟かつ強力な支援を提供するため,画像生成のための中間インタフェースとして提案されている。 本稿では,セマンティクス入力を条件とした編集セグメンテーションマップの品質向上を目的とする。 近年の研究では、大域的および局所的な敵意的損失を広範に適用して高画質の画像を生成するが、マスク領域の境界領域の誤認に苦しむことが判明した。 そこで本研究では,MEx領域の対角的損失によって実現された新しいマルチ展開(MEx)損失を用いたセグメンテーションマップのセグメンテーション編集のためのMExGANを提案する。 それぞれのメックス地域は、世代のマスク領域が多数派であり、元のコンテキストの境界が少数派である。 さらに,MEx損失の利便性と安定性を高めるため,近似MEx損失(A-MEx)を提案する。 さらに,画像全体の一部としてセグメンテーションマップ上にセグメンテーション編集のためのトレーニングデータを構築する以前のモデルとは対照的に,MExGANはトレーニングデータを構築するために全体画像を適用する。 セグメンテーションマップと自然画像インペインティングのセマンティクス編集に関する広範な実験は、4つのデータセットで競合的な結果を示している。

Semantic editing on segmentation map has been proposed as an intermediate interface for image generation, because it provides flexible and strong assistance in various image generation tasks. This paper aims to improve quality of edited segmentation map conditioned on semantic inputs. Even though recent studies apply global and local adversarial losses extensively to generate images for higher image quality, we find that they suffer from the misalignment of the boundary area in the mask area. To address this, we propose MExGAN for semantic editing on segmentation map, which uses a novel Multi-Expansion (MEx) loss implemented by adversarial losses on MEx areas. Each MEx area has the mask area of the generation as the majority and the boundary of original context as the minority. To boost convenience and stability of MEx loss, we further propose an Approximated MEx (A-MEx) loss. Besides, in contrast to previous model that builds training data for semantic editing on segmentation map with part of the whole image, which leads to model performance degradation, MExGAN applies the whole image to build the training data. Extensive experiments on semantic editing on segmentation map and natural image inpainting show competitive results on four datasets.
翻訳日:2022-10-06 20:12:34 公開日:2020-10-16
# Smart Grid: アーキテクチャ要素,マシンラーニング,ディープラーニングアプリケーションに関する調査と今後の方向性

Smart Grid: A Survey of Architectural Elements, Machine Learning and Deep Learning Applications and Future Directions ( http://arxiv.org/abs/2010.08094v1 )

ライセンス: Link先を確認
Navod Neranjan Thilakarathne, Mohan Krishna Kagita, Dr. Surekha Lanka, Hussain Ahmad(参考訳) 次世代電力網として知られるスマートグリッド(sg)は、21世紀に不適合電力システムの代替として登場した。 高度な通信能力と計算能力を備えており、最小効果でエネルギー分布の信頼性と効率を高めることが期待されている。 システム内の巨大なインフラストラクチャと基盤となる通信ネットワークによって、適切な分析と意思決定のためにさまざまな技術を必要とする大量のデータを導入した。 ビッグデータ分析、機械学習(ML)、ディープラーニング(DL)は、この膨大なデータの分析と貴重な洞察の生成において重要な役割を果たす。 本稿では、スマートグリッドのコンテキストにおけるスマートグリッドアーキテクチャ要素、機械学習、ディープラーニングベースのアプリケーションとアプローチを調査し、調査する。 機械学習に基づくデータ分析の観点に加えて、本論文は現在の研究の限界を強調し、今後の方向性も強調する。

The Smart grid (SG), generally known as the next-generation power grid emerged as a replacement for ill-suited power systems in the 21st century. It is in-tegrated with advanced communication and computing capabilities, thus it is ex-pected to enhance the reliability and the efficiency of energy distribution with minimum effects. With the massive infrastructure it holds and the underlying communication network in the system, it introduced a large volume of data that demands various techniques for proper analysis and decision making. Big data analytics, machine learning (ML), and deep learning (DL) plays a key role when it comes to the analysis of this massive amount of data and generation of valuable insights. This paper explores and surveys the Smart grid architectural elements, machine learning, and deep learning-based applications and approaches in the context of the Smart grid. In addition in terms of machine learning-based data an-alytics, this paper highlights the limitations of the current research and highlights future directions as well.
翻訳日:2022-10-06 20:11:12 公開日:2020-10-16
# 学術エキスパート探索のための効果的な分散表現

Effective Distributed Representations for Academic Expert Search ( http://arxiv.org/abs/2010.08269v1 )

ライセンス: Link先を確認
Mark Berger, Jakub Zavrel, Paul Groth(参考訳) expert searchは、ユーザのクエリに基づいて専門家を探し、ランク付けすることを目的としている。 アカデミアでは、専門家を検索することは、大量の学術知識を通す効率的な方法である。 本稿では,学術論文の異なる分散表現(埋め込み)が学術専門家の検索に与える影響について考察する。 Microsoft Academic Graphデータセットを使用して、検索にドキュメント中心の投票モデルのさまざまな構成を試す。 特に,コンテクスト化された埋め込みが検索性能に与える影響について検討する。 また, 補修による引用情報を組み込んだ埋込紙についても検討した。 また、著者の順序に基づいて著者重みを割り当てるための異なる手法を用いて実験を行う。 文類似性タスク用に訓練されたトランスフォーマーモデルによって生成された文脈埋め込みを用いることで,文書中心のエキスパート検索において,最も効果的な紙表現が得られる。 しかし,著者貢献度重み付け戦略を精巧に活用した論文の修正は,検索性能の向上には至らなかった。

Expert search aims to find and rank experts based on a user's query. In academia, retrieving experts is an efficient way to navigate through a large amount of academic knowledge. Here, we study how different distributed representations of academic papers (i.e. embeddings) impact academic expert retrieval. We use the Microsoft Academic Graph dataset and experiment with different configurations of a document-centric voting model for retrieval. In particular, we explore the impact of the use of contextualized embeddings on search performance. We also present results for paper embeddings that incorporate citation information through retrofitting. Additionally, experiments are conducted using different techniques for assigning author weights based on author order. We observe that using contextual embeddings produced by a transformer model trained for sentence similarity tasks produces the most effective paper representations for document-centric expert retrieval. However, retrofitting the paper embeddings and using elaborate author contribution weighting strategies did not improve retrieval performance.
翻訳日:2022-10-06 20:05:27 公開日:2020-10-16
# Reward Attribution Decompositionによるマルチエージェントコラボレーション

Multi-Agent Collaboration via Reward Attribution Decomposition ( http://arxiv.org/abs/2010.08531v1 )

ライセンス: Link先を確認
Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer, Joseph E. Gonzalez, Yuandong Tian(参考訳) マルチエージェント強化学習(MARL)の最近の進歩は、Quake 3やDota 2のようなゲームで超人的パフォーマンスを実現している。 残念なことに、これらの技術は人間よりも訓練ラウンドの順序が必要であり、同じゲームでも新しいエージェント構成に一般化しない。 本稿では,StarCraftのマルチエージェントチャレンジにおける最先端のパフォーマンスを実現し,アドホックチームプレイをサポートするコラボレーティブQ-ラーニング(CollaQ)を提案する。 まず、報酬割当に関する共同最適化としてマルチエージェント協調を定式化し、各エージェントが、エージェント自身の状態のみに依存する部分と、近くのエージェントの状態に関連する部分の2つの部分に分けられる、ほぼ最適なポリシーを持っていることを示す。 この新たな発見に続いて、collaqは各エージェントのq関数を自己項と対話項に分解し、トレーニングを規則化するマルチエージェント報酬帰属(mara)損失を与える。 CollaQは様々なStarCraftマップで評価され、同じサンプル数で勝利率を40%向上させることで、既存の最先端技術(QMIX、QTRAN、VDN)よりも優れていることを示す。 より難しいアドホックなチームプレイ設定(再トレーニングや微調整を行わないリウェイト/加算/リモーブユニット)では、collaqは以前のsomaを30%以上上回っている。

Recent advances in multi-agent reinforcement learning (MARL) have achieved super-human performance in games like Quake 3 and Dota 2. Unfortunately, these techniques require orders-of-magnitude more training rounds than humans and don't generalize to new agent configurations even on the same game. In this work, we propose Collaborative Q-learning (CollaQ) that achieves state-of-the-art performance in the StarCraft multi-agent challenge and supports ad hoc team play. We first formulate multi-agent collaboration as a joint optimization on reward assignment and show that each agent has an approximately optimal policy that decomposes into two parts: one part that only relies on the agent's own state, and the other part that is related to states of nearby agents. Following this novel finding, CollaQ decomposes the Q-function of each agent into a self term and an interactive term, with a Multi-Agent Reward Attribution (MARA) loss that regularizes the training. CollaQ is evaluated on various StarCraft maps and shows that it outperforms existing state-of-the-art techniques (i.e., QMIX, QTRAN, and VDN) by improving the win rate by 40% with the same number of samples. In the more challenging ad hoc team play setting (i.e., reweight/add/remove units without re-training or finetuning), CollaQ outperforms previous SoTA by over 30%.
翻訳日:2022-10-06 20:05:13 公開日:2020-10-16
# 何枚の画像が必要ですか? クラスごとのサンプルサイズが自律野生生物モニタリングにおけるバランス設計のためのディープラーニングモデルパフォーマンス指標に与える影響を理解する

How many images do I need? Understanding how sample size per class affects deep learning model performance metrics for balanced designs in autonomous wildlife monitoring ( http://arxiv.org/abs/2010.08186v1 )

ライセンス: Link先を確認
Saleh Shahinfar, Paul Meek, Greg Falzon(参考訳) Deep Learning (DL)アルゴリズムは、野生動物のカメラトラップ画像の自動分類における最先端技術である。 課題は、生態学者は、望ましい分類精度を達成するために、モデルトレーニングのために収集する種ごとの画像数を事前に知ることができないことである。 実際、カメラトラップの文脈では、サンプルサイズの増加によって精度が向上することを示す実験的な証拠が限られている。 本研究では,種別(種別)のサンプルサイズを漸進的に増加させる深層学習モデルの性能問題について詳細に検討する。 また,特定の精度レベルを優先する動物種毎のイメージ数を推定するための近似式を生態学者に提供する。 これにより、生態学者は資源の最適配分、作業、効率的な研究設計に役立つ。 10,20,50,150,500,1000枚のトレーニングセットを1クラス毎に設計した。 ResNet-18、ResNet-50、ResNet-152、DnsNet-121、DnsNet-161、DnsNet-201という6つのディープラーニングアーキテクチャがトレーニングされ、クラス毎に250イメージの共通テストセットでテストされた。 実験はオーストラリア、アフリカ、北アメリカの3つの同様のデータセットで繰り返され、結果が比較された。 モデル性能指標を近似するために実践者が使用する簡単な回帰方程式を提供する。 一般化付加モデル(GAM)は,クラス毎のトレーニング画像数,チューニングスキーム,データセットに基づいて,DLパフォーマンス指標のモデル化に有効であることが示されている。 キーワード:カメラトラップ、ディープラーニング、生態情報学、一般化付加モデル、学習曲線、予測モデル、野生生物。

Deep learning (DL) algorithms are the state of the art in automated classification of wildlife camera trap images. The challenge is that the ecologist cannot know in advance how many images per species they need to collect for model training in order to achieve their desired classification accuracy. In fact there is limited empirical evidence in the context of camera trapping to demonstrate that increasing sample size will lead to improved accuracy. In this study we explore in depth the issues of deep learning model performance for progressively increasing per class (species) sample sizes. We also provide ecologists with an approximation formula to estimate how many images per animal species they need for certain accuracy level a priori. This will help ecologists for optimal allocation of resources, work and efficient study design. In order to investigate the effect of number of training images; seven training sets with 10, 20, 50, 150, 500, 1000 images per class were designed. Six deep learning architectures namely ResNet-18, ResNet-50, ResNet-152, DnsNet-121, DnsNet-161, and DnsNet-201 were trained and tested on a common exclusive testing set of 250 images per class. The whole experiment was repeated on three similar datasets from Australia, Africa and North America and the results were compared. Simple regression equations for use by practitioners to approximate model performance metrics are provided. Generalized additive models (GAM) are shown to be effective in modelling DL performance metrics based on the number of training images per class, tuning scheme and dataset. Key-words: Camera Traps, Deep Learning, Ecological Informatics, Generalised Additive Models, Learning Curves, Predictive Modelling, Wildlife.
翻訳日:2022-10-06 20:04:47 公開日:2020-10-16
# ASMFS:適応相似性に基づくアルツハイマー病の分類のための多モード特徴選択

ASMFS: Adaptive-Similarity-based Multi-modality Feature Selection for Classification of Alzheimer's Disease ( http://arxiv.org/abs/2010.08190v1 )

ライセンス: Link先を確認
Yuang Shi, Chen Zu, Mei Hong, Luping Zhou, Lei Wang, Xi Wu, Jiliu Zhou, Daoqiang Zhang, Yan Wang(参考訳) 処理すべき高次元異種データ量の増加に伴い,マルチモダリティ特徴の選択は医用画像解析において重要な研究方向となっている。 伝統的な手法は通常、異なるモダリティ間の潜在的な関係構造を考慮せずに、各モダリティに対して固定および事前定義された類似性行列を使用してデータ構造を別々に描写する。 本稿では,特徴選択と局所類似性学習を同時に行う,新しい多モード特徴選択法を提案する。 特に、異なる撮像モードを共同で考慮して類似性行列を学習する。 同時に、特徴選択はスパース l_{2, 1} ノルム制約を課すことによって行われる。 提案手法の有効性は、アルツハイマー病神経イメージングイニシアチブ(ADNI)データセットの実験結果によって実証できる。

With the increasing amounts of high-dimensional heterogeneous data to be processed, multi-modality feature selection has become an important research direction in medical image analysis. Traditional methods usually depict the data structure using fixed and predefined similarity matrix for each modality separately, without considering the potential relationship structure across different modalities. In this paper, we propose a novel multi-modality feature selection method, which performs feature selection and local similarity learning simultaniously. Specially, a similarity matrix is learned by jointly considering different imaging modalities. And at the same time, feature selection is conducted by imposing sparse l_{2, 1} norm constraint. The effectiveness of our proposed joint learning method can be well demonstrated by the experimental results on Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, which outperforms existing the state-of-the-art multi-modality approaches.
翻訳日:2022-10-06 20:04:19 公開日:2020-10-16
# 教師付きモデルと自己教師付きモデルの驚くべき類似性について

On the surprising similarities between supervised and self-supervised models ( http://arxiv.org/abs/2010.08377v1 )

ライセンス: Link先を確認
Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Matthias Bethge, Felix A. Wichmann, Wieland Brendel(参考訳) 人間は、オブジェクトの強力で柔軟で堅牢な表現をどうやって習得するか? このプロセスの多くは未知数だが、人間が数百万のオブジェクトラベルを必要としないことは明らかである。 面白いことに、最近の自己教師付き学習のアルゴリズム的な進歩により、畳み込みニューラルネットワーク(cnns)は教師付きラベルなしで有用な視覚オブジェクト表現を学習できるようになった。 この最近のブレークスルーに照らして、自己教師付きネットワークと教師付きモデルと人間の行動を比較する。 大規模行動データ(130kの高度に制御された心理物理実験)が利用できる15の一般化データセットでモデルをテストした。 驚くべきことに、現在の自己教師付きcnnは、監視対象の4つの重要な特性を共有している: (1.) 比較的ノイズのロバスト性(simclrを除く)、 (2.) 非人間カテゴリーレベルのエラーパターン(3.) 非人間画像レベルのエラーパターン(教師付きモデルエラーと非常に類似している)、および (4.) テクスチャに対するバイアス。 これらの結果から,今日の指導的・自己監督的訓練目標から学んだ戦略は,驚くほど類似するが,人間的な行動からは程遠いものとなることが示唆された。 とは言っても、私たちは明らかに、機械ビジョンの自己監督的革命と呼ばれるものの始まりに過ぎず、将来の自己監督的モデルは、監督的モデルとは異なる振る舞いをすることを期待しています。

How do humans learn to acquire a powerful, flexible and robust representation of objects? While much of this process remains unknown, it is clear that humans do not require millions of object labels. Excitingly, recent algorithmic advancements in self-supervised learning now enable convolutional neural networks (CNNs) to learn useful visual object representations without supervised labels, too. In the light of this recent breakthrough, we here compare self-supervised networks to supervised models and human behaviour. We tested models on 15 generalisation datasets for which large-scale human behavioural data is available (130K highly controlled psychophysical trials). Surprisingly, current self-supervised CNNs share four key characteristics of their supervised counterparts: (1.) relatively poor noise robustness (with the notable exception of SimCLR), (2.) non-human category-level error patterns, (3.) non-human image-level error patterns (yet high similarity to supervised model errors) and (4.) a bias towards texture. Taken together, these results suggest that the strategies learned through today's supervised and self-supervised training objectives end up being surprisingly similar, but distant from human-like behaviour. That being said, we are clearly just at the beginning of what could be called a self-supervised revolution of machine vision, and we are hopeful that future self-supervised models behave differently from supervised ones, and---perhaps---more similar to robust human object recognition.
翻訳日:2022-10-06 20:04:04 公開日:2020-10-16
# 固定化分類器を用いたクラス増分学習

Class-incremental Learning with Pre-allocated Fixed Classifiers ( http://arxiv.org/abs/2010.08657v1 )

ライセンス: Link先を確認
Federico Pernici, Matteo Bruni, Claudio Baecchi, Francesco Turchini, Alberto Del Bimbo(参考訳) 授業インクリメンタルラーニングでは、学習エージェントは、新しいクラスを学習しながら前のクラスを忘れないように、データのストリームに直面します。 ニューラルネットワークは、以前取得した知識を忘れるため、この設定で苦しむことが知られている。 この問題に対処するために、有効な手法はエピソディックメモリに格納された過去のデータを活用し、新しいクラスに対応するために最終分類器ノードを拡張する。 本研究では,拡張型分類器を,学習フェーズの開始時から多くの事前配置された出力ノードが分類損失権を受けるような,新しい固定型分類器に置き換える。 標準拡張分類器とは対照的に、以下のことができる。 (a)未発見の将来のクラスの出力ノードは、漸進的に到達する正のサンプルとともに学習の始めから、まず負のサンプルを見る。 (b)学習モデルに新しいクラスが組み込まれているため、幾何学的構成を変えない特徴を学ぶ。 公開データセットを用いた実験では、提案手法は拡張型分類器と同じくらい有効であり、それ以外は存在しない内部特徴表現の興味深い特徴を示す。 多数のクラスを事前に配置したアブレーション研究は,アプローチをさらに検証する。

In class-incremental learning, a learning agent faces a stream of data with the goal of learning new classes while not forgetting previous ones. Neural networks are known to suffer under this setting, as they forget previously acquired knowledge. To address this problem, effective methods exploit past data stored in an episodic memory while expanding the final classifier nodes to accommodate the new classes. In this work, we substitute the expanding classifier with a novel fixed classifier in which a number of pre-allocated output nodes are subject to the classification loss right from the beginning of the learning phase. Contrarily to the standard expanding classifier, this allows: (a) the output nodes of future unseen classes to firstly see negative samples since the beginning of learning together with the positive samples that incrementally arrive; (b) to learn features that do not change their geometric configuration as novel classes are incorporated in the learning model. Experiments with public datasets show that the proposed approach is as effective as the expanding classifier while exhibiting novel intriguing properties of the internal feature representation that are otherwise not-existent. Our ablation study on pre-allocating a large number of classes further validates the approach.
翻訳日:2022-10-06 20:03:35 公開日:2020-10-16
# DPAttack: ユニバーサルオブジェクト検出に対する拡散パッチ攻撃

DPAttack: Diffused Patch Attacks against Universal Object Detection ( http://arxiv.org/abs/2010.11679v1 )

ライセンス: Link先を確認
Shudeng Wu, Tao Dai, Shu-Tao Xia(参考訳) 近年、ディープニューラルネットワーク(DNN)は、オブジェクト検出(例えば、より高速なRCNN、YOLO、CenterNet)で広く使われ、成功している。 しかし、最近の研究では、DNNは敵の攻撃に弱いことが示されている。 対象検出に対する敵対攻撃は、全画素攻撃とパッチ攻撃の2つのカテゴリに分けられる。 これらの攻撃は画像中の多数のピクセルに摂動を与えるが、少数のピクセルしか変化しない小惑星や格子状形状の拡散パッチによって対象検出器を騙すための拡散パッチ攻撃(\textbf{DPAttack})を提案した。 実験によると、私たちのDPAttackは、拡散したパッチでほとんどのオブジェクト検出器を騙すことができ、Alibaba Tianchiコンペで2位になった。 私たちのコードはhttps://github.com/Wu-Shudeng/DPAttackから取得できます。

Recently, deep neural networks (DNNs) have been widely and successfully used in Object Detection, e.g. Faster RCNN, YOLO, CenterNet. However, recent studies have shown that DNNs are vulnerable to adversarial attacks. Adversarial attacks against object detection can be divided into two categories, whole-pixel attacks and patch attacks. While these attacks add perturbations to a large number of pixels in images, we proposed a diffused patch attack (\textbf{DPAttack}) to successfully fool object detectors by diffused patches of asteroid-shaped or grid-shape, which only change a small number of pixels. Experiments show that our DPAttack can successfully fool most object detectors with diffused patches and we get the second place in the Alibaba Tianchi competition: Alibaba-Tsinghua Adversarial Challenge on Object Detection. Our code can be obtained from https://github.com/Wu-Shudeng/DPAttack.
翻訳日:2022-10-06 20:03:20 公開日:2020-10-16
# 最小データ学習のための補助タスク重み付け

Auxiliary Task Reweighting for Minimum-data Learning ( http://arxiv.org/abs/2010.08244v1 )

ライセンス: Link先を確認
Baifeng Shi, Judy Hoffman, Kate Saenko, Trevor Darrell, Huijuan Xu(参考訳) 教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。 データ不足を補うために、補助タスクを使用してメインタスクに新たな監督を提供する方法が考えられる。 異なる補助タスクの重み付けの割り当てと最適化は、重要な研究課題であり、主に未熟な研究課題である。 本研究では,メインタスクのデータ要求量を削減するために,補助タスクを自動的に重み付けする手法を提案する。 具体的には,メインタスクに先立って補助タスクの重み付き確率関数をサロゲートとして定式化する。 補助タスク重みを調整して主タスクのサロゲート前と真前との発散を最小限に抑えることにより、より正確な事前推定を行い、主タスクに必要なトレーニングデータの最小化とコストのかかるグリッド探索の回避を目標とする。 複数の実験環境(半教師付き学習, 複数ラベル分類など)において, 本アルゴリズムは, 従来のタスク再重み付け手法と比較して, 主タスクのラベル付きデータを有効活用できることを実証した。 また,いくつかの追加例(例:少数ショットのドメイン適応)の極端なケースでは,アルゴリズムがベースラインよりも大幅に改善することを示す。

Supervised learning requires a large amount of training data, limiting its application where labeled data is scarce. To compensate for data scarcity, one possible method is to utilize auxiliary tasks to provide additional supervision for the main task. Assigning and optimizing the importance weights for different auxiliary tasks remains an crucial and largely understudied research question. In this work, we propose a method to automatically reweight auxiliary tasks in order to reduce the data requirement on the main task. Specifically, we formulate the weighted likelihood function of auxiliary tasks as a surrogate prior for the main task. By adjusting the auxiliary task weights to minimize the divergence between the surrogate prior and the true prior of the main task, we obtain a more accurate prior estimation, achieving the goal of minimizing the required amount of training data for the main task and avoiding a costly grid search. In multiple experimental settings (e.g. semi-supervised learning, multi-label classification), we demonstrate that our algorithm can effectively utilize limited labeled data of the main task with the benefit of auxiliary tasks compared with previous task reweighting methods. We also show that under extreme cases with only a few extra examples (e.g. few-shot domain adaptation), our algorithm results in significant improvement over the baseline.
翻訳日:2022-10-06 20:03:01 公開日:2020-10-16
# 干渉モデリングのための神経常微分方程式

Neural Ordinary Differential Equations for Intervention Modeling ( http://arxiv.org/abs/2010.08304v1 )

ライセンス: Link先を確認
Daehoon Gwak, Gyuhyeon Sim, Michael Poli, Stefano Massaroli, Jaegul Choo, Edward Choi(参考訳) ニューラルネットワークの潜在表現の前方ダイナミクスを常微分方程式として解釈することで、神経常微分方程式(neural ordinary differential equation,neural ode)は、連続時間領域におけるシステムのダイナミクスをモデル化するための有効な枠組みとして現れた。 しかし、現実世界のシステムは、移動球が他のボールと接触したり、患者が特定の薬物で投与されたりするなど、システムのダイナミクスの変化を引き起こす外部介入を伴うことが多い。 しかし、ニューラルODEと最近の多くの変種は、観察と介入を個別に適切にモデル化しないため、そのような介入をモデル化するには適していない。 本稿では,観察と介入を別々に扱う2つのode関数を用いて,外部介入の効果を適切にモデル化するニューラルodeベースアプローチ(imode)を提案する。 人工的および実世界の時系列データセットを用いて,既存の手法と比較してimodeの優位性を一貫して実証した。

By interpreting the forward dynamics of the latent representation of neural networks as an ordinary differential equation, Neural Ordinary Differential Equation (Neural ODE) emerged as an effective framework for modeling a system dynamics in the continuous time domain. However, real-world systems often involves external interventions that cause changes in the system dynamics such as a moving ball coming in contact with another ball, or such as a patient being administered with particular drug. Neural ODE and a number of its recent variants, however, are not suitable for modeling such interventions as they do not properly model the observations and the interventions separately. In this paper, we propose a novel neural ODE-based approach (IMODE) that properly model the effect of external interventions by employing two ODE functions to separately handle the observations and the interventions. Using both synthetic and real-world time-series datasets involving interventions, our experimental results consistently demonstrate the superiority of IMODE compared to existing approaches.
翻訳日:2022-10-06 20:02:38 公開日:2020-10-16
# ドロップアウトを用いたモデル分布からの多様な翻訳の生成

Generating Diverse Translation from Model Distribution with Dropout ( http://arxiv.org/abs/2010.08178v1 )

ライセンス: Link先を確認
Xuanfu Wu, Yang Feng, Chenze Shao(参考訳) 翻訳品質の改善にもかかわらず、ニューラルマシン翻訳(NMT)はその世代における多様性の欠如に悩まされることが多い。 本稿では,ベイズモデルとサンプリングモデルを用いた多種多様なモデルを推論のために導出することで,多種多様な翻訳を生成することを提案する。 NMTモデルにコンクリートドロップアウトを適用し,それぞれが特定のトレーニングデータに基づく後部モデル分布に対応してベイジアンモデリングを原理として,その予測に具体的な信頼性を持つ。 変分推論では、後続モデル分布は変分分布と近似することができ、そこから推論の最終モデルがサンプリングされる。 本研究では,中国語・英語・ドイツ語の翻訳課題について実験を行い,本手法が多様性と精度のトレードオフを改善することを示す。

Despite the improvement of translation quality, neural machine translation (NMT) often suffers from the lack of diversity in its generation. In this paper, we propose to generate diverse translations by deriving a large number of possible models with Bayesian modelling and sampling models from them for inference. The possible models are obtained by applying concrete dropout to the NMT model and each of them has specific confidence for its prediction, which corresponds to a posterior model distribution under specific training data in the principle of Bayesian modeling. With variational inference, the posterior model distribution can be approximated with a variational distribution, from which the final models for inference are sampled. We conducted experiments on Chinese-English and English-German translation tasks and the results shows that our method makes a better trade-off between diversity and accuracy.
翻訳日:2022-10-06 20:02:21 公開日:2020-10-16
# フィルタバッチ正規化

Filtered Batch Normalization ( http://arxiv.org/abs/2010.08251v1 )

ライセンス: Link先を確認
Andras Horvath, Jalal Al-afandi(参考訳) ニューラルネットワークにおける異なる層の活性化はガウス分布に従うという一般的な仮定である。 この分布は、バッチ正規化、収束速度の増大、精度の向上といった正規化技術を用いて変換することができる。 本稿では、すべての層における活性化が必ずしもガウス分布に従わないことを示す。 より深い層内のニューロンはより選択的で特異的であり、非常に大きな分布外活性化をもたらす。 これらのアクティベーションをフィルタリングすることで、トレーニング中にバッチ正規化に対して、より一貫性のある平均および分散値を作成できることを実証し、収束速度をさらに向上し、検証精度を高めることができることを示す。

It is a common assumption that the activation of different layers in neural networks follow Gaussian distribution. This distribution can be transformed using normalization techniques, such as batch-normalization, increasing convergence speed and improving accuracy. In this paper we would like to demonstrate, that activations do not necessarily follow Gaussian distribution in all layers. Neurons in deeper layers are more selective and specific which can result extremely large, out-of-distribution activations. We will demonstrate that one can create more consistent mean and variance values for batch normalization during training by filtering out these activations which can further improve convergence speed and yield higher validation accuracy.
翻訳日:2022-10-06 19:55:44 公開日:2020-10-16
# 週次時系列予測のための強固なベースライン

A Strong Baseline for Weekly Time Series Forecasting ( http://arxiv.org/abs/2010.08158v1 )

ライセンス: Link先を確認
Rakshitha Godahewa, Christoph Bergmeir, Geoffrey I. Webb, Pablo Montero-Manso(参考訳) 今日では多くの企業や産業が毎週の時系列の正確な予測を必要としている。 しかし、現在、予測文献は、このタスク専用の、使いやすさ、自動性、再現性、正確なアプローチを提供していない。 本稿では,最先端の予測技術,予測組み合わせ,グローバルモデリングを活用して,この領域の強力なベースラインとして使用できる予測手法を提案する。 提案手法では,グローバルリカレントニューラルネットワークモデル,Theta,Trigonometric Box-Cox ARMA Trends Seasonal (TBATS),Dynamic Harmonic Regression ARIMA (DHR-ARIMA) の4つのベース予測モデルを用いた。 それらは、ラッソ回帰積み重ねアプローチを使って最適に結合される。 提案手法の性能を,6つのデータセットを用いた最先端の週次予測モデルに対して評価する。 4つの評価指標において,本手法は統計的に有意な差でベンチマーク手法を一貫して上回っていることを示す。 特に、我々のモデルは、M4週間データセットに対して、平均sMAPEで最も正確な予測を生成することができる。

Many businesses and industries require accurate forecasts for weekly time series nowadays. The forecasting literature however does not currently provide easy-to-use, automatic, reproducible and accurate approaches dedicated to this task. We propose a forecasting method that can be used as a strong baseline in this domain, leveraging state-of-the-art forecasting techniques, forecast combination, and global modelling. Our approach uses four base forecasting models specifically suitable for forecasting weekly data: a global Recurrent Neural Network model, Theta, Trigonometric Box-Cox ARMA Trend Seasonal (TBATS), and Dynamic Harmonic Regression ARIMA (DHR-ARIMA). Those are then optimally combined using a lasso regression stacking approach. We evaluate the performance of our method against a set of state-of-the-art weekly forecasting models on six datasets. Across four evaluation metrics, we show that our method consistently outperforms the benchmark methods by a considerable margin with statistical significance. In particular, our model can produce the most accurate forecasts, in terms of mean sMAPE, for the M4 weekly dataset.
翻訳日:2022-10-06 19:55:32 公開日:2020-10-16
# 自己指導型学習では、Rationalityは一般化を暗示する

For self-supervised learning, Rationality implies generalization, provably ( http://arxiv.org/abs/2010.08508v1 )

ライセンス: Link先を確認
Yamini Bansal, Gal Kaplun, Boaz Barak(参考訳) まず自己スーパービジョンを用いてトレーニングデータの表現$r$を学習し、次に単純な(線形な)分類器$g$をラベルに適合させることによって得られる分類器の一般化ギャップに新たな上限を証明した。 具体的には、(後述の仮定の下で)そのような分類器の一般化ギャップが 0 となる傾向が示される:$\mathsf{C}(g) \ll n$, ここで、$\mathsf{C}(g)$ は単純な分類器の複雑さの適切に定義された測度であり、$n$ は訓練サンプルの数である。 我々は、我々の境界は表現$r$の複雑さとは無関係であることを強調する。 我々は、後に分類に使用されるのと同じトレーニングデータセットを使用できる表現学習タスクに対して、構造的あるいは条件的独立性を仮定することはない。 むしろ、トレーニング手順は、特定の自然なノイズロバスト性(少量のラベルノイズを加えると、パフォーマンスが低下する)と合理性(間違ったラベルを付けることは、ラベルを全く受け取らないよりはまし)を満たすと仮定し、多くの標準アーキテクチャにわたって広く保持される条件を仮定する。 我々は,CIFAR-10 や ImageNet 上の多くの一般的な表現学習ベース分類器(SimCLR,AMDIM,MoCo など)に対して,我々の境界は空白ではないことを示す。

We prove a new upper bound on the generalization gap of classifiers that are obtained by first using self-supervision to learn a representation $r$ of the training data, and then fitting a simple (e.g., linear) classifier $g$ to the labels. Specifically, we show that (under the assumptions described below) the generalization gap of such classifiers tends to zero if $\mathsf{C}(g) \ll n$, where $\mathsf{C}(g)$ is an appropriately-defined measure of the simple classifier $g$'s complexity, and $n$ is the number of training samples. We stress that our bound is independent of the complexity of the representation $r$. We do not make any structural or conditional-independence assumptions on the representation-learning task, which can use the same training dataset that is later used for classification. Rather, we assume that the training procedure satisfies certain natural noise-robustness (adding small amount of label noise causes small degradation in performance) and rationality (getting the wrong label is not better than getting no label at all) conditions that widely hold across many standard architectures. We show that our bound is non-vacuous for many popular representation-learning based classifiers on CIFAR-10 and ImageNet, including SimCLR, AMDIM and MoCo.
翻訳日:2022-10-06 19:55:11 公開日:2020-10-16
# 分散知識グラフ表現学習

Decentralized Knowledge Graph Representation Learning ( http://arxiv.org/abs/2010.08114v1 )

ライセンス: Link先を確認
Lingbing Guo, Weiqing Wang, Zequn Sun, Chenghao Liu, Wei Hu(参考訳) 知識グラフ(KG)表現学習法は多くのKG指向タスクにおいて競争性能を達成しており、その中でも最も優れたものはグラフニューラルネットワーク(GNN)をベースにしている。 しかしながら、多くのKG表現学習シナリオは、エンティティ間の関係を記述する構造情報のみを提供し、エンティティには入力機能がない。 この場合、既存のアグリゲーションメカニズムは、これらのエンティティがアグリゲーションのための事前定義された特徴を持っていないため、見当たらないエンティティの埋め込みを誘導できない。 本稿では,各エンティティを隣接ノードの埋め込みからのみエンコードする分散型kg表現学習手法であるausorrlを提案する。 最適化のために、出力埋め込みが対応する元の埋め込みから継続的に知識を得ることができるように、モデル自身から知識を蒸留するアルゴリズムを設計する。 広範な実験により,提案手法は,エンティティアライメントタスクにおいて多くの最先端モデルよりも優れた性能を示し,エンティティ予測タスクにおける競合性能を達成した。 さらに、帰納的設定の下では、両方のタスクにおけるすべてのベースラインを著しく上回った。

Knowledge graph (KG) representation learning methods have achieved competitive performance in many KG-oriented tasks, among which the best ones are usually based on graph neural networks (GNNs), a powerful family of networks that learns the representation of an entity by aggregating the features of its neighbors and itself. However, many KG representation learning scenarios only provide the structure information that describes the relationships among entities, causing that entities have no input features. In this case, existing aggregation mechanisms are incapable of inducing embeddings of unseen entities as these entities have no pre-defined features for aggregation. In this paper, we present a decentralized KG representation learning approach, decentRL, which encodes each entity from and only from the embeddings of its neighbors. For optimization, we design an algorithm to distill knowledge from the model itself such that the output embeddings can continuously gain knowledge from the corresponding original embeddings. Extensive experiments show that the proposed approach performed better than many cutting-edge models on the entity alignment task, and achieved competitive performance on the entity prediction task. Furthermore, under the inductive setting, it significantly outperformed all baselines on both tasks.
翻訳日:2022-10-06 19:54:25 公開日:2020-10-16
# トランスフォーマによる言語間関係抽出

Cross-Lingual Relation Extraction with Transformers ( http://arxiv.org/abs/2010.08652v1 )

ライセンス: Link先を確認
Jian Ni and Taesun Moon and Parul Awasthy and Radu Florian(参考訳) 関係抽出(RE)は、多くのNLPアプリケーションに不可欠な情報を提供するため、情報抽出において最も重要なタスクの1つである。 本稿では,対象言語における人間のアノテーションや言語間リソースを必要としない言語間reアプローチを提案する。 教師なしの言語間表現学習フレームワークを基盤として,エンティティ位置情報とエンティティ型情報の両方を効果的にエンコード可能な新しい符号化方式により,複数の深層トランスフォーマーベースREモデルを開発する。 私たちのREモデルは、英語データでトレーニングすると、ディープニューラルネットワークベースの英語REモデルよりも優れています。 さらに重要なことは、2つのデータセット(教師対象言語REモデルの精度の68~89%)で最先端のクロスランガルRE性能を達成することで、ゼロショットのクロスランガルREを実行するために我々のモデルを適用できるということです。 追加のトレーニングデータやクロスランガルリソースを必要としない高い言語間転送効率は、当社のREモデルが低リソース言語に特に有用であることを示している。

Relation extraction (RE) is one of the most important tasks in information extraction, as it provides essential information for many NLP applications. In this paper, we propose a cross-lingual RE approach that does not require any human annotation in a target language or any cross-lingual resources. Building upon unsupervised cross-lingual representation learning frameworks, we develop several deep Transformer based RE models with a novel encoding scheme that can effectively encode both entity location and entity type information. Our RE models, when trained with English data, outperform several deep neural network based English RE models. More importantly, our models can be applied to perform zero-shot cross-lingual RE, achieving the state-of-the-art cross-lingual RE performance on two datasets (68-89% of the accuracy of the supervised target-language RE model). The high cross-lingual transfer efficiency without requiring additional training data or cross-lingual resources shows that our RE models are especially useful for low-resource languages.
翻訳日:2022-10-06 19:54:06 公開日:2020-10-16
# PrivNet: 推薦のための移行学習における個人属性の保護

PrivNet: Safeguarding Private Attributes in Transfer Learning for Recommendation ( http://arxiv.org/abs/2010.08187v1 )

ライセンス: Link先を確認
Guangneng Hu, Qiang Yang(参考訳) トランスファー学習は、ソースドメインの知識を用いてターゲットレコメンダシステムを改善する効果的な手法である。 既存の研究は、ソースドメインのプライバシー漏洩を無視しながら、ターゲットドメインのレコメンデーションパフォーマンスに焦点を当てている。 しかし、転送された知識は、意図せずソースドメインの個人情報をリークする可能性がある。 例えば、アタッカーは、ソースドメインデータ所有者が提供した履歴購入からユーザの人口統計を正確に推測することができる。 本稿では,プライバシを意識したニューラル表現を学習し,ソースのプライバシを保護しながら目標性能を改善することにより,上記のプライバシ保護問題に対処する。 鍵となるアイデアは、敵のゲームによってモデル化された、将来の見えないユーザのプライバシを保護するトレーニング中の攻撃をシミュレートすることで、トランスファー学習モデルが攻撃に対して堅牢になるようにすることだ。 実験により、提案するprivnetモデルは、プライバシーの漏えいから、転送の恩恵を受ける知識をうまく切り離すことが示されている。

Transfer learning is an effective technique to improve a target recommender system with the knowledge from a source domain. Existing research focuses on the recommendation performance of the target domain while ignores the privacy leakage of the source domain. The transferred knowledge, however, may unintendedly leak private information of the source domain. For example, an attacker can accurately infer user demographics from their historical purchase provided by a source domain data owner. This paper addresses the above privacy-preserving issue by learning a privacy-aware neural representation by improving target performance while protecting source privacy. The key idea is to simulate the attacks during the training for protecting unseen users' privacy in the future, modeled by an adversarial game, so that the transfer learning model becomes robust to attacks. Experiments show that the proposed PrivNet model can successfully disentangle the knowledge benefitting the transfer from leaking the privacy.
翻訳日:2022-10-06 19:53:46 公開日:2020-10-16