このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200516となっている論文です。

PDF登録状況(公開日: 20200516)

TitleAuthorsAbstract論文公表日・翻訳日
# 深部Q-Learningを用いた運転安全のための脳波に基づくDrowsinessの推定

EEG-based Drowsiness Estimation for Driving Safety using Deep Q-Learning ( http://arxiv.org/abs/2001.02399v2 )

ライセンス: Link先を確認
Yurui Ming, Dongrui Wu, Yu-Kai Wang, Yuhui Shi, Chin-Teng Lin(参考訳) 疲労は道路死の最も重要な要因であり、運転中の疲労の症状は眠気である。 本稿では、深部Q-learningを用いて、模擬耐久運転テスト中に得られた脳波データセットを分析することを提案する。 この実験は、眠気と運転性能の相関を計測することにより、特にアプリケーションの観点から重要な脳-コンピュータインターフェース(BCI)パラダイムを示す。 強化学習フレームワークに適合するように運転試験の用語を適応させ,q学習タスクの最適化として眠気推定問題を定式化する。 最新のQ-Learning技術を参照し、脳波データの特徴に言及することにより、間接的に眠気を推定できる行動提案のための深いQ-ネットワークをカスタマイズする。 その結果、訓練されたモデルは脳波検査データに対して、心の状態の変動を十分に追跡することができ、この新たな計算パラダイムの実現可能性と実用性が示された。 また,本手法は教師あり学習法よりも優れ,実際の応用に優れていることを示す。 我々の知る限りでは、このbciシナリオに深層強化学習法を導入するのは初めてであり、この手法は他のbciケースに一般化できる可能性がある。

Fatigue is the most vital factor of road fatalities and one manifestation of fatigue during driving is drowsiness. In this paper, we propose using deep Q-learning to analyze an electroencephalogram (EEG) dataset captured during a simulated endurance driving test. By measuring the correlation between drowsiness and driving performance, this experiment represents an important brain-computer interface (BCI) paradigm especially from an application perspective. We adapt the terminologies in the driving test to fit the reinforcement learning framework, thus formulate the drowsiness estimation problem as an optimization of a Q-learning task. By referring to the latest deep Q-Learning technologies and attending to the characteristics of EEG data, we tailor a deep Q-network for action proposition that can indirectly estimate drowsiness. Our results show that the trained model can trace the variations of mind state in a satisfactory way against the testing EEG data, which demonstrates the feasibility and practicability of this new computation paradigm. We also show that our method outperforms the supervised learning counterpart and is superior for real applications. To the best of our knowledge, we are the first to introduce the deep reinforcement learning method to this BCI scenario, and our method can be potentially generalized to other BCI cases.
翻訳日:2023-01-13 10:01:41 公開日:2020-05-16
# シングルシステムゲームにおける不可逆過程の利点について

On the Advantage of Irreversible Processes in Single-System Games ( http://arxiv.org/abs/2001.04713v2 )

ライセンス: Link先を確認
Xavier Coiteux-Roy, Stefan Wolf(参考訳) CHSHノシグナリングゲームは、古典的戦略の勝利率、量子絡み合った戦略、およびノーシグナリング戦略の間のギャップを示すことによってベル非局所性を研究する。 同様に、CHSH* のシングルシステムゲームは、古典的可逆戦略、量子可逆戦略、および不可逆戦略の勝利率のギャップを示すことによって、不可逆過程の利点を探求する。 CHSH* の単一システムゲームに最適な消去ルールの不可逆的プロセスは、この 'erasure advantage'' は必ずしも全ての単一システムゲームに拡張されない: 可逆性は無関係であり、古典的操作と量子的操作の区別のみが重要である 32-Game を導入する。 量子的優位性を維持しつつ,CHSH*ゲームを消去免疫にすることで新たな知見を提示する。 逆の手順で結論づけると、32ゲームは消去できるようにチューニングし、そのプロセスにおける量子アドバンテージを消去する。 テイクホームメッセージは、aliceが入力全体をエンコードするにはシングルシステムのサイズが小さすぎる場合、量子アドバンテージと消去アドバンテージは独立に発生する。

The CHSH no-signalling game studies Bell nonlocality by showcasing a gap between the win rates of classical strategies, quantum-entangled strategies, and no-signalling strategies. Similarly, the CHSH* single-system game explores the advantage of irreversible processes by showcasing a gap between the win rates of classical reversible strategies, quantum reversible strategies, and irreversible strategies. The irreversible process of erasure rules supreme for the CHSH* single-system game, but this ``erasure advantage'' does not necessarily extend to every single-system game: We introduce the 32-Game, in which reversibility is irrelevant and only the distinction between classical and quantum operations matters. We showcase our new insight by modifying the CHSH* game to make it erasure-immune, while conserving its quantum advantage. We conclude by the reverse procedure: We tune the 32-Game to make it erasure-vulnerable, and erase its quantum advantage in the process. The take-home message is that, when the size of the single-system is too small for Alice to encode her whole input, quantum advantage and erasure advantage can happen independently.
翻訳日:2023-01-11 12:59:39 公開日:2020-05-16
# gaussian-laplacian pyramid blendingに基づく病理組織像のデータ拡張

Data Augmentation for Histopathological Images Based on Gaussian-Laplacian Pyramid Blending ( http://arxiv.org/abs/2002.00072v2 )

ライセンス: Link先を確認
Steve Tsham Mpinda Ataky and Jonathan de Matos and Alceu de S. Britto Jr. and Luiz E. S. Oliveira and Alessandro L. Koerich(参考訳) データ不均衡は、機械学習(ML)アルゴリズムに影響を及ぼす主要な問題である。 MLアルゴリズムのほとんどは、データ不均衡を考慮していない損失関数を最適化しようとするため、このような問題は厄介である。 したがって、機械学習アルゴリズムは、トレーニングデータの最も頻繁なクラスを予測するために偏りのある自明なモデルを生成する。 病理組織像(HIs)の場合,低レベルのデータ拡張(DA)技術と高レベルのデータ拡張(DA)技術の両方が,患者間変動の有無で適用された場合,そのモデルが染色過程に関連する色表現を学習する傾向にある。 本稿では, ガウス・ラプラキアピラミッドを用いた画像ブレンディングにより, hiデータセットを増強するだけでなく, 患者間変動を分散できる新しい手法を提案する。 提案されたアプローチは、異なる患者の2つの画像のガウスピラミッドを見つけ、そのピラミッドを見つけることである。 その後、異なるHIの左半側と右半側をラプラシアピラミッドの各レベルに接合し、関節ピラミッドから原像を復元する。 この組成物は、2人の患者の染色変化を組み合わせ、色の違いが学習過程を誤解させるのを避ける。 BreakHisデータセットの実験結果から、文献で示されたDA手法の大多数は、有望な利得を示している。

Data imbalance is a major problem that affects several machine learning (ML) algorithms. Such a problem is troublesome because most of the ML algorithms attempt to optimize a loss function that does not take into account the data imbalance. Accordingly, the ML algorithm simply generates a trivial model that is biased toward predicting the most frequent class in the training data. In the case of histopathologic images (HIs), both low-level and high-level data augmentation (DA) techniques still present performance issues when applied in the presence of inter-patient variability; whence the model tends to learn color representations, which is related to the staining process. In this paper, we propose a novel approach capable of not only augmenting HI dataset but also distributing the inter-patient variability by means of image blending using the Gaussian-Laplacian pyramid. The proposed approach consists of finding the Gaussian pyramids of two images of different patients and finding the Laplacian pyramids thereof. Afterwards, the left-half side and the right-half side of different HIs are joined in each level of the Laplacian pyramid, and from the joint pyramids, the original image is reconstructed. This composition combines the stain variation of two patients, avoiding that color differences mislead the learning process. Experimental results on the BreakHis dataset have shown promising gains vis-a-vis the majority of DA techniques presented in the literature.
翻訳日:2023-01-05 06:13:52 公開日:2020-05-16
# ポリシー勾配に基づく量子近似最適化アルゴリズム

Policy Gradient based Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2002.01068v2 )

ライセンス: Link先を確認
Jiahao Yao, Marin Bukov, Lin Lin(参考訳) 量子近似最適化アルゴリズム(qaoa)は,近年,ハイブリッド量子/古典アルゴリズムとして注目されている。 QAOAは量子制御のための変分アンサッツと見なすこともできる。 しかし、創発的量子技術への直接的応用は、追加の物理的制約に直面する。 i) 量子系の状態は観測不可能である。 (ii)目的関数の導関数を得るには、計算上費用がかかるか、実験で到達できない場合がある。 (iii)目的関数の値は、ノイズの多い中間スケール量子(nisq)デバイスの場合と同様に、様々な不確実性源に敏感である。 このような制約を考慮すると、QAOAの変動パラメータをノイズロストな方法で最適化するのにポリシー勾配に基づく強化学習(RL)アルゴリズムが適していることを示し、連続的な量子制御のためのRL技術開発への道を開く。 これは、現代の量子シミュレータにおける潜在的な未知のエラーの原因を緩和し、監視するのに役立つ。 単量子および多量子ビット系における量子状態伝達問題に対するアルゴリズムの性能を、ハミルトニアンにおける誤差項や測定過程における量子不確かさといった様々なノイズ源に基づいて解析する。 ノイズの多い環境では、既存の最適化アルゴリズムを上回ることができることを示す。

The quantum approximate optimization algorithm (QAOA), as a hybrid quantum/classical algorithm, has received much interest recently. QAOA can also be viewed as a variational ansatz for quantum control. However, its direct application to emergent quantum technology encounters additional physical constraints: (i) the states of the quantum system are not observable; (ii) obtaining the derivatives of the objective function can be computationally expensive or even inaccessible in experiments, and (iii) the values of the objective function may be sensitive to various sources of uncertainty, as is the case for noisy intermediate-scale quantum (NISQ) devices. Taking such constraints into account, we show that policy-gradient-based reinforcement learning (RL) algorithms are well suited for optimizing the variational parameters of QAOA in a noise-robust fashion, opening up the way for developing RL techniques for continuous quantum control. This is advantageous to help mitigate and monitor the potentially unknown sources of errors in modern quantum simulators. We analyze the performance of the algorithm for quantum state transfer problems in single- and multi-qubit systems, subject to various sources of noise such as error terms in the Hamiltonian, or quantum uncertainty in the measurement process. We show that, in noisy setups, it is capable of outperforming state-of-the-art existing optimization algorithms.
翻訳日:2023-01-04 03:45:05 公開日:2020-05-16
# 効率的なデータエンハンスメントを用いた低光環境における車線検出 : 光条件スタイル転送

Lane Detection in Low-light Conditions Using an Efficient Data Enhancement : Light Conditions Style Transfer ( http://arxiv.org/abs/2002.01177v2 )

ライセンス: Link先を確認
Tong Liu, Zhaowei Chen, Yi Yang, Zehao Wu and Haowei Li(参考訳) 今日では、レーン検出にディープラーニング技術が広く使われているが、低照度での応用は、今日まで課題である。 この問題を解決するためにマルチタスク学習と文脈情報に基づく手法が提案されているが、それらは追加のマニュアルアノテーションを必要とするか、追加の推論オーバーヘッドを導入する。 本稿では,低光環境下で画像を生成するためにGAN(Generative Adversarial Networks)を用いて,車線検出器の環境適応性を向上するスタイル転送型データ拡張手法を提案する。 本ソリューションは,提案するSIM-CycleGAN,光条件伝達,車線検出ネットワークの3部で構成されている。 追加のマニュアルアノテーションや追加の推論オーバーヘッドを必要としない。 ERFNetを用いた車線検出ベンチマークCULaneで本手法の検証を行った。 本手法を用いて訓練した車線検出モデルは,低照度条件における適応性と複雑なシナリオにおけるロバスト性を示した。 この論文のコードは公開される予定だ。

Nowadays, deep learning techniques are widely used for lane detection, but application in low-light conditions remains a challenge until this day. Although multi-task learning and contextual-information-based methods have been proposed to solve the problem, they either require additional manual annotations or introduce extra inference overhead respectively. In this paper, we propose a style-transfer-based data enhancement method, which uses Generative Adversarial Networks (GANs) to generate images in low-light conditions, that increases the environmental adaptability of the lane detector. Our solution consists of three parts: the proposed SIM-CycleGAN, light conditions style transfer and lane detection network. It does not require additional manual annotations nor extra inference overhead. We validated our methods on the lane detection benchmark CULane using ERFNet. Empirically, lane detection model trained using our method demonstrated adaptability in low-light conditions and robustness in complex scenarios. Our code for this paper will be publicly available.
翻訳日:2023-01-04 03:18:15 公開日:2020-05-16
# アイヌ語話者の音声コーパスとアイヌ語話者のエンドツーエンド音声認識

Speech Corpus of Ainu Folklore and End-to-end Speech Recognition for Ainu Language ( http://arxiv.org/abs/2002.06675v3 )

ライセンス: Link先を確認
Kohei Matsuura, Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara(参考訳) アイヌ語(英語: ainu)は、日本の民族集団であるアイヌ人が話していた言語である。 ユネスコによって危惧され、言語遺産のアーカイブと文書化が最重要視されている。 アイヌの民話のかなりの音声録音が制作・蓄積され、彼らの文化を救ったが、ごく一部しか書き起こされていない。 そこで我々は,注釈付き言語アーカイブの開発に寄与するために,アイヌ語の自動音声認識(ASR)プロジェクトを開始した。 本稿では,アイヌにおける音声コーパスの発達とASRの構造と性能について報告する。 4つのモデリングユニット(音節、音節、単語片、単語)を調査し、音節ベースのモデルは単語と音声認識の精度において、それぞれ約60%と85%のそれぞれが話者開放状態において最高の性能を示した。 さらに、話者閉鎖環境では、単語と音声の精度80%と90%が達成されている。 また,英語と日本語の音声コーパスを付加した多言語ASR訓練により,話者開きテストの精度が向上することが判明した。

Ainu is an unwritten language that has been spoken by Ainu people who are one of the ethnic groups in Japan. It is recognized as critically endangered by UNESCO and archiving and documentation of its language heritage is of paramount importance. Although a considerable amount of voice recordings of Ainu folklore has been produced and accumulated to save their culture, only a quite limited parts of them are transcribed so far. Thus, we started a project of automatic speech recognition (ASR) for the Ainu language in order to contribute to the development of annotated language archives. In this paper, we report speech corpus development and the structure and performance of end-to-end ASR for Ainu. We investigated four modeling units (phone, syllable, word piece, and word) and found that the syllable-based model performed best in terms of both word and phone recognition accuracy, which were about 60% and over 85% respectively in speaker-open condition. Furthermore, word and phone accuracy of 80% and 90% has been achieved in a speaker-closed setting. We also found out that a multilingual ASR training with additional speech corpora of English and Japanese further improves the speaker-open test accuracy.
翻訳日:2022-12-31 18:15:50 公開日:2020-05-16
# 写像 {\mathbf{x}\mapsto \sum_{i=1}^d x_i^2$: 干し草の山で針を見つけるコスト

Learning the mapping $\mathbf{x}\mapsto \sum_{i=1}^d x_i^2$: the cost of finding the needle in a haystack ( http://arxiv.org/abs/2002.10561v2 )

ライセンス: Link先を確認
Jiefu Zhang, Leonardo Zepeda-N\'u\~nez, Yuan Yao, Lin Lin(参考訳) 機械学習を用いてマッピングを近似するタスク $\mathbf{x}\mapsto\sum_{i=1}^d x_i^2$ with $x_i\in[-1,1]$ は自明なものであるようだ。 関数の分離可能な構造に関する知識を考えると、関数を非常に正確に、あるいは正確に表現するためのスパースネットワークを設計することができる。 このような構造情報が得られず、高密度ニューラルネットワークのみを使用する場合、高密度ネットワークに埋め込まれたスパースネットワークを見つけるための最適化手順は、関数の所定の数のサンプルを使用して、干し草スタック内の針を見つけるのと似ている。 針を見つけるコスト(サンプルの複雑さによって測定される)が関数のバロンノルムと直接関係があることを実証する。 スパースネットワークのトレーニングには少数のサンプルしか必要ではないが、同じ数のサンプルでトレーニングされた密集したネットワークは、大きなテスト損失と大きな一般化ギャップを示す。 一般化ギャップの大きさを制御するために、明示的な正規化の使用は、$d$が増加するにつれてますます重要になる。 数値的に観察されたサンプル複雑性と明示的な正則化のスケールは$\mathcal{O}(d^{2.5})$であり、実際には$\mathcal{O}(d^{4})$としてスケールする理論上予測されたサンプル複雑性よりも優れている。 明示的な正規化(暗黙的正規化とも呼ばれる)がなければ、数値的に観測されるサンプルの複雑性は著しく高く、$\mathcal{o}(d^{4.5})$に近い。

The task of using machine learning to approximate the mapping $\mathbf{x}\mapsto\sum_{i=1}^d x_i^2$ with $x_i\in[-1,1]$ seems to be a trivial one. Given the knowledge of the separable structure of the function, one can design a sparse network to represent the function very accurately, or even exactly. When such structural information is not available, and we may only use a dense neural network, the optimization procedure to find the sparse network embedded in the dense network is similar to finding the needle in a haystack, using a given number of samples of the function. We demonstrate that the cost (measured by sample complexity) of finding the needle is directly related to the Barron norm of the function. While only a small number of samples is needed to train a sparse network, the dense network trained with the same number of samples exhibits large test loss and a large generalization gap. In order to control the size of the generalization gap, we find that the use of explicit regularization becomes increasingly more important as $d$ increases. The numerically observed sample complexity with explicit regularization scales as $\mathcal{O}(d^{2.5})$, which is in fact better than the theoretically predicted sample complexity that scales as $\mathcal{O}(d^{4})$. Without explicit regularization (also called implicit regularization), the numerically observed sample complexity is significantly higher and is close to $\mathcal{O}(d^{4.5})$.
翻訳日:2022-12-29 03:37:09 公開日:2020-05-16
# ABC-LMPC: 可変境界条件をもつ確率非線形力学系のための安全なサンプルベース学習MPC

ABC-LMPC: Safe Sample-Based Learning MPC for Stochastic Nonlinear Dynamical Systems with Adjustable Boundary Conditions ( http://arxiv.org/abs/2003.01410v2 )

ライセンス: Link先を確認
Brijen Thananjeyan, Ashwin Balakrishna, Ugo Rosolia, Joseph E. Gonzalez, Aaron Ames, Ken Goldberg(参考訳) サンプルベース学習モデル予測制御(LMPC)戦略は,ロボット作業における望ましい理論的特性と優れた経験的性能から近年注目されている。 しかし、確率系におけるLMPCコントローラの事前解析は、反復学習制御設定における線形系に重点を置いている。 本稿では,新規な開始・目標設定への迅速な適応を可能にする新しいLMPCアルゴリズムであるadjustable boundary Condition LMPC(ABC-LMPC)を提案する。 本稿では,本アルゴリズムの現実的なインスタンス化と,その制御器が3つの確率的連続制御タスクの初期および終端条件に適応できることを実験的に示す。

Sample-based learning model predictive control (LMPC) strategies have recently attracted attention due to their desirable theoretical properties and their good empirical performance on robotic tasks. However, prior analysis of LMPC controllers for stochastic systems has mainly focused on linear systems in the iterative learning control setting. We present a novel LMPC algorithm, Adjustable Boundary Condition LMPC (ABC-LMPC), which enables rapid adaptation to novel start and goal configurations and theoretically show that the resulting controller guarantees iterative improvement in expectation for stochastic nonlinear systems. We present results with a practical instantiation of this algorithm and experimentally demonstrate that the resulting controller adapts to a variety of initial and terminal conditions on 3 stochastic continuous control tasks.
翻訳日:2022-12-26 23:37:27 公開日:2020-05-16
# Directed Information Neural Estimatorによる連続チャネルのメモリ容量

Capacity of Continuous Channels with Memory via Directed Information Neural Estimator ( http://arxiv.org/abs/2003.04179v2 )

ライセンス: Link先を確認
Ziv Aharoni and Dor Tsur and Ziv Goldfeld and Haim Henry Permuter(参考訳) チャネルの容量(フィードバックの有無に関わらず)をメモリと連続アルファベットで計算するのは難しい作業です。 全てのチャネル入力分布に対して、指向情報(DI)レートを最適化する必要がある。 目的は多文字表現であり、その解析解はいくつかの特定のケースでのみ知られている。 解析解が存在しない場合やチャネルモデルが未知の場合、計算能力や近似能力の統一的な枠組みは存在しない。 本研究では,フィードバックの有無に関わらず,チャネルを「ブラックボックス」として扱う新しいキャパシティ推定アルゴリズムを提案する。 アルゴリズムには2つの主な要素があります (i)ノイズ変数をチャネル入力分布に形作るニューラル分散トランス(ndt)モデルで、サンプル化することができる。 (ii)現在のndtモデルの通信速度を推定するdiニューラルネットワーク推定器(dine)。 これらのモデルは、チャネル容量を推定し、最適な入力分布のためのNDTを得るために、交互に最大化手順で訓練される。 本手法は移動平均付加型ガウス雑音チャネル上で実証され,チャネル遷移カーネルの知識なくキャパシティとフィードバックキャパシティの両方を推定できることが示されている。 提案した推定フレームワークは,これまでアクセス不能であった連続アルファベットチャネルに対して,無数のキャパシティ近似結果に対する扉を開く。

Calculating the capacity (with or without feedback) of channels with memory and continuous alphabets is a challenging task. It requires optimizing the directed information (DI) rate over all channel input distributions. The objective is a multi-letter expression, whose analytic solution is only known for a few specific cases. When no analytic solution is present or the channel model is unknown, there is no unified framework for calculating or even approximating capacity. This work proposes a novel capacity estimation algorithm that treats the channel as a `black-box', both when feedback is or is not present. The algorithm has two main ingredients: (i) a neural distribution transformer (NDT) model that shapes a noise variable into the channel input distribution, which we are able to sample, and (ii) the DI neural estimator (DINE) that estimates the communication rate of the current NDT model. These models are trained by an alternating maximization procedure to both estimate the channel capacity and obtain an NDT for the optimal input distribution. The method is demonstrated on the moving average additive Gaussian noise channel, where it is shown that both the capacity and feedback capacity are estimated without knowledge of the channel transition kernel. The proposed estimation framework opens the door to a myriad of capacity approximation results for continuous alphabet channels that were inaccessible until now.
翻訳日:2022-12-25 09:36:05 公開日:2020-05-16
# CovidCTNet:CT画像を用いたCovid-19の同定のためのオープンソースのディープラーニングアプローチ

CovidCTNet: An Open-Source Deep Learning Approach to Identify Covid-19 Using CT Image ( http://arxiv.org/abs/2005.03059v3 )

ライセンス: Link先を確認
Tahereh Javaheri, Morteza Homayounfar, Zohreh Amoozgar, Reza Reiazi, Fatemeh Homayounieh, Engy Abbas, Azadeh Laali, Amir Reza Radmard, Mohammad Hadi Gharib, Seyed Ali Javad Mousavi, Omid Ghaemi, Rosa Babaei, Hadi Karimi Mobin, Mehdi Hosseinzadeh, Rana Jahanban-Esfahlan, Khaled Seidi, Mannudeep K. Kalra, Guanglan Zhang, L.T. Chitkushev, Benjamin Haibe-Kains, Reza Malekzadeh, Reza Rawassizadeh(参考訳) コロナウイルス病2019(Covid-19)は、治療の選択肢が限られている。 Covid-19の早期かつ正確な診断は、病気の拡散とそれに伴う死亡を減少させるのに不可欠である。 現在、リバーストランスクリプトゼポリメラーゼ連鎖反応(RT-PCR)による検出は、Covid-19の外来および入院患者のゴールドスタンダードである。 RT-PCRは高速な方法であるが、検出精度は70-75%程度である。 もう1つの承認された戦略はCTイメージングである。 CT画像の感度は80-98%と非常に高いが、同様の精度は70%である。 我々は,CT画像検出の精度を高めるために,CovidCTNetというオープンソースのアルゴリズムを開発し,Covid-19とCAP(Community- Acquired pneumonia)および他の肺疾患との鑑別に成功した。 covidctnetは放射線科医(70%)に比べてct画像検出の精度を90%に向上させる。 このモデルは、CTイメージングハードウェアとは無関係に、異質で小さなサンプルサイズで動作するように設計されている。 新型コロナウイルスの検出をグローバルに促進し,放射線科医や医師のスクリーニングプロセスを支援するため,全アルゴリズムとパラメトリックの詳細をオープンソース形式で公開する。 CovidCTNetのオープンソース共有により、開発者は、ユーザのプライバシとデータのオーナシップを維持しながら、サービスの迅速な改善と最適化が可能になります。

Coronavirus disease 2019 (Covid-19) is highly contagious with limited treatment options. Early and accurate diagnosis of Covid-19 is crucial in reducing the spread of the disease and its accompanied mortality. Currently, detection by reverse transcriptase polymerase chain reaction (RT-PCR) is the gold standard of outpatient and inpatient detection of Covid-19. RT-PCR is a rapid method, however, its accuracy in detection is only ~70-75%. Another approved strategy is computed tomography (CT) imaging. CT imaging has a much higher sensitivity of ~80-98%, but similar accuracy of 70%. To enhance the accuracy of CT imaging detection, we developed an open-source set of algorithms called CovidCTNet that successfully differentiates Covid-19 from community-acquired pneumonia (CAP) and other lung diseases. CovidCTNet increases the accuracy of CT imaging detection to 90% compared to radiologists (70%). The model is designed to work with heterogeneous and small sample sizes independent of the CT imaging hardware. In order to facilitate the detection of Covid-19 globally and assist radiologists and physicians in the screening process, we are releasing all algorithms and parametric details in an open-source format. Open-source sharing of our CovidCTNet enables developers to rapidly improve and optimize services, while preserving user privacy and data ownership.
翻訳日:2022-12-06 05:24:46 公開日:2020-05-16
# ContextNet:グローバルコンテキストによる音声認識のための畳み込みニューラルネットワークの改良

ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context ( http://arxiv.org/abs/2005.03191v3 )

ライセンス: Link先を確認
Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu(参考訳) 畳み込みニューラルネットワーク(convolutional neural networks, cnn)は、エンド・ツー・エンドの音声認識に有望な結果を示している。 本稿では、このギャップを埋めて、ContextNetと呼ばれる新しいCNN-RNN-Transducerアーキテクチャで乗り越える方法について検討する。 ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。 さらに,コンテクストネットの幅をスケールし,計算と精度のトレードオフを良好に達成する簡易なスケーリング手法を提案する。 我々は、広く使われているLibriSpeechベンチマークにおいて、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%のワードエラー率(WER)、LMで1.9%/4.1%、クリーン/ノイズの多いLibriSpeechテストセットで10Mパラメータしか持たない2.9%/7.0%を達成することを示した。 これは、lmで2.0%/4.6%、パラメータ20mで3.9%/11.3%という以前のベストシステムと比較する。 提案するコンテキストネットモデルの優位性は、さらに大きな内部データセットでも検証される。

Convolutional neural networks (CNN) have shown promising results for end-to-end speech recognition, albeit still behind other state-of-the-art methods in performance. In this paper, we study how to bridge this gap and go beyond with a novel CNN-RNN-transducer architecture, which we call ContextNet. ContextNet features a fully convolutional encoder that incorporates global context information into convolution layers by adding squeeze-and-excitation modules. In addition, we propose a simple scaling method that scales the widths of ContextNet that achieves good trade-off between computation and accuracy. We demonstrate that on the widely used LibriSpeech benchmark, ContextNet achieves a word error rate (WER) of 2.1%/4.6% without external language model (LM), 1.9%/4.1% with LM and 2.9%/7.0% with only 10M parameters on the clean/noisy LibriSpeech test sets. This compares to the previous best published system of 2.0%/4.6% with LM and 3.9%/11.3% with 20M parameters. The superiority of the proposed ContextNet model is also verified on a much larger internal dataset.
翻訳日:2022-12-05 22:59:13 公開日:2020-05-16
# 微分プライバシーによるフェデレーション勧告システム

Federated Recommendation System via Differential Privacy ( http://arxiv.org/abs/2005.06670v2 )

ライセンス: Link先を確認
Tan Li, Linqi Song and Christina Fragouli(参考訳) 本稿では,ディファレンシャルプライバシとマルチエージェントバンディット学習を組み合わせたfederated private bandits framework(federated private bandits framework)について考察する。 差分プライバシーに基づくアッパー信頼境界法(UCB)は,マルチエージェント環境,特に'マスターワーカー'と'完全に分散'された'環境において,どのように適用できるかを検討する。 提案手法のプライバシーと後悔のパフォーマンスに関する理論的分析を行い,両者のトレードオフについて考察する。

In this paper, we are interested in what we term the federated private bandits framework, that combines differential privacy with multi-agent bandit learning. We explore how differential privacy based Upper Confidence Bound (UCB) methods can be applied to multi-agent environments, and in particular to federated learning environments both in `master-worker' and `fully decentralized' settings. We provide a theoretical analysis on the privacy and regret performance of the proposed methods and explore the tradeoffs between these two.
翻訳日:2022-12-03 05:39:15 公開日:2020-05-16
# 環境音:超音環境下での観客数

Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions ( http://arxiv.org/abs/2005.07097v2 )

ライセンス: Link先を確認
Di Hu, Lichao Mou, Qingzhong Wang, Junyu Gao, Yuansheng Hua, Dejing Dou, Xiao Xiang Zhu(参考訳) 視覚的な群衆カウントは、画像から群衆のシーンをカウントできる方法として近年研究されている。 常に成功し、視覚に基づく群集カウントアプローチは、極端な状況、例えば夜間の撮像や閉塞といった情報的特徴を捉えられなかった。 本研究では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを提案する。 auDiovISual Crowd cOunting (DISCO) データセットは1,935イメージと対応するオーディオクリップと170,270のアノテーション付きインスタンスで構成されている。 この2つのモダリティを融合するために,視覚および聴覚の特徴に対してアフィン変換を行う線形特徴回り融合モジュールを用いる。 最後に,提案するデータセットとアプローチを用いて広範な実験を行う。 実験結果から, 聴覚情報の導入は, 照明, 騒音, 閉塞条件の異なる群集数に有効であることが示唆された。 データセットとコードがリリースされる。 コードとデータが利用可能になった

Visual crowd counting has been recently studied as a way to enable people counting in crowd scenes from images. Albeit successful, vision-based crowd counting approaches could fail to capture informative features in extreme conditions, e.g., imaging at night and occlusion. In this work, we introduce a novel task of audiovisual crowd counting, in which visual and auditory information are integrated for counting purposes. We collect a large-scale benchmark, named auDiovISual Crowd cOunting (DISCO) dataset, consisting of 1,935 images and the corresponding audio clips, and 170,270 annotated instances. In order to fuse the two modalities, we make use of a linear feature-wise fusion module that carries out an affine transformation on visual and auditory features. Finally, we conduct extensive experiments using the proposed dataset and approach. Experimental results show that introducing auditory information can benefit crowd counting under different illumination, noise, and occlusion conditions. The dataset and code will be released. Code and data have been made available
翻訳日:2022-12-03 05:14:39 公開日:2020-05-16
# NIT-Agartala-NLP-Team at SemEval-2020 Task 8: Building Multimodal Classificationifiers to tackle Internet Humor

NIT-Agartala-NLP-Team at SemEval-2020 Task 8: Building Multimodal Classifiers to tackle Internet Humor ( http://arxiv.org/abs/2005.06943v2 )

ライセンス: Link先を確認
Steve Durairaj Swamy, Shubham Laddha, Basil Abdussalam, Debayan Datta and Anupam Jamatia(参考訳) 本稿では,SemEval-2020 Task 8: Memotion by the `NIT-Agartala-NLP-Team'について述べる。 8879のミームのデータセットがタスクオーガナイザによって利用可能となり、モデルのトレーニングとテストが行われた。 我々のシステムには、ロジスティック回帰ベースライン、BiLSTM + Attention-based Learninger、BERTによる転送学習アプローチが含まれる。 A,B,Cの3つのサブタスクに対して,それぞれ24/33,11/29,15/26のランクを得た。 画像情報を活用することの難しさと、これらの問題を克服するために採用する技術や手作りの機能について強調する。 また、様々なモデリング問題について議論し、これらの問題が持続する理由について可能な解決策と理由を理論的に論じる。

The paper describes the systems submitted to SemEval-2020 Task 8: Memotion by the `NIT-Agartala-NLP-Team'. A dataset of 8879 memes was made available by the task organizers to train and test our models. Our systems include a Logistic Regression baseline, a BiLSTM + Attention-based learner and a transfer learning approach with BERT. For the three sub-tasks A, B and C, we attained ranks 24/33, 11/29 and 15/26, respectively. We highlight our difficulties in harnessing image information as well as some techniques and handcrafted features we employ to overcome these issues. We also discuss various modelling issues and theorize possible solutions and reasons as to why these problems persist.
翻訳日:2022-12-03 05:06:47 公開日:2020-05-16
# 多視点低ランク対称スパイク行列モデルの情報理論限界

Information-theoretic limits of a multiview low-rank symmetric spiked matrix model ( http://arxiv.org/abs/2005.08017v1 )

ライセンス: Link先を確認
Jean Barbier and Galen Reeves(参考訳) 主成分分析の確率モデルとしてよく用いられる高次元推論問題(スパイク対称行列モデル)の一般化を考える。 このようなパラダイムモデルは最近、統計と計算のギャップを持つ現象学的豊かさによって多くのコミュニティから注目を集めている。 相互情報に対するシングルレター式と最小平均二乗誤差の証明により、情報理論の限界を厳格に確立する。 技術的な面では、最近導入された適応補間法を改良し、より複雑な推論および学習モデルの厳密な解析に向けた重要なステップである、低ランクモデル(すなわち「全行列」の推定問題)を完全な一般性で研究するために使用できる。

We consider a generalization of an important class of high-dimensional inference problems, namely spiked symmetric matrix models, often used as probabilistic models for principal component analysis. Such paradigmatic models have recently attracted a lot of attention from a number of communities due to their phenomenological richness with statistical-to-computational gaps, while remaining tractable. We rigorously establish the information-theoretic limits through the proof of single-letter formulas for the mutual information and minimum mean-square error. On a technical side we improve the recently introduced adaptive interpolation method, so that it can be used to study low-rank models (i.e., estimation problems of "tall matrices") in full generality, an important step towards the rigorous analysis of more complicated inference and learning models.
翻訳日:2022-12-02 14:10:05 公開日:2020-05-16
# シストリックテンソルアレイ:モバイルCNN推論のための効率的な構造スパースGEMM加速器

Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator for Mobile CNN Inference ( http://arxiv.org/abs/2005.08098v1 )

ライセンス: Link先を確認
Zhi-Gang Liu, Paul N. Whatmough, Matthew Mattina(参考訳) モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする。 サイストリックアレイ(英: systolic array、SA)は、パイプライン化された2次元の処理要素(PE)配列であり、非常に効率的な局所データ移動を持ち、GEMMの高速化に適しており、産業に広く配備されている。 本稿では,従来のsaアーキテクチャにおける2つの重要な改善点について述べる。 まず、従来のスカラーPEをTensor-PEに一般化し、新しいSystolic Tensor Array(STA)マイクロアーキテクチャのファミリーを生み出す。 STAファミリーはPE内のオペランドの再利用とデータパス効率を向上し、INT8オペランドのアイソスループットのSAと比較して回路面積と消費電力を最大2.08xと1.36xに削減した。 次に、この設計を拡張して、密度バウンドブロック(DBB)と呼ばれる新しいブロックスパースデータフォーマットをサポートする。 この変種(STA-DBB)は、高密度モデルとの完全な後方互換性を維持しながら、特別に訓練されたDBBスパースモデルを処理する際に、SAベースラインを面積と出力で3.14倍改善する。

Convolutional neural network (CNN) inference on mobile devices demands efficient hardware acceleration of low-precision (INT8) general matrix multiplication (GEMM). The systolic array (SA) is a pipelined 2D array of processing elements (PEs), with very efficient local data movement, well suited to accelerating GEMM, and widely deployed in industry. In this work, we describe two significant improvements to the traditional SA architecture, to specifically optimize for CNN inference. Firstly, we generalize the traditional scalar PE, into a Tensor-PE, which gives rise to a family of new Systolic Tensor Array (STA) microarchitectures. The STA family increases intra-PE operand reuse and datapath efficiency, resulting in circuit area and power dissipation reduction of as much as 2.08x and 1.36x respectively, compared to the conventional SA at iso-throughput with INT8 operands. Secondly, we extend this design to support a novel block-sparse data format called density-bound block (DBB). This variant (STA-DBB) achieves a 3.14x and 1.97x improvement over the SA baseline at iso-throughput in area and power respectively, when processing specially-trained DBB-sparse models, while remaining fully backwards compatible with dense models.
翻訳日:2022-12-02 14:09:34 公開日:2020-05-16
# convolution-augmented transformer による音声認識

Conformer: Convolution-augmented Transformer for Speech Recognition ( http://arxiv.org/abs/2005.08100v1 )

ライセンス: Link先を確認
Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang(参考訳) 最近のtransformer and convolution neural network(cnn)ベースのモデルは、自動音声認識(asr)において、recurrent neural network(rnn)よりも優れた結果を示している。 トランスフォーマーモデルは、コンテンツベースのグローバルインタラクションをキャプチャするのに優れ、CNNはローカル機能を効果的に活用する。 本研究では、畳み込みニューラルネットワークとトランスフォーマーを組み合わせて、パラメータ効率のよい方法で音声シーケンスの局所的および大域的依存関係をモデル化する方法を研究することによって、両方の世界のベストを達成できる。 そこで本研究では,Conformerという音声認識のための畳み込み変換器を提案する。 コンフォーマーは、以前のTransformerとCNNベースのモデルで最先端のアキュラシーを実現している。 広く使われているlibrispeechベンチマークでは、言語モデルを用いずにwerを2.1%/4.3%、外部言語モデルで1.9%/3.9%を達成する。 また,10Mパラメータのみの小さなモデルで2.7%/6.3%の競争性能を観測した。

Recently Transformer and Convolution neural network (CNN) based models have shown promising results in Automatic Speech Recognition (ASR), outperforming Recurrent neural networks (RNNs). Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. In this work, we achieve the best of both worlds by studying how to combine convolution neural networks and transformers to model both local and global dependencies of an audio sequence in a parameter-efficient way. To this regard, we propose the convolution-augmented transformer for speech recognition, named Conformer. Conformer significantly outperforms the previous Transformer and CNN based models achieving state-of-the-art accuracies. On the widely used LibriSpeech benchmark, our model achieves WER of 2.1%/4.3% without using a language model and 1.9%/3.9% with an external language model on test/testother. We also observe competitive performance of 2.7%/6.3% with a small model of only 10M parameters.
翻訳日:2022-12-02 14:09:07 公開日:2020-05-16
# 深層学習による天体x線偏光推定

Inferring astrophysical X-ray polarization with deep learning ( http://arxiv.org/abs/2005.08126v1 )

ライセンス: Link先を確認
Nikita Moriakov, Ashwin Samudre, Michela Negro, Fabian Gieseke, Sydney Otten, Luc Hendriks(参考訳) 今後2021年に運用される予定のNASAが選択した宇宙探査ミッションである画像X線偏光観測装置 (IXPE) で観測される天体物理源からのX線偏光検出の文脈における深層学習の利用について検討する。 特に,衝突点と入射光の偏光方向を推定するために使用できる2つのモデルを提案する。 その結果,データ駆動型アプローチは,既存の分析手法に代わる有望な手法であることが示された。 また、近い将来に解決すべき課題や課題についても論じる。

We investigate the use of deep learning in the context of X-ray polarization detection from astrophysical sources as will be observed by the Imaging X-ray Polarimetry Explorer (IXPE), a future NASA selected space-based mission expected to be operative in 2021. In particular, we propose two models that can be used to estimate the impact point as well as the polarization direction of the incoming radiation. The results obtained show that data-driven approaches depict a promising alternative to the existing analytical approaches. We also discuss problems and challenges to be addressed in the near future.
翻訳日:2022-12-02 14:08:48 公開日:2020-05-16
# 音声強調のための局所的エキスパートのスパース混合

Sparse Mixture of Local Experts for Efficient Speech Enhancement ( http://arxiv.org/abs/2005.08128v1 )

ライセンス: Link先を確認
Aswin Sivaraman, Minje Kim(参考訳) 本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通した音声認識の深層学習手法について検討する。 音声認識タスクを重複しない部分問題に分割し、分類器を導入することで、計算複雑性を低減しつつ、雑音化性能を向上させることができる。 より具体的には、提案モデルは、雑音の多い音声信号を音声劣化レベルまたは話者性別に基づいて適切な専門的ネットワークに割り当てるゲーティングネットワークを組み込んでいる。 本実験では, 補助ゲーティングネットワークによって制御される小型リカレントネットワークのアンサンブルに対して, ベースラインリカレントネットワークを比較した。 提案モデルは,大雑音音声コーパスから統計的に生成したバッチを用いて,入力混合信号の大きさスペクトルに基づいて時間周波数マスキング行列を推定する。 ベースラインおよびスペシャリストネットワークは理想比マスクを推定するために訓練され、ゲーティングネットワークはサブプロブレム分類を行うために訓練される。 実験結果から,微調整されたアンサンブルネットワークは,より少ないモデルパラメータで,ジェネリストネットワークの発声能力を上回ることができることがわかった。

In this paper, we investigate a deep learning approach for speech denoising through an efficient ensemble of specialist neural networks. By splitting up the speech denoising task into non-overlapping subproblems and introducing a classifier, we are able to improve denoising performance while also reducing computational complexity. More specifically, the proposed model incorporates a gating network which assigns noisy speech signals to an appropriate specialist network based on either speech degradation level or speaker gender. In our experiments, a baseline recurrent network is compared against an ensemble of similarly-designed smaller recurrent networks regulated by the auxiliary gating network. Using stochastically generated batches from a large noisy speech corpus, the proposed model learns to estimate a time-frequency masking matrix based on the magnitude spectrogram of an input mixture signal. Both baseline and specialist networks are trained to estimate the ideal ratio mask, while the gating network is trained to perform subproblem classification. Our findings demonstrate that a fine-tuned ensemble network is able to exceed the speech denoising capabilities of a generalist network, doing so with fewer model parameters.
翻訳日:2022-12-02 14:08:36 公開日:2020-05-16
# 線形対称性テンソル-フィンガープリントモデリングによる$n-d$の解析的信号位相

Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint modeling ( http://arxiv.org/abs/2005.08108v1 )

ライセンス: Link先を確認
Josef Bigun and Fernando Alonso-Fernandez(参考訳) 我々は解析信号位相とその勾配が2-D$以上の不連続性を持つことを明らかにした。 欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-d $シグナルには存在していない。 コンピュータビジョンやバイオメトリック認識におけるガボル位相の直接的利用、例えば、影響力のある研究である cite{fleet90,wiskott 1997face} では、我々のものと類似した特別な画像が示さない限り、望ましくない結果を生み出す可能性がある。 解析信号位相の代わりに,複数組のガボルフィルタに依存する線形対称性位相を用いることを提案する。 この位相の勾配等級は解析信号とは対照的に連続であるが、線形対称性テンソルが勾配ベクトルを置き換えると位相の勾配方向の連続性が保証される。 提案するフェーズには,マルチスケール処理によるパターンのロバスト検出に有用な自動スケール推定器が組み込まれている。 我々は, 瞬時周波数, (スケール \&方向) および位相に関する基礎的真理が良好な結果で知られている, 合成指紋画像において重要な概念を示す。 ベースラインの代替案との比較も報告されている。 この目的のために,制御不能なminutiaを作成することなく,minutiaパラメータの位置,方向,スケールを制御可能な,新しいマルチスケールminutiaモデルも提示する。 これは、minutia検出方法の開発時間を、説明可能な振る舞いで短縮する有用なツールである。 その結果、マイナス方向は線形位相のみによって決定されるのではなく、相互に決定され、その影響は操縦可能性と正確な基底真理を得るために補正されなければならないことが判明した。 基本的な結論は容易に$N-D $に変換でき、光学フローやステレオにおける不均一性推定など無関係な応用がある。

We reveal that the Analytic Signal phase, and its gradient have a hitherto unstudied discontinuity in $2-D $ and higher dimensions. The shortcoming can result in severe artifacts whereas the problem does not exist in $1-D $ signals. Direct use of Gabor phase, or its gradient, in computer vision and biometric recognition e.g., as done in influential studies \cite{fleet90,wiskott1997face}, may produce undesired results that will go unnoticed unless special images similar to ours reveal them. Instead of the Analytic Signal phase, we suggest the use of Linear Symmetry phase, relying on more than one set of Gabor filters, but with a negligible computational add-on, as a remedy. Gradient magnitudes of this phase are continuous in contrast to that of the analytic signal whereas continuity of the gradient direction of the phase is guaranteed if Linear Symmetry Tensor replaces gradient vector. The suggested phase has also a built-in automatic scale estimator, useful for robust detection of patterns by multi-scale processing. We show crucial concepts on synthesized fingerprint images, where ground truth regarding instantaneous frequency, (scale \& direction), and phase are known with favorable results. A comparison to a baseline alternative is also reported. To that end, a novel multi-scale minutia model where location, direction, and scale of minutia parameters are steerable, without the creation of uncontrollable minutia is also presented. This is a useful tool, to reduce development times of minutia detection methods with explainable behavior. A revealed consequence is that minutia directions are not determined by the linear phase alone, but also by each other and the influence must be corrected to obtain steerability and accurate ground truths. Essential conclusions are readily transferable to $N-D $, and unrelated applications, e.g. optical flow or disparity estimation in stereo.
翻訳日:2022-12-02 14:01:39 公開日:2020-05-16
# 確率的部分モジュラー最適化問題としての階層化

Tiering as a Stochastic Submodular Optimization Problem ( http://arxiv.org/abs/2005.07893v1 )

ライセンス: Link先を確認
Hyokun Yun, Michael Froh, Roshan Makhijani, Brian Luc, Alex Smola, Trishul Chilimbi(参考訳) タイアリングは大規模情報検索システムを構築する上で不可欠な技術である。 優先度の高い階層に対するドキュメントの選択は階層化の効率に重大な影響を与えるが、過去の作業では、履歴内の静的なクエリセットに関して最適化することに重点を置いている。 代わりに、確率的最適化問題として最適階層化を定式化し、正規化された経験的リスク最小化の方法論に従い、システムの 'emph{ Generalization performance' を最大化する。 また,部分モジュラルナップサック制約を持つ確率的部分モジュラ最適化問題として最適化問題をキャストできることを示すとともに,この接続を利用して効率的な最適化アルゴリズムを開発する。

Tiering is an essential technique for building large-scale information retrieval systems. While the selection of documents for high priority tiers critically impacts the efficiency of tiering, past work focuses on optimizing it with respect to a static set of queries in the history, and generalizes poorly to the future traffic. Instead, we formulate the optimal tiering as a stochastic optimization problem, and follow the methodology of regularized empirical risk minimization to maximize the \emph{generalization performance} of the system. We also show that the optimization problem can be cast as a stochastic submodular optimization problem with a submodular knapsack constraint, and we develop efficient optimization algorithms by leveraging this connection.
翻訳日:2022-12-02 14:00:22 公開日:2020-05-16
# 深層畳み込みニューラルネットワークを用いたデータ駆動と物理駆動を組み合わせた定常熱伝導予測法

A Combined Data-driven and Physics-driven Method for Steady Heat Conduction Prediction using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2005.08119v1 )

ライセンス: Link先を確認
Hao Ma and Xiangyu Hu and Yuxuan Zhang and Nils Thuerey and Oskar J. Haidn(参考訳) いくつかの利点と物理分野予測の代替として、機械学習手法は、トレーニングデータに依存するデータ駆動型と、物理法則を用いた物理駆動型という2つの異なるタイプに分類される。 熱伝導問題を例として,データおよび物理駆動学習プロセスと深層畳み込みニューラルネットワーク(CNN)を比較した。 その結果、誤差の基底真理解への収束と熱伝導方程式の残差は顕著な差を示した。 そこで本研究では,加速度学習とより正確な解法を組み合わせた学習法を提案する。 重み付き損失関数では、参照データと物理方程式が同時に学習を駆動することができる。 本手法の有効性を検討するため,いくつかの数値実験を行った。 データ駆動型手法では、物理方程式の導入は収束を高速化するだけでなく、物理的に一貫した解を生成することができる。 物理駆動法では, 結合法は, あまり制約のない粗い基準を用いることで, 収束を最大49.0\%まで高速化できることがわかった。

With several advantages and as an alternative to predict physics field, machine learning methods can be classified into two distinct types: data-driven relying on training data and physics-driven using physics law. Choosing heat conduction problem as an example, we compared the data- and physics-driven learning process with deep Convolutional Neural Networks (CNN). It shows that the convergences of the error to ground truth solution and the residual of heat conduction equation exhibit remarkable differences. Based on this observation, we propose a combined-driven method for learning acceleration and more accurate solutions. With a weighted loss function, reference data and physical equation are able to simultaneously drive the learning. Several numerical experiments are conducted to investigate the effectiveness of the combined method. For the data-driven based method, the introduction of physical equation not only is able to speed up the convergence, but also produces physically more consistent solutions. For the physics-driven based method, it is observed that the combined method is able to speed up the convergence up to 49.0\% by using a not very restrictive coarse reference.
翻訳日:2022-12-02 13:59:15 公開日:2020-05-16
# aiを利用した聴覚支援自動化のための深層学習型ウェアラブル医療iotデバイス

A Deep Learning based Wearable Healthcare IoT Device for AI-enabled Hearing Assistance Automation ( http://arxiv.org/abs/2005.08076v1 )

ライセンス: Link先を確認
Fraser Young, L Zhang, Richard Jiang, Han Liu and Conor Wall(参考訳) 人工知能(AI)の最近のブーム、特にディープラーニング技術により、デジタルヘルスケアは、AI対応機能から恩恵を受ける可能性のある領域の1つである。 本研究では、ESP-8266プラットフォームから動作する新しいAI対応モノのインターネット(IoT)デバイスを提案する。 提案するソリューションでは、googleのオンライン音声認識サービスを利用して、受信した会話をテキストに変換し、グラスに取り付けられたマイクロディスプレイにデプロイし、聴覚障害者に会話内容を表示するサーバアプリケーションを作成し、一般の人々との会話を可能かつ支援する。 さらに、トラヒックや危険なシナリオの警報を発生させるため、トランスファー・ラーニングを用いたディープラーニングモデルinception-v4を用いて「都市緊急」分類器を開発し、ホーン音や火災報知機などの警報/アラーム音の検出・認識と、見込みのあるユーザに警告するテキストを生成する。 Inception-v4のトレーニングは、消費者向けデスクトップPC上で実行され、AIベースのIoTアプリケーションに実装された。 実験結果から, 試作システムでは, 音声認識とリアルタイム性能の分類において, 92%の精度を達成できた。

With the recent booming of artificial intelligence (AI), particularly deep learning techniques, digital healthcare is one of the prevalent areas that could gain benefits from AI-enabled functionality. This research presents a novel AI-enabled Internet of Things (IoT) device operating from the ESP-8266 platform capable of assisting those who suffer from impairment of hearing or deafness to communicate with others in conversations. In the proposed solution, a server application is created that leverages Google's online speech recognition service to convert the received conversations into texts, then deployed to a micro-display attached to the glasses to display the conversation contents to deaf people, to enable and assist conversation as normal with the general population. Furthermore, in order to raise alert of traffic or dangerous scenarios, an 'urban-emergency' classifier is developed using a deep learning model, Inception-v4, with transfer learning to detect/recognize alerting/alarming sounds, such as a horn sound or a fire alarm, with texts generated to alert the prospective user. The training of Inception-v4 was carried out on a consumer desktop PC and then implemented into the AI based IoT application. The empirical results indicate that the developed prototype system achieves an accuracy rate of 92% for sound recognition and classification with real-time performance.
翻訳日:2022-12-02 13:58:51 公開日:2020-05-16
# 注意モデルを用いた音質評価と異常位置推定の探索

Exploration of Audio Quality Assessment and Anomaly Localisation Using Attention Models ( http://arxiv.org/abs/2005.08053v1 )

ライセンス: Link先を確認
Qiang Huang and Thomas Hain(参考訳) 音声技術の多くの応用は、より多くの音声データを必要とする。 収集した記録の質を自動評価することは,関連アプリケーションの要件を満たすために重要である。 しかし、効果的なハイパフォーマンス評価は、クリーンな参照なしでは難しい課題である。 本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。 前者は、録音から情報を学ぶための人間の聴覚知覚能力を模倣し、後者は、目標に関する特徴を強調することにより、所望の信号からの干渉をさらに判別する。 提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。 実験では2つの課題について検討した。 第1の課題は発話品質スコアを予測し、第2の課題は記録中の異常な歪みが発生する場所を特定することである。 その結果,提案手法は,線形相関係数とスピアマンランク相関係数,F1の3指標で測定した結果,強いベースライン法より優れ,約5%の改善が得られた。

Many applications of speech technology require more and more audio data. Automatic assessment of the quality of the collected recordings is important to ensure they meet the requirements of the related applications. However, effective and high performing assessment remains a challenging task without a clean reference. In this paper, a novel model for audio quality assessment is proposed by jointly using bidirectional long short-term memory and an attention mechanism. The former is to mimic a human auditory perception ability to learn information from a recording, and the latter is to further discriminate interferences from desired signals by highlighting target related features. To evaluate our proposed approach, the TIMIT dataset is used and augmented by mixing with various natural sounds. In our experiments, two tasks are explored. The first task is to predict an utterance quality score, and the second is to identify where an anomalous distortion takes place in a recording. The obtained results show that the use of our proposed approach outperforms a strong baseline method and gains about 5% improvements after being measured by three metrics, Linear Correlation Coefficient and Spearman Rank Correlation Coefficient, and F1.
翻訳日:2022-12-02 13:52:44 公開日:2020-05-16
# 聞き覚えのある聞こえる:言語間での音声表現の伝達の分析

That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages ( http://arxiv.org/abs/2005.08118v1 )

ライセンス: Link先を確認
Piotr \.Zelasko, Laureano Moro-Vel\'azquez, Mark Hasegawa-Johnson, Odette Scharenborg, Najim Dehak(参考訳) 世界の少数の言語だけが、音声処理技術の実用的な応用を可能にするリソースに富んでいる。 この問題を解決する方法の1つは、他の言語に存在するリソースを使用して多言語自動音声認識(asr)モデルを訓練することである。 本研究では,これらの表現がいかに汎用的であるか,また,複数の言語で個別の電話機がどのように改善されているのかを,より深く理解することに焦点を当てる。 そのために,音声に多様な言語群を選択し,単言語,多言語,多言語間(ゼロショット)の実験を行う。 ASRは国際音声Alphabet(IPA)トークンシーケンスを認識するために訓練されている。 我々は、多言語設定における全ての言語間での大幅な改善と、モデルが他のエラーと同様に、Javaneseをトーン言語とみなす言語横断設定におけるスターク劣化を観察する。 特に、ターゲット言語トレーニングデータの10時間以内は、ASRエラー率を大幅に削減します。 分析の結果、単一の言語に固有の携帯電話であっても、他の言語からのトレーニングデータを追加することで大きなメリットがあります。

Only a handful of the world's languages are abundant with the resources that enable practical applications of speech processing technologies. One of the methods to overcome this problem is to use the resources existing in other languages to train a multilingual automatic speech recognition (ASR) model, which, intuitively, should learn some universal phonetic representations. In this work, we focus on gaining a deeper understanding of how general these representations might be, and how individual phones are getting improved in a multilingual setting. To that end, we select a phonetically diverse set of languages, and perform a series of monolingual, multilingual and crosslingual (zero-shot) experiments. The ASR is trained to recognize the International Phonetic Alphabet (IPA) token sequences. We observe significant improvements across all languages in the multilingual setting, and stark degradation in the crosslingual setting, where the model, among other errors, considers Javanese as a tone language. Notably, as little as 10 hours of the target language training data tremendously reduces ASR error rates. Our analysis uncovered that even the phones that are unique to a single language can benefit greatly from adding training data from other languages - an encouraging result for the low-resource speech community.
翻訳日:2022-12-02 13:52:26 公開日:2020-05-16
# Attribute2Font: 属性から欲しいフォントを作る

Attribute2Font: Creating Fonts You Want From Attributes ( http://arxiv.org/abs/2005.07865v1 )

ライセンス: Link先を確認
Yizhi Wang, Yue Gao, Zhouhui Lian(参考訳) 現在、フォントデザインは、既存のソフトウェアシステムが所有していないプロのデザイナーの独占的な特権とみなされている。 それにもかかわらず、ほとんどの商用フォント製品は、実際には、イタリック、セリフ、カーシブ、幅、角度などのグリフの属性の特定の要件に従うことで、手動で設計されていることに気づきました。 この事実に触発されて,ユーザが指定した属性と対応する値に基づいて,視覚的に描画したグリフ画像を合成してフォントを自動生成する新しいモデルAttribute2Fontを提案する。 我々の知る限り、我々のモデルは、指定されたフォント属性の所定の値に従って既存のフォントを検索する代わりに、新しいフォントスタイルでグリフ画像を生成することができる文献の中で、最初のものである。 具体的には、属性2fontは、属性値に基づいて条件付けられた2つのフォント間のフォントスタイル転送を実行するように訓練されている。 トレーニング後、フォント属性値の任意のセットに従ってグリフ画像を生成することができる。 さらに、Attribute Attention Moduleと呼ばれる新しいユニットは、生成されたグリフ画像が顕著なフォント属性をより具体化するように設計されている。 フォント属性値のアノテーションは非常に高価であるため,多数の未ラベルフォントを利用するための半教師付き学習スキームも導入されている。 実験結果から,新しいフォントスタイルのグリフ画像の作成,既存のフォントの編集,異なるフォント間の補間など,多くのタスクにおいて優れた性能が得られた。

Font design is now still considered as an exclusive privilege of professional designers, whose creativity is not possessed by existing software systems. Nevertheless, we also notice that most commercial font products are in fact manually designed by following specific requirements on some attributes of glyphs, such as italic, serif, cursive, width, angularity, etc. Inspired by this fact, we propose a novel model, Attribute2Font, to automatically create fonts by synthesizing visually-pleasing glyph images according to user-specified attributes and their corresponding values. To the best of our knowledge, our model is the first one in the literature which is capable of generating glyph images in new font styles, instead of retrieving existing fonts, according to given values of specified font attributes. Specifically, Attribute2Font is trained to perform font style transfer between any two fonts conditioned on their attribute values. After training, our model can generate glyph images in accordance with an arbitrary set of font attribute values. Furthermore, a novel unit named Attribute Attention Module is designed to make those generated glyph images better embody the prominent font attributes. Considering that the annotations of font attribute values are extremely expensive to obtain, a semi-supervised learning scheme is also introduced to exploit a large number of unlabeled fonts. Experimental results demonstrate that our model achieves impressive performance on many tasks, such as creating glyph images in new font styles, editing existing fonts, interpolation among different fonts, etc.
翻訳日:2022-12-02 13:52:08 公開日:2020-05-16
# VVCイントラ符号化のためのマルチスケールグループデンスネットワーク

Multi-scale Grouped Dense Network for VVC Intra Coding ( http://arxiv.org/abs/2005.07896v1 )

ライセンス: Link先を確認
Xin Li, Simeng Sun, Zhizheng Zhang and Zhibo Chen(参考訳) 汎用ビデオ符号化(h.266/vvc)標準は、bpgやjpegなど、他の一般的な画像コーデックと同じビットを保持することで、画質が向上する。 しかし、従来の符号化技術に基づいて高い圧縮比で画質を向上させることは、今でも魅力的で難しい。 本稿では,VVCイントラ符号化のプロセス後ネットワークとして統合されたマルチスケールおよびグループ化高密度ブロックを組み合わせることで,圧縮アーティファクトをさらに削減するために,マルチスケール・グループ化高密度ネットワーク(MSGDN)を設計する。 また,圧縮画像の主観的品質を向上させるため,MSGDNをジェネレータとして利用し,生成的対向ネットワーク(MSGDN-GAN)を提案する。 MSEの損失によってトレーニングされたMSGDNは、検証セットに関する広範な実験全体にわたって、平均で32.622のPSNRを、低レートトラックの0.15のビットレートで獲得する。 さらに,MSGDN-GANは主観的性能が向上した。

Versatile Video Coding (H.266/VVC) standard achieves better image quality when keeping the same bits than any other conventional image codec, such as BPG, JPEG, and etc. However, it is still attractive and challenging to improve the image quality with high compression ratio on the basis of traditional coding techniques. In this paper, we design the multi-scale grouped dense network (MSGDN) to further reduce the compression artifacts by combining the multi-scale and grouped dense block, which are integrated as the post-process network of VVC intra coding. Besides, to improve the subjective quality of compressed image, we also present a generative adversarial network (MSGDN-GAN) by utilizing our MSGDN as generator. Across the extensive experiments on validation set, our MSGDN trained by MSE losses yields the PSNR of 32.622 on average with teams IMC at the bit-rate of 0.15 in Lowrate track. Moreover, our MSGDN-GAN could achieve the better subjective performance.
翻訳日:2022-12-02 13:51:41 公開日:2020-05-16
# 画像圧縮センシングにおけるトリプリ補完プライオリティの力

The Power of Triply Complementary Priors for Image Compressive Sensing ( http://arxiv.org/abs/2005.07902v1 )

ライセンス: Link先を確認
Zhiyuan Zha, Xin Yuan, Joey Tianyi Zhou, Jiantao Zhou, Bihan Wen and Ce Zhu(参考訳) 深層モデルを用いた最近の研究は、様々な画像復元アプリケーションにおいて優れた結果をもたらしている。 このようなアプローチは、通常、回復する画像と同様の分布を持つトレーニングイメージのコーパスを必要とする監督される。 一方, 自然画像の非局所的な自己相似性を効果的に活用できるため, 多くの逆問題, 画像圧縮センシング(CS)において, 教師なしの浅い手法は有望な性能を保っている。 しかし、そのような手法のほとんどはパッチベースであり、単純パッチアグリゲーションにより様々なリングアーティファクトを持つ復元された画像につながる。 どちらのアプローチも通常、画像復元タスクのパフォーマンスと一般化性を制限する。 本稿では,3つの相補的前置詞,すなわち \textit{external} と \textit{internal} , \textit{deep} と \textit{shallow} と \textit{local} と \textit{non-local} のペアを含む結合型低ランク・深部画像モデルを提案する。 次に、画像CSのためのRDモデルに基づく新しいハイブリッドプラグアンドプレイ(H-PnP)フレームワークを提案する。 そこで,提案したH-PnPに基づく画像CS問題の解法として,単純で効果的なアルゴリズムを提案する。 H-PnPアルゴリズムはCSNetやWNNMのような画像CS回復のための最先端技術よりも優れていることを示す。

Recent works that utilized deep models have achieved superior results in various image restoration applications. Such approach is typically supervised which requires a corpus of training images with distribution similar to the images to be recovered. On the other hand, the shallow methods which are usually unsupervised remain promising performance in many inverse problems, \eg, image compressive sensing (CS), as they can effectively leverage non-local self-similarity priors of natural images. However, most of such methods are patch-based leading to the restored images with various ringing artifacts due to naive patch aggregation. Using either approach alone usually limits performance and generalizability in image restoration tasks. In this paper, we propose a joint low-rank and deep (LRD) image model, which contains a pair of triply complementary priors, namely \textit{external} and \textit{internal}, \textit{deep} and \textit{shallow}, and \textit{local} and \textit{non-local} priors. We then propose a novel hybrid plug-and-play (H-PnP) framework based on the LRD model for image CS. To make the optimization tractable, a simple yet effective algorithm is proposed to solve the proposed H-PnP based image CS problem. Extensive experimental results demonstrate that the proposed H-PnP algorithm significantly outperforms the state-of-the-art techniques for image CS recovery such as SCSNet and WNNM.
翻訳日:2022-12-02 13:51:22 公開日:2020-05-16
# センチネル2画像からの局所気候ゾーン分類のためのマルチレベル特徴核融合CNN:So2Sat LCZ42データセットのベンチマーク結果

Multi-level Feature Fusion-based CNN for Local Climate Zone Classification from Sentinel-2 Images: Benchmark Results on the So2Sat LCZ42 Dataset ( http://arxiv.org/abs/2005.07983v1 )

ライセンス: Link先を確認
Chunping Qiu and Xiaochong Tong and Michael Schmitt and Benjamin Bechtel and Xiao Xiang Zhu(参考訳) 地方気候ゾーン(LCZ)システムは,都市形態や機能に特有の分類手法として,特に大規模に都市環境に関する研究に不可欠な一般情報を提供する。 リモートセンシングデータに基づく分類手法はLCZの大規模マッピングとモニタリングの鍵となる。 高度な畳み込みニューラルネットワーク(cnns)は様々なコンピュータビジョンタスクのフロンティアを押し続けているが、ディープラーニングベースのアプローチの可能性はまだ十分に検討されていない。 1つの理由は、公表された研究が、通常、地域規模で異なるデータセットに基づいているため、現実世界のシナリオで異なるcnnの可能性を公平かつ一貫して比較することは不可能である。 この研究は、LCZ分類専用の大きなSo2Sat LCZ42ベンチマークデータセットに基づいている。 このデータセットを用いて,様々なサイズのCNNについて検討した。 さらに,我々は,Sentinel-2画像,Sen2LCZ-NetからLCZを分類するCNNを提案した。 このベースネットワークを用いて,拡張Sen2LCZ-Net-MFを用いたマルチレベル特徴の融合を提案する。 この提案した単純なネットワークアーキテクチャと高い競争力を持つベンチマークデータセットにより、より少ないレイヤとパラメータの計算を必要とせず、最先端のCNNよりも優れた結果が得られる。 提案するSen2LCZ-Net-MFとSo2Sat LCZ42データセットの可能性を実証した,未確認領域の大規模LCZ分類例を示す。 また,ネットワークの深さと幅がSen2LCZ-Net-MFの設計選択に与える影響について検討した。 本研究は,LCZ分類と都市土地被覆土地利用分類の両面で,今後のCNNベースのアルゴリズム開発のための重要なベースラインを提供する。

As a unique classification scheme for urban forms and functions, the local climate zone (LCZ) system provides essential general information for any studies related to urban environments, especially on a large scale. Remote sensing data-based classification approaches are the key to large-scale mapping and monitoring of LCZs. The potential of deep learning-based approaches is not yet fully explored, even though advanced convolutional neural networks (CNNs) continue to push the frontiers for various computer vision tasks. One reason is that published studies are based on different datasets, usually at a regional scale, which makes it impossible to fairly and consistently compare the potential of different CNNs for real-world scenarios. This study is based on the big So2Sat LCZ42 benchmark dataset dedicated to LCZ classification. Using this dataset, we studied a range of CNNs of varying sizes. In addition, we proposed a CNN to classify LCZs from Sentinel-2 images, Sen2LCZ-Net. Using this base network, we propose fusing multi-level features using the extended Sen2LCZ-Net-MF. With this proposed simple network architecture and the highly competitive benchmark dataset, we obtain results that are better than those obtained by the state-of-the-art CNNs, while requiring less computation with fewer layers and parameters. Large-scale LCZ classification examples of completely unseen areas are presented, demonstrating the potential of our proposed Sen2LCZ-Net-MF as well as the So2Sat LCZ42 dataset. We also intensively investigated the influence of network depth and width and the effectiveness of the design choices made for Sen2LCZ-Net-MF. Our work will provide important baselines for future CNN-based algorithm developments for both LCZ classification and other urban land cover land use classification.
翻訳日:2022-12-02 13:50:29 公開日:2020-05-16
# 球状パノラマからの深部照明環境マップの推定

Deep Lighting Environment Map Estimation from Spherical Panoramas ( http://arxiv.org/abs/2005.08000v1 )

ライセンス: Link先を確認
Vasileios Gkitsas (1) and Nikolaos Zioulis (1 and 2) and Federico Alvarez (2) and Dimitrios Zarpalas (1) and Petros Daras (1) ((1) Centre for Research and Technology Hellas, (2) Universidad Politecnica de Madrid)(参考訳) シーンの照明を推定することは、現実の環境で合成されたコンテンツを合成する際に非常に重要なタスクである。 本研究では,単一のLDR単分子球状パノラマからHDR照明環境マップを推定するデータ駆動モデルを提案する。 照明推定タスクは、困難かつ不適切な問題であるだけでなく、データ駆動方式の適用性を妨げている、脆弱な照明基礎真理データの欠如にも悩まされる。 データ生成機構と監視機構として画像ベースのリライティングを採用するために,表面形状の可用性を活用して,この問題にアプローチする。 これは、プレベイクされた照明に関する問題を克服するのに役立つ、グローバルなランゲル主義の仮定に依存している。 我々は、トレーニングデータをリライトし、識別可能な画像ベースのリライト技術によって可能となる測光損失でモデルの監督を補完する。 最後に, 球面スペクトル係数を予測することにより, 予測係数に先立って分布を付与することにより, 性能を大幅に向上させることができることを示す。 コードとモデルはhttps://vcl3d.github.io/deeppanoramalightingで入手できる。

Estimating a scene's lighting is a very important task when compositing synthetic content within real environments, with applications in mixed reality and post-production. In this work we present a data-driven model that estimates an HDR lighting environment map from a single LDR monocular spherical panorama. In addition to being a challenging and ill-posed problem, the lighting estimation task also suffers from a lack of facile illumination ground truth data, a fact that hinders the applicability of data-driven methods. We approach this problem differently, exploiting the availability of surface geometry to employ image-based relighting as a data generator and supervision mechanism. This relies on a global Lambertian assumption that helps us overcome issues related to pre-baked lighting. We relight our training data and complement the model's supervision with a photometric loss, enabled by a differentiable image-based relighting technique. Finally, since we predict spherical spectral coefficients, we show that by imposing a distribution prior on the predicted coefficients, we can greatly boost performance. Code and models available at https://vcl3d.github.io/DeepPanoramaLighting.
翻訳日:2022-12-02 13:49:59 公開日:2020-05-16
# マルチグラニュレーション協調ネットワークを用いた極低光イメージング

Extreme Low-Light Imaging with Multi-granulation Cooperative Networks ( http://arxiv.org/abs/2005.08001v1 )

ライセンス: Link先を確認
Keqi Wang, Peng Gao, Steven Hoi, Qian Guo, Yuhua Qian(参考訳) 低照度撮像は、低信号対雑音比、複雑な画像内容、極端に低照度な撮影場面のバラエティなどにより、暗くノイズが多いように見えるため、難しい。 極端低照度条件下での撮像品質向上のために多くの方法が提案されているが、特に高ダイナミックレンジ(hdr)を保とうとする場合には、良好な結果を得るのが困難である。 本稿では,双方向情報フローを有するマルチグラニュレーション協調ネットワーク(mcn,multi-granulation cooperative network)の手法を提案し,高ダイナミックレンジ(hdr)を維持するための照明マップ推定関数(imef)の設計を行った。 この研究を容易にするために,実世界の高ダイナミックレンジ(dhdr)画像のベンチマークデータセットを作成し,低光環境における高ダイナミックな保存性能を評価する。 実験の結果,提案手法は視覚効果と定量的解析の両面で最先端手法よりも優れていることがわかった。

Low-light imaging is challenging since images may appear to be dark and noised due to low signal-to-noise ratio, complex image content, and the variety in shooting scenes in extreme low-light condition. Many methods have been proposed to enhance the imaging quality under extreme low-light conditions, but it remains difficult to obtain satisfactory results, especially when they attempt to retain high dynamic range (HDR). In this paper, we propose a novel method of multi-granulation cooperative networks (MCN) with bidirectional information flow to enhance extreme low-light images, and design an illumination map estimation function (IMEF) to preserve high dynamic range (HDR). To facilitate this research, we also contribute to create a new benchmark dataset of real-world Dark High Dynamic Range (DHDR) images to evaluate the performance of high dynamic preservation in low light environment. Experimental results show that the proposed method outperforms the state-of-the-art approaches in terms of both visual effects and quantitative analysis.
翻訳日:2022-12-02 13:49:40 公開日:2020-05-16
# スナップショットビデオ圧縮画像の様々な変化

Various Total Variation for Snapshot Video Compressive Imaging ( http://arxiv.org/abs/2005.08028v1 )

ライセンス: Link先を確認
Xin Yuan(参考訳) 高次元画像のサンプリングは、センサーの可用性が限られているため困難である。 この課題を軽減するため、2dセンサ(検出器)を用いて高次元(通常は3d)画像をキャプチャするためにスナップショット圧縮イメージング(sci)が提案された。 新たな光学設計として、センサーが捉えた測定値は、3次元の所望信号の複数のフレームの符号化画像である。 その後、高次元データの検索に再構成アルゴリズムを用いる。 様々なアルゴリズムが提案されているが、計算時間と性能のトレードオフが良いため、全変動(TV)に基づく手法が最も効率的である。 本稿では,テレビペナルティ(異方性テレビ,等方性テレビ,ベクトルテレビ)がビデオSCI再生に最適かという疑問に答えることを目的とする。 シミュレーションおよび実データを用いた映像sci再構成のために,様々なtvデノイジングおよび投影アルゴリズムを開発し,検証した。

Sampling high-dimensional images is challenging due to limited availability of sensors; scanning is usually necessary in these cases. To mitigate this challenge, snapshot compressive imaging (SCI) was proposed to capture the high-dimensional (usually 3D) images using a 2D sensor (detector). Via novel optical design, the {\em measurement} captured by the sensor is an encoded image of multiple frames of the 3D desired signal. Following this, reconstruction algorithms are employed to retrieve the high-dimensional data. Though various algorithms have been proposed, the total variation (TV) based method is still the most efficient one due to a good trade-off between computational time and performance. This paper aims to answer the question of which TV penalty (anisotropic TV, isotropic TV and vectorized TV) works best for video SCI reconstruction? Various TV denoising and projection algorithms are developed and tested for video SCI reconstruction on both simulation and real datasets.
翻訳日:2022-12-02 13:49:23 公開日:2020-05-16
# DAMIA: メンバシップ推論攻撃に対する防御としてドメイン適応を活用する

DAMIA: Leveraging Domain Adaptation as a Defense against Membership Inference Attacks ( http://arxiv.org/abs/2005.08016v1 )

ライセンス: Link先を確認
Hongwei Huang, Weiqi Luo, Guoqiang Zeng, Jian Weng, Yue Zhang, Anjia Yang(参考訳) ディープラーニング(dl)技術は、データセットからモデルをトレーニングしてタスクを解決可能にする。 DLはその優れたパフォーマンスと潜在的な市場価値から、多くの関心を集めている。 しかし、DLモデルは、あるサンプルがトレーニングデータセットから来ているかどうかを攻撃者が判断する、メンバシップ推論攻撃に傾向がある。 攻撃を妨げようとする努力がなされているが、残念ながら大きなオーバーヘッドやユーザビリティを損なう可能性がある。 本稿では,ドメイン適応(DA)を防衛アジニストのメンバシップ推論攻撃として活用したDAMIAを提案する。 私たちの観察では、トレーニングプロセス中にdaは、他の関連するデータセットを使用して保護されるデータセットをobfuscateし、両方のデータセットから機能を基礎的に抽出するモデルを引き出す。 モデルは難読化されているため、メンバシップ推論は失敗し、抽出された機能はユーザビリティをサポートする。 我々の直感を検証するために大規模な実験が行われた。 DAMIAによってトレーニングされたモデルは、ユーザビリティに無視できるフットプリントを持っている。 我々の実験は、DAMIAのパフォーマンスを妨げる可能性のある要因を除外し、ベンダーや研究者がタイムリーにソリューションの恩恵を受けるためのガイドラインを提供する。

Deep Learning (DL) techniques allow ones to train models from a dataset to solve tasks. DL has attracted much interest given its fancy performance and potential market value, while security issues are amongst the most colossal concerns. However, the DL models may be prone to the membership inference attack, where an attacker determines whether a given sample is from the training dataset. Efforts have been made to hinder the attack but unfortunately, they may lead to a major overhead or impaired usability. In this paper, we propose and implement DAMIA, leveraging Domain Adaptation (DA) as a defense aginist membership inference attacks. Our observation is that during the training process, DA obfuscates the dataset to be protected using another related dataset, and derives a model that underlyingly extracts the features from both datasets. Seeing that the model is obfuscated, membership inference fails, while the extracted features provide supports for usability. Extensive experiments have been conducted to validates our intuition. The model trained by DAMIA has a negligible footprint to the usability. Our experiment also excludes factors that may hinder the performance of DAMIA, providing a potential guideline to vendors and researchers to benefit from our solution in a timely manner.
翻訳日:2022-12-02 13:43:13 公開日:2020-05-16
# 高度なアルゴリズムのインポーシング制御

Imposing Regulation on Advanced Algorithms ( http://arxiv.org/abs/2005.08092v1 )

ライセンス: Link先を確認
Fotios Fitsilis(参考訳) この本は、新しい技術が依存するアルゴリズムの規制の必要性と、おそらく緊急性について論じている。 商業や農業から医療や教育まで、これらの新興技術に影響されない生活のあらゆる側面を見つけることは困難である。 同時に、人工知能、ディープラーニング、機械学習、認知コンピューティング、ブロックチェーン、仮想現実、拡張現実は、法律や、特に行政法に影響を与える可能性のある分野に属している。 本書は、行政決定と司法判断において普遍的に適用可能なパターンについて考察している。 まず,地理的な位置や行政上の決定から司法的理由づけ,法的根拠に至るまでのパラメータを解析することにより,異なる事例間の類似性や行動のばらつきを識別する。 その結果、提示されたいくつかの事例において、競争法や労働法のような一般法の源泉は、現在の専門的な法律が欠如しているために、法的根拠として呼び出される。 この本は、先進的なアルゴリズムに対する国家的かつ実際に超国家的規制機関の役割と重要性を調査し、先進的なアルゴリズムの欧州規制機関の興味深い候補として、ネットワークと情報セキュリティに焦点を当てたEU機関ENISAを考察している。 最後に,アルゴリズム規制における代表的機関の関与について論じる。

This book discusses the necessity and perhaps urgency for the regulation of algorithms on which new technologies rely; technologies that have the potential to re-shape human societies. From commerce and farming to medical care and education, it is difficult to find any aspect of our lives that will not be affected by these emerging technologies. At the same time, artificial intelligence, deep learning, machine learning, cognitive computing, blockchain, virtual reality and augmented reality, belong to the fields most likely to affect law and, in particular, administrative law. The book examines universally applicable patterns in administrative decisions and judicial rulings. First, similarities and divergence in behavior among the different cases are identified by analyzing parameters ranging from geographical location and administrative decisions to judicial reasoning and legal basis. As it turns out, in several of the cases presented, sources of general law, such as competition or labor law, are invoked as a legal basis, due to the lack of current specialized legislation. This book also investigates the role and significance of national and indeed supranational regulatory bodies for advanced algorithms and considers ENISA, an EU agency that focuses on network and information security, as an interesting candidate for a European regulator of advanced algorithms. Lastly, it discusses the involvement of representative institutions in algorithmic regulation.
翻訳日:2022-12-02 13:42:30 公開日:2020-05-16
# 自動チャープ分解による声門音源推定

Glottal Source Estimation using an Automatic Chirp Decomposition ( http://arxiv.org/abs/2005.07897v1 )

ライセンス: Link先を確認
Thomas Drugman, Baris Bozkurt, Thierry Dutoit(参考訳) 本研究では,Z-Transform (ZZT) の零点を計算することで,音声信号から声門音源を推定できることを示した。 分解は根の内(因果寄与)と外(反因果寄与)を単位円に分けることによって達成された。 正しい解離を保証するため,GCI(Glottal Closure Instants)の時間的アライメントが不可欠であった。 本稿ではZZTの形式性を拡張し、Z-変換を単位円と異なる輪郭上で評価する。 ルート分布を検査してこの輪郭を自動的に決定する手法を提案する。 chirp z-transform (zczt) に基づく手法の派生したゼロは、gci位置誤差よりもずっと頑健であることが判明した。

In a previous work, we showed that the glottal source can be estimated from speech signals by computing the Zeros of the Z-Transform (ZZT). Decomposition was achieved by separating the roots inside (causal contribution) and outside (anticausal contribution) the unit circle. In order to guarantee a correct deconvolution, time alignment on the Glottal Closure Instants (GCIs) was shown to be essential. This paper extends the formalism of ZZT by evaluating the Z-transform on a contour possibly different from the unit circle. A method is proposed for determining automatically this contour by inspecting the root distribution. The derived Zeros of the Chirp Z-Transform (ZCZT)-based technique turns out to be much more robust to GCI location errors.
翻訳日:2022-12-02 13:41:51 公開日:2020-05-16
# 音声極性検出のための振動統計モーメント

Oscillating Statistical Moments for Speech Polarity Detection ( http://arxiv.org/abs/2005.07901v1 )

ライセンス: Link先を確認
Thomas Drugman, Thierry Dutoit(参考訳) 音声の極性の反転は、様々な音声処理技術の性能に劇的な悪影響をもたらす可能性がある。 したがって、このような手法の良好な動作を保証するための予備ステップとして、音声の極性(記録装置に依存している)を決定するための自動手法が必要である。 本稿では,振動する統計モーメントに依存する新しい極性検出手法を提案する。 これらのモーメントは、局所的な基本周波数で発振し、音声の極性に依存する位相シフトを示す特性を持つ。 この依存は、モーメント計算における非線形あるいは高次統計の導入に由来する。 得られた手法は10の音声コーパスに示され、最先端技術と比較して大幅に改善された。

An inversion of the speech polarity may have a dramatic detrimental effect on the performance of various techniques of speech processing. An automatic method for determining the speech polarity (which is dependent upon the recording setup) is thus required as a preliminary step for ensuring the well-behaviour of such techniques. This paper proposes a new approach of polarity detection relying on oscillating statistical moments. These moments have the property to oscillate at the local fundamental frequency and to exhibit a phase shift which depends on the speech polarity. This dependency stems from the introduction of non-linearity or higher-order statistics in the moment calculation. The resulting method is shown on 10 speech corpora to provide a substantial improvement compared to state-of-the-art techniques.
翻訳日:2022-12-02 13:41:37 公開日:2020-05-16
# エンドツーエンド音声認識のためのスパイクトリガー非自己回帰トランス

Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition ( http://arxiv.org/abs/2005.07903v1 )

ライセンス: Link先を確認
Zhengkun Tian and Jiangyan Yi and Jianhua Tao and Ye Bai and Shuai Zhang and Zhengqi Wen(参考訳) 非自己回帰トランスフォーマーモデルは、ニューラルネットワークの翻訳において、非常に高速な推論速度と、自己回帰シーケンス対シーケンスモデルと同等の性能を達成している。 非自己回帰トランスフォーマーのほとんどは、目標シーケンスを予め定義されたマスクシーケンスから復号する。 事前定義された長さが長すぎると、多くの冗長な計算が引き起こされる。 事前定義された長さがターゲットシーケンスの長さよりも短い場合、モデルの性能が損なわれる。 そこで本研究では,目的系列の長さを予測し,収束を加速するctcモジュールを導入する,エンドツーエンド音声認識のためのスパイクトリガー型非自己回帰トランスフォーマモデルを提案する。 実験はすべて、中国のマンダリンデータセットAISHELL-1上で行われた。 その結果,提案モデルでは,目標系列の長さを正確に予測でき,高性能トランスとの競合性能が得られることがわかった。 さらに、このモデルは0.0056のリアルタイム係数も達成しています。

Non-autoregressive transformer models have achieved extremely fast inference speed and comparable performance with autoregressive sequence-to-sequence models in neural machine translation. Most of the non-autoregressive transformers decode the target sequence from a predefined-length mask sequence. If the predefined length is too long, it will cause a lot of redundant calculations. If the predefined length is shorter than the length of the target sequence, it will hurt the performance of the model. To address this problem and improve the inference speed, we propose a spike-triggered non-autoregressive transformer model for end-to-end speech recognition, which introduces a CTC module to predict the length of the target sequence and accelerate the convergence. All the experiments are conducted on a public Chinese mandarin dataset AISHELL-1. The results show that the proposed model can accurately predict the length of the target sequence and achieve a competitive performance with the advanced transformers. What's more, the model even achieves a real-time factor of 0.0056, which exceeds all mainstream speech recognition models.
翻訳日:2022-12-02 13:41:27 公開日:2020-05-16
# AccentDB: ニューラル音声認識を支援する非負の英語アクセントデータベース

AccentDB: A Database of Non-Native English Accents to Assist Neural Speech Recognition ( http://arxiv.org/abs/2005.07973v1 )

ライセンス: Link先を確認
Afroz Ahamad, Ankit Anand, Pranesh Bhargava(参考訳) 現代の自動音声認識(asr)技術は、言語の母語話者が話す音声を非常によく識別するために進化してきた。 しかし、非母語話者が話す音声の識別は依然として大きな課題である。 本稿では,まず,頑健なasrシステムのトレーニングとテストのために,非ネイティブアクセントを用いた音声サンプルデータベース作成のための重要な要件について述べる。 次に、アメリカが収集した4つのインド英語アクセントのサンプルと、4つのネイティブ英語のサンプルと、インド英語アクセントのメトロポリタンを含むデータベースaccentdbを紹介する。 また,収集したアクセントデータの分離性について分析する。 さらに,アクセント分類モデルをいくつか提示し,アクセントクラスに対して徹底的に評価する。 分類器モデルの一般化を、目に見えるデータや見えないデータの様々な設定で検証する。 最後に,タスク固有のアーキテクチャを持つオートエンコーダモデルを用いて,非ネイティブアクセントのアクセントをネイティブアクセントに中和するタスクを導入する。 そこで本研究では,英語非母語アクセントの音響変換のための学習用データベース,特徴拡張のための分類モデル,中性化システムを用いて,開発の各段階におけるasrシステムを支援することを目的とした。

Modern Automatic Speech Recognition (ASR) technology has evolved to identify the speech spoken by native speakers of a language very well. However, identification of the speech spoken by non-native speakers continues to be a major challenge for it. In this work, we first spell out the key requirements for creating a well-curated database of speech samples in non-native accents for training and testing robust ASR systems. We then introduce AccentDB, one such database that contains samples of 4 Indian-English accents collected by us, and a compilation of samples from 4 native-English, and a metropolitan Indian-English accent. We also present an analysis on separability of the collected accent data. Further, we present several accent classification models and evaluate them thoroughly against human-labelled accent classes. We test the generalization of our classifier models in a variety of setups of seen and unseen data. Finally, we introduce the task of accent neutralization of non-native accents to native accents using autoencoder models with task-specific architectures. Thus, our work aims to aid ASR systems at every stage of development with a database for training, classification models for feature augmentation, and neutralization systems for acoustic transformations of non-native accents of English.
翻訳日:2022-12-02 13:40:58 公開日:2020-05-16
# グラフ畳み込みネットワークを用いた部分領域適応

Partial Domain Adaptation Using Graph Convolutional Networks ( http://arxiv.org/abs/2005.07858v1 )

ライセンス: Link先を確認
Seunghan Yang, Youngeun Kim, Dongki Jung, Changick Kim(参考訳) 対象ラベル空間がソースラベル空間に含まれると仮定する部分ドメイン適応(PDA)は、標準ドメイン適応の一般的なバージョンである。 対象ラベル空間が不明であるため、pdaの主な課題は、対象ラベル空間に属さない名前付き異常値である無関係なソースサンプルの学習影響を低減することである。 既存の部分的領域適応法は、効果的に外れ値の重要性を低下させるが、各ドメインのデータ構造を考慮せず、ソースとターゲットドメインの同じクラスの特徴分布を直接調整しないため、カテゴリレベルの分布を誤認する可能性がある。 これらの問題を解決するために,グラフ畳み込みネットワークを利用したグラフ部分領域適応(GPDA)ネットワークを提案する。 具体的には,同じカテゴリの分布を2つの領域で整列するラベル関係グラフを提案し,ラベル関係グラフから学習ネットワークに対する移動平均遠心分離を導入する。 我々は,データ構造と各カテゴリの分布を考慮することがPDAに有効であることを示し,GPDAネットワークはDigitおよびOffice-31データセットの最先端性能を実現する。

Partial domain adaptation (PDA), in which we assume the target label space is included in the source label space, is a general version of standard domain adaptation. Since the target label space is unknown, the main challenge of PDA is to reduce the learning impact of irrelevant source samples, named outliers, which do not belong to the target label space. Although existing partial domain adaptation methods effectively down-weigh outliers' importance, they do not consider data structure of each domain and do not directly align the feature distributions of the same class in the source and target domains, which may lead to misalignment of category-level distributions. To overcome these problems, we propose a graph partial domain adaptation (GPDA) network, which exploits Graph Convolutional Networks for jointly considering data structure and the feature distribution of each class. Specifically, we propose a label relational graph to align the distributions of the same category in two domains and introduce moving average centroid separation for learning networks from the label relational graph. We demonstrate that considering data structure and the distribution of each category is effective for PDA and our GPDA network achieves state-of-the-art performance on the Digit and Office-31 datasets.
翻訳日:2022-12-02 13:34:45 公開日:2020-05-16
# COCAS: 個人データを再識別する大規模衣服

COCAS: A Large-Scale Clothes Changing Person Dataset for Re-identification ( http://arxiv.org/abs/2005.07862v1 )

ライセンス: Link先を確認
Shijie Yu and Shihua Li and Dapeng Chen and Rui Zhao and Junjie Yan and Yu Qiao(参考訳) 近年、人身認証(re-id)が大幅に進歩している。 Market1501、CUHK03、DukeMTMCなどの学術ベンチマークは、再識別子研究を促進するために重要な役割を果たしている。 私たちの知る限り、既存のベンチマークでは、同じ人が同じ服を着ると仮定しています。 現実のシナリオでは、人が服を変えることは非常にまれです。 衣服変更者の再識別子問題に対処するため, ClOthes ChAnging Person Set (COCAS) という新しい大規模再IDベンチマークを構築し, 異なる衣服で同一人物の複数の画像を提供する。 COCASには5,266人の身体像が62,382枚含まれている。 COCASに基づき,服の着替え問題に対処する新たな人体設定を導入し,着物テンプレートと別の着物を取る人体画像の両方を問合せする。 さらに,バイオメトリック・クロース・ネットワーク (bc-net) という2分岐ネットワークを提案する。 実験の結果,衣料テンプレートによる衣料変更は可能であった。

Recent years have witnessed great progress in person re-identification (re-id). Several academic benchmarks such as Market1501, CUHK03 and DukeMTMC play important roles to promote the re-id research. To our best knowledge, all the existing benchmarks assume the same person will have the same clothes. While in real-world scenarios, it is very often for a person to change clothes. To address the clothes changing person re-id problem, we construct a novel large-scale re-id benchmark named ClOthes ChAnging Person Set (COCAS), which provides multiple images of the same identity with different clothes. COCAS totally contains 62,382 body images from 5,266 persons. Based on COCAS, we introduce a new person re-id setting for clothes changing problem, where the query includes both a clothes template and a person image taking another clothes. Moreover, we propose a two-branch network named Biometric-Clothes Network (BC-Net) which can effectively integrate biometric and clothes feature for re-id under our setting. Experiments show that it is feasible for clothes changing re-id with clothes templates.
翻訳日:2022-12-02 13:34:13 公開日:2020-05-16
# 自己教師付き単眼深度予測のためのDeep Feature fusion

Deep feature fusion for self-supervised monocular depth prediction ( http://arxiv.org/abs/2005.07922v1 )

ライセンス: Link先を確認
Vinay Kaushik, Brejesh Lall(参考訳) エンドツーエンドの教師なし学習の最近の進歩は、単眼深度予測の性能を大幅に向上させ、真理深度要求を緩和した。 平滑性, 左右の整合性, 規則化, 表面の正規化, 整合性を利用した複数の損失を生かして, 種々の構造的制約を課す作業は数多く行われているが, 実世界の画像に存在するマルチスケール構造を考慮に入れたものもある。 VGG16またはResNet50モデルをImageNet重みで事前トレーニングして、深さを予測する。 スクラッチから自己指導深度を学習するために,複数スケールの機能を利用した深層機能融合法を提案する。 核融合ネットワークは、エンコーダネットワークの各レベルにおける上層と下層の両方の機能を選択し、CoordConvソリューションを適用した後、デコーダに供給される複数の特徴ピラミッドサブネットワークを生成する。 また,低レベル残差深度を超解く画素シャッフルフレームワークを用いて,高レベル深層特徴と低レベル残差深さの組み合わせから高レベル残差深さを学習する改良モジュールを提案する。 我々は、評価のためにKITTIデータセットを選択し、提案したアーキテクチャが深度予測においてより良い結果または同等の結果を得ることができることを示す。

Recent advances in end-to-end unsupervised learning has significantly improved the performance of monocular depth prediction and alleviated the requirement of ground truth depth. Although a plethora of work has been done in enforcing various structural constraints by incorporating multiple losses utilising smoothness, left-right consistency, regularisation and matching surface normals, a few of them take into consideration multi-scale structures present in real world images. Most works utilise a VGG16 or ResNet50 model pre-trained on ImageNet weights for predicting depth. We propose a deep feature fusion method utilising features at multiple scales for learning self-supervised depth from scratch. Our fusion network selects features from both upper and lower levels at every level in the encoder network, thereby creating multiple feature pyramid sub-networks that are fed to the decoder after applying the CoordConv solution. We also propose a refinement module learning higher scale residual depth from a combination of higher level deep features and lower level residual depth using a pixel shuffling framework that super-resolves lower level residual depth. We select the KITTI dataset for evaluation and show that our proposed architecture can produce better or comparable results in depth prediction.
翻訳日:2022-12-02 13:33:55 公開日:2020-05-16
# マイクロ表現認識のための能動イメージングに基づく非線形性向上

Non-Linearities Improve OrigiNet based on Active Imaging for Micro Expression Recognition ( http://arxiv.org/abs/2005.07991v1 )

ライセンス: Link先を確認
Monu Verma, Santosh Kumar Vipparthi, Girdhari Singh(参考訳) マイクロ表現認識(MER)は非常に難しい課題であり、表現は自然界において非常に短く、空間力学と時間力学の両方の関与を伴う特徴モデリングを必要とする。 既存のmerシステムはcnnネットワークを利用して、小さな筋肉の動きと微妙な変化の重要な特徴を見つける。 しかし、既存のネットワークは、顔の外観の空間的特徴と顔のダイナミクスの時間的変動の関係を確立できない。 したがって、これらのネットワークは表現領域の微妙な変化や微妙な変化を効果的に捉えられなかった。 そこで本研究では,映像の表現領域のアクティブな変化を1つのフレームに分離し,顔の表情情報を保持するアクティブイメージング概念を提案する。 さらに,ビデオ中のマイクロ表現の重要な特徴を効率的に学習する,ハイブリッド局所受容場に基づく拡張現実ネットワーク(OrigiNet)を提案する。 本稿では, 勾配の消失とreluの消滅という問題を克服した, 改良された整流線形単位(rrelu)を提案する。 rreluは既存の活性化関数と比較して誘導体の範囲を広げる。 RReLUは非線形性を注入するだけでなく、加法的および乗法的性質を付与することによって真のエッジを捕捉する。 さらに,2つの並列完全連結層を埋め込むことにより,ネットワークの学習能力を向上させるための拡張機能学習ブロックを提案する。 提案するOrigiNetの性能は,4つの包括的MEデータセットに対して1つの被験者による実験を行うことで評価する。 実験の結果,OrigiNetは計算複雑性の低い最先端技術よりも優れていた。

Micro expression recognition (MER)is a very challenging task as the expression lives very short in nature and demands feature modeling with the involvement of both spatial and temporal dynamics. Existing MER systems exploit CNN networks to spot the significant features of minor muscle movements and subtle changes. However, existing networks fail to establish a relationship between spatial features of facial appearance and temporal variations of facial dynamics. Thus, these networks were not able to effectively capture minute variations and subtle changes in expressive regions. To address these issues, we introduce an active imaging concept to segregate active changes in expressive regions of a video into a single frame while preserving facial appearance information. Moreover, we propose a shallow CNN network: hybrid local receptive field based augmented learning network (OrigiNet) that efficiently learns significant features of the micro-expressions in a video. In this paper, we propose a new refined rectified linear unit (RReLU), which overcome the problem of vanishing gradient and dying ReLU. RReLU extends the range of derivatives as compared to existing activation functions. The RReLU not only injects a nonlinearity but also captures the true edges by imposing additive and multiplicative property. Furthermore, we present an augmented feature learning block to improve the learning capabilities of the network by embedding two parallel fully connected layers. The performance of proposed OrigiNet is evaluated by conducting leave one subject out experiments on four comprehensive ME datasets. The experimental results demonstrate that OrigiNet outperformed state-of-the-art techniques with less computational complexity.
翻訳日:2022-12-02 13:33:32 公開日:2020-05-16
# シーングラフを用いた視覚的関係検出:サーベイ

Visual Relationship Detection using Scene Graphs: A Survey ( http://arxiv.org/abs/2005.08045v1 )

ライセンス: Link先を確認
Aniket Agarwal, Ayush Mangal, Vipul(参考訳) 画像に描かれた視覚的関係をデコードすることでシーンを理解することは、長い間研究されてきた問題である。 ディープラーニングの最近の進歩とディープニューラルネットワークの利用は多くのタスクで人間の精度に近いものになっているが、さまざまな視覚的関係検出タスクに関しては、人間とマシンレベルのパフォーマンスにはかなり大きなギャップがある。 比較的粗い画像理解に焦点を当てたオブジェクト認識、セグメンテーション、キャプションといった初期のタスクに基づいて、より詳細な画像理解を扱う新しいタスクが最近導入された。 シーングラフはシーンとその中の様々な関係をよりよく表現するためのテクニックである。 Visual Question Answering, Semantic Image Retrieval, Image Generationなど,さまざまなタスクに幅広く応用されていることから,より深い視覚的関係理解のための有用なツールであることが証明された。 本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。 また、将来、フィールドが進むであろう様々な将来方向についても分析を試みる。 このトピックに関する詳細な調査を行った最初の論文の1つとして、シーングラフを簡潔に紹介し、アプリケーションへのアプローチを開発しながら実践者をガイドしたいと考えています。

Understanding a scene by decoding the visual relationships depicted in an image has been a long studied problem. While the recent advances in deep learning and the usage of deep neural networks have achieved near human accuracy on many tasks, there still exists a pretty big gap between human and machine level performance when it comes to various visual relationship detection tasks. Developing on earlier tasks like object recognition, segmentation and captioning which focused on a relatively coarser image understanding, newer tasks have been introduced recently to deal with a finer level of image understanding. A Scene Graph is one such technique to better represent a scene and the various relationships present in it. With its wide number of applications in various tasks like Visual Question Answering, Semantic Image Retrieval, Image Generation, among many others, it has proved to be a useful tool for deeper and better visual relationship understanding. In this paper, we present a detailed survey on the various techniques for scene graph generation, their efficacy to represent visual relationships and how it has been used to solve various downstream tasks. We also attempt to analyze the various future directions in which the field might advance in the future. Being one of the first papers to give a detailed survey on this topic, we also hope to give a succinct introduction to scene graphs, and guide practitioners while developing approaches for their applications.
翻訳日:2022-12-02 13:32:55 公開日:2020-05-16
# 境界からバンプへ:閉じた(極端に)輪郭が重要な場合

From Boundaries to Bumps: when closed (extremal) contours are critical ( http://arxiv.org/abs/2005.08116v1 )

ライセンス: Link先を確認
Benjamin Kunsberg and Steven W. Zucker(参考訳) 様々な形状が同じ画像を生み出し、同じ形状から様々な画像を描画することができる。 閉塞輪郭は稀な例外であり、イメージ・サリエンス(英語版)とアイソフォテ(英語版)、表面的意味(英語版)の両方が正常である。 我々は、位相レベルに存在する新しい形状不変量である閉極大曲線を定義するために、閉凸の概念を緩和する。 バンプは、一般的なが不特定内部形状成分であるバンプを取り囲み、バンプ知覚の質的な性質を定式化する。 極端曲線は生物学的に計算可能であり、シェーディング、テクスチャ、および特異材料から形状推論を統一し、バンプ知覚における新しい現象を予測する。

Invariants underlying shape inference are elusive: a variety of shapes can give rise to the same image, and a variety of images can be rendered from the same shape. The occluding contour is a rare exception: it has both image salience, in terms of isophotes, and surface meaning, in terms of surface normal. We relax the notion of occluding contour to define closed extremal curves, a new shape invariant that exists at the topological level. They surround bumps, a common but ill-specified interior shape component, and formalize the qualitative nature of bump perception. Extremal curves are biologically computable, unify shape inferences from shading, texture, and specular materials, and predict new phenomena in bump perception.
翻訳日:2022-12-02 13:32:31 公開日:2020-05-16
# 拡張記憶を用いた自己アテンションを用いた変圧器ベース音響モデル

Streaming Transformer-based Acoustic Models Using Self-attention with Augmented Memory ( http://arxiv.org/abs/2005.08042v1 )

ライセンス: Link先を確認
Chunyang Wu, Yongqiang Wang, Yangyang Shi, Ching-Feng Yeh, Frank Zhang(参考訳) 変換器をベースとした音響モデリングは,ハイブリッド・シーケンス・ツー・シーケンス音声認識の双方において大きな成功をおさめている。 しかし、完全なシーケンスにアクセスする必要があり、計算コストはインプットシーケンスの長さに対して2次的に増加する。 これらの要因は、ストリームアプリケーションへの採用を制限する。 そこで本研究では,入力シーケンスと記憶バンクの短いセグメントに随伴する拡張メモリセルフアテンションを提案する。 メモリバンクは、処理されたすべてのセグメントの埋め込み情報を格納する。 librispeechベンチマークでは,提案手法は既存のストリーム型トランスフォーマーメソッドを大きなマージンで処理し,一般的なlc-blstmベースラインと比較して15%以上の相対誤差低減を達成している。 我々の発見は、いくつかの大きな内部データセットでも確認されます。

Transformer-based acoustic modeling has achieved great suc-cess for both hybrid and sequence-to-sequence speech recogni-tion. However, it requires access to the full sequence, and thecomputational cost grows quadratically with respect to the in-put sequence length. These factors limit its adoption for stream-ing applications. In this work, we proposed a novel augmentedmemory self-attention, which attends on a short segment of theinput sequence and a bank of memories. The memory bankstores the embedding information for all the processed seg-ments. On the librispeech benchmark, our proposed methodoutperforms all the existing streamable transformer methods bya large margin and achieved over 15% relative error reduction,compared with the widely used LC-BLSTM baseline. Our find-ings are also confirmed on some large internal datasets.
翻訳日:2022-12-02 13:31:57 公開日:2020-05-16
# 遅延埋め込み型フォアキャストマシンによる短期データからのマルチステップ予測

Multi-step-ahead Prediction from Short-term Data by Delay-embedding-based Forecast Machine ( http://arxiv.org/abs/2005.07842v1 )

ライセンス: Link先を確認
Hao Peng, Pei Chen, Rui Liu(参考訳) 複雑なシステムに対して正確なマルチステップ予測を行うことは、特に短期的な時系列データしか利用できない場合、多くの実用的なアプリケーションにとって困難である。 本研究では,高次元短期計測に基づいて,対象変数の将来値を高精度かつ多段階的に予測する新しいフレームワークであるdelay-Embedding-based Forecast Machine (DEFM)を提案する。 3モジュール時空間アーキテクチャでは、DeFMは深層学習を利用して、時間的パラメータや付加雑音であっても、短時間のダイナミクスから空間的およびシーケンシャルに関連付けられた情報を効果的に抽出する。 自己教師型スキームによって訓練されたDEFMは、観測された高次元情報から対象変数の遅延埋め込みにマップする非線形変換によく適合し、将来の情報を予測する。 DEFMの有効性と精度は、代表モデルと6つの実世界のデータセットの両方に適用することで実証される。 従来の4つの予測手法との比較は, DEFMの優位性と堅牢性を示している。

Making accurate multi-step-ahead prediction for a complex system is a challenge for many practical applications, especially when only short-term time-series data are available. In this work, we proposed a novel framework, Delay-Embedding-based Forecast Machine (DEFM), to predict the future values of a target variable in an accurate and multi-step-ahead manner based on the high-dimensional short-term measurements. With a three-module spatiotemporal architecture, DEFM leverages deep learning to effectively extract both the spatially and sequentially associated information from the short-term dynamics even with time-varying parameters or additive noise. Being trained through a self-supervised scheme, DEFM well fits a nonlinear transformation that maps from the observed high-dimensional information to the delay embeddings of a target variable, thus predicting the future information. The effectiveness and accuracy of DEFM is demonstrated by applications on both representative models and six real-world datasets. The comparison with four traditional prediction methods exhibits the superiority and robustness of DEFM.
翻訳日:2022-12-02 13:31:44 公開日:2020-05-16
# 比較と一般化量化器による論理的推論

Logical Inferences with Comparatives and Generalized Quantifiers ( http://arxiv.org/abs/2005.07954v1 )

ライセンス: Link先を確認
Izumi Haruta, Koji Mineshima, Daisuke Bekki(参考訳) 比較構成は自然言語推論(nli: natural language inference)において問題となる。 比較は構造的に複雑であり、量化子、数字、語彙アントロニムなどの他の言語現象と相互作用する。 形式的意味論では、次数の概念を用いた比較と階調表現に関する豊富な研究がある。 しかし,NLIタスクでは,比較のための論理推論システムが十分に開発されていない。 本稿では,英語における様々な比較構成をコンビネータ型分類文法(ccg)パーサを用いて意味表現にマッピングし,自動定理証明に基づく推論システムと組み合わせた合成意味論を提案する。 比較,一般化量子化子,数値付き複雑な論理推論を含む3つのnliデータセットについて評価を行った。 このシステムは,従来の論理系システムや近年の深層学習型モデルよりも優れていることを示す。

Comparative constructions pose a challenge in Natural Language Inference (NLI), which is the task of determining whether a text entails a hypothesis. Comparatives are structurally complex in that they interact with other linguistic phenomena such as quantifiers, numerals, and lexical antonyms. In formal semantics, there is a rich body of work on comparatives and gradable expressions using the notion of degree. However, a logical inference system for comparatives has not been sufficiently developed for use in the NLI task. In this paper, we present a compositional semantics that maps various comparative constructions in English to semantic representations via Combinatory Categorial Grammar (CCG) parsers and combine it with an inference system based on automated theorem proving. We evaluate our system on three NLI datasets that contain complex logical inferences with comparatives, generalized quantifiers, and numerals. We show that the system outperforms previous logic-based systems as well as recent deep learning-based models.
翻訳日:2022-12-02 13:25:12 公開日:2020-05-16
# パラフレーズからの確率的文表現の学習

Learning Probabilistic Sentence Representations from Paraphrases ( http://arxiv.org/abs/2005.08105v1 )

ライセンス: Link先を確認
Mingda Chen, Kevin Gimpel(参考訳) 確率的単語埋め込みは、一般化と帰属の概念を捉えるのに有効であるが、文に対する類似のタイプの調査を行う作業はほとんどない。 本稿では,文の分布を生成する確率モデルを定義する。 本モデルでは,各単語を多変量ガウス分布に適用した線形変換演算子として扱う。 パラフレーズでモデルをトレーニングし、それらが自然に文の特異性を捉えることを示す。 提案モデルは全体として最高の性能を実現するが,文ベクトルのノルムを通じて,より単純なアーキテクチャによって特異性が表現されることを示した。 質的分析により,確率モデルが知覚的包含を捉え,個々の単語の特異性と正確性を分析する方法を示す。

Probabilistic word embeddings have shown effectiveness in capturing notions of generality and entailment, but there is very little work on doing the analogous type of investigation for sentences. In this paper we define probabilistic models that produce distributions for sentences. Our best-performing model treats each word as a linear transformation operator applied to a multivariate Gaussian distribution. We train our models on paraphrases and demonstrate that they naturally capture sentence specificity. While our proposed model achieves the best performance overall, we also show that specificity is represented by simpler architectures via the norm of the sentence vectors. Qualitative analysis shows that our probabilistic model captures sentential entailment and provides ways to analyze the specificity and preciseness of individual words.
翻訳日:2022-12-02 13:24:36 公開日:2020-05-16
# RPD:単語埋め込み間の距離関数

RPD: A Distance Function Between Word Embeddings ( http://arxiv.org/abs/2005.08113v1 )

ライセンス: Link先を確認
Xuhui Zhou, Zaixiang Zheng, Shujian Huang(参考訳) 異なるアルゴリズム、トレーニングプロセス、コーパスが異なる単語埋め込みを生成することはよく理解されている。 しかし、異なる埋め込み空間の間の関係、すなわち、どのように異なる埋め込み集合が互いに逸脱するかについてはあまり知られていない。 本稿では,単語埋め込みの集合間の距離を定量化するために,Relative pairwise inner Product Distance (RPD) と呼ばれる新しい指標を提案する。 この計量は、単語埋め込みの異なる集合を比較するための統一スケールを持つ。 rpdの特性に基づいて, 異なるアルゴリズムの単語埋め込みの関係を体系的に検討し, 異なる訓練過程とコーパスの影響について検討した。 その結果, 単語埋め込みの理解が不十分な点に光を当て, 埋め込み空間の距離の尺度として RPD を正当化した。

It is well-understood that different algorithms, training processes, and corpora produce different word embeddings. However, less is known about the relation between different embedding spaces, i.e. how far different sets of embeddings deviate from each other. In this paper, we propose a novel metric called Relative pairwise inner Product Distance (RPD) to quantify the distance between different sets of word embeddings. This metric has a unified scale for comparing different sets of word embeddings. Based on the properties of RPD, we study the relations of word embeddings of different algorithms systematically and investigate the influence of different training processes and corpora. The results shed light on the poorly understood word embeddings and justify RPD as a measure of the distance of embedding spaces.
翻訳日:2022-12-02 13:24:25 公開日:2020-05-16
# 機械学習とアンサンブル機械学習を用いたアラビア語攻撃言語検出

Arabic Offensive Language Detection Using Machine Learning and Ensemble Machine Learning Approaches ( http://arxiv.org/abs/2005.08946v1 )

ライセンス: Link先を確認
Fatemah Husain(参考訳) 本研究では,単一学習者の機械学習アプローチとアンサンブル機械学習アプローチがアラビア語に対する攻撃的言語検出に与える影響について検討する。 アラビア語のソーシャルメディアテキストの分類は、テキストの書式が曖昧で非公式であるため、非常に難しい作業である。 アラビア語には様々な語彙と構造を持つ複数の方言があり、高い分類性能を得る複雑さを高めている。 本研究は、単一学習者機械学習アプローチに対して、アンサンブル機械学習アプローチを適用するための大きな効果を示す。 訓練されたアンサンブル機械学習分類器のうち、バグングはf1スコア88%で攻撃的言語検出で最高の成績を示し、最良学習者分類器が獲得したスコアを6%上回った。 本研究は、攻撃的言語検出モデルのためのアンサンブル機械学習アプローチソリューションの促進により多くの努力を注ぎ込む大きな機会を浮き彫りにしている。

This study aims at investigating the effect of applying single learner machine learning approach and ensemble machine learning approach for offensive language detection on Arabic language. Classifying Arabic social media text is a very challenging task due to the ambiguity and informality of the written format of the text. Arabic language has multiple dialects with diverse vocabularies and structures, which increase the complexity of obtaining high classification performance. Our study shows significant impact for applying ensemble machine learning approach over the single learner machine learning approach. Among the trained ensemble machine learning classifiers, bagging performs the best in offensive language detection with F1 score of 88%, which exceeds the score obtained by the best single learner classifier by 6%. Our findings highlight the great opportunities of investing more efforts in promoting the ensemble machine learning approach solutions for offensive language detection models.
翻訳日:2022-12-02 13:24:14 公開日:2020-05-16
# 感情的双方向トランスフォーマーを用いた攻撃的言語検出

Leveraging Affective Bidirectional Transformers for Offensive Language Detection ( http://arxiv.org/abs/2006.01266v1 )

ライセンス: Link先を確認
AbdelRahim Elmadany, Chiyu Zhang, Muhammad Abdul-Mageed, Azadeh Hashemi(参考訳) ソーシャルメディアは私たちの生活に浸透しており、攻撃的、ヘイトスピーチを検知し排除することで、安全なオンライン体験を確保する必要がある。 本稿では,第4回オープンソース・アラビアコーパス・処理ツール・アラビアワークショップ(OSACT4)において,攻撃言語及びヘイトスピーチ検出共有タスクについて報告する。 機能エンジニアリングを必要とせずに、純粋にディープラーニングシステムの開発に注力します。 この目的のために,データ拡張を効果的に行う手法を開発し,先行訓練された感情モデル(感情と感情)から攻撃的・憎悪的音声モデルをオフに(すなわち微調整によって)訓練するの有用性を示す。 我々の最良のモデルはバニラ・バートモデルよりもかなり優れており、89.60%のacc (82.31%マクロf1)がヘイトスピーチ、95.20%のacc (70.51%マクロf1)が公式テストデータである。

Social media are pervasive in our life, making it necessary to ensure safe online experiences by detecting and removing offensive and hate speech. In this work, we report our submission to the Offensive Language and hate-speech Detection shared task organized with the 4th Workshop on Open-Source Arabic Corpora and Processing Tools Arabic (OSACT4). We focus on developing purely deep learning systems, without a need for feature engineering. For that purpose, we develop an effective method for automatic data augmentation and show the utility of training both offensive and hate speech models off (i.e., by fine-tuning) previously trained affective models (i.e., sentiment and emotion). Our best models are significantly better than a vanilla BERT model, with 89.60% acc (82.31% macro F1) for hate speech and 95.20% acc (70.51% macro F1) on official TEST data.
翻訳日:2022-12-02 13:23:56 公開日:2020-05-16
# 対称性の破れの複雑さについて

On the Complexity of Breaking Symmetry ( http://arxiv.org/abs/2005.08954v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 対称性のクラス内の解を排除することで対称性を破ることができる。 これはしばしばlex-leader methodと呼ばれる。 残念なことに、対称群は大きいので、レクサリーダー法は一般には扱いにくい。 正規の辞書順序以外の全ての順序を用いると、一般に破断対称性の計算の複雑さが減少しないことが証明される。 グレーコード順序付けやスネークレックス順序付けといった他の順序との対称性の破れは一般に難解である。

We can break symmetry by eliminating solutions within a symmetry class that are not least in the lexicographical ordering. This is often referred to as the lex-leader method. Unfortunately, as symmetry groups can be large, the lexleader method is not tractable in general. We prove that using other total orderings besides the usual lexicographical ordering will not reduce the computational complexity of breaking symmetry in general. It follows that breaking symmetry with other orderings like the Gray code ordering or the Snake-Lex ordering is intractable in general.
翻訳日:2022-12-02 13:22:50 公開日:2020-05-16
# neuroattack:外部トリガービットフリップによるスパイクニューラルネットワークのセキュリティを損なう

NeuroAttack: Undermining Spiking Neural Networks Security through Externally Triggered Bit-Flips ( http://arxiv.org/abs/2005.08041v1 )

ライセンス: Link先を確認
Valerio Venceslai, Alberto Marchisio, Ihsen Alouani, Maurizio Martina, Muhammad Shafique(参考訳) その効率性が証明されたため、機械学習システムは様々な複雑な実生活問題に展開される。 具体的には、機械学習システムにおける正確性、リソース利用、エネルギー効率の課題に対する有望な解決策としてSpking Neural Networks(SNN)が登場した。 これらのシステムは主流ですが、固有のセキュリティと信頼性の問題があります。 本稿では,高レベル攻撃による低レベルの信頼性問題を活用することにより,SNNの整合性を脅かすクロス層攻撃であるNeuroAttackを提案する。 特に,障害注入に基づくスニークなハードウェアバックドアを,注意深い対向的な入力ノイズによって起動する。 Deep Neural Networks (DNN) と SNN に対する我々の研究結果は、最先端の機械学習技術に対する深刻な確実性を示す。

Due to their proven efficiency, machine-learning systems are deployed in a wide range of complex real-life problems. More specifically, Spiking Neural Networks (SNNs) emerged as a promising solution to the accuracy, resource-utilization, and energy-efficiency challenges in machine-learning systems. While these systems are going mainstream, they have inherent security and reliability issues. In this paper, we propose NeuroAttack, a cross-layer attack that threatens the SNNs integrity by exploiting low-level reliability issues through a high-level attack. Particularly, we trigger a fault-injection based sneaky hardware backdoor through a carefully crafted adversarial input noise. Our results on Deep Neural Networks (DNNs) and SNNs show a serious integrity threat to state-of-the art machine-learning techniques.
翻訳日:2022-12-02 13:16:42 公開日:2020-05-16
# 微分プライバシーにおけるニアインスタンス最適性

Near Instance-Optimality in Differential Privacy ( http://arxiv.org/abs/2005.10630v1 )

ライセンス: Link先を確認
Hilal Asi, John C. Duchi(参考訳) 古典的統計理論に触発された,微分プライバシーにおけるインスタンス最適性の2つの概念を考案する。一つは局所的ミニマックスリスクを定義し,もう一つは偏りのないメカニズムを考慮し,クラー・ラオ境界を類推することで,利害関係の連続性の局所的モジュラーがこれらの量を完全に決定することを示す。 我々はまた、大規模な推定値に対して、例最適(もしくはほぼインスタンス最適)な逆感度機構と呼ばれる相補的な収集機構を開発する。 さらに、これらのメカニズムは、実数値連続関数を含むいくつかの関数クラスにおいて、各インスタンス上の滑らかな感度フレームワークを均一に上回る。 中央値およびロバスト回帰推定機構の2つのインスタンス化を,対応する実験で慎重に提示する。

We develop two notions of instance optimality in differential privacy, inspired by classical statistical theory: one by defining a local minimax risk and the other by considering unbiased mechanisms and analogizing the Cramer-Rao bound, and we show that the local modulus of continuity of the estimand of interest completely determines these quantities. We also develop a complementary collection mechanisms, which we term the inverse sensitivity mechanisms, which are instance optimal (or nearly instance optimal) for a large class of estimands. Moreover, these mechanisms uniformly outperform the smooth sensitivity framework on each instance for several function classes of interest, including real-valued continuous functions. We carefully present two instantiations of the mechanisms for median and robust regression estimation with corresponding experiments.
翻訳日:2022-12-02 13:15:31 公開日:2020-05-16
# Universal Adversarial Perturbations: A Survey

Universal Adversarial Perturbations: A Survey ( http://arxiv.org/abs/2005.08087v1 )

ライセンス: Link先を確認
Ashutosh Chaubey, Nikhil Agrawal, Kavya Barnwal, Keerat K. Guliani, Pramod Mehta(参考訳) 過去10年間で、Deep Learningは、画像分類から人間のポーズ推定まで幅広い複雑な学習問題を解決するための、有用で効率的なツールとして登場した。 しかし、性能が優れているにもかかわらず、ディープニューラルネットワークは敵の摂動の影響を受けやすいため、入力画像に知覚的な変更を加えることなく、ネットワークの予測が変更される可能性があるため、そのようなシステムの展開時に深刻なセキュリティ問題が発生する。 近年の研究では、データセット内の任意の画像に追加されると、ターゲットモデルを通過すると、それを誤分類するUniversal Adversarial Perturbationsの存在が示されている。 このような摂動は、実際の攻撃中に最小限の計算が行われるため、より実用的である。 これらの摂動からニューラルネットワークを守るために、いくつかの技術も提案されている。 本稿では,データ駆動型およびデータ非依存型の多種多様な摂動生成手法と,そのような摂動に対する防御策について,詳細な議論を行う。 また、このような普遍的な摂動の様々な深層学習タスクへの応用についても取り上げる。

Over the past decade, Deep Learning has emerged as a useful and efficient tool to solve a wide variety of complex learning problems ranging from image classification to human pose estimation, which is challenging to solve using statistical machine learning algorithms. However, despite their superior performance, deep neural networks are susceptible to adversarial perturbations, which can cause the network's prediction to change without making perceptible changes to the input image, thus creating severe security issues at the time of deployment of such systems. Recent works have shown the existence of Universal Adversarial Perturbations, which, when added to any image in a dataset, misclassifies it when passed through a target model. Such perturbations are more practical to deploy since there is minimal computation done during the actual attack. Several techniques have also been proposed to defend the neural networks against these perturbations. In this paper, we attempt to provide a detailed discussion on the various data-driven and data-independent methods for generating universal perturbations, along with measures to defend against such perturbations. We also cover the applications of such universal perturbations in various deep learning tasks.
翻訳日:2022-12-02 13:15:15 公開日:2020-05-16
# EEGとViceの動画機能予測

Predicting Video features from EEG and Vice versa ( http://arxiv.org/abs/2005.11235v1 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik(参考訳) 本稿では,脳波(eeg)特徴から顔・唇映像の特徴を予測し,深層学習モデルを用いた顔・唇映像フレームから脳波特徴を推定する。 被験者はコンピュータ画面に表示された大きな英語文を読み取るよう求められ、同時に脳波信号と顔ビデオフレームが記録された。 私たちのモデルは、入力脳波の特徴から、顔や唇の映像フレームの非常に広い特性を生成できた。 以上の結果から,脳波の特徴から高品質な顔や唇映像を合成する第一歩が示された。 7つの被験者からなるデータセットの結果を示す。

In this paper we explore predicting facial or lip video features from electroencephalography (EEG) features and predicting EEG features from recorded facial or lip video frames using deep learning models. The subjects were asked to read out loud English sentences shown to them on a computer screen and their simultaneous EEG signals and facial video frames were recorded. Our model was able to generate very broad characteristics of the facial or lip video frame from input EEG features. Our results demonstrate the first step towards synthesizing high quality facial or lip video from recorded EEG features. We demonstrate results for a data set consisting of seven subjects.
翻訳日:2022-12-02 13:14:56 公開日:2020-05-16
# 高次元線形回帰に対する解経路に基づくネストモデル

Nested Model Averaging on Solution Path for High-dimensional Linear Regression ( http://arxiv.org/abs/2005.08057v1 )

ライセンス: Link先を確認
Yang Feng and Qingfeng Liu(参考訳) 高次元線形回帰問題に対する解経路のネストモデル平均化法について検討した。 特に,高次元線形回帰の解経路上でのモデル平均化と正規化推定器(ラッソやスロープなど)を組み合わせることを提案する。 シミュレーション研究において,まず,ネストモデル平均化の挙動に対する予測子順序の影響を体系的に検討し,ラッソとスロープ平均化のネストモデルと,実現不可能なラッソとスロープを含む他の競合手法と最適に選択されたチューニングパラメータとを比較した。 米国における一人当たりの暴力犯罪の予測に関する実際のデータ分析は、ラッソで平均化するネストされたモデルの優れたパフォーマンスを示している。

We study the nested model averaging method on the solution path for a high-dimensional linear regression problem. In particular, we propose to combine model averaging with regularized estimators (e.g., lasso and SLOPE) on the solution path for high-dimensional linear regression. In simulation studies, we first conduct a systematic investigation on the impact of predictor ordering on the behavior of nested model averaging, then show that nested model averaging with lasso and SLOPE compares favorably with other competing methods, including the infeasible lasso and SLOPE with the tuning parameter optimally selected. A real data analysis on predicting the per capita violent crime in the United States shows an outstanding performance of the nested model averaging with lasso.
翻訳日:2022-12-02 13:14:45 公開日:2020-05-16
# 論争検出のためのグラフ畳み込みネットワークと意味的・構造的情報の統合

Integrating Semantic and Structural Information with Graph Convolutional Network for Controversy Detection ( http://arxiv.org/abs/2005.07886v1 )

ライセンス: Link先を確認
Lei Zhong, Juan Cao, Qiang Sheng, Junbo Guo, Ziang Wang(参考訳) ソーシャルメディア上で議論を呼んでいる投稿を識別することは、大衆の感情をマイニングし、出来事の影響を評価し、偏見を緩和するための基本的なタスクである。 しかし 既存の方法では 1) コンテンツ関連投稿からの意味情報を効果的に取り入れること。 2) 応答関係モデリングのための構造情報を保存すること。 3)トレーニングセットと異なるトピックからの投稿を適切に処理する。 最初の2つの制限を克服するために、トピック、投稿、コメントのグラフ構造やコンテンツからの情報を統合するTopic-Post-Comment Graph Convolutional Network (TPC-GCN)を提案する。 第3の制限については、Distangled TPC-GCN (DTPC-GCN) にモデルを拡張し、トピック関連およびトピック非関連の機能を切り離し、動的に融合する。 2つの実世界のデータセットに関する広範な実験は、我々のモデルが既存のメソッドよりも優れていることを示している。 結果と事例の分析は,本モデルが意味情報と構造情報を有意な一般化性で統合できることを証明している。

Identifying controversial posts on social media is a fundamental task for mining public sentiment, assessing the influence of events, and alleviating the polarized views. However, existing methods fail to 1) effectively incorporate the semantic information from content-related posts; 2) preserve the structural information for reply relationship modeling; 3) properly handle posts from topics dissimilar to those in the training set. To overcome the first two limitations, we propose Topic-Post-Comment Graph Convolutional Network (TPC-GCN), which integrates the information from the graph structure and content of topics, posts, and comments for post-level controversy detection. As to the third limitation, we extend our model to Disentangled TPC-GCN (DTPC-GCN), to disentangle topic-related and topic-unrelated features and then fuse dynamically. Extensive experiments on two real-world datasets demonstrate that our models outperform existing methods. Analysis of the results and cases proves that our models can integrate both semantic and structural information with significant generalizability.
翻訳日:2022-12-02 13:14:09 公開日:2020-05-16
# ニューラル確率ブロックモデルとスケーラブルなコミュニティベースグラフ学習

Neural Stochastic Block Model & Scalable Community-Based Graph Learning ( http://arxiv.org/abs/2005.07855v1 )

ライセンス: Link先を確認
Zheng Chen, Xinli Yu, Yuan Ling, Xiaohua Hu(参考訳) 本稿では,グラフ学習のためのスケーラブルなコミュニティベースニューラルネットワークを提案する。 本手法は,従来の確率ブロックモデル(sbm)の確率関数の非自明な適応により,提案するsbm損失関数を最適化することにより,コミュニティ検出とリンク予測のタスクを通してグラフトポロジを学習する。 SBMと比較して、我々のフレームワークは柔軟で、ソフトラベルと複雑なノード属性の消化が自然に可能である。 複雑なグラフデータの効率的な評価が主な目的であるため、当社の設計では、大規模データへの適応を慎重に目標としており、効率的な評価のために単一のフォワードパスがあることを保証しています。 大規模グラフでは、その基盤となる構造を様々なグラフ学習タスクに効率的に活用する方法に関して、未解決の問題が残っている。 以前は重労働であった。 コミュニティベースのフレームワークでは、これは難しくなり、タスクモデルを基本的にプラグイン&プレイし、共同トレーニングを実行できます。 現在,グラフアライメントと異常相関検出という2つの応用を検討中で,両問題に対処するためのフレームワークの活用方法について検討している。 本手法の有効性を示すために広範な実験を行った。 私たちはまた、パフォーマンスとスケーラビリティに役立つ古典的なテクニックの微調整にも貢献しました。 例えば、1)GAT+、GAT(Graph Attention Network)の改良された設計、スケールしたコサインの類似性、および畳み込み/アテンションベースとランダムウォークベースのニューラルグラフモデルの統一実装などである。

This paper proposes a novel scalable community-based neural framework for graph learning. The framework learns the graph topology through the task of community detection and link prediction by optimizing with our proposed joint SBM loss function, which results from a non-trivial adaptation of the likelihood function of the classic Stochastic Block Model (SBM). Compared with SBM, our framework is flexible, naturally allows soft labels and digestion of complex node attributes. The main goal is efficient valuation of complex graph data, therefore our design carefully aims at accommodating large data, and ensures there is a single forward pass for efficient evaluation. For large graph, it remains an open problem of how to efficiently leverage its underlying structure for various graph learning tasks. Previously it can be heavy work. With our community-based framework, this becomes less difficult and allows the task models to basically plug-in-and-play and perform joint training. We currently look into two particular applications, the graph alignment and the anomalous correlation detection, and discuss how to make use of our framework to tackle both problems. Extensive experiments are conducted to demonstrate the effectiveness of our approach. We also contributed tweaks of classic techniques which we find helpful for performance and scalability. For example, 1) the GAT+, an improved design of GAT (Graph Attention Network), the scaled-cosine similarity, and a unified implementation of the convolution/attention based and the random-walk based neural graph models.
翻訳日:2022-12-02 13:07:35 公開日:2020-05-16
# 異種データの高次元ビザンチン耐性SGD

Byzantine-Resilient SGD in High Dimensions on Heterogeneous Data ( http://arxiv.org/abs/2005.07866v1 )

ライセンス: Link先を確認
Deepesh Data and Suhas Diggavi(参考訳) ビザンチン攻撃下での主作業者アーキテクチャにおける分散確率勾配降下(SGD)について検討した。 我々は、異なるワーカーが異なるローカルデータセットを持つかもしれない異種データモデルを検討し、データ生成に関する確率論的仮定をしない。 アルゴリズムのコアでは,Steinhardt et al. (ITCS 2018) が提案した多項式時間外乱フィルタ法を用いて劣化勾配をフィルタする。 労働者が「em確率」勾配を計算する「emヘテロジニアス」データセットにフィルタリング手順を適用するために、新たな行列濃度結果が導出され、独立した興味を持つ可能性がある。 滑らかな強凸および非凸対象に対する収束解析を行う。 我々は, 局所確率勾配の有界分散仮定と, 勾配の相似性, およびこれらの量に対して, 統計的不均一なデータモデルに具体的な有界性を与えるという条件の下で, 結果の導出を行う。 確率勾配に対するミニバッチサイズと近似誤差とのトレードオフを与える。 我々のアルゴリズムは最大$\frac{1}{4}$ fraction byzantine workersを許容できる。 強凸設定において近似最適パラメータは指数関数的に高速で、非凸設定における近似定常点に線形速度で到達し、したがってビザンツ自由設定におけるバニラSGDの収束率と一致する。 また,傾斜圧縮を伴うビザンチン耐性sgdアルゴリズムの提案と解析を行い,その勾配のランダム座標をk$で送信する。 軽度条件下では,通信ビットの$\frac{d}{k}$-factorセーブと,その収束率(オーダーワイド)と近似誤差に影響を与えることなく,圧縮自由アルゴリズム上のデコード複雑性を示す。

We study distributed stochastic gradient descent (SGD) in the master-worker architecture under Byzantine attacks. We consider the heterogeneous data model, where different workers may have different local datasets, and we do not make any probabilistic assumptions on data generation. At the core of our algorithm, we use the polynomial-time outlier-filtering procedure for robust mean estimation proposed by Steinhardt et al. (ITCS 2018) to filter-out corrupt gradients. In order to be able to apply their filtering procedure in our {\em heterogeneous} data setting where workers compute {\em stochastic} gradients, we derive a new matrix concentration result, which may be of independent interest. We provide convergence analyses for smooth strongly-convex and non-convex objectives. We derive our results under the bounded variance assumption on local stochastic gradients and a {\em deterministic} condition on datasets, namely, gradient dissimilarity; and for both these quantities, we provide concrete bounds in the statistical heterogeneous data model. We give a trade-off between the mini-batch size for stochastic gradients and the approximation error. Our algorithm can tolerate up to $\frac{1}{4}$ fraction Byzantine workers. It can find approximate optimal parameters in the strongly-convex setting exponentially fast and reach to an approximate stationary point in the non-convex setting with a linear speed, thus, matching the convergence rates of vanilla SGD in the Byzantine-free setting. We also propose and analyze a Byzantine-resilient SGD algorithm with gradient compression, where workers send $k$ random coordinates of their gradients. Under mild conditions, we show a $\frac{d}{k}$-factor saving in communication bits as well as decoding complexity over our compression-free algorithm without affecting its convergence rate (order-wise) and the approximation error.
翻訳日:2022-12-02 13:07:08 公開日:2020-05-16
# 凸分散学習のための微分プライベートADMM:マルチステップ近似による精度の向上

Differentially Private ADMM for Convex Distributed Learning: Improved Accuracy via Multi-Step Approximation ( http://arxiv.org/abs/2005.07890v1 )

ライセンス: Link先を確認
Zonghao Huang and Yanmin Gong(参考訳) Alternating Direction Method of Multipliers (ADMM) は分散学習のための一般的なアルゴリズムであり、ノードのネットワークは分散データと反復交換に付随する反復的局所計算により、正規化された経験的リスク最小化を協調的に解決する。 トレーニングデータがセンシティブな場合、交換されたイテレートは、重大なプライバシー上の懸念を引き起こす。 本稿では,多岐にわたる凸学習問題に対して,精度が向上した微分プライベート分散admmアルゴリズムを提案する。 提案アルゴリズムでは, 局所計算における目的関数の近似を適用し, キャリブレーションされた雑音を逐次更新に頑健に導入し, 複数ノード毎の一次変数更新を可能にする。 提案手法は,複数の近距離更新によって高い実用性が得られることを示すとともに,その誤差境界が最先端のものと漸近していることを示す。

Alternating Direction Method of Multipliers (ADMM) is a popular algorithm for distributed learning, where a network of nodes collaboratively solve a regularized empirical risk minimization by iterative local computation associated with distributed data and iterate exchanges. When the training data is sensitive, the exchanged iterates will cause serious privacy concern. In this paper, we aim to propose a new differentially private distributed ADMM algorithm with improved accuracy for a wide range of convex learning problems. In our proposed algorithm, we adopt the approximation of the objective function in the local computation to introduce calibrated noise into iterate updates robustly, and allow multiple primal variable updates per node in each iteration. Our theoretical results demonstrate that our approach can obtain higher utility by such multiple approximate updates, and achieve the error bounds asymptotic to the state-of-art ones for differentially private empirical risk minimization.
翻訳日:2022-12-02 13:06:35 公開日:2020-05-16
# 視覚分類のための暗号化による対人防御

Encryption Inspired Adversarial Defense for Visual Classification ( http://arxiv.org/abs/2005.07998v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 従来の敵防衛は、モデルが攻撃を受けているかどうかの分類精度を低下させる。 さらに, 画像処理による防御は, 難解な勾配の問題により, ほとんど打ち負かされる。 本稿では,知覚的画像暗号化法に触発された画像の訓練とテストの両方に対する防御的変換である新たな防御手法を提案する。 提案手法は秘密鍵を用いたブロックワイズ画素シャッフル方式を用いる。 この実験は、難解勾配を考慮した適応的および非適応的最大ノルム有界ホワイトボックス攻撃において行われた。 その結果,CIFAR-10データセット上でのノイズ距離8/255の対向例において,クリーンな画像に対して高い精度 (91.55 %) を達成することができた。 このようにして、提案した防御は、潜伏した対人訓練、対人訓練、温度計符号化など、最先端の対人防御よりも優れる。

Conventional adversarial defenses reduce classification accuracy whether or not a model is under attacks. Moreover, most of image processing based defenses are defeated due to the problem of obfuscated gradients. In this paper, we propose a new adversarial defense which is a defensive transform for both training and test images inspired by perceptual image encryption methods. The proposed method utilizes a block-wise pixel shuffling method with a secret key. The experiments are carried out on both adaptive and non-adaptive maximum-norm bounded white-box attacks while considering obfuscated gradients. The results show that the proposed defense achieves high accuracy (91.55 %) on clean images and (89.66 %) on adversarial examples with noise distance of 8/255 on CIFAR-10 dataset. Thus, the proposed defense outperforms state-of-the-art adversarial defenses including latent adversarial training, adversarial training and thermometer encoding.
翻訳日:2022-12-02 13:05:48 公開日:2020-05-16
# コホート間の分類パリティに向けて

Towards classification parity across cohorts ( http://arxiv.org/abs/2005.08033v1 )

ライセンス: Link先を確認
Aarsh Patel, Rahul Gupta, Mukund Harakere, Satyapriya Krishna, Aman Alok, Peng Liu(参考訳) 近年、機械学習におけるアルゴリズムの公平性を保証することに多くの関心が寄せられ、センシティブな情報(例えば、個人の民族集団に関する知識)が学習アルゴリズムに「不公平」なバイアスを加えるのを防ぐ方法が中心となっている(feldman et al. (2015), zemel et al. (2013))。 これは、単語埋め込み(qian et al. (2019) 、bolukbasi et al. (2016))、coreference resolution (zhao et al. (2018a))、semantic role labeling (zhao et al. (2017))などに関するいくつかのデバイアスアルゴリズムを生み出した。 これらの既存の作業のほとんどは、プライバシの懸念のためにそのような機能がキャプチャされないデータでは動作しない、性別、職業、人種といった明示的な敏感な機能を扱う。 本研究では,明示的特徴と暗黙的特徴にまたがる分類パリティの実現を目指す。 明示的なコホートを、データ(年齢、性別、人種)で提供される明示的な繊細な属性に基づく人々のグループとして定義する一方で、暗黙的なコホートを同様の言語の使い方を持つ人々のグループとして定義する。 言語モデルを用いて学習した個々の言語の埋め込みをクラスタリングすることで、暗黙のコホートを得る。 1) 暗黙的特徴と明示的特徴に基づくコホート間の分類性能差を実験し, 発見し, [2] コホート全体のモデル性能を最小化することを目的とした損失関数の修正により分類パリティを改善した。

Recently, there has been a lot of interest in ensuring algorithmic fairness in machine learning where the central question is how to prevent sensitive information (e.g. knowledge about the ethnic group of an individual) from adding "unfair" bias to a learning algorithm (Feldman et al. (2015), Zemel et al. (2013)). This has led to several debiasing algorithms on word embeddings (Qian et al. (2019) , Bolukbasi et al. (2016)), coreference resolution (Zhao et al. (2018a)), semantic role labeling (Zhao et al. (2017)), etc. Most of these existing work deals with explicit sensitive features such as gender, occupations or race which doesn't work with data where such features are not captured due to privacy concerns. In this research work, we aim to achieve classification parity across explicit as well as implicit sensitive features. We define explicit cohorts as groups of people based on explicit sensitive attributes provided in the data (age, gender, race) whereas implicit cohorts are defined as groups of people with similar language usage. We obtain implicit cohorts by clustering embeddings of each individual trained on the language generated by them using a language model. We achieve two primary objectives in this work : [1.] We experimented and discovered classification performance differences across cohorts based on implicit and explicit features , [2] We improved classification parity by introducing modification to the loss function aimed to minimize the range of model performances across cohorts.
翻訳日:2022-12-02 12:59:21 公開日:2020-05-16
# 空間余裕パターン探索のための機械学習

Machine Learning for Exploring Spatial Affordance Patterns ( http://arxiv.org/abs/2005.08106v1 )

ライセンス: Link先を確認
Boyana Buyuklieva(参考訳) この論文は、教師なし、教師なしのデータマイニング技術を用いてオフィスフロアの計画を分析し、その形状と機能の関係をよりよく理解しようとするものである。 自動フロアプラン生成ツールの背景調査の結果,1960年代以降,このようなツールがプロトタイプとして開発されたことが判明したが,空間的余裕を記述できる形式がほとんどないため,その検索スペースは不十分であった。 幾何学と使用法の関係を示すために、3人の教師付き学習者を訓練し、ZeroR分類器で確立したベースライン精度と比較した。 その結果、調査されたofficeデータセットでは、視覚的平均深度と統合が最も密接な関係にあり、教師付き学習アルゴリズムj48は、見えない例のクラスパフォーマンスを79.5%まで正確に予測できることがわかった。 この論文は、教師なし学習者によるレイアウトケーススタディの評価も含み、VGA情報に基づく厳密なリバースエンジニアリングにより、クラスタ・ツー・クラスの強力な評価を達成できないことを示した。

This dissertation uses supervised and unsupervised data mining techniques to analyse office floor plans in an attempt to gain a better understanding of their geometry-to-function relationship. This question was deemed relevant after a background review of the state-of-the-art in automated floor-plan generation tools showed that such tools have been prototyped since the 1960s, but their search space is ill-informed because there are few formalisms to describe spatial affordance. To show and evaluate the relationship of geometry and use, data from visual graph analysis were used to train three supervised learners and compare these to a baseline accuracy established with a ZeroR classifier. This showed that for the office dataset examined, visual mean depth and integration are most tightly linked to usage and that the supervised learning algorithm J48 can correctly predict class performance on unseen examples to up to 79.5%. The thesis also includes an evaluation of the layout case studies with unsupervised learners, which showed that use could not be immediately reverse-engineered based solemnly on the VGA information to achieve a strong cluster-to-class evaluation.
翻訳日:2022-12-02 12:57:45 公開日:2020-05-16
# ディープニューラルネットワークのための一般化ベイズ後方期待蒸留

Generalized Bayesian Posterior Expectation Distillation for Deep Neural Networks ( http://arxiv.org/abs/2005.08110v1 )

ライセンス: Link先を確認
Meet P. Vadera, Brian Jalaian and Benjamin M. Marlin(参考訳) 本稿では、ディープニューラルネットワーク分類器のベイジアン後部分布に対する期待を蒸留するための一般的な枠組みを提案し、ベイジアンダークナレッジフレームワークに関する先行研究を延長する。 提案するフレームワークは,入力型"教師"と学生モデルアーキテクチャ,および一般の興味の後方にある期待値である。 本発明の蒸留方法は、反復生成モンテカルロ試料を用いて選択された後部予想のオンライン圧縮を行う。 蒸留ターゲットとして, 後方予測分布と期待エントロピーに着目した。 不確実性の影響や学生モデルアーキテクチャの選択など,このフレームワークのいくつかの側面を調査した。 学生モデルによるアーキテクチャ探索の手法を, 速度・ストレージ・精度の観点から検討し, 不確実性ランキングや分布外検出を含むエントロピー蒸留を利用したダウンストリームタスクの評価を行った。

In this paper, we present a general framework for distilling expectations with respect to the Bayesian posterior distribution of a deep neural network classifier, extending prior work on the Bayesian Dark Knowledge framework. The proposed framework takes as input "teacher" and student model architectures and a general posterior expectation of interest. The distillation method performs an online compression of the selected posterior expectation using iteratively generated Monte Carlo samples. We focus on the posterior predictive distribution and expected entropy as distillation targets. We investigate several aspects of this framework including the impact of uncertainty and the choice of student model architecture. We study methods for student model architecture search from a speed-storage-accuracy perspective and evaluate down-stream tasks leveraging entropy distillation including uncertainty ranking and out-of-distribution detection.
翻訳日:2022-12-02 12:57:25 公開日:2020-05-16
# 画像ラベルからの単段意味セグメンテーション

Single-Stage Semantic Segmentation from Image Labels ( http://arxiv.org/abs/2005.08104v1 )

ライセンス: Link先を確認
Nikita Araslanov and Stefan Roth(参考訳) 近年,画像レベルのラベルのみをトレーニングに使用することで,弱い教師付き設定で意味セグメンテーションの精度を向上させる新たなアプローチが急速に成長している。 しかし、これはモデル複雑さの増加と高度なマルチステージトレーニング手順のコストが伴う。 これは、画像ラベルに1つのセグメンテーションネットワークをトレーニングする1つのステージのみを使用していた以前の作業とは対照的で、セグメンテーション精度が低いために放棄された。 本研究ではまず,局所的整合性,意味的忠実性,完全性という,弱教師付き手法の3つの望ましい特性を定義する。 これらの特性をガイドラインとして,セグメンテーションベースのネットワークモデルと自己教師付きトレーニングスキームを開発し,画像レベルのアノテーションから意味的マスクを学習する。 その結果,本手法は単純さに拘わらず,従来の単段法を大きく上回る複雑なパイプラインと競合する結果が得られることがわかった。

Recent years have seen a rapid growth in new approaches improving the accuracy of semantic segmentation in a weakly supervised setting, i.e. with only image-level labels available for training. However, this has come at the cost of increased model complexity and sophisticated multi-stage training procedures. This is in contrast to earlier work that used only a single stage $-$ training one segmentation network on image labels $-$ which was abandoned due to inferior segmentation accuracy. In this work, we first define three desirable properties of a weakly supervised method: local consistency, semantic fidelity, and completeness. Using these properties as guidelines, we then develop a segmentation-based network model and a self-supervised training scheme to train for semantic masks from image-level annotations in a single stage. We show that despite its simplicity, our method achieves results that are competitive with significantly more complex pipelines, substantially outperforming earlier single-stage methods.
翻訳日:2022-12-02 12:56:55 公開日:2020-05-16
# モデルに基づく強化学習によるオフグリッドマイクログリッドの寿命制御

Lifelong Control of Off-grid Microgrid with Model Based Reinforcement Learning ( http://arxiv.org/abs/2005.08006v1 )

ライセンス: Link先を確認
Simone Totaro, Ioannis Boukas, Anders Jonsson and Bertrand Corn\'elusse(参考訳) オフグリッドマイクログリッドの寿命制御問題は、将来の消費と再生可能生産を予測することにより、マイクログリッドデバイスの状態の推定と不確実性を考慮した運用計画という2つのタスクからなる。 効果的なコントロールの主な課題は、時間とともに起こるさまざまな変化から生じます。 本稿では,農村電化のためのオフグリッドマイクログリッドのモデル化のためのオープンソースの強化フレームワークを提案する。 分離マイクログリッドの寿命制御問題はマルコフ決定過程(MDP)として定式化される。 進行および急激な変化で起こりうる一連の変化を分類する。 両タイプの変更に対応可能な新しいモデルベース強化学習アルゴリズムを提案する。 特に,高速に変化するシステム力学の場合,一般化特性,伝達能力,堅牢性を示すアルゴリズムを提案する。 提案アルゴリズムは、ルールベースのポリシーと、ルックアヘッド付きモデル予測コントローラと比較する。 その結果、トレーニングされたエージェントは、システムのダイナミクスが時間とともに変化する寿命の長い環境で、両方のベンチマークを上回ります。

The lifelong control problem of an off-grid microgrid is composed of two tasks, namely estimation of the condition of the microgrid devices and operational planning accounting for the uncertainties by forecasting the future consumption and the renewable production. The main challenge for the effective control arises from the various changes that take place over time. In this paper, we present an open-source reinforcement framework for the modeling of an off-grid microgrid for rural electrification. The lifelong control problem of an isolated microgrid is formulated as a Markov Decision Process (MDP). We categorize the set of changes that can occur in progressive and abrupt changes. We propose a novel model based reinforcement learning algorithm that is able to address both types of changes. In particular the proposed algorithm demonstrates generalisation properties, transfer capabilities and better robustness in case of fast-changing system dynamics. The proposed algorithm is compared against a rule-based policy and a model predictive controller with look-ahead. The results show that the trained agent is able to outperform both benchmarks in the lifelong setting where the system dynamics are changing over time.
翻訳日:2022-12-02 12:56:22 公開日:2020-05-16
# 教師なし埋め込みに基づく語彙意味変化の検出

Unsupervised Embedding-based Detection of Lexical Semantic Changes ( http://arxiv.org/abs/2005.07979v1 )

ライセンス: Link先を確認
Ehsaneddin Asgari and Christoph Ringlstetter and Hinrich Sch\"utze(参考訳) 本稿では,SemEval-2020 Task 1における"Life-Language"チームによって導入されたEmbLexChangeについて述べる。 EmbLexChangeは、ソース内のワードw(参照単語の集合に関する計算)とターゲットドメイン(ソースおよびターゲットドメインは、単純に2つの時間フレームt1,t2)の埋め込みベースプロファイルの分岐として定義される。 基本となる仮定は、単語 w の語彙論的変化がその共起語に影響し、埋め込み空間の近傍を変化させることである。 参照語選択のための再サンプリングフレームワークを用いて,英語,ドイツ語,スウェーデン語,ラテン語の語彙・意味変化を確実に検出できることを示す。 EmbLexChangeはSemEval-2020におけるセマンティックな変化のバイナリ検出において2位を獲得した。

This paper describes EmbLexChange, a system introduced by the "Life-Language" team for SemEval-2020 Task 1, on unsupervised detection of lexical-semantic changes. EmbLexChange is defined as the divergence between the embedding based profiles of word w (calculated with respect to a set of reference words) in the source and the target domains (source and target domains can be simply two time frames t1 and t2). The underlying assumption is that the lexical-semantic change of word w would affect its co-occurring words and subsequently alters the neighborhoods in the embedding spaces. We show that using a resampling framework for the selection of reference words, we can reliably detect lexical-semantic changes in English, German, Swedish, and Latin. EmbLexChange achieved second place in the binary detection of semantic changes in the SemEval-2020.
翻訳日:2022-12-02 12:50:09 公開日:2020-05-16
# K-12オンラインワン・ワン・ワン・クラスの自動対話命令検出

Automatic Dialogic Instruction Detection for K-12 Online One-on-one Classes ( http://arxiv.org/abs/2006.01204v1 )

ライセンス: Link先を確認
Shiting Xu, Wenbiao Ding, Zitao Liu(参考訳) オンライン一対一のクラスは、高度にインタラクティブで没入的な学習体験のために作成されます。 多数のオンラインインストラクターを必要としている。 本研究では,教師が1対1の学習パラダイムの利点を享受するための6つの対話型指導法を開発した。 さらに、長短期記憶(LSTM)と呼ばれるニューラルネットワークモデルを用いて、6つの命令を自動的に検出する。 実世界の教育データセット上の6種類の命令のうち、LSTMアプローチはAUCスコアが0.840から0.979に到達していることを示す。

Online one-on-one class is created for highly interactive and immersive learning experience. It demands a large number of qualified online instructors. In this work, we develop six dialogic instructions and help teachers achieve the benefits of one-on-one learning paradigm. Moreover, we utilize neural language models, i.e., long short-term memory (LSTM), to detect above six instructions automatically. Experiments demonstrate that the LSTM approach achieves AUC scores from 0.840 to 0.979 among all six types of instructions on our real-world educational dataset.
翻訳日:2022-12-02 12:49:53 公開日:2020-05-16
# 効率的な言語モデリングのためのMicroNet

MicroNet for Efficient Language Modeling ( http://arxiv.org/abs/2005.07877v1 )

ライセンス: Link先を確認
Zhongxia Yan, Hanrui Wang, Demi Guo, Song Han(参考訳) 効率的なデプロイメントのためのコンパクト言語モデルを設計することが重要である。 パラメータと計算効率のよい言語モデルを構築するため、言語モデリングドメインとモデル圧縮ドメインの両方の最近の進歩を改善した。 我々は,適応埋め込みとソフトマックス,微分可能な非パラメトリックキャッシュ,ヘビアンソフトマックス,知識蒸留,ネットワークプルーニング,低ビット量子化を備えた効率的なトランスフォーマーアーキテクチャを用いる。 本稿では,言語モデリングトラックにおけるNeurIPS 2019 MicroNet Challengeの優勝ソリューションを提供する。 MicroNet Challengeが提供するベースライン言語モデルと比較して、我々のモデルはパラメータ効率の90倍、計算効率の36倍であり、Wikitext-103データセット上で必要なテストパープレキシティは35である。 この研究が効率的な言語モデルの研究に役立つことを期待しており、私たちはhttps://github.com/mit-han-lab/neurips-micronet.comでソースコードをリリースした。

It is important to design compact language models for efficient deployment. We improve upon recent advances in both the language modeling domain and the model-compression domain to construct parameter and computation efficient language models. We use an efficient transformer-based architecture with adaptive embedding and softmax, differentiable non-parametric cache, Hebbian softmax, knowledge distillation, network pruning, and low-bit quantization. In this paper, we provide the winning solution to the NeurIPS 2019 MicroNet Challenge in the language modeling track. Compared to the baseline language model provided by the MicroNet Challenge, our model is 90 times more parameter-efficient and 36 times more computation-efficient while achieving the required test perplexity of 35 on the Wikitext-103 dataset. We hope that this work will aid future research into efficient language models, and we have released our full source code at https://github.com/mit-han-lab/neurips-micronet.
翻訳日:2022-12-02 12:49:44 公開日:2020-05-16
# 検索型チャットボットにおけるマルチターン応答選択のための逐次文マッチングネットワーク

Sequential Sentence Matching Network for Multi-turn Response Selection in Retrieval-based Chatbots ( http://arxiv.org/abs/2005.07923v1 )

ライセンス: Link先を確認
Chao Xiong, Che Liu, Zijun Xu, Junfeng Jiang, Jieping Ye(参考訳) 最近、オープンドメインのマルチターンチャットボットは、学界と産業の両方の研究者から多くの関心を集めている。 支配的な検索ベース手法は、マルチターン応答選択に文脈応答マッチング機構を用いる。 具体的には、最先端手法は、単語またはセグメントの類似度による文脈応答マッチングを実行する。 しかし、これらのモデルは文レベルの意味情報の完全な活用を欠き、人間が容易に回避できる簡単な間違いを犯す。 本研究では,文レベルの意味情報を用いて問題に対処するために,逐次文マッチングネットワーク(s2m)を提案する。 まず, 文レベルの意味情報を用いて, ネットワークが問題に対処し, マッチングを大幅に改善し, その結果, 最先端の性能が得られた。 さらに,本論文で紹介した文マッチングと,現在文献に報告されている通常の単語類似性マッチングを統合して,異なる意味レベルでマッチングする。 3つの公開データセットの実験は、そのような統合がモデルの性能をさらに改善することを示している。

Recently, open domain multi-turn chatbots have attracted much interest from lots of researchers in both academia and industry. The dominant retrieval-based methods use context-response matching mechanisms for multi-turn response selection. Specifically, the state-of-the-art methods perform the context-response matching by word or segment similarity. However, these models lack a full exploitation of the sentence-level semantic information, and make simple mistakes that humans can easily avoid. In this work, we propose a matching network, called sequential sentence matching network (S2M), to use the sentence-level semantic information to address the problem. Firstly and most importantly, we find that by using the sentence-level semantic information, the network successfully addresses the problem and gets a significant improvement on matching, resulting in a state-of-the-art performance. Furthermore, we integrate the sentence matching we introduced here and the usual word similarity matching reported in the current literature, to match at different semantic levels. Experiments on three public data sets show that such integration further improves the model performance.
翻訳日:2022-12-02 12:49:27 公開日:2020-05-16
# iCapsNets: テキスト分類のための解釈可能なカプセルネットワークを目指して

iCapsNets: Towards Interpretable Capsule Networks for Text Classification ( http://arxiv.org/abs/2006.00075v1 )

ライセンス: Link先を確認
Zhengyang Wang, Xia Hu, Shuiwang Ji(参考訳) 多くのテキスト分類アプリケーションは、十分な性能と優れた解釈性を持つモデルを必要とする。 従来の機械学習手法は容易に解釈できるが、精度は低い。 ディープラーニングモデルの開発は、パフォーマンスを大幅に向上させる。 しかし、ディープラーニングモデルは一般的に解釈が難しい。 本研究では,このギャップを埋めるために,解釈可能なカプセルネットワーク(iCapsNets)を提案する。 iCapsNetsはカプセルを使って意味をモデル化し、解釈可能性を高める新しい方法を模索している。 iCapsNetsの設計は人間の直感と一致しており、人間の理解可能な解釈結果を生成することができる。 特に、iCapsNetsはローカルとグローバルの両方で解釈できる。 局所的な解釈可能性に関しては、iCapsNetsは各データサンプルの予測を説明するのにシンプルだが効果的な方法を提供している。 一方、iCapsNetsはモデルの一般的な振る舞いを説明する新しい方法を模索し、グローバルな解釈可能性を実現する。 実験により,iCapsNetsは,非解釈可能な手法に比べて大きな性能損失を被ることなく,意味のある局所的および大域的解釈結果が得られることが示された。

Many text classification applications require models with satisfying performance as well as good interpretability. Traditional machine learning methods are easy to interpret but have low accuracies. The development of deep learning models boosts the performance significantly. However, deep learning models are typically hard to interpret. In this work, we propose interpretable capsule networks (iCapsNets) to bridge this gap. iCapsNets use capsules to model semantic meanings and explore novel methods to increase interpretability. The design of iCapsNets is consistent with human intuition and enables it to produce human-understandable interpretation results. Notably, iCapsNets can be interpreted both locally and globally. In terms of local interpretability, iCapsNets offer a simple yet effective method to explain the predictions for each data sample. On the other hand, iCapsNets explore a novel way to explain the model's general behavior, achieving global interpretability. Experimental studies show that our iCapsNets yield meaningful local and global interpretation results, without suffering from significant performance loss compared to non-interpretable methods.
翻訳日:2022-12-02 12:48:22 公開日:2020-05-16
# 複合カーネルを用いたグラフニューラルネットワーク

Graph Neural Networks with Composite Kernels ( http://arxiv.org/abs/2005.07869v1 )

ライセンス: Link先を確認
Yufan Zhou, Jiayi Xian, Changyou Chen, Jinhui Xu(参考訳) 近年,グラフ構造化データの学習への関心が高まっている。 Graph Convolutional Networks (GCN)のようなフレームワークは、構造情報をキャプチャし、様々なタスクで優れたパフォーマンスを得る能力を示している。 これらのフレームワークでは、ノード集約スキームは一般に構造情報をキャプチャするために使われる: ノードの特徴ベクトルは、隣接ノードの特徴を集約することで再帰的に計算される。 しかし、アグリゲーションスキームのほとんどがグラフ内のすべての接続を等しく扱い、ノードの特徴的類似性を無視している。 本稿では,カーネル重み付けの観点からノードアグリゲーションを再解釈し,アグリゲーション方式における特徴類似性を考慮したフレームワークを提案する。 具体的には、正規化隣接行列はクレイン空間内の近傍のカーネル行列と同値であることを示す。 次に,特徴空間における特徴類似性を符号化するために,隣接カーネルと学習可能なカーネルの組み合わせとして特徴集約を提案する。 さらに,提案手法をグラフ注意ネットワーク(GAT)に拡張する方法について述べる。 実験の結果,いくつかの実世界のアプリケーションにおいて提案フレームワークの性能が向上した。

Learning on graph structured data has drawn increasing interest in recent years. Frameworks like Graph Convolutional Networks (GCNs) have demonstrated their ability to capture structural information and obtain good performance in various tasks. In these frameworks, node aggregation schemes are typically used to capture structural information: a node's feature vector is recursively computed by aggregating features of its neighboring nodes. However, most of aggregation schemes treat all connections in a graph equally, ignoring node feature similarities. In this paper, we re-interpret node aggregation from the perspective of kernel weighting, and present a framework to consider feature similarity in an aggregation scheme. Specifically, we show that normalized adjacency matrix is equivalent to a neighbor-based kernel matrix in a Krein Space. We then propose feature aggregation as the composition of the original neighbor-based kernel and a learnable kernel to encode feature similarities in a feature space. We further show how the proposed method can be extended to Graph Attention Network (GAT). Experimental results demonstrate better performance of our proposed framework in several real-world applications.
翻訳日:2022-12-02 12:48:10 公開日:2020-05-16
# 未知の空間への予測? 空間予測モデルの適用範囲の推定

Predicting into unknown space? Estimating the area of applicability of spatial prediction models ( http://arxiv.org/abs/2005.07939v1 )

ライセンス: Link先を確認
Hanna Meyer and Edzer Pebesma(参考訳) 機械学習を用いた予測モデリングは環境の空間マッピングに非常に人気がある。 モデルは、新しい地理的位置が環境特性のトレーニングデータと大きく異なる可能性のある場所のサンプリング以上の予測を行うためにしばしば用いられる。 しかし、トレーニングデータをサポートせずに予測空間内の領域が問題となる。 モデルにはこれらの環境に関する知識がないため、予測は不確かである必要がある。 予測モデルを確実に適用可能な領域を推定する必要がある。 ここでは、モデルのクロスバリデーションエラーが適用される領域として定義する「適用可能性の領域」(AOA)を記述した方法論を提案する。 まず,予測者空間におけるトレーニングデータとの最小距離に基づく「異種性指標」(di)を提案し,予測者はモデルにおける各重要度によって重み付けされる。 次に、モデルトレーニングに用いるクロスバリデーション戦略に対してDIを算出するトレーニングデータのDIに基づいてしきい値を適用することにより、AOAを導出する。 シミュレーションデータを用いて理想的なしきい値を検証し、AOA内の予測誤差とモデルのクロスバリデーション誤差を比較する。 本手法をシミュレートしたケーススタディを用いて示す。 シミュレーションでは、トレーニングデータ中のDIの.95量子度でAOAを定義するためのDIのしきい値が示唆されている。 このしきい値を用いて、AOA内の予測誤差はモデルのクロスバリデーションRMSEに匹敵するが、クロスバリデーションエラーはAOAの外部には適用されない。 これは、ランダムに分散したトレーニングデータでトレーニングされているモデルや、トレーニングデータが空間内でクラスタ化され、空間的クロスバリデーションが適用される場合に適用される。 我々は、AOAを予測と共に報告し、検証措置を補完することを提案する。

Predictive modelling using machine learning has become very popular for spatial mapping of the environment. Models are often applied to make predictions far beyond sampling locations where new geographic locations might considerably differ from the training data in their environmental properties. However, areas in the predictor space without support of training data are problematic. Since the model has no knowledge about these environments, predictions have to be considered uncertain. Estimating the area to which a prediction model can be reliably applied is required. Here, we suggest a methodology that delineates the "area of applicability" (AOA) that we define as the area, for which the cross-validation error of the model applies. We first propose a "dissimilarity index" (DI) that is based on the minimum distance to the training data in the predictor space, with predictors being weighted by their respective importance in the model. The AOA is then derived by applying a threshold based on the DI of the training data where the DI is calculated with respect to the cross-validation strategy used for model training. We test for the ideal threshold by using simulated data and compare the prediction error within the AOA with the cross-validation error of the model. We illustrate the approach using a simulated case study. Our simulation study suggests a threshold on DI to define the AOA at the .95 quantile of the DI in the training data. Using this threshold, the prediction error within the AOA is comparable to the cross-validation RMSE of the model, while the cross-validation error does not apply outside the AOA. This applies to models being trained with randomly distributed training data, as well as when training data are clustered in space and where spatial cross-validation is applied. We suggest to report the AOA alongside predictions, complementary to validation measures.
翻訳日:2022-12-02 12:47:51 公開日:2020-05-16
# スパースデータと雑音データからのパラメトリック部分微分方程式の深層学習

Deep-learning of Parametric Partial Differential Equations from Sparse and Noisy Data ( http://arxiv.org/abs/2005.07916v1 )

ライセンス: Link先を確認
Hao Xu, Dongxiao Zhang, and Junsheng Zeng(参考訳) 近年,空間時間データから偏微分方程式(PDE)の発見において,データ駆動法が大きな進歩を遂げている。 しかし、スパースノイズデータ、不完全候補ライブラリ、空間的あるいは時間的変動係数など、いくつかの課題が解決されている。 本研究では,ニューラルネットワークと遺伝的アルゴリズム,適応的手法を組み合わせた新しいフレームワークを構築し,これらすべての課題を同時に解決する。 このフレームワークでは、トレーニングされたニューラルネットワークを使用してデリバティブを計算し、大量のメタデータを生成し、スパースノイズデータの問題を解決する。 次に、遺伝的アルゴリズムを用いて、不完全候補ライブラリによるPDEと対応する係数の形式を発見する。 最後に,空間的あるいは時間的変動係数を持つパラメトリックpdesを2段階適応的に検出する手法を提案する。 この方法では、パラメトリックPDEの構造が最初に発見され、次に様々な係数の一般形が同定される。 提案アルゴリズムはバーガース方程式,対流拡散方程式,波動方程式,KdV方程式で検証される。 その結果,この手法はスパースやノイズに頑健であり,不完全候補ライブラリを用いてパラメトリックpdesを探索できることがわかった。

Data-driven methods have recently made great progress in the discovery of partial differential equations (PDEs) from spatial-temporal data. However, several challenges remain to be solved, including sparse noisy data, incomplete candidate library, and spatially- or temporally-varying coefficients. In this work, a new framework, which combines neural network, genetic algorithm and adaptive methods, is put forward to address all of these challenges simultaneously. In the framework, a trained neural network is utilized to calculate derivatives and generate a large amount of meta-data, which solves the problem of sparse noisy data. Next, genetic algorithm is utilized to discover the form of PDEs and corresponding coefficients with an incomplete candidate library. Finally, a two-step adaptive method is introduced to discover parametric PDEs with spatially- or temporally-varying coefficients. In this method, the structure of a parametric PDE is first discovered, and then the general form of varying coefficients is identified. The proposed algorithm is tested on the Burgers equation, the convection-diffusion equation, the wave equation, and the KdV equation. The results demonstrate that this method is robust to sparse and noisy data, and is able to discover parametric PDEs with an incomplete candidate library.
翻訳日:2022-12-02 12:41:36 公開日:2020-05-16
# オンライン授業における教師質問検出のためのニューラルマルチタスク学習

Neural Multi-Task Learning for Teacher Question Detection in Online Classrooms ( http://arxiv.org/abs/2005.07845v1 )

ライセンス: Link先を確認
Gale Yan Huang, Jiahao Chen, Haochen Liu, Weiping Fu, Wenbiao Ding, Jiliang Tang, Songfan Yang, Guoliang Li, Zitao Liu(参考訳) 質問は授業で教師が使う最も重要な教育技法の1つである。 教師と学生がアイデアを交換するためのオープンな議論を提供するだけでなく、より深い学生の思考と批判的な分析を引き起こす。 このような教育的なフィードバックを教師に提供することで、教師は教室での時間とともに教育の質を向上させることができる。 そこで本研究では,教師の音声録音から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築した。 従来の手法と比較すると,本手法は難解な機能工学を回避できるだけでなく,実教育シナリオにおけるマルチクラス質問検出のタスクにも適応する。 マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。 本研究は,実世界のオンライン教室データセットにおける質問検出タスクを広範囲に実験し,様々な評価指標を用いて,モデルの優越性を示す。

Asking questions is one of the most crucial pedagogical techniques used by teachers in class. It not only offers open-ended discussions between teachers and students to exchange ideas but also provokes deeper student thought and critical analysis. Providing teachers with such pedagogical feedback will remarkably help teachers improve their overall teaching quality over time in classrooms. Therefore, in this work, we build an end-to-end neural framework that automatically detects questions from teachers' audio recordings. Compared with traditional methods, our approach not only avoids cumbersome feature engineering, but also adapts to the task of multi-class question detection in real education scenarios. By incorporating multi-task learning techniques, we are able to strengthen the understanding of semantic relations among different types of questions. We conducted extensive experiments on the question detection tasks in a real-world online classroom dataset and the results demonstrate the superiority of our model in terms of various evaluation metrics.
翻訳日:2022-12-02 12:40:23 公開日:2020-05-16
# ロバスト平面表現のための相互情報の最大化

Mutual Information Maximization for Robust Plannable Representations ( http://arxiv.org/abs/2005.08114v1 )

ライセンス: Link先を確認
Yiming Ding, Ignasi Clavera, Pieter Abbeel(参考訳) ロボット工学の能力を現実世界の複雑な非構造環境に拡張するには、低いサンプルの複雑さを維持しながら、より良い知覚システムを開発する必要がある。 高次元状態空間を扱う場合、現在の手法はモデルフリーまたはモデルベースのいずれかである。 前者のサンプルの非効率性は、実世界に適用するための大きな障壁となる。 その後、サンプルの複雑さが低くなる一方で、シーンのすべての詳細を再構築する必要がある潜在空間を学習する。 実際の環境では、タスクは通常、シーンのごく一部を表すだけである。 レコンストラクションの目的は、不要なコンポーネントをすべてキャプチャするといったシナリオに苦しむ。 本研究では,モデルに基づく強化学習のための情報理論表現学習アルゴリズムMIROを提案する。 我々は,計画に必要な情報をすべて把握しながら,将来の情報と相互情報を最大化する潜在空間を設計する。 我々のアプローチは、邪魔者や散らかったシーンの存在下での再構築目標よりも堅牢であることを示す。

Extending the capabilities of robotics to real-world complex, unstructured environments requires the need of developing better perception systems while maintaining low sample complexity. When dealing with high-dimensional state spaces, current methods are either model-free or model-based based on reconstruction objectives. The sample inefficiency of the former constitutes a major barrier for applying them to the real-world. The later, while they present low sample complexity, they learn latent spaces that need to reconstruct every single detail of the scene. In real environments, the task typically just represents a small fraction of the scene. Reconstruction objectives suffer in such scenarios as they capture all the unnecessary components. In this work, we present MIRO, an information theoretic representational learning algorithm for model-based reinforcement learning. We design a latent space that maximizes the mutual information with the future information while being able to capture all the information needed for planning. We show that our approach is more robust than reconstruction objectives in the presence of distractors and cluttered scenes
翻訳日:2022-12-02 12:39:45 公開日:2020-05-16
# 深い模倣学習によるデータ駆動航空機軌道予測

Data Driven Aircraft Trajectory Prediction with Deep Imitation Learning ( http://arxiv.org/abs/2005.07960v1 )

ライセンス: Link先を確認
Alevizos Bastas, Theocharis Kravaris and George A. Vouros(参考訳) 現在の航空交通管理システム(atm)は、予測可能性、効率性、コスト効率の面で限界に達している。 世界中の異なるイニシアティブは、高忠実度航空機の軌道計画と予測能力を必要とする軌道指向変換を提案し、全ての段階での軌道ライフサイクルを効率的に支援している。 最近提案されたデータ駆動軌道予測手法は有望な結果をもたらす。 本稿では,データ駆動軌道予測問題を模倣学習課題としてアプローチし,その軌道を「形成」する専門家を模倣することを目的とする。 この目的に向けて, トラジェクティブクラスタリングと分類手法を備えたパイプラインにおいて, アート手法の生成的逆模倣学習状態を含む包括的なフレームワークを提案する。 このアプローチは、他のアプローチと比較して、前戦術的(すなわち、出発空港の瞬間に出発する)と戦術的(飛行中の任意の状態から)の両方において、最先端のアプローチと比較して、軌道全体(すなわち目的地に到達するまでの予測地平線)の正確な予測を提供することができる。

The current Air Traffic Management (ATM) system worldwide has reached its limits in terms of predictability, efficiency and cost effectiveness. Different initiatives worldwide propose trajectory-oriented transformations that require high fidelity aircraft trajectory planning and prediction capabilities, supporting the trajectory life cycle at all stages efficiently. Recently proposed data-driven trajectory prediction approaches provide promising results. In this paper we approach the data-driven trajectory prediction problem as an imitation learning task, where we aim to imitate experts "shaping" the trajectory. Towards this goal we present a comprehensive framework comprising the Generative Adversarial Imitation Learning state of the art method, in a pipeline with trajectory clustering and classification methods. This approach, compared to other approaches, can provide accurate predictions for the whole trajectory (i.e. with a prediction horizon until reaching the destination) both at the pre-tactical (i.e. starting at the departure airport at a specific time instant) and at the tactical (i.e. from any state while flying) stages, compared to state of the art approaches.
翻訳日:2022-12-02 12:39:32 公開日:2020-05-16
# Model-Augmented Actor-Critic: Backpropagating through Paths

Model-Augmented Actor-Critic: Backpropagating through Paths ( http://arxiv.org/abs/2005.08068v1 )

ライセンス: Link先を確認
Ignasi Clavera, Violet Fu, Pieter Abbeel(参考訳) 現在のモデルに基づく強化学習アプローチでは、単に学習ブラックボックスシミュレータとしてモデルを使用し、ポリシー最適化や価値関数学習のためのデータを強化している。 本稿では,その微分可能性を利用してモデルをより効果的に活用する方法を示す。 我々は,学習したモデルとポリシーのパスワイズ微分を用いたポリシー最適化アルゴリズムを構築した。 終端値関数を用いて、アクタクリティカルな方法でポリシーを学習することにより、多くの時間ステップにわたる学習の不安定さを防止する。 さらに, モデルと値関数の勾配誤差の観点から, 目的の単調な改善について導出する。 私たちのアプローチは (i)既存の最先端モデルベースアルゴリズムよりも一貫してサンプル効率が高い。 (ii)モデルフリーアルゴリズムの漸近性能に一致し, (iii) 一般的に過去のモデルベースアプローチが苦闘している体制であるロングホライズンズにスケールする。

Current model-based reinforcement learning approaches use the model simply as a learned black-box simulator to augment the data for policy optimization or value function learning. In this paper, we show how to make more effective use of the model by exploiting its differentiability. We construct a policy optimization algorithm that uses the pathwise derivative of the learned model and policy across future timesteps. Instabilities of learning across many timesteps are prevented by using a terminal value function, learning the policy in an actor-critic fashion. Furthermore, we present a derivation on the monotonic improvement of our objective in terms of the gradient error in the model and value function. We show that our approach (i) is consistently more sample efficient than existing state-of-the-art model-based algorithms, (ii) matches the asymptotic performance of model-free algorithms, and (iii) scales to long horizons, a regime where typically past model-based approaches have struggled.
翻訳日:2022-12-02 12:39:13 公開日:2020-05-16
# 共同進行的知識蒸留と教師なしドメイン適応

Joint Progressive Knowledge Distillation and Unsupervised Domain Adaptation ( http://arxiv.org/abs/2005.07839v1 )

ライセンス: Link先を確認
Le Thanh Nguyen-Meidine, Eric Granger, Madhu Kiran, Jose Dolz, Louis-Antoine Blais-Morin(参考訳) 現在、設計と運用データの分布の多様化と計算の複雑さは、現実世界のアプリケーションでcnnを採用する際の制限要因となっている。 例えば、人物再識別システムは、通常、各カメラが異なるキャプチャ条件を持つ分散カメラセットに依存している。 これは、ソース(例えば、ラボの設定)とターゲット(例えば、オペレーショナルカメラ)ドメインの間のかなりのシフトを意味することができる。 各対象領域の微調整のために取得した画像データのアノテートコストを考えると、教師なし領域適応(UDA)はCNNを適応するための一般的なアプローチとなっている。 さらに、高度な精度を提供する最先端のディープラーニングモデルは、リアルタイムアプリケーションでは複雑すぎるアーキテクチャに依存することが多い。 最近、これらの制限を克服するためにいくつかの圧縮とUDAアプローチが提案されているが、同時にCNNを最適化することは許されていない。 本稿では,cnnの協調最適化により,与えられた対象領域に対して良好に機能する圧縮モデルを実現するための,未検討の方向を提案する。 特に,提案手法は,複雑な教師モデルからコンパクトな学生モデルへの教師なし知識蒸留(KD)を行い,ソースデータとターゲットデータの両方を活用する。 また、ターゲットのドメインデータに直接コンパクトモデルを適用するのではなく、学生にドメイン不変機能を教えることで、既存のudaテクニックを改善します。 提案手法は,Office31 と ImageClef-DA の2種類の UDA 分類データセットを用いて,最先端圧縮と UDA 技術との比較を行った。 いずれのデータセットにおいても,本手法は高い精度を達成できると同時に,同等あるいは低い時間複雑度を必要とすることが示唆された。

Currently, the divergence in distributions of design and operational data, and large computational complexity are limiting factors in the adoption of CNNs in real-world applications. For instance, person re-identification systems typically rely on a distributed set of cameras, where each camera has different capture conditions. This can translate to a considerable shift between source (e.g. lab setting) and target (e.g. operational camera) domains. Given the cost of annotating image data captured for fine-tuning in each target domain, unsupervised domain adaptation (UDA) has become a popular approach to adapt CNNs. Moreover, state-of-the-art deep learning models that provide a high level of accuracy often rely on architectures that are too complex for real-time applications. Although several compression and UDA approaches have recently been proposed to overcome these limitations, they do not allow optimizing a CNN to simultaneously address both. In this paper, we propose an unexplored direction -- the joint optimization of CNNs to provide a compressed model that is adapted to perform well for a given target domain. In particular, the proposed approach performs unsupervised knowledge distillation (KD) from a complex teacher model to a compact student model, by leveraging both source and target data. It also improves upon existing UDA techniques by progressively teaching the student about domain-invariant features, instead of directly adapting a compact model on target domain data. Our method is compared against state-of-the-art compression and UDA techniques, using two popular classification datasets for UDA -- Office31 and ImageClef-DA. In both datasets, results indicate that our method can achieve the highest level of accuracy while requiring a comparable or lower time complexity.
翻訳日:2022-12-02 12:38:59 公開日:2020-05-16