このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210619となっている論文です。

PDF登録状況(公開日: 20210619)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) TNCR:テーブルネットの検出と分類データセット [全文訳有]

TNCR: Table Net Detection and Classification Dataset ( http://arxiv.org/abs/2106.15322v1 )

ライセンス: CC BY 4.0
Abdelrahman Abdallah, Alexander Berendeyev, Islam Nuradin, Daniyar Nurseitov(参考訳) 無料webサイトから収集した画像品質の異なる新しいテーブルデータセットであるtncrを提案する。 TNCRデータセットは、スキャンされた文書画像のテーブル検出と5つのクラスに分類される。 tncrは9428枚の高品質のラベル付き画像を含む。 本稿では,テーブル検出のための最先端の深層学習手法を実装し,いくつかの強力なベースラインを構築した。 ResNeXt-101-64x4d Backbone Network の Cascade Mask R-CNN は、79.7%の精度、89.8%のリコール、84.4%のTNCRデータセットのf1スコアを持つ他の手法と比較して、最高のパフォーマンスを達成する。 我々は、テーブルの検出、分類、構造認識に対するより深い学習アプローチを促進するために、TNCRをオープンソースにした。 データセットとトレーニングされたモデルのチェックポイントは、https://github.com/a bdoelsayed2016/tncr_ datasetで利用可能である。

We present TNCR, a new table dataset with varying image quality collected from free websites. The TNCR dataset can be used for table detection in scanned document images and their classification into 5 different classes. TNCR contains 9428 high-quality labeled images. In this paper, we have implemented state-of-the-art deep learning-based methods for table detection to create several strong baselines. Cascade Mask R-CNN with ResNeXt-101-64x4d Backbone Network achieves the highest performance compared to other methods with a precision of 79.7%, recall of 89.8%, and f1 score of 84.4% on the TNCR dataset. We have made TNCR open source in the hope of encouraging more deep learning approaches to table detection, classification, and structure recognition. The dataset and trained model checkpoints are available at https://github.com/a bdoelsayed2016/TNCR_ Dataset.
翻訳日:2021-07-04 22:58:19 公開日:2021-06-19
# テストセット(PSUTS)を用いたポストセレクションと開発ネットワークの回避方法

Post Selections Using Test Sets (PSUTS) and How Developmental Networks Avoid Them ( http://arxiv.org/abs/2106.13233v1 )

ライセンス: Link先を確認
Juyang Weng(参考訳) 本稿では,PSUTS(Post Selection Using Test Sets)と呼ばれる人工知能(AI)の実践について報告する。 したがって、ディープラーニングにおける一般的なエラーバックプロップ手法は、許容できる一般化力に欠ける。 すべてのAIメソッドは、コネクショナリズムとシンボリックという2つの広い学校に分類される。 PSUTSはマシンPSUTSと人間のPSUTSの2種類に分類される。 コネクショニストの学校は、膨大な数のネットワークパラメータと、今では悪いマシンPSUTSのために、その"scruffiness"に対する批判を受けたが、人間のPSUTSを用いたより弱い一般化力のために、一見「クリーン」な象徴的な学校はより脆弱に思える。 本稿は、PSUTSとは何か、なぜランダムな初期重み付きエラーバックプロップ法が深刻な局所的ミニマに苦しむのか、なぜPSUTSが確立された研究倫理に違反しているのか、また、PSUTSを使用したすべての論文が、如何にPSUTSを透過的に報告すべきかを正式に定義する。 今後の出版物における透明性向上のために,本論文では,(1)段階的な学習アーキテクチャ,(2)訓練経験,(3)限られた計算資源を含む3つの学習条件とともに,訓練されたすべてのネットワークに対する開発エラーという,AIの性能評価のための新しい標準を提案する。 開発ネットワークはPSUTSを回避し、Emergent Turing Machinesを駆動し、生涯にわたって最大の類似性という意味で最適であるため、"scruffy"ではない。

This paper raises a rarely reported practice in Artificial Intelligence (AI) called Post Selection Using Test Sets (PSUTS). Consequently, the popular error-backprop methodology in deep learning lacks an acceptable generalization power. All AI methods fall into two broad schools, connectionist and symbolic. The PSUTS fall into two kinds, machine PSUTS and human PSUTS. The connectionist school received criticisms for its "scruffiness" due to a huge number of network parameters and now the worse machine PSUTS; but the seemingly "clean" symbolic school seems more brittle because of a weaker generalization power using human PSUTS. This paper formally defines what PSUTS is, analyzes why error-backprop methods with random initial weights suffer from severe local minima, why PSUTS violates well-established research ethics, and how every paper that used PSUTS should have at least transparently reported PSUTS. For improved transparency in future publications, this paper proposes a new standard for performance evaluation of AI, called developmental errors for all networks trained, along with Three Learning Conditions: (1) an incremental learning architecture, (2) a training experience and (3) a limited amount of computational resources. Developmental Networks avoid PSUTS and are not "scruffy" because they drive Emergent Turing Machines and are optimal in the sense of maximum-likelihood across lifetime.
翻訳日:2021-07-04 19:42:50 公開日:2021-06-19
# 選択集合生成のための変分オートエンコーダアプローチと選択モデルにおける選択肢の暗黙認識

A variational autoencoder approach for choice set generation and implicit perception of alternatives in choice modeling ( http://arxiv.org/abs/2106.13319v1 )

ライセンス: Link先を確認
Rui Yao, Shlomo Bekhor(参考訳) 本稿では,選択肢の暗黙的アベイラビリティ/パーセプション(IAP)を備えた一般化された極値(GEV)モデルを導出し,選択肢の選択セット生成と暗黙的認識のための変分オートエンコーダ(VAE)アプローチを提案する。 特に、IAPを用いたクロスネストロジット(CNL)モデルは、IAP-GEVモデルの例として導出される。 vaeアプローチは、選択集合において選択された選択肢を知覚する可能性を最大化する選択集合生成過程をモデル化するために適応される。 経路選択セット生成のためのVAEアプローチを実データを用いて例示する。 IAP-CNLモデルの推定値は,多項ロジットモデルや従来の選択集合生成法と比較して,適合性および予測性能の点で最高の性能を有する。

This paper derives the generalized extreme value (GEV) model with implicit availability/percept ion (IAP) of alternatives and proposes a variational autoencoder (VAE) approach for choice set generation and implicit perception of alternatives. Specifically, the cross-nested logit (CNL) model with IAP is derived as an example of IAP-GEV models. The VAE approach is adapted to model the choice set generation process, in which the likelihood of perceiving chosen alternatives in the choice set is maximized. The VAE approach for route choice set generation is exemplified using a real dataset. IAP- CNL model estimated has the best performance in terms of goodness-of-fit and prediction performance, compared to multinomial logit models and conventional choice set generation methods.
翻訳日:2021-07-04 19:42:23 公開日:2021-06-19
# 配向融合と畳み込みニューラルネットワークを用いたビデオストリームからのクラウドベーススケーラブル物体認識

Cloud based Scalable Object Recognition from Video Streams using Orientation Fusion and Convolutional Neural Networks ( http://arxiv.org/abs/2106.15329v1 )

ライセンス: Link先を確認
Muhammad Usman Yaseen, Ashiq Anjum, Giancarlo Fortino, Antonio Liotta, Amir Hussain(参考訳) ライブビデオストリームからのオブジェクト認識には、照明条件の変化やポーズなど、数多くの課題がある。 畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。 しかし、CNNは深刻な精度低下、特に照明変動データセットに悩まされている。 この問題に対処するため,視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。 提案するクラウドベースのビデオ分析システムは,二次元経験的モード分解を用いて,ビデオフレームを固有モード関数(IMF)に分割する。 さらに、これらのIMFは、CNNのトレーニングに使用されるモノジェニックなオブジェクトコンポーネントを生成するために、Reisz変換に耐えられるよう提案する。 過去の研究で、オブジェクト指向コンポーネントが93\%の精度レベルを追求するためにどのように使われるかが示されている。 本稿では,方向成分の機能融合戦略が視覚認識精度をさらに97\%向上させることを示す。 また,本手法のスケーラビリティを評価し,監視対象の動画ストリームの数とサイズについて検討した。 視覚オブジェクト認識と分類に最も一般的に使用される3つのディープラーニングモデルであるalexnet, lenet, se-resnextと比較して,自己生成したビデオデータセットを含む,公開されているyaleデータセットの広範な実験を行った。

Object recognition from live video streams comes with numerous challenges such as the variation in illumination conditions and poses. Convolutional neural networks (CNNs) have been widely used to perform intelligent visual object recognition. Yet, CNNs still suffer from severe accuracy degradation, particularly on illumination-variant datasets. To address this problem, we propose a new CNN method based on orientation fusion for visual object recognition. The proposed cloud-based video analytics system pioneers the use of bi-dimensional empirical mode decomposition to split a video frame into intrinsic mode functions (IMFs). We further propose these IMFs to endure Reisz transform to produce monogenic object components, which are in turn used for the training of CNNs. Past works have demonstrated how the object orientation component may be used to pursue accuracy levels as high as 93\%. Herein we demonstrate how a feature-fusion strategy of the orientation components leads to further improving visual recognition accuracy to 97\%. We also assess the scalability of our method, looking at both the number and the size of the video streams under scrutiny. We carry out extensive experimentation on the publicly available Yale dataset, including also a self generated video datasets, finding significant improvements (both in accuracy and scale), in comparison to AlexNet, LeNet and SE-ResNeXt, which are the three most commonly used deep learning models for visual object recognition and classification.
翻訳日:2021-07-04 19:41:47 公開日:2021-06-19
# (参考訳) 複素ブロードバンド信号近似のための並列周波数関数-ディープニューラルネットワーク

Parallel frequency function-deep neural network for efficient complex broadband signal approximation ( http://arxiv.org/abs/2106.10401v1 )

ライセンス: CC BY 4.0
Zhi Zeng, Pengpeng Shi, Fulei Ma, Peihan Qi(参考訳) ニューラルネットワークは本質的に、特徴フィッティングのためのネットワーク重みを調整することで、高次元の複雑なマッピングモデルである。 しかし、ネットワークトレーニングにおけるスペクトルバイアスは、広帯域信号の高周波成分を適合させるための耐え難いトレーニングエポックをもたらす。 高周波部品の取付け効率を向上させるため, 複雑な周波数帯域抽出と周波数シフト技術を組み合わせたフェーズDNNが最近提案されている [Cai et al]。 SIAM J. SCI 計算。 42, A3285 (2020)] 本稿では,高周波成分を用いた複素信号の代替候補を提案する。 本稿では、ブロードバンド信号の高速フーリエ解析とニューラルネットワークのスペクトルバイアス特性を利用して、計算オーバーヘッドを抑えるために並列周波数関数ディープニューラルネットワーク(PFF-DNN)を提案する。 6つの典型的なブロードバンド信号に対する詳細な数値実験に基づいて,提案手法の有効性と効率を検証した。

A neural network is essentially a high-dimensional complex mapping model by adjusting network weights for feature fitting. However, the spectral bias in network training leads to unbearable training epochs for fitting the high-frequency components in broadband signals. To improve the fitting efficiency of high-frequency components, the PhaseDNN was proposed recently by combining complex frequency band extraction and frequency shift techniques [Cai et al. SIAM J. SCI. COMPUT. 42, A3285 (2020)]. Our paper is devoted to an alternative candidate for fitting complex signals with high-frequency components. Here, a parallel frequency function-deep neural network (PFF-DNN) is proposed to suppress computational overhead while ensuring fitting accuracy by utilizing fast Fourier analysis of broadband signals and the spectral bias nature of neural networks. The effectiveness and efficiency of the proposed PFF-DNN method are verified based on detailed numerical experiments for six typical broadband signals.
翻訳日:2021-06-25 04:42:53 公開日:2021-06-19
# (参考訳) 可変依存型ベストアーム識別 [全文訳有]

Variance-Dependent Best Arm Identification ( http://arxiv.org/abs/2106.10417v1 )

ライセンス: CC BY 4.0
Pinyan Lu, Chao Tao, Xiaojin Zhang(参考訳) 確率的マルチアームバンディットゲームにおいて,最適な腕を特定する問題について検討する。 一組の$n$ arms が$$から$n$ にインデックスされた場合、各 arm $i$ は$[0,1]$ と平均$\theta_i$ と分散 $\sigma_i^2$ でサポートされている未知の報酬分布に関連付けられる。 assume $\theta_1 > \theta_2 \geq \cdots \geq\theta_n$ 本稿では,武器の報酬のギャップと分散を探索する適応アルゴリズムを提案し,新しいアプローチであるtextit{grouped central elimination} を用いて,収集した情報に基づいて今後の決定を行う。 提案アルゴリズムは、確率$(1-\delta)$でベストアームを出力することを保証し、最大$O \left(\sum_{i = 1}^n \left(\frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i}\right)(\ln \delta^{-1} + \ln \ln \Delta_i^{-1})\right)$サンプルを使用する。 これはいくつかの好都合なシナリオにおいて分散非依存アルゴリズムよりも大きな利点を達成し、最高の腕に余分な$\ln n$因子を取り除く最初の結果である。 さらに、$\Omega \left( \sum_{i = 1}^n \left( \frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i} \right) \ln \delta^{-1} \right)$サンプルは同じ目的を達成するためにアルゴリズムに必要であることを示す。

We study the problem of identifying the best arm in a stochastic multi-armed bandit game. Given a set of $n$ arms indexed from $1$ to $n$, each arm $i$ is associated with an unknown reward distribution supported on $[0,1]$ with mean $\theta_i$ and variance $\sigma_i^2$. Assume $\theta_1 > \theta_2 \geq \cdots \geq\theta_n$. We propose an adaptive algorithm which explores the gaps and variances of the rewards of the arms and makes future decisions based on the gathered information using a novel approach called \textit{grouped median elimination}. The proposed algorithm guarantees to output the best arm with probability $(1-\delta)$ and uses at most $O \left(\sum_{i = 1}^n \left(\frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i}\right)(\ln \delta^{-1} + \ln \ln \Delta_i^{-1})\right)$ samples, where $\Delta_i$ ($i \geq 2$) denotes the reward gap between arm $i$ and the best arm and we define $\Delta_1 = \Delta_2$. This achieves a significant advantage over the variance-independent algorithms in some favorable scenarios and is the first result that removes the extra $\ln n$ factor on the best arm compared with the state-of-the-art. We further show that $\Omega \left( \sum_{i = 1}^n \left( \frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i} \right) \ln \delta^{-1} \right)$ samples are necessary for an algorithm to achieve the same goal, thereby illustrating that our algorithm is optimal up to doubly logarithmic terms.
翻訳日:2021-06-24 14:56:16 公開日:2021-06-19
# (参考訳) 頑健なM推定に基づくテンソルリング完了:半4次最小化法 [全文訳有]

Robust M-estimation-based Tensor Ring Completion: a Half-quadratic Minimization Approach ( http://arxiv.org/abs/2106.10422v1 )

ライセンス: CC BY 4.0
Yicong He and George K. Atia(参考訳) テンソル補完は、部分的に観測されたエントリから高次データの欠落値を推定する問題である。 テンソルランクのいくつかの定義の中で、テンソルリングランクは、異なる順序のテンソルをモデル化するのに必要となる柔軟性と精度を与える。 しかし、不利な傾向によるデータの破損は、既存のアルゴリズムに大きな課題をもたらす。 本稿では,M推定器を誤差統計量として用いるテンソルリング完備化への頑健なアプローチを開発し,外乱の影響を著しく緩和する。 半量子(hq)法を用いて,重み付きテンソル補完の1つとして問題を再構成する。 本稿では, truncatedの特異値分解と行列分解に基づくHQに基づく2つのアルゴリズムと, その収束と複雑性解析について述べる。 テンソルランクの代替定義に対する提案手法の拡張可能性についても考察する。 実験結果はテンソル完全化のための最先端ロバストアルゴリズムに対する提案手法の優れた性能を示す。

Tensor completion is the problem of estimating the missing values of high-order data from partially observed entries. Among several definitions of tensor rank, tensor ring rank affords the flexibility and accuracy needed to model tensors of different orders, which motivated recent efforts on tensor-ring completion. However, data corruption due to prevailing outliers poses major challenges to existing algorithms. In this paper, we develop a robust approach to tensor ring completion that uses an M-estimator as its error statistic, which can significantly alleviate the effect of outliers. Leveraging a half-quadratic (HQ) method, we reformulate the problem as one of weighted tensor completion. We present two HQ-based algorithms based on truncated singular value decomposition and matrix factorization along with their convergence and complexity analysis. Extendibility of the proposed approach to alternative definitions of tensor rank is also discussed. The experimental results demonstrate the superior performance of the proposed approach over state-of-the-art robust algorithms for tensor completion.
翻訳日:2021-06-24 14:20:04 公開日:2021-06-19
# (参考訳) 未知および未知遷移を用いた最小限の最適逆数模倣学習 [全文訳有]

Nearly Minimax Optimal Adversarial Imitation Learning with Known and Unknown Transitions ( http://arxiv.org/abs/2106.10424v1 )

ライセンス: CC BY 4.0
Tian Xu, Ziniu Li, Yang Yu(参考訳) 本稿では,専門家による実証からポリシーを直接最適化するailアルゴリズムの設計について述べる。 まず, TAIL と名づけられた遷移型 AIL アルゴリズムを開発し, 既知の遷移条件下では $\tilde{O}(H^{3/2} |S|/\varepsilon)$ で, ここでは $H$ は計画的地平線, $|S|$ は状態空間サイズ, $\varepsilon$ は所望のポリシー値ギャップである。 これは AIL メソッドに対する $\tilde{O}(H^2 |S| / \varepsilon^2)$ の前の最良境界を改善し、$\tilde{\Omega} (H^{3/2} |S|/\varepsilon)$ in [Rajaraman et al., 2021] の下位境界を対数係数に一致する。 TAILの鍵となる要素は、遷移関数情報を明示的に利用する専門的状態-行動分布のきめ細かい推定器である。 第二に、遷移関数が通常不明だが環境相互作用が可能である現実的な設定を考えると、MB-TAILと呼ばれるモデルに基づく遷移型AILアルゴリズムを開発する。 特に、MB-TAILは環境と相互作用して経験的遷移モデルを構築し、回復した経験的モデルの下で模倣を行う。 MB-TAILの相互作用複雑性は$\tilde{O} (H^3 |S|^2 |A| / \varepsilon^2)$であり、[Shani et al., 2021] において $\tilde{O} (H^4 |S|^2 |A| / \varepsilon^2)$ の最もよく知られた結果を改善する。 最後に,2つのMDPの数値評価と詳細な解析を行った。

This paper is dedicated to designing provably efficient adversarial imitation learning (AIL) algorithms that directly optimize policies from expert demonstrations. Firstly, we develop a transition-aware AIL algorithm named TAIL with an expert sample complexity of $\tilde{O}(H^{3/2} |S|/\varepsilon)$ under the known transition setting, where $H$ is the planning horizon, $|S|$ is the state space size and $\varepsilon$ is desired policy value gap. This improves upon the previous best bound of $\tilde{O}(H^2 |S| / \varepsilon^2)$ for AIL methods and matches the lower bound of $\tilde{\Omega} (H^{3/2} |S|/\varepsilon)$ in [Rajaraman et al., 2021] up to a logarithmic factor. The key ingredient of TAIL is a fine-grained estimator for expert state-action distribution, which explicitly utilizes the transition function information. Secondly, considering practical settings where the transition functions are usually unknown but environment interaction is allowed, we accordingly develop a model-based transition-aware AIL algorithm named MB-TAIL. In particular, MB-TAIL builds an empirical transition model by interacting with the environment and performs imitation under the recovered empirical model. The interaction complexity of MB-TAIL is $\tilde{O} (H^3 |S|^2 |A| / \varepsilon^2)$, which improves the best known result of $\tilde{O} (H^4 |S|^2 |A| / \varepsilon^2)$ in [Shani et al., 2021]. Finally, our theoretical results are supported by numerical evaluation and detailed analysis on two challenging MDPs.
翻訳日:2021-06-24 13:58:53 公開日:2021-06-19
# (参考訳) 理論保証付きディープニューラルネットワークによる大規模アクセスのためのアルゴリズムアンロール [全文訳有]

Algorithm Unrolling for Massive Access via Deep Neural Network with Theoretical Guarantee ( http://arxiv.org/abs/2106.10426v1 )

ライセンス: CC BY 4.0
Yandong Shi, Hayoung Choi, Yuanming Shi, Yong Zhou(参考訳) 大規模アクセスはIoT(Internet of Things)ネットワークにおける重要な設計課題である。 本稿では、マルチアンテナベースステーション(BS)と多数の単一アンテナIoTデバイスを備えたIoTネットワークの無許可アップリンク伝送について考察する。 我々は,IoTデバイスの散発性を考慮した共同活動検出とチャネル推定(JADCE)問題をグループスパース行列推定問題として定式化する。 この問題は、計算の複雑さやアルゴリズムの堅牢性の欠如に悩まされている既存の圧縮センシング技術を適用することで解決できる。 そこで本研究では,JADCE問題の解法として,低計算複雑性と高ロバスト性を実現するために,ディープニューラルネットワークに基づく新しいアルゴリズムアンローリングフレームワークを提案する。 具体的には、元の反復収縮しきい値アルゴリズム(ISTA)を非ループリカレントニューラルネットワーク(RNN)にマッピングすることにより、エンドツーエンドトレーニングによる収束率と計算効率を向上させる。 さらに,提案手法はistaの構造とドメイン知識を継承し,非ガウス型プリアンブル配列行列を大規模アクセスで処理可能なアルゴリズムロバスト性を維持する。 厳密な理論的解析により、冗長なトレーニングパラメータを減らし、アンロールネットワーク構造をさらに単純化する。 さらに,簡略化未開深層ニューラルネットワーク構造が線形収束率を有することを証明した。 様々なプリアンブルシグネチャに基づく広範なシミュレーションにより,提案手法は収束率,ロバスト性,推定精度の点で既存手法よりも優れていた。

Massive access is a critical design challenge of Internet of Things (IoT) networks. In this paper, we consider the grant-free uplink transmission of an IoT network with a multiple-antenna base station (BS) and a large number of single-antenna IoT devices. Taking into account the sporadic nature of IoT devices, we formulate the joint activity detection and channel estimation (JADCE) problem as a group-sparse matrix estimation problem. This problem can be solved by applying the existing compressed sensing techniques, which however either suffer from high computational complexities or lack of algorithm robustness. To this end, we propose a novel algorithm unrolling framework based on the deep neural network to simultaneously achieve low computational complexity and high robustness for solving the JADCE problem. Specifically, we map the original iterative shrinkage thresholding algorithm (ISTA) into an unrolled recurrent neural network (RNN), thereby improving the convergence rate and computational efficiency through end-to-end training. Moreover, the proposed algorithm unrolling approach inherits the structure and domain knowledge of the ISTA, thereby maintaining the algorithm robustness, which can handle non-Gaussian preamble sequence matrix in massive access. With rigorous theoretical analysis, we further simplify the unrolled network structure by reducing the redundant training parameters. Furthermore, we prove that the simplified unrolled deep neural network structures enjoy a linear convergence rate. Extensive simulations based on various preamble signatures show that the proposed unrolled networks outperform the existing methods in terms of the convergence rate, robustness and estimation accuracy.
翻訳日:2021-06-24 12:04:50 公開日:2021-06-19
# (参考訳) 電気自動車充電ステーションにおけるニューラルネットワーク顔認証 [全文訳有]

Neural Network Facial Authentication for Public Electric Vehicle Charging Station ( http://arxiv.org/abs/2106.10432v1 )

ライセンス: CC BY 4.0
Muhamad Amin Husni Abdul Haris, Sin Liang Lim(参考訳) 本研究では,Dlib ResNetの顔認識精度をK-Nearest Neighbour (KNN)分類器と比較する。 特に、アジア系民族のデータセットに対して、Dlib ResNetはアジア系民族の顔に関して精度に欠けると報告されている。 これらの比較は、向き付け勾配法(HOG)のヒストグラムを用いて抽出された顔ベクトルに実装され、同じデータセットを公正な比較に使用する。 電気自動車(EV)充電ステーションにおける顔認識によるユーザ認証は、そのような認証システムに実用的なユースケースを示す。

This study is to investigate and compare the facial recognition accuracy performance of Dlib ResNet against a K-Nearest Neighbour (KNN) classifier. Particularly when used against a dataset from an Asian ethnicity as Dlib ResNet was reported to have an accuracy deficiency when it comes to Asian faces. The comparisons are both implemented on the facial vectors extracted using the Histogram of Oriented Gradients (HOG) method and use the same dataset for a fair comparison. Authentication of a user by facial recognition in an electric vehicle (EV) charging station demonstrates a practical use case for such an authentication system.
翻訳日:2021-06-24 11:24:01 公開日:2021-06-19
# (参考訳) 生成モデルのためのステルスおよびロバストフィンガープリント方式 [全文訳有]

A Stealthy and Robust Fingerprinting Scheme for Generative Models ( http://arxiv.org/abs/2106.11760v1 )

ライセンス: CC BY 4.0
Li Guanlin, Guo Shangwei, Wang Run, Xu Guowen, Zhang Tianwei(参考訳) 本稿では,生成モデルの知的保護のための新しい指紋認証手法を提案する。 識別モデルに対する事前の解は、通常、逆の例を指紋として採用し、異常な推論行動と予測結果を与える。 したがって、これらの手法はステルス性がなく、敵に容易に認識できる。 我々のアプローチは、上記の制限を克服するために見えないバックドア技術を活用する。 具体的には、モデル出力が正常に見えるが、バックドア分類器をトリガーして異常な予測を行う検証サンプルを設計する。 指紋の精度を高めるために,トリップレット損失と細粒度分類を用いた新しいバックドア埋め込み手法を提案する。 広範囲な評価により、様々なGANモデルに対して、より堅牢性、独特性、ステルス性の高い他の戦略よりも優れていることが示されている。

This paper presents a novel fingerprinting methodology for the Intellectual Property protection of generative models. Prior solutions for discriminative models usually adopt adversarial examples as the fingerprints, which give anomalous inference behaviors and prediction results. Hence, these methods are not stealthy and can be easily recognized by the adversary. Our approach leverages the invisible backdoor technique to overcome the above limitation. Specifically, we design verification samples, whose model outputs look normal but can trigger a backdoor classifier to make abnormal predictions. We propose a new backdoor embedding approach with Unique-Triplet Loss and fine-grained categorization to enhance the effectiveness of our fingerprints. Extensive evaluations show that this solution can outperform other strategies with higher robustness, uniqueness and stealthiness for various GAN models.
翻訳日:2021-06-24 11:20:14 公開日:2021-06-19
# (参考訳) 超解法改善のための一対一アプローチ [全文訳有]

One-to-many Approach for Improving Super-Resolution ( http://arxiv.org/abs/2106.10437v1 )

ライセンス: CC BY 4.0
Sieun Park, Eunho Lee(参考訳) 超解法 (SR) は、複数の可能な解を持つ1対多の課題である。 ただし、この特徴については以前の作品には触れられていない。 1対多のパイプラインでは、ジェネレータは再構成の複数の見積を生成でき、類似したリアルな画像を生成するために罰せられるべきではない。 そこで本研究では,残差密度ブロック (rrdb) 毎に重み付き画素単位のノイズを付加し,様々な画像を生成することを提案する。 コンテントの一貫性が保たれる限り,再構成画像の確率的変動を損なわないよう,コンテンツロスを補正する。 さらに,DIV2K,DIV8Kデータセットには,不適切なガイドラインを提供するアウト・オブ・フォーカス領域が存在することも確認した。 訓練データ中のぼやけた領域を[10]の方法でフィルタリングする。 最後に,識別器を改良して参照画像として低解像度画像と対象画像とを受信し,ジェネレータにフィードバックを与える。 提案手法を用いて,x4知覚SRにおけるESRGANの性能を改善し,x16知覚極端SRにおける最先端LPIPSスコアを達成できた。

Super-resolution (SR) is a one-to-many task with multiple possible solutions. However, previous works were not concerned about this characteristic. For a one-to-many pipeline, the generator should be able to generate multiple estimates of the reconstruction, and not be penalized for generating similar and equally realistic images. To achieve this, we propose adding weighted pixel-wise noise after every Residual-in-Residual Dense Block (RRDB) to enable the generator to generate various images. We modify the strict content loss to not penalize the stochastic variation in reconstructed images as long as it has consistent content. Additionally, we observe that there are out-of-focus regions in the DIV2K, DIV8K datasets that provide unhelpful guidelines. We filter blurry regions in the training data using the method of [10]. Finally, we modify the discriminator to receive the low-resolution image as a reference image along with the target image to provide better feedback to the generator. Using our proposed methods, we were able to improve the performance of ESRGAN in x4 perceptual SR and achieve the state-of-the-art LPIPS score in x16 perceptual extreme SR.
翻訳日:2021-06-24 10:52:57 公開日:2021-06-19
# (参考訳) 因子グラフ上の確率的推論を用いた経路計画アルゴリズムの統一的展望

A Unified View of Algorithms for Path Planning Using Probabilistic Inference on Factor Graphs ( http://arxiv.org/abs/2106.10442v1 )

ライセンス: CC BY 4.0
Francesco A.N. Palmieri and Krishna R. Pattipati and Giovanni Di Gennaro and Giovanni Fioretti and Francesco Verolla and Amedeo Buonanno(参考訳) 動的プログラミングと制御の標準的な手法で経路計画が解けるとしても、確率論的推論を用いても問題に対処できる。 後者のフレームワークを使って現れるアルゴリズムは、より伝統的な制御の定式化の強力な代替品として確率論的アプローチを許容する魅力的な特徴を持っている。 確率モデルを用いて制御問題を解くという考え方は新しいものではなく、ここで考慮される推論アプローチは、アクティブ推論(AI)とコントロール・アズ・インスペクション(CAI)のルーリックに該当する。 本稿では、様々なコスト関数から生じる特定の再帰について検討し、スコープに類似しているように見えるが、少なくとも典型的な経路計画問題に適用した場合は、顕著な違いが認められる。 まず、確率的因子グラフに経路計画問題を設定し、様々なアルゴリズムがどのように特定のメッセージ合成ルールに変換されるかを示す。 次に、確率空間とログ空間の両方で提示されたこの統一アプローチは、sum-product、max-product、dynamic programming、mixed reward/entropy criteria-basedアルゴリズムを含む非常に一般的なフレームワークを提供する。 このフレームワークはまた、一般化されたSum/Max-productアルゴリズム、Smooth Dynamicプログラミングアルゴリズム、Reward/Entropy再帰の修正版を含む、よりスムーズでシャープなポリシー分布のためのアルゴリズム設計オプションを拡張する。 まず,障害のある単一目標の合成された小さなグリッド上で,次に,複数の目標とセマンティックマップを持つ実世界のシーンから外挿されたグリッド上で,シミュレーションによる再帰の包括的表と比較を行う。

Even if path planning can be solved using standard techniques from dynamic programming and control, the problem can also be approached using probabilistic inference. The algorithms that emerge using the latter framework bear some appealing characteristics that qualify the probabilistic approach as a powerful alternative to the more traditional control formulations. The idea of using estimation on stochastic models to solve control problems is not new and the inference approach considered here falls under the rubric of Active Inference (AI) and Control as Inference (CAI). In this work, we look at the specific recursions that arise from various cost functions that, although they may appear similar in scope, bear noticeable differences, at least when applied to typical path planning problems. We start by posing the path planning problem on a probabilistic factor graph, and show how the various algorithms translate into specific message composition rules. We then show how this unified approach, presented both in probability space and in log space, provides a very general framework that includes the Sum-product, the Max-product, Dynamic programming and mixed Reward/Entropy criteria-based algorithms. The framework also expands algorithmic design options for smoother or sharper policy distributions, including generalized Sum/Max-product algorithm, a Smooth Dynamic programming algorithm and modified versions of the Reward/Entropy recursions. We provide a comprehensive table of recursions and a comparison through simulations, first on a synthetic small grid with a single goal with obstacles, and then on a grid extrapolated from a real-world scene with multiple goals and a semantic map.
翻訳日:2021-06-24 10:43:13 公開日:2021-06-19
# (参考訳) Place Recognition Survey: ディープラーニングのアプローチに関する最新情報 [全文訳有]

Place recognition survey: An update on deep learning approaches ( http://arxiv.org/abs/2106.10458v1 )

ライセンス: CC BY 4.0
Tiago Barros, Ricardo Pereira, Lu\'is Garrote, Cristiano Premebida, Urbano J. Nunes(参考訳) 自律走行車(AV)は、動的かつ変化する条件で複雑な環境を航行する能力が高まっている。 これらのインテリジェントな車両がそのような状況を克服し、より自律的になるための重要な要素は、認識とローカライゼーションシステムの高度化である。 ローカライゼーションシステムの一部として、場所認識は、場所分類やオブジェクト認識といった他の認識タスク、すなわちディープラーニング(DL)フレームワークの出現によって、近年の進歩の恩恵を受けている。 本稿では,特に深層学習に基づく位置認識における最近の手法と手法について検討する。 この研究の貢献は、位置認識に適用された3D LiDARやRADARなどの最近のセンサーを調査し、様々なDLベースの場所認識作業を、教師なし、教師なし、半教師なし、並列、階層的なカテゴリに分類することである。 まず,読者のコンテキスト化に重要な位置認識概念を導入する。 そして、センサ特性に対処する。 この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。 この調査から得られた教訓には、教師なしエンドツーエンド学習におけるNetVLADの重要性、位置認識における教師なしアプローチの利点、すなわちクロスドメインアプリケーションにおける、あるいはパフォーマンス向上だけでなく、効率向上のために、最近の研究の傾向の増加などが含まれる。

Autonomous Vehicles (AV) are becoming more capable of navigating in complex environments with dynamic and changing conditions. A key component that enables these intelligent vehicles to overcome such conditions and become more autonomous is the sophistication of the perception and localization systems. As part of the localization system, place recognition has benefited from recent developments in other perception tasks such as place categorization or object recognition, namely with the emergence of deep learning (DL) frameworks. This paper surveys recent approaches and methods used in place recognition, particularly those based on deep learning. The contributions of this work are twofold: surveying recent sensors such as 3D LiDARs and RADARs, applied in place recognition; and categorizing the various DL-based place recognition works into supervised, unsupervised, semi-supervised, parallel, and hierarchical categories. First, this survey introduces key place recognition concepts to contextualize the reader. Then, sensor characteristics are addressed. This survey proceeds by elaborating on the various DL-based works, presenting summaries for each framework. Some lessons learned from this survey include: the importance of NetVLAD for supervised end-to-end learning; the advantages of unsupervised approaches in place recognition, namely for cross-domain applications; or the increasing tendency of recent works to seek, not only for higher performance but also for higher efficiency.
翻訳日:2021-06-24 09:54:57 公開日:2021-06-19
# (参考訳) 連続パラメータを用いた音声音声音声符号化の進歩 [全文訳有]

Advances in Speech Vocoding for Text-to-Speech with Continuous Parameters ( http://arxiv.org/abs/2106.10481v1 )

ライセンス: CC BY 4.0
Mohammed Salah Al-Radhi, Tam\'as G\'abor Csap\'o, and G\'eza N\'emeth(参考訳) ボコーダは統計パラメトリックテキストから音声への変換システム(tts)の主要なコンポーネントとして再び注目を集めた。 ほぼ受け入れられた合成音声のボコーディング技術はあるが、その高い計算複雑性と不規則な構造はいまだに困難な問題と見なされており、様々な音声品質の劣化をもたらす。 そこで本稿では,全ての特徴が連続的であり,柔軟な音声合成システムを提供する連続ボコーダにおける新しい手法を提案する。 まず, 残音の知覚的影響をなくし, ノイズ特性の正確な再構成を可能にするため, 位相歪みに基づく新しい連続雑音マスキングを提案する。 第2に、リカレントネットワークに基づくTSタスクのシーケンスモデリングにおけるニューラルネットワークの必要性について検討した。 双方向長短期記憶 (lstm) とゲートリカレント単位 (gru) について検討し, 人間のように自然に聞こえる連続パラメータのモデル化に応用した。 評価の結果,提案モデルが従来の手法と比較して,音声合成の最先端性能を実現することがわかった。

Vocoders received renewed attention as main components in statistical parametric text-to-speech (TTS) synthesis and speech transformation systems. Even though there are vocoding techniques give almost accepted synthesized speech, their high computational complexity and irregular structures are still considered challenging concerns, which yield a variety of voice quality degradation. Therefore, this paper presents new techniques in a continuous vocoder, that is all features are continuous and presents a flexible speech synthesis system. First, a new continuous noise masking based on the phase distortion is proposed to eliminate the perceptual impact of the residual noise and letting an accurate reconstruction of noise characteristics. Second, we addressed the need of neural sequence to sequence modeling approach for the task of TTS based on recurrent networks. Bidirectional long short-term memory (LSTM) and gated recurrent unit (GRU) are studied and applied to model continuous parameters for more natural-sounding like a human. The evaluation results proved that the proposed model achieves the state-of-the-art performance of the speech synthesis compared with the other traditional methods.
翻訳日:2021-06-24 09:07:57 公開日:2021-06-19
# (参考訳) 模擬画像翻訳のための不均衡特徴伝達 [全文訳有]

Unbalanced Feature Transport for Exemplar-based Image Translation ( http://arxiv.org/abs/2106.10482v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Kaiwen Cui, Gongjie Zhang, Shijian Lu, Jianxiong Pan, Changgong Zhang, Feiying Ma, Xuansong Xie, Chunyan Miao(参考訳) 意味セグメンテーションやエッジマップといった異なる条件付き入力を持つ画像翻訳におけるgansの成功にもかかわらず、参照スタイルを持つ高忠実なリアルな画像を生成することは、条件付き画像対画像翻訳において大きな課題である。 本稿では,画像翻訳における条件付き入力とスタイルの例題間の機能アライメントに最適なトランスポートを組み込んだ汎用画像翻訳フレームワークを提案する。 最適輸送の導入は、条件入力と例間の正確な意味対応を構築しながら、多対一の特徴マッチングの制約を著しく緩和する。 我々は,条件入力と例間に存在する偏差分布を持つ特徴間の輸送に対処する,新しい不均衡な最適輸送を設計する。 さらに,画像翻訳プロセスにexemplarのスタイル特徴をうまく注入する意味的活性化正規化スキームを設計する。 複数の画像翻訳タスクに関する広範囲な実験により,本手法は最先端と比較して質的かつ定量的に優れた画像翻訳を実現することが示された。

Despite the great success of GANs in images translation with different conditioned inputs such as semantic segmentation and edge maps, generating high-fidelity realistic images with reference styles remains a grand challenge in conditional image-to-image translation. This paper presents a general image translation framework that incorporates optimal transport for feature alignment between conditional inputs and style exemplars in image translation. The introduction of optimal transport mitigates the constraint of many-to-one feature matching significantly while building up accurate semantic correspondences between conditional inputs and exemplars. We design a novel unbalanced optimal transport to address the transport between features with deviational distributions which exists widely between conditional inputs and exemplars. In addition, we design a semantic-activation normalization scheme that injects style features of exemplars into the image translation process successfully. Extensive experiments over multiple image translation tasks show that our method achieves superior image translation qualitatively and quantitatively as compared with the state-of-the-art.
翻訳日:2021-06-24 09:02:50 公開日:2021-06-19
# (参考訳) ロシアニュースクラスタのための見出し選択用トランスフォーマー [全文訳有]

Transformers for Headline Selection for Russian News Clusters ( http://arxiv.org/abs/2106.10487v1 )

ライセンス: CC BY 4.0
Pavel Voropaev, Olga Sopilnyak(参考訳) 本稿では,対話評価2021における複数言語とロシア語の事前学習型トランスフォーマーモデルについて検討する。 実験の結果,多言語モデルと単言語モデルでは組み合わせアプローチの方が優れていることがわかった。 本稿では,文章の埋め込みと,その上でランキングモデルを学ぶためのいくつかの方法について分析する。 公開テストとプライベートテストでそれぞれ87.28%と86.60%の精度を達成した。

In this paper, we explore various multilingual and Russian pre-trained transformer-based models for the Dialogue Evaluation 2021 shared task on headline selection. Our experiments show that the combined approach is superior to individual multilingual and monolingual models. We present an analysis of a number of ways to obtain sentence embeddings and learn a ranking model on top of them. We achieve the result of 87.28% and 86.60% accuracy for the public and private test sets respectively.
翻訳日:2021-06-24 08:47:24 公開日:2021-06-19
# (参考訳) Tiled Matrix-Matrix Multiplication を用いた空間加速器アーキテクチャの評価 [全文訳有]

Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix Multiplication ( http://arxiv.org/abs/2106.10499v1 )

ライセンス: CC BY 4.0
Gordon E. Moon, Hyoukjun Kwon, Geonhwa Jeong, Prasanth Chatarasi, Sivasankaran Rajamanickam, Tushar Krishna(参考訳) 機械学習アプリケーションのためのカスタム空間アクセラレーターへの関心が高まっている。 これらのアクセラレータは、カスタムバッファ階層とネットワークオンチップを介して相互作用する処理要素(PE)の空間配列を使用する。 これらのアクセラレーターの効率性は、データ再利用を最適化するために最適化されたデータフロー(PE間のデータの空間的/時間的パーティショニングときめ細かいスケジューリング)戦略を利用することによって得られる。 本研究の目的は,これらの加速器アーキテクチャを汎用行列行列乗算(GEMM)カーネルを用いて評価することである。 そこで我々は,与えられた空間加速器とワークロードの組み合わせに対して,階層化されたGEMMに対して最適化されたマッピング(データフローとタイルサイズ)を求めるフレームワークを開発した。 5つの空間的加速器を用いた評価により,我々のフレームワークが系統的に生成したGEMMマッピングは,様々なGEMMワークロードやアクセラレータ上で高い性能を発揮することが示された。

There is a growing interest in custom spatial accelerators for machine learning applications. These accelerators employ a spatial array of processing elements (PEs) interacting via custom buffer hierarchies and networks-on-chip. The efficiency of these accelerators comes from employing optimized dataflow (i.e., spatial/temporal partitioning of data across the PEs and fine-grained scheduling) strategies to optimize data reuse. The focus of this work is to evaluate these accelerator architectures using a tiled general matrix-matrix multiplication (GEMM) kernel. To do so, we develop a framework that finds optimized mappings (dataflow and tile sizes) for a tiled GEMM for a given spatial accelerator and workload combination, leveraging an analytical cost model for runtime and energy. Our evaluations over five spatial accelerators demonstrate that the tiled GEMM mappings systematically generated by our framework achieve high performance on various GEMM workloads and accelerators.
翻訳日:2021-06-24 08:42:35 公開日:2021-06-19
# (参考訳) GLIB: グラフィカルリッチアプリケーションのためのOracleの自動テスト [全文訳有]

GLIB: Towards Automated Test Oracle for Graphically-Rich Applications ( http://arxiv.org/abs/2106.10507v1 )

ライセンス: CC BY-SA 4.0
Ke Chen, Yufei Li, Yingfeng Chen, Changjie Fan, Zhipeng Hu, Wei Yang(参考訳) ゲームのようなグラフィカルにリッチなアプリケーションは、ソフトウェアアプリケーションとエンドユーザーの間の橋渡しを提供するGUI(Graphical User Interface)の魅力的な視覚効果を持つ。 しかし、GUIの複雑さから様々なタイプのグラフィカルグリッチが生まれ、ソフトウェア互換性問題の主要なコンポーネントの1つとなった。 NetEase Inc. のゲーム開発チームによるバグレポートは,GUIレンダリング中にしばしばグラフィカルな不具合が発生し,ビデオゲームのようなグラフィカルにリッチなアプリケーションの品質を著しく低下させることを示唆している。 このようなアプリケーションの既存の自動テスト技術は、主に様々なGUIテストシーケンスを生成し、テストシーケンスがクラッシュを引き起こすかどうかを確認することに焦点を当てている。 これらのテクニックは、グラフィカルな不具合を引き起こすバグなどの非クラッシングバグをキャプチャするために、常に人間の注意を必要とする。 本稿では、グラフィカルにリッチなアプリケーションにおける非クラッシングバグを検出するためのテストオラクルの自動化の第一歩を示す。 具体的には,ゲームGUIの不具合を検出するためのコードベースのデータ拡張技術に基づいて,‘texttt{GLIB}’を提案する。 実世界の20のゲームアプリ上で, \texttt{GLIB} の評価を行い, ゲーム GUI グリップなどの非クラッシングバグの検出において, 100 %の精度と 99.5 % のリコールを達成可能であることを示す。 さらに、他の14の現実世界のゲーム(バグ報告なし)に対する \texttt{GLIB} の実践的応用は、 \texttt{GLIB} がGUIの不具合を効果的に発見できることを証明している。

Graphically-rich applications such as games are ubiquitous with attractive visual effects of Graphical User Interface (GUI) that offers a bridge between software applications and end-users. However, various types of graphical glitches may arise from such GUI complexity and have become one of the main component of software compatibility issues. Our study on bug reports from game development teams in NetEase Inc. indicates that graphical glitches frequently occur during the GUI rendering and severely degrade the quality of graphically-rich applications such as video games. Existing automated testing techniques for such applications focus mainly on generating various GUI test sequences and check whether the test sequences can cause crashes. These techniques require constant human attention to captures non-crashing bugs such as bugs causing graphical glitches. In this paper, we present the first step in automating the test oracle for detecting non-crashing bugs in graphically-rich applications. Specifically, we propose \texttt{GLIB} based on a code-based data augmentation technique to detect game GUI glitches. We perform an evaluation of \texttt{GLIB} on 20 real-world game apps (with bug reports available) and the result shows that \texttt{GLIB} can achieve 100\% precision and 99.5\% recall in detecting non-crashing bugs such as game GUI glitches. Practical application of \texttt{GLIB} on another 14 real-world games (without bug reports) further demonstrates that \texttt{GLIB} can effectively uncover GUI glitches, with 48 of 53 bugs reported by \texttt{GLIB} having been confirmed and fixed so far.
翻訳日:2021-06-24 08:11:07 公開日:2021-06-19
# (参考訳) TweeNLP: 自然言語処理のためのTwitterの探索ポータル [全文訳有]

TweeNLP: A Twitter Exploration Portal for Natural Language Processing ( http://arxiv.org/abs/2106.10512v1 )

ライセンス: CC BY 4.0
Viraj Shah, Shruti Singh, Mayank Singh(参考訳) 我々はTwitterの自然言語処理(NLP)データを整理するワンストップポータルであるTweeNLPを紹介し、可視化と探索プラットフォームを構築する。 様々なNLPカンファレンスやNLPの一般的な議論から、2021年4月時点で19,395のツイートをキュレートする。 TweetExplorerのような複数の機能をサポートし、トピックによるつぶやきを探索し、カンファレンスの組織サイクルを通じてTwitterの活動から洞察を可視化し、人気のある研究論文や研究者を発見する。 カンファレンスとワークショップの提出期限のタイムラインも構築している。 我々は,研究論文に関連するツイートをNLPExplorerの科学文献検索エンジンと統合することにより,TweeNLPがNLPコミュニティの集合記憶ユニットとして機能することを期待している。 現在のシステムはhttp://nlpexplorer.o rg/twitter/CFP にホストされている。

We present TweeNLP, a one-stop portal that organizes Twitter's natural language processing (NLP) data and builds a visualization and exploration platform. It curates 19,395 tweets (as of April 2021) from various NLP conferences and general NLP discussions. It supports multiple features such as TweetExplorer to explore tweets by topics, visualize insights from Twitter activity throughout the organization cycle of conferences, discover popular research papers and researchers. It also builds a timeline of conference and workshop submission deadlines. We envision TweeNLP to function as a collective memory unit for the NLP community by integrating the tweets pertaining to research papers with the NLPExplorer scientific literature search engine. The current system is hosted at http://nlpexplorer.o rg/twitter/CFP .
翻訳日:2021-06-24 07:51:44 公開日:2021-06-19
# (参考訳) 固有値分解を用いたQUBO変換 [全文訳有]

QUBO transformation using Eigenvalue Decomposition ( http://arxiv.org/abs/2106.10532v1 )

ライセンス: CC BY 4.0
Amit Verma and Mark Lewis(参考訳) Quadratic Unconstrained Binary Optimization (QUBO) は組合せ最適化問題のための汎用モデリングフレームワークであり、量子アニーラーの要件である。 本稿では,Q行列の固有値分解を利用して,支配的固有値と固有ベクトルから情報を抽出して探索過程を変更・改善し,ソリューションランドスケープの有望な領域への探索を暗黙的に導く。 ベンチマークデータセットの計算結果から,優占固有値問題に対する性能改善効果を示すルーチンの有効性が示された。

Quadratic Unconstrained Binary Optimization (QUBO) is a general-purpose modeling framework for combinatorial optimization problems and is a requirement for quantum annealers. This paper utilizes the eigenvalue decomposition of the underlying Q matrix to alter and improve the search process by extracting the information from dominant eigenvalues and eigenvectors to implicitly guide the search towards promising areas of the solution landscape. Computational results on benchmark datasets illustrate the efficacy of our routine demonstrating significant performance improvements on problems with dominant eigenvalues.
翻訳日:2021-06-24 07:44:42 公開日:2021-06-19
# (参考訳) 1つの試行でリーチ、水泳、ウォーク、フライに学ぶ - 不足データとサイド情報によるデータ駆動制御 [全文訳有]

Learning to Reach, Swim, Walk and Fly in One Trial: Data-Driven Control with Scarce Data and Side Information ( http://arxiv.org/abs/2106.10533v1 )

ライセンス: CC0 1.0
Franck Djeumou and Ufuk Topcu(参考訳) 超厳格なデータ制限下で未知力学系に対する学習ベースの制御アルゴリズムを開発した。 具体的には、アルゴリズムは単一の試行と進行中の試行からのみ、ストリーミングデータにアクセスすることができる。 データの不足にもかかわらず、一連の例を通して、このアルゴリズムは、何百万もの環境相互作用でトレーニングされた強化学習アルゴリズムに匹敵するパフォーマンスを提供できることを示した。 様々な側面情報を動的に活用してサンプルの複雑さを低減し、このような性能を実現している。 このような情報は通常、物理学の基本法則とシステムの質的性質から来る。 より正確には、アルゴリズムはシステムの望ましい振る舞いを符号化する最適制御問題を概ね解決する。 この目的のために、力学の未知のベクトル場を含む微分包含を構築し、洗練する。 微分包含はテイラーの手法で使われ、系が到達する可能性のある状態の集合を過度に近似することができる。 理論的には、既知の力学の場合に関して近似解の準最適性の境界を確立する。 試行期間が長ければ長いほど、あるいはより多くのサイド情報が得られるほど、縛りが強くなることを示す。 実証的な実験では、高忠実度F-16航空機シミュレータと、リーチャー、スイマー、チーターといったMuJoCoの環境がアルゴリズムの有効性を示している。

We develop a learning-based control algorithm for unknown dynamical systems under very severe data limitations. Specifically, the algorithm has access to streaming data only from a single and ongoing trial. Despite the scarcity of data, we show -- through a series of examples -- that the algorithm can provide performance comparable to reinforcement learning algorithms trained over millions of environment interactions. It accomplishes such performance by effectively leveraging various forms of side information on the dynamics to reduce the sample complexity. Such side information typically comes from elementary laws of physics and qualitative properties of the system. More precisely, the algorithm approximately solves an optimal control problem encoding the system's desired behavior. To this end, it constructs and refines a differential inclusion that contains the unknown vector field of the dynamics. The differential inclusion, used in an interval Taylor-based method, enables to over-approximate the set of states the system may reach. Theoretically, we establish a bound on the suboptimality of the approximate solution with respect to the case of known dynamics. We show that the longer the trial or the more side information is available, the tighter the bound. Empirically, experiments in a high-fidelity F-16 aircraft simulator and MuJoCo's environments such as the Reacher, Swimmer, and Cheetah illustrate the algorithm's effectiveness.
翻訳日:2021-06-24 07:38:47 公開日:2021-06-19
# (参考訳) cGANを用いた画像の可逆色密度圧縮 [全文訳有]

Reversible Colour Density Compression of Images using cGANs ( http://arxiv.org/abs/2106.10542v1 )

ライセンス: CC BY 4.0
Arun Jose, Abraham Francis(参考訳) 色密度を用いた画像圧縮は歴史的に損失をなくすには実用的ではない。 本研究では,画像と損失関数のマッピングを学習し,この変換をより実現可能にするための条件付き生成対向ネットワークの利用について検討する。 この手法は視覚的に無害な世代を生成するのに有効であることを示し、効率的な色圧縮が可能であることを示す。

Image compression using colour densities is historically impractical to decompress losslessly. We examine the use of conditional generative adversarial networks in making this transformation more feasible, through learning a mapping between the images and a loss function to train on. We show that this method is effective at producing visually lossless generations, indicating that efficient colour compression is viable.
翻訳日:2021-06-24 07:21:39 公開日:2021-06-19
# (参考訳) 色・テクスチャ特徴に基づく作物・雑草分類のための教師付き学習 [全文訳有]

Supervised learning for crop/weed classification based on color and texture features ( http://arxiv.org/abs/2106.10581v1 )

ライセンス: CC BY 4.0
Faiza Mekhalfa and Fouad Yacef(参考訳) 近年、コンピュータビジョン技術は精密農業に大きな関心を集めている。 コンピュータビジョンに基づく精密農業タスクの共通目標は、関心の対象(作物、雑草など)を検出し、それらを背景から識別することである。 雑草は、栄養素、水、日光を争う作物の間で栽培される望ましくない植物であり、作物の収量に損失をもたらす。 雑草検出とマッピングは, 作業コストと除草剤の影響を低減するために, 地域別雑草管理にとって重要である。 本稿では,大豆と雑草の識別における色とテクスチャの特徴の利用について検討する。 サポートベクトルマシン(SVM)分類器の訓練には、2つの色空間(RGB, HSV)、グレーレベル共起行列(GLCM)、ローカルバイナリパターン(LBP)を含む特徴抽出手法を用いる。 この実験は、一般利用可能である無人航空機(uav)から得られた大豆作物の画像データセットで実施された。 実験の結果,色特徴とLPP特徴の組合せから,最も高い精度(96%以上)が得られた。

Computer vision techniques have attracted a great interest in precision agriculture, recently. The common goal of all computer vision-based precision agriculture tasks is to detect the objects of interest (e.g., crop, weed) and discriminating them from the background. The Weeds are unwanted plants growing among crops competing for nutrients, water, and sunlight, causing losses to crop yields. Weed detection and mapping is critical for site-specific weed management to reduce the cost of labor and impact of herbicides. This paper investigates the use of color and texture features for discrimination of Soybean crops and weeds. Feature extraction methods including two color spaces (RGB, HSV), gray level Co-occurrence matrix (GLCM), and Local Binary Pattern (LBP) are used to train the Support Vector Machine (SVM) classifier. The experiment was carried out on image dataset of soybean crop, obtained from an unmanned aerial vehicle (UAV), which is publicly available. The results from the experiment showed that the highest accuracy (above 96%) was obtained from the combination of color and LBP features.
翻訳日:2021-06-24 07:18:21 公開日:2021-06-19
# (参考訳) きめ細かい分類のための視覚変換器の探索 [全文訳有]

Exploring Vision Transformers for Fine-grained Classification ( http://arxiv.org/abs/2106.10587v1 )

ライセンス: CC BY 4.0
Marcos V. Conde and Kerem Turgutlu(参考訳) 分類に関する既存のコンピュータビジョン研究は、クラス内分散とクラス間分散が本質的に高いため、細かな属性認識に苦慮している。 SOTAの手法はこの課題に対処し、最も情報性の高い画像領域を特定し、完全な画像の分類にそれらを頼っている。 最新の研究であるVision Transformer (ViT)は、従来の分類タスクときめ細かい分類タスクの両方において、その強力なパフォーマンスを示している。 そこで本研究では,マルチヘッド自己認識機構を用いたアーキテクチャ変更を必要とせずに,情報領域をローカライズする,微細な画像分類タスクのための多段階ViTフレームワークを提案する。 また,モデルの性能向上のための注意誘導拡張も導入する。 CUB-200-2011,Stanfor d Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。 また、質的結果を通じてモデルの解釈可能性を証明する。

Existing computer vision research in categorization struggles with fine-grained attributes recognition due to the inherently high intra-class variances and low inter-class variances. SOTA methods tackle this challenge by locating the most informative image regions and rely on them to classify the complete image. The most recent work, Vision Transformer (ViT), shows its strong performance in both traditional and fine-grained classification tasks. In this work, we propose a multi-stage ViT framework for fine-grained image classification tasks, which localizes the informative image regions without requiring architectural changes using the inherent multi-head self-attention mechanism. We also introduce attention-guided augmentations for improving the model's capabilities. We demonstrate the value of our approach by experimenting with four popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford Dogs, and FGVC7 Plant Pathology. We also prove our model's interpretability via qualitative results.
翻訳日:2021-06-24 07:07:39 公開日:2021-06-19
# (参考訳) 階層型ニューラルネットワークを用いた低消費電力マルチカメラ物体再同定 [全文訳有]

Low-Power Multi-Camera Object Re-Identification using Hierarchical Neural Networks ( http://arxiv.org/abs/2106.10588v1 )

ライセンス: CC BY 4.0
Abhinav Goel, Caleb Tung, Xiao Hu, Haobo Wang, James C. Davis, George K. Thiruvathukal, Yung-Hsiang Lu(参考訳) 組み込みデバイス上の低消費電力コンピュータビジョンには、多くのアプリケーションがある。 本稿では,オブジェクト再識別(reID)問題に対する低消費電力手法について述べる。 最先端技術は、大規模で計算集約的なディープニューラルネットワーク(DNN)に依存している。 トレーニングデータセットの属性ラベルを用いて効率的なオブジェクトreIDを実行する新しい階層型DNNアーキテクチャを提案する。 階層内の各ノードにおいて、小さなDNNはクエリ画像の異なる属性を特定する。 各リーフノードの小さなDNNは、ギャラリーのサブセットを再識別するために特化されている。 これにより、少数のDNNで処理した後、クエリ画像を正確に識別する。 本手法を最先端のオブジェクトreid手法と比較する。 4%の精度低下により,74%のメモリ削減,72%の操作削減,67%のクエリ遅延削減,65%の省エネを実現している。

Low-power computer vision on embedded devices has many applications. This paper describes a low-power technique for the object re-identification (reID) problem: matching a query image against a gallery of previously seen images. State-of-the-art techniques rely on large, computationally-inte nsive Deep Neural Networks (DNNs). We propose a novel hierarchical DNN architecture that uses attribute labels in the training dataset to perform efficient object reID. At each node in the hierarchy, a small DNN identifies a different attribute of the query image. The small DNN at each leaf node is specialized to re-identify a subset of the gallery: only the images with the attributes identified along the path from the root to a leaf. Thus, a query image is re-identified accurately after processing with a few small DNNs. We compare our method with state-of-the-art object reID techniques. With a 4% loss in accuracy, our approach realizes significant resource savings: 74% less memory, 72% fewer operations, and 67% lower query latency, yielding 65% less energy consumption.
翻訳日:2021-06-23 15:27:04 公開日:2021-06-19
# 逆決定理論を用いた不確実性人間の選好の学習

Learning the Preferences of Uncertain Humans with Inverse Decision Theory ( http://arxiv.org/abs/2106.10394v1 )

ライセンス: Link先を確認
Cassidy Laidlaw and Stuart Russell(参考訳) 逆強化学習のような人間の好みを学習するための既存の観察的アプローチは、通常、人間の環境の可観測性に関する強い仮定を作る。 しかし実際には、不確実性の下で多くの重要な決定を下す。 このような場合の嗜好学習をよりよく理解するために,不確実性の下で非逐次二元決定を行うという従来提案されていた枠組みである逆決定理論(IDT)の設定について検討する。 IDTでは、人間の好みは損失関数を通じて伝達され、異なるタイプの誤り間のトレードオフを表現する。 我々は、IDTの最初の統計分析を行い、これらの選好を識別し、サンプルの複雑さを特徴づけるために必要な条件を提供します。 興味深いことに、決定問題がより不確実な場合には、実際に好みを特定するのが簡単である。 さらに、不確実な決定問題は、人間は最適な意思決定者であるが、正確な選好を特定するという非現実的な仮定を緩和することができる。 我々の分析は、部分的可観測性によって選好学習がより困難になるという直観と矛盾する。 また、不確実で最適でない人間の嗜好学習方法を理解し改善する第一歩も提供する。

Existing observational approaches for learning human preferences, such as inverse reinforcement learning, usually make strong assumptions about the observability of the human's environment. However, in reality, people make many important decisions under uncertainty. To better understand preference learning in these cases, we study the setting of inverse decision theory (IDT), a previously proposed framework where a human is observed making non-sequential binary decisions under uncertainty. In IDT, the human's preferences are conveyed through their loss function, which expresses a tradeoff between different types of mistakes. We give the first statistical analysis of IDT, providing conditions necessary to identify these preferences and characterizing the sample complexity -- the number of decisions that must be observed to learn the tradeoff the human is making to a desired precision. Interestingly, we show that it is actually easier to identify preferences when the decision problem is more uncertain. Furthermore, uncertain decision problems allow us to relax the unrealistic assumption that the human is an optimal decision maker but still identify their exact preferences; we give sample complexities in this suboptimal case as well. Our analysis contradicts the intuition that partial observability should make preference learning more difficult. It also provides a first step towards understanding and improving preference learning methods for uncertain and suboptimal humans.
翻訳日:2021-06-22 16:05:14 公開日:2021-06-19
# 画像分類作業の実践的伝達可能性推定

Practical Transferability Estimation for Image Classification Tasks ( http://arxiv.org/abs/2106.10479v1 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang(参考訳) トランスファー可能性の推定は、ソースモデル(ソースタスク)を対象タスクに転送する際のパフォーマンスがどの程度良いかを予測するために、トランスファー学習において不可欠な問題である。 最近の解析的転送可能性メトリクスは、ソースモデル選択とマルチタスク学習に広く使われている。 以前のメトリクスは、難しいクロスドメインのクロスタスク転送設定では十分に機能しないが、最近のOTCEスコアは補助タスクを使用して注目すべきパフォーマンスを達成する。 OTベースのNCEスコアと呼ばれる単純化されたバージョンでは、精度を犠牲にして効率が向上するが、さらなる改善が可能である。 そこで本研究では,OTCEスコアよりも効率が高く,OTベースのNCEスコアよりも正確であるクロスドメインクロスタスクトランスファービリティ推定性能を向上させるために,JC-NCEスコアと呼ばれる実用的トランスファービリティ指標を提案する。 具体的には,サンプル距離とラベル距離の両方を考慮し,最適なトランスポート問題を解決することにより,ソースデータとターゲットデータとの結合対応を構築し,その転送可能性スコアを負条件エントロピーとして計算する。 データセット内およびデータセット間転送設定下での広範囲な検証により,JC-NCEスコアがOTベースのNCEスコアよりも約7%,12%向上したことが明らかとなった。

Transferability estimation is an essential problem in transfer learning to predict how good the performance is when transfer a source model (source task) to a target task. Recent analytical transferability metrics have been widely used for source model selection and multi-task learning. Earlier metrics does not work sufficiently well under the challenging cross-domain cross-task transfer settings, but recent OTCE score achieves a noteworthy performance using auxiliary tasks. A simplified version named OT-based NCE score sacrifices accuracy to be more efficient, but it can be further improved. Consequently, we propose a practical transferability metric called JC-NCE score to further improve the cross-domain cross-task transferability estimation performance, which is more efficient than the OTCE score and more accurate than the OT-based NCE score. Specifically, we build the joint correspondences between source and target data via solving an optimal transport problem with considering both the sample distance and label distance, and then compute the transferability score as the negative conditional entropy. Extensive validations under the intra-dataset and inter-dataset transfer settings demonstrate that our JC-NCE score outperforms the OT-based NCE score with about 7% and 12% gains, respectively.
翻訳日:2021-06-22 16:04:02 公開日:2021-06-19
# JointGT:知識グラフを用いたテキスト生成のためのグラフテキスト共同表現学習

JointGT: Graph-Text Joint Representation Learning for Text Generation from Knowledge Graphs ( http://arxiv.org/abs/2106.10502v1 )

ライセンス: Link先を確認
Pei Ke, Haozhe Ji, Yu Ran, Xin Cui, Liwei Wang, Linfeng Song, Xiaoyan Zhu, Minlie Huang(参考訳) 既存のknowledge-graph-to-t ext(kg-to-text)モデルでは、kg-to-textデータセット上でbartやt5などのテキストからテキストへの事前学習モデルを生成するだけで済みます。 このような問題に対処するために,JointGTと呼ばれるグラフテキスト共同表現学習モデルを提案する。 符号化中,各トランスフォーマー層に接続してグラフ構造を保存する構造対応セマンティックアグリゲーションモジュールを考案した。 さらに、各テキスト/グラフ再構成を含むグラフテキストアライメントを明示的に強化する3つの新しい事前学習タスクと、最適輸送による埋め込み空間におけるグラフテキストアライメントを提案する。 実験により、jointgt は様々な kg-to-text データセット上で新たな最先端性能を得ることが示された。

Existing pre-trained models for knowledge-graph-to-t ext (KG-to-text) generation simply fine-tune text-to-text pre-trained models such as BART or T5 on KG-to-text datasets, which largely ignore the graph structure during encoding and lack elaborate pre-training tasks to explicitly model graph-text alignments. To tackle these problems, we propose a graph-text joint representation learning model called JointGT. During encoding, we devise a structure-aware semantic aggregation module which is plugged into each Transformer layer to preserve the graph structure. Furthermore, we propose three new pre-training tasks to explicitly enhance the graph-text alignment including respective text / graph reconstruction, and graph-text alignment in the embedding space via Optimal Transport. Experiments show that JointGT obtains new state-of-the-art performance on various KG-to-text datasets.
翻訳日:2021-06-22 16:00:49 公開日:2021-06-19
# 必要なこと:ビデオ質問応答のためのモーション・アレンジス・シナジスティック・ネットワーク

Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering ( http://arxiv.org/abs/2106.10446v1 )

ライセンス: Link先を確認
Ahjeong Seo, Gi-Cheon Kang, Joonhan Park, Byoung-Tak Zhang(参考訳) ビデオ質問回答(英語: Video Question Answering)は、AIエージェントがビデオに根ざした質問に答えるタスクである。 本課題は,(1) 様々な質問の意図を理解すること,(2) 入力ビデオの様々な要素(例えば,対象,行動,因果関係)を捉えること,(3) 言語と視覚情報の相互的基盤化という3つの課題を含む。 動作情報と外観情報に基づく2つのクロスモーダル特徴を組み込んだMASN(Motion-Appearan ce Synergistic Networks)を提案する。 MASNは、モーションモジュール、外観モジュール、およびモーション出現融合モジュールで構成される。 動作モジュールはアクション指向のクロスモーダルな関節表現を演算し、外観モジュールは入力ビデオの外観的側面に焦点を当てる。 最後に、モーション出現融合モジュールは、モーションモジュールと外観モジュールの各出力を入力として、質問誘導融合を行う。 その結果、MASNは、TGIF-QAおよびMSVD-QAデータセット上で、最先端のパフォーマンスを新たに達成した。 また,MASNの推測結果を可視化して定性分析を行う。 コードはhttps://github.com/a hjeongseo/masn-pytor chで入手できる。

Video Question Answering is a task which requires an AI agent to answer questions grounded in video. This task entails three key challenges: (1) understand the intention of various questions, (2) capturing various elements of the input video (e.g., object, action, causality), and (3) cross-modal grounding between language and vision information. We propose Motion-Appearance Synergistic Networks (MASN), which embed two cross-modal features grounded on motion and appearance information and selectively utilize them depending on the question's intentions. MASN consists of a motion module, an appearance module, and a motion-appearance fusion module. The motion module computes the action-oriented cross-modal joint representations, while the appearance module focuses on the appearance aspect of the input video. Finally, the motion-appearance fusion module takes each output of the motion module and the appearance module as input, and performs question-guided fusion. As a result, MASN achieves new state-of-the-art performance on the TGIF-QA and MSVD-QA datasets. We also conduct qualitative analysis by visualizing the inference results of MASN. The code is available at https://github.com/a hjeongseo/MASN-pytor ch.
翻訳日:2021-06-22 15:59:05 公開日:2021-06-19
# 構造アノテーションによる分類タスクの合成一般化

Improving Compositional Generalization in Classification Tasks via Structure Annotations ( http://arxiv.org/abs/2106.10434v1 )

ライセンス: Link先を確認
Juyong Kim, Pradeep Ravikumar, Joshua Ainslie, Santiago Onta\~n\'on(参考訳) 合成一般化は、既知のコンポーネントを組み合わせることで、体系的に新しいデータ分布に一般化する能力である。 人間は構成を一般化する優れた能力を持っているように見えるが、最先端のニューラルモデルはそれを行うのに苦労している。 本研究では,分類作業における構成一般化と2つの主な貢献について述べる。 まず,自然言語シークエンスからシーケンスへのデータセットを,合成一般化を必要とする分類データセットに変換する方法について検討する。 第二に、構造的ヒントを提供すること(特にトランスフォーマーモデルの注意マスクとしてパースツリーとエンティティリンクを提供すること)は、構成の一般化に役立つことを示す。

Compositional generalization is the ability to generalize systematically to a new data distribution by combining known components. Although humans seem to have a great ability to generalize compositionally, state-of-the-art neural models struggle to do so. In this work, we study compositional generalization in classification tasks and present two main contributions. First, we study ways to convert a natural language sequence-to-sequence dataset to a classification dataset that also requires compositional generalization. Second, we show that providing structural hints (specifically, providing parse trees and entity links as attention masks for a Transformer model) helps compositional generalization.
翻訳日:2021-06-22 15:58:03 公開日:2021-06-19
# ソーシャルメディアエントリにおける抑うつ症状検出のためのハイブリッドアプローチ

Hybrid approach to detecting symptoms of depression in social media entries ( http://arxiv.org/abs/2106.10485v1 )

ライセンス: Link先を確認
Agnieszka Wo{\l}k, Karol Chlasta, Pawe{\l} Holas(参考訳) 感覚分析や語彙解析はうつ病や不安障害の検出に広く用いられている。 感情障害のある人が使用する言語には、健康な人に比べて大きな違いがあることが記録されている。 しかし、これらの語彙的アプローチの有効性は、現在の分析がソーシャルメディアのエンタテインメントがどう書かれているかではなく、どのように書かれているかに焦点を当てているため、さらに改善される可能性がある。 本研究では,これらの短いテキストが互いに類似している側面と,それらの生成方法に焦点を当てた。 本稿では,テキストから言語情報を得る上で有効な手法であるcollgram分析を適用し,抑うつスクリーニング問題に対する革新的なアプローチを提案する。 これらの結果とBERTアーキテクチャに基づく感情分析を比較した。 最後に,診断精度71%のハイブリッドモデルを構築した。

Sentiment and lexical analyses are widely used to detect depression or anxiety disorders. It has been documented that there are significant differences in the language used by a person with emotional disorders in comparison to a healthy individual. Still, the effectiveness of these lexical approaches could be improved further because the current analysis focuses on what the social media entries are about, and not how they are written. In this study, we focus on aspects in which these short texts are similar to each other, and how they were created. We present an innovative approach to the depression screening problem by applying Collgram analysis, which is a known effective method of obtaining linguistic information from texts. We compare these results with sentiment analysis based on the BERT architecture. Finally, we create a hybrid model achieving a diagnostic accuracy of 71%.
翻訳日:2021-06-22 15:57:53 公開日:2021-06-19
# 残留生成モデルによるオフライン強化学習の促進

Boosting Offline Reinforcement Learning with Residual Generative Modeling ( http://arxiv.org/abs/2106.10411v1 )

ライセンス: Link先を確認
Hua Wei, Deheng Ye, Zhao Liu, Hao Wu, Bo Yuan, Qiang Fu, Wei Yang, Zhenhui (Jessie) Li(参考訳) オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。 現在のオフラインRL研究は、1)生成モデリング、すなわち、固定データを用いたポリシーの近似、2)状態-作用値関数の学習を含む。 多くの研究は、トレーニングデータの分布シフトによって生じる値関数近似におけるブートストラップ誤差を低減し、状態-作用関数の部分に焦点を当てているが、生成モデルにおける誤差伝播の影響は無視されている。 本稿では,生成モデルにおける誤差を解析する。 オフラインRLのポリシー近似誤差を低減するための残差生成モデルであるAQLを提案する。 提案手法は,異なるベンチマークデータセットでより正確なポリシー近似を学習可能であることを示す。 さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。

Offline reinforcement learning (RL) tries to learn the near-optimal policy with recorded offline experience without online exploration. Current offline RL research includes: 1) generative modeling, i.e., approximating a policy using fixed data; and 2) learning the state-action value function. While most research focuses on the state-action function part through reducing the bootstrapping error in value function approximation induced by the distribution shift of training data, the effects of error propagation in generative modeling have been neglected. In this paper, we analyze the error in generative modeling. We propose AQL (action-conditioned Q-learning), a residual generative model to reduce policy approximation error for offline RL. We show that our method can learn more accurate policy approximations in different benchmark datasets. In addition, we show that the proposed offline RL method can learn more competitive AI agents in complex control tasks under the multiplayer online battle arena (MOBA) game Honor of Kings.
翻訳日:2021-06-22 15:57:29 公開日:2021-06-19
# 階層的コントラスト損失を伴う時系列の学習タイムスタンプレベル表現

Learning Timestamp-Level Representations for Time Series with Hierarchical Contrastive Loss ( http://arxiv.org/abs/2106.10466v1 )

ライセンス: Link先を確認
Zhihan Yue, Yujing Wang, Juanyong Duan, Tianmeng Yang, Congrui Huang, Bixiong Xu(参考訳) 本稿では,時系列のタイムスタンプレベルの表現を学習するための汎用フレームワークTS2Vecを提案する。 既存の方法とは異なり、ts2vecはタイムスタンプごとに文脈表現ベクトルを直接学習するタイムスタンプワイズ識別を行う。 学習した表現は予測能力に優れていた。 学習した表現の上に訓練された線形回帰は、教師付き時系列予測のために以前のSOTAよりも優れている。 また、インスタンスレベルの表現は、すべてのタイムスタンプの学習された表現の上に最大プーリング層を適用することで簡単に得られる。 インスタンスレベルの表現の品質を評価するために,時系列分類タスクに関する広範囲な実験を行う。 その結果、ts2vecは125の ucr データセットと 29の uea データセットの教師なし時系列表現の既存の sota と比較して大幅に改善された。 ソースコードはhttps://github.com/y uezhihan/ts2vecで公開されている。

This paper presents TS2Vec, a universal framework for learning timestamp-level representations of time series. Unlike existing methods, TS2Vec performs timestamp-wise discrimination, which learns a contextual representation vector directly for each timestamp. We find that the learned representations have superior predictive ability. A linear regression trained on top of the learned representations outperforms previous SOTAs for supervised time series forecasting. Also, the instance-level representations can be simply obtained by applying a max pooling layer on top of learned representations of all timestamps. We conduct extensive experiments on time series classification tasks to evaluate the quality of instance-level representations. As a result, TS2Vec achieves significant improvement compared with existing SOTAs of unsupervised time series representation on 125 UCR datasets and 29 UEA datasets. The source code is publicly available at https://github.com/y uezhihan/ts2vec.
翻訳日:2021-06-22 15:57:13 公開日:2021-06-19
# 強化学習のための最大最小エントロピーフレームワーク

A Max-Min Entropy Framework for Reinforcement Learning ( http://arxiv.org/abs/2106.10517v1 )

ライセンス: Link先を確認
Seungyul Han and Youngchul Sung(参考訳) 本稿では,モデルフリーサンプルベース学習における最大エントロピーrlフレームワークの限界を克服するために,強化学習(rl)のための最大ミンエントロピーフレームワークを提案する。 最大エントロピーRLフレームワークは、将来、高いエントロピーを持つ状態に到達するための政策を学ぶための学習を導く一方で、提案された最大エントロピーフレームワークは、低いエントロピーを持つ状態を訪れ、これらの低エントロピー状態のエントロピーを最大化し、探索を促進することを目的としている。 一般的なマルコフ決定過程 (MDPs) に対して,探索とエクスプロイトの非絡み合いに基づいて,提案した最大エントロピーの枠組みに基づいて効率的なアルゴリズムを構築した。 数値計算の結果,提案アルゴリズムは現状のRLアルゴリズムよりも劇的な性能向上を達成している。

In this paper, we propose a max-min entropy framework for reinforcement learning (RL) to overcome the limitation of the maximum entropy RL framework in model-free sample-based learning. Whereas the maximum entropy RL framework guides learning for policies to reach states with high entropy in the future, the proposed max-min entropy framework aims to learn to visit states with low entropy and maximize the entropy of these low-entropy states to promote exploration. For general Markov decision processes (MDPs), an efficient algorithm is constructed under the proposed max-min entropy framework based on disentanglement of exploration and exploitation. Numerical results show that the proposed algorithm yields drastic performance improvement over the current state-of-the-art RL algorithms.
翻訳日:2021-06-22 15:57:01 公開日:2021-06-19
# 過パラメータ正規化流れの学習と一般化

Learning and Generalization in Overparameterized Normalizing Flows ( http://arxiv.org/abs/2106.10535v1 )

ライセンス: Link先を確認
Kulin Shah, Amit Deshpande, Navin Goyal(参考訳) 教師あり学習では、十分な学習率と適切な初期化率を持つ確率的勾配降下法を用いて学習した場合、1つの隠れ層を持つ過パラメータニューラルネットワークが証明可能かつ効率的に学習・一般化されることが知られている。 対照的に、教師なし学習における過剰パラメータ化の利点はよく理解されていない。 正規化フロー(NF)は、サンプリングと密度推定のための教師なし学習において重要なモデルのクラスである。 本稿では,基礎となるニューラルネットワークが1層過パラメータネットワークである場合のモデル解析を理論的に実証的に行う。 1)既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメータ化がトレーニングを損なうという理論的および実証的な証拠を提供する。 一方,最近導入されたモデルである非制約NFは,ネットワークが過度にパラメータ化されている場合,最小限の仮定の下で合理的なデータ分布を効率的に学習できることを示す。

In supervised learning, it is known that overparameterized neural networks with one hidden layer provably and efficiently learn and generalize, when trained using stochastic gradient descent with sufficiently small learning rate and suitable initialization. In contrast, the benefit of overparameterization in unsupervised learning is not well understood. Normalizing flows (NFs) constitute an important class of models in unsupervised learning for sampling and density estimation. In this paper, we theoretically and empirically analyze these models when the underlying neural network is one-hidden-layer overparameterized network. Our main contributions are two-fold: (1) On the one hand, we provide theoretical and empirical evidence that for a class of NFs containing most of the existing NF models, overparametrization hurts training. (2) On the other hand, we prove that unconstrained NFs, a recently introduced model, can efficiently learn any reasonable data distribution under minimal assumptions when the underlying network is overparametrized.
翻訳日:2021-06-22 15:56:47 公開日:2021-06-19
# 政策評価の加速:適応的重要度サンプリングによる対向環境の学習

Accelerated Policy Evaluation: Learning Adversarial Environments with Adaptive Importance Sampling ( http://arxiv.org/abs/2106.10566v1 )

ライセンス: Link先を確認
Mengdi Xu, Peide Huang, Fengpei Li, Jiacheng Zhu, Xuewei Qi, Kentaro Oguchi, Zhiyuan Huang, Henry Lam, Ding Zhao(参考訳) 稀だが高いイベントの評価は、知的エージェント、特に拡張性に制限のある大規模または連続的な状態/動作空間において、非常に多数のテストイテレーションの使用を強制する信頼性の高いポリシーを取得する上で、依然として大きな困難の1つである。 一方で、安全クリティカルなシステムにおけるバイアスや不正確なポリシー評価は、展開中に予期せぬ破滅的な障害を引き起こす可能性がある。 本稿では,マルコフ決定過程におけるレア事象を探索し,レア事象確率を推定するaccelerated policy evaluation (ape)法を提案する。 ape法は,環境特性を対向剤として扱い,適応的重要度サンプリングにより,政策評価のためのゼロ分散サンプリング分布を学習する。 さらに、APEは関数近似器を組み込むことで、大きな離散空間や連続空間にスケーラブルである。 適切な正則性条件下で提案アルゴリズムの収束特性について検討する。 実験により, APEは, 多エージェント環境と単一エージェント環境の両方において, 基準法に比べて, サンプルのオーダーを桁違いに減らしながら, ばらつきの少ない稀な事象確率を推定した。

The evaluation of rare but high-stakes events remains one of the main difficulties in obtaining reliable policies from intelligent agents, especially in large or continuous state/action spaces where limited scalability enforces the use of a prohibitively large number of testing iterations. On the other hand, a biased or inaccurate policy evaluation in a safety-critical system could potentially cause unexpected catastrophic failures during deployment. In this paper, we propose the Accelerated Policy Evaluation (APE) method, which simultaneously uncovers rare events and estimates the rare event probability in Markov decision processes. The APE method treats the environment nature as an adversarial agent and learns towards, through adaptive importance sampling, the zero-variance sampling distribution for the policy evaluation. Moreover, APE is scalable to large discrete or continuous spaces by incorporating function approximators. We investigate the convergence properties of proposed algorithms under suitable regularity conditions. Our empirical studies show that APE estimates rare event probability with a smaller variance while only using orders of magnitude fewer samples compared to baseline methods in both multi-agent and single-agent environments.
翻訳日:2021-06-22 15:56:33 公開日:2021-06-19
# 適応基底層を用いた関数型データ解析のための深層学習

Deep Learning for Functional Data Analysis with Adaptive Basis Layers ( http://arxiv.org/abs/2106.10414v1 )

ライセンス: Link先を確認
Junwen Yao, Jonas Mueller, Jane-Ling Wang(参考訳) 広く成功したにもかかわらず、機能データへのディープニューラルネットワークの適用はいまだに少ない。 関数データの無限次元性は、標準的な学習アルゴリズムが適切な次元の縮小後にのみ適用できることを意味する。 現在、これらのベースは、手元のタスクに関する情報がなくても事前選択されており、指定したタスクには有効ではない可能性がある。 代わりに、エンドツーエンドでこれらのベースを適応的に学習することを提案します。 マイクロニューラルネットワークとして実装された各基底関数を隠蔽ユニットとする新しい基底層を用いたニューラルネットワークを提案する。 我々のアーキテクチャは、入力関数の無関係な変化ではなく、ターゲットに関連する情報にのみ焦点をあてる機能入力に、擬似次元還元を適用することを学ぶ。 関数型データを用いた多数の分類/回帰タスクにおいて,本手法は他の種類のニューラルネットワークよりも経験的に優れており,本手法が低一般化誤差と統計的に一致していることを示す。 コードは: \url{https://github.com/j wyy/AdaFNN}で入手できる。

Despite their widespread success, the application of deep neural networks to functional data remains scarce today. The infinite dimensionality of functional data means standard learning algorithms can be applied only after appropriate dimension reduction, typically achieved via basis expansions. Currently, these bases are chosen a priori without the information for the task at hand and thus may not be effective for the designated task. We instead propose to adaptively learn these bases in an end-to-end fashion. We introduce neural networks that employ a new Basis Layer whose hidden units are each basis functions themselves implemented as a micro neural network. Our architecture learns to apply parsimonious dimension reduction to functional inputs that focuses only on information relevant to the target rather than irrelevant variation in the input function. Across numerous classification/regre ssion tasks with functional data, our method empirically outperforms other types of neural networks, and we prove that our approach is statistically consistent with low generalization error. Code is available at: \url{https://github.com/j wyyy/AdaFNN}.
翻訳日:2021-06-22 15:53:07 公開日:2021-06-19
# 相互情報評価器としてのニューラルネットワーク分類器

Neural Network Classifier as Mutual Information Evaluator ( http://arxiv.org/abs/2106.10471v1 )

ライセンス: Link先を確認
Zhenyue Qin and Dongwoo Kim and Tom Gedeon(参考訳) ソフトマックス出力によるクロスエントロピー損失は、ニューラルネットワーク分類器を訓練するための標準選択である。 我々は、相互情報評価器として、ソフトマックスとクロスエントロピーを備えたニューラルネットワーク分類器の新しい視点を示す。 データセットのバランスが保たれた場合、ニューラルネットワークをクロスエントロピーでトレーニングすることで、入力とラベル間の相互情報を変動形式の相互情報によって最大化することを示す。 これにより、データセットの不均衡時に分類器を相互情報評価器に変換する新しい形態のsoftmaxを開発する。 実験の結果、新しい形式は、特に不均衡データセットにおいて、分類精度が向上することが示された。

Cross-entropy loss with softmax output is a standard choice to train neural network classifiers. We give a new view of neural network classifiers with softmax and cross-entropy as mutual information evaluators. We show that when the dataset is balanced, training a neural network with cross-entropy maximises the mutual information between inputs and labels through a variational form of mutual information. Thereby, we develop a new form of softmax that also converts a classifier to a mutual information evaluator when the dataset is imbalanced. Experimental results show that the new form leads to better classification accuracy, in particular for imbalanced datasets.
翻訳日:2021-06-22 15:52:51 公開日:2021-06-19
# 神経再生による弾塑性強化によるスパーストレーニング

Sparse Training via Boosting Pruning Plasticity with Neuroregeneration ( http://arxiv.org/abs/2106.10404v1 )

ライセンス: Link先を確認
Shiwei Liu, Tianlong Chen, Xiaohan Chen, Zahra Atashgahi, Lu Yin, Huanyu Kou, Li Shen, Mykola Pechenizkiy, Zhangyang Wang, Decebal Constantin Mocanu(参考訳) 抽選チケット仮説 (LTH) とシングルショットネットワークプルーニング (SNIP) の研究は、現在、訓練後プルーニング (劇的等級プルーニング) と事前トレーニングプルーニング (初期化時のプルーニング) に多くの注目を集めている。 前者の手法は非常に大きな計算コストに悩まされ、後者の手法は通常性能の不足に悩まされる。 対照的に、トレーニング/推論効率と同等のパフォーマンスを同時に享受するプルーニング手法のクラスである、トレーニング中のプルーニングは、あまり研究されていない。 学習中の刈り込みの理解を深めるために,刈り込み可塑性(刈り取りネットワークが元の性能を回復する能力)の観点から,訓練中の刈り込みの効果を定量的に検討した。 刈り取り可塑性は、文献におけるニューラルネットワークの刈り取りに関する他の経験的な観察を説明するのに役立つ。 さらに、神経再生と呼ばれる脳に誘発されるメカニズムを注入することで、刈り込みの可塑性を著しく改善し、刈り込みと同じ数の接続を再生する。 プラニングの可塑性から得られた知見に基づき, 段階的プルーニング法(gmp法, gradual pruning with zero-cost neuroregeneration (granet), dynamic sparse training (dst) variant (granet-st) を設計した。 どちらも最先端の芸術である。 おそらく最も印象的なのは、imagenetのresnet-50で、sparse-to-sparseメソッドよりもsparse-to-sparseトレーニングパフォーマンスが大幅に向上したことだ。 すべてのコードをリリースします。

Works on lottery ticket hypothesis (LTH) and single-shot network pruning (SNIP) have raised a lot of attention currently on post-training pruning (iterative magnitude pruning), and before-training pruning (pruning at initialization). The former method suffers from an extremely large computation cost and the latter category of methods usually struggles with insufficient performance. In comparison, during-training pruning, a class of pruning methods that simultaneously enjoys the training/inference efficiency and the comparable performance, temporarily, has been less explored. To better understand during-training pruning, we quantitatively study the effect of pruning throughout training from the perspective of pruning plasticity (the ability of the pruned networks to recover the original performance). Pruning plasticity can help explain several other empirical observations about neural network pruning in literature. We further find that pruning plasticity can be substantially improved by injecting a brain-inspired mechanism called neuroregeneration, i.e., to regenerate the same number of connections as pruned. Based on the insights from pruning plasticity, we design a novel gradual magnitude pruning (GMP) method, named gradual pruning with zero-cost neuroregeneration (GraNet), and its dynamic sparse training (DST) variant (GraNet-ST). Both of them advance state of the art. Perhaps most impressively, the latter for the first time boosts the sparse-to-sparse training performance over various dense-to-sparse methods by a large margin with ResNet-50 on ImageNet. We will release all codes.
翻訳日:2021-06-22 15:50:38 公開日:2021-06-19
# Schr\"{o}dinger BridgeによるDeep Generative Learning

Deep Generative Learning via Schr\"{o}dinger Bridge ( http://arxiv.org/abs/2106.10410v1 )

ライセンス: Link先を確認
Gefei Wang, Yuling Jiao, Qian Xu, Yang Wang, Can Yang(参考訳) 本稿では,schr\"{o}dinger bridgeを用いたエントロピー補間による生成モデルを学ぶことを提案する。 生成学習タスクは、Kullback-Leibler分散に基づいて、基準分布と目標分布との補間として定式化することができる。 人口レベルでは、このエントロピー補間は時変ドリフト項を持つ$[0,1]$のSDEによって特徴づけられる。 サンプルレベルでは、深部スコア推定値と深部密度比推定値から推定されるドリフト項をオイラー・マルヤマ法に挿入することで、我々のschr\"{o}dinger bridgeアルゴリズムを導出する。 目標分布の穏やかな平滑性仮定の下では,スコア推定値と密度比推定値の両方の整合性を証明し,提案するschr\"{o}dinger bridge法の整合性を確立する。 我々の理論的結果は,本手法で得られた分布が対象分布に収束することを保証する。 マルチモーダル合成データとベンチマークデータを用いた実験結果から,Schr\"{o}dinger Bridgeを用いた生成モデルは最先端のGANと同等であり,生成学習の新たな定式化が示唆された。 画像補間および画像インパインティングにおける有用性を示す。

We propose to learn a generative model via entropy interpolation with a Schr\"{o}dinger Bridge. The generative learning task can be formulated as interpolating between a reference distribution and a target distribution based on the Kullback-Leibler divergence. At the population level, this entropy interpolation is characterized via an SDE on $[0,1]$ with a time-varying drift term. At the sample level, we derive our Schr\"{o}dinger Bridge algorithm by plugging the drift term estimated by a deep score estimator and a deep density ratio estimator into the Euler-Maruyama method. Under some mild smoothness assumptions of the target distribution, we prove the consistency of both the score estimator and the density ratio estimator, and then establish the consistency of the proposed Schr\"{o}dinger Bridge approach. Our theoretical results guarantee that the distribution learned by our approach converges to the target distribution. Experimental results on multimodal synthetic data and benchmark data support our theoretical findings and indicate that the generative model via Schr\"{o}dinger Bridge is comparable with state-of-the-art GANs, suggesting a new formulation of generative learning. We demonstrate its usefulness in image interpolation and image inpainting.
翻訳日:2021-06-22 15:50:05 公開日:2021-06-19
# MSN: ビデオインスタンスセグメンテーションのための効率的なオンラインマスク選択ネットワーク

MSN: Efficient Online Mask Selection Network for Video Instance Segmentation ( http://arxiv.org/abs/2106.10452v1 )

ライセンス: Link先を確認
Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi(参考訳) 本研究では,ビデオインスタンスセグメンテーション(VIS)のための新しいソリューションを提案する。これはオブジェクトクラスとともにインスタンスレベルのセグメンテーションマスクを自動的に生成し,ビデオ内で追跡するものだ。 マスク選択ネットワーク (MSN) を用いて, マスクのセグメンテーションと伝搬分岐をオンライン的に改善することにより, マスクトラッキング時のノイズ蓄積を抑える。 パッチベースの畳み込みニューラルネットワークを用いてMSNを効果的に設計する。 ネットワークは、マスクの微妙な違いを区別し、関連するマスクの中からより良いマスクを正しく選択することができる。 さらに, 時間的一貫性を活かし, 映像列を前方および逆の順に処理し, 失われた物体を回収するポスト処理ステップとする。 提案手法は,ビデオオブジェクトのセグメンテーションをVISのタスクに適応させるのに利用できる。 本手法は2021年のYouTube-VISチャレンジで49.1mAPを獲得し,30チーム以上の中で3位となった。 私たちのコードはhttps://github.com/S HI-Labs/Mask-Selecti on-Networks.comで公開されます。

In this work we present a novel solution for Video Instance Segmentation(VIS), that is automatically generating instance level segmentation masks along with object class and tracking them in a video. Our method improves the masks from segmentation and propagation branches in an online manner using the Mask Selection Network (MSN) hence limiting the noise accumulation during mask tracking. We propose an effective design of MSN by using patch-based convolutional neural network. The network is able to distinguish between very subtle differences between the masks and choose the better masks out of the associated masks accurately. Further, we make use of temporal consistency and process the video sequences in both forward and reverse manner as a post processing step to recover lost objects. The proposed method can be used to adapt any video object segmentation method for the task of VIS. Our method achieves a score of 49.1 mAP on 2021 YouTube-VIS Challenge and was ranked third place among more than 30 global teams. Our code will be available at https://github.com/S HI-Labs/Mask-Selecti on-Networks.
翻訳日:2021-06-22 15:49:41 公開日:2021-06-19
# 機械学習による顔面成長方向の予測

Prediction of the facial growth direction with Machine Learning methods ( http://arxiv.org/abs/2106.10464v1 )

ライセンス: Link先を確認
Stanis{\l}aw Ka\'zmierczak, Zofia Juszka, Piotr Fudalej, Jacek Ma\'ndziuk(参考訳) 顔の成長(FG)の方向を予測するための最初の試みは、半世紀以上前に行われた。 多くの試みと時間の経過にもかかわらず、まだ満足のいく方法が確立されておらず、医療専門家にはまだ課題がある。 我々の知る限り、本論文はFG方向の予測に対する最初の機械学習アプローチである。 導電性データ解析は問題の本質的な複雑さを明らかにし、2次元X線画像に基づくFG方向予測の困難さの理由を説明する。 成長予測を行うには、ロジスティック回帰からツリーアンサンブル、ニューラルネットワークに至るまで、幅広いアルゴリズムを使用し、3つの、わずかに異なる問題の定式化を検討する。 その結果、分類精度は 71% から 75% に変化する。

First attempts of prediction of the facial growth (FG) direction were made over half of a century ago. Despite numerous attempts and elapsed time, a satisfactory method has not been established yet and the problem still poses a challenge for medical experts. To our knowledge, this paper is the first Machine Learning approach to the prediction of FG direction. Conducted data analysis reveals the inherent complexity of the problem and explains the reasons of difficulty in FG direction prediction based on 2D X-ray images. To perform growth forecasting, we employ a wide range of algorithms, from logistic regression, through tree ensembles to neural networks and consider three, slightly different, problem formulations. The resulting classification accuracy varies between 71% and 75%.
翻訳日:2021-06-22 15:49:25 公開日:2021-06-19
# Informative Class Activation Maps

Informative Class Activation Maps ( http://arxiv.org/abs/2106.10472v1 )

ライセンス: Link先を確認
Zhenyue Qin and Dongwoo Kim and Tom Gedeon(参考訳) 本研究では,特定のラベルに対する画像内の領域の量的情報量を評価する方法について検討する。 この目的のために,情報理論を用いたクラスアクティベーションマップをブリッジする。 我々は情報付きクラスアクティベーションマップ(infocam)を開発した。 分類タスクが与えられたら、インフォCAMは画像全体に対して部分領域の情報をラベルに蓄積する方法を記述する。 これにより、インフォメーションCAMを利用してラベルの最も情報性の高い特徴を見つけることができる。 画像分類タスクに適用すると、infocamは弱い教師付きオブジェクトローカライズタスクにおいて従来の分類マップよりも優れた性能を発揮する。 我々はTiny-ImageNetで最先端の結果を得る。

We study how to evaluate the quantitative information content of a region within an image for a particular label. To this end, we bridge class activation maps with information theory. We develop an informative class activation map (infoCAM). Given a classification task, infoCAM depict how to accumulate information of partial regions to that of the entire image toward a label. Thus, we can utilise infoCAM to locate the most informative features for a label. When applied to an image classification task, infoCAM performs better than the traditional classification map in the weakly supervised object localisation task. We achieve state-of-the-art results on Tiny-ImageNet.
翻訳日:2021-06-22 15:49:16 公開日:2021-06-19
# 動的グラフ畳み込みネットワークによる時間ネットワークの臨界ノード予測

Predicting Critical Nodes in Temporal Networks by Dynamic Graph Convolutional Networks ( http://arxiv.org/abs/2106.10419v1 )

ライセンス: Link先を確認
En-Yu Yu, Yan Fu, Jun-Lin Zhou, Hong-Liang Sun, Duan-Bing Chen(参考訳) 多くの実世界のシステムは、構造と機能において非常に異なる役割を果たすノードと、ノード間の関係を表すエッジを持つ時間的ネットワークで表現することができる。 クリティカルノードの特定は、公衆の意見や流行の拡散を制御したり、学界の指導的人物を予測したり、さまざまな商品の広告を行うのに役立ちます。 しかし,ネットワーク構造が時間とともに変化するため,重要なノードを特定することは困難である。 本稿では,時間ネットワークの時系列トポロジ情報を考慮し,特定のGCNとRNNの組み合わせに基づく新しい効果的な学習フレームワークを提案し,最適な拡散能力を持つノードを同定する。 本手法の有効性は, 重み付き感受性感染回復モデルを用いて評価した。 4つの実世界の時間ネットワークによる実験結果から,提案手法はKendall $\tau$係数とトップ$k$ヒット率で従来のベンチマーク手法とディープラーニングのベンチマーク手法より優れていることが示された。

Many real-world systems can be expressed in temporal networks with nodes playing far different roles in structure and function and edges representing the relationships between nodes. Identifying critical nodes can help us control the spread of public opinions or epidemics, predict leading figures in academia, conduct advertisements for various commodities, and so on. However, it is rather difficult to identify critical nodes because the network structure changes over time in temporal networks. In this paper, considering the sequence topological information of temporal networks, a novel and effective learning framework based on the combination of special GCNs and RNNs is proposed to identify nodes with the best spreading ability. The effectiveness of the approach is evaluated by weighted Susceptible-Infected -Recovered model. Experimental results on four real-world temporal networks demonstrate that the proposed method outperforms both traditional and deep learning benchmark methods in terms of the Kendall $\tau$ coefficient and top $k$ hit rate.
翻訳日:2021-06-22 15:44:52 公開日:2021-06-19
# 経路計画のための空間分割の学習

Learning Space Partitions for Path Planning ( http://arxiv.org/abs/2106.10544v1 )

ライセンス: Link先を確認
Kevin Yang, Tianjun Zhang, Chris Cummins, Brandon Cui, Benoit Steiner, Linnan Wang, Joseph E. Gonzalez, Dan Klein, Yuandong Tian(参考訳) 経路計画 (path planning) は、高回帰軌道を効率的に発見するための問題であり、しばしば高次元およびマルチモーダル報酬関数の最適化を必要とする。 CEMやCMA-ESのような一般的なアプローチは、検索空間の有望な領域に集中しており、局所的な最大値に閉じ込められる可能性がある。 DOOとVOOTのバランスの探究と利用は可能であるが、報酬関数とは独立して空間分割戦略を用いて最適化する。 最近、lamctsはブラックボックス最適化のために報酬に敏感な方法で検索空間を分割することを経験的に学習する。 本稿では,このような適応領域分割方式が機能する時期と理由について,新しい形式的後悔分析法を提案する。 また,各部分領域における関数値推定を改善する新しい経路計画法PlaMを提案し,探索空間の潜在表現を用いた。 実証的に、PlaLaMは2次元ナビゲーションタスクにおいて既存の経路計画法、特に難解な局所最適点の存在下では優れており、PETSなどの計画コンポーネントでモデルベースRLに接続した場合の利点を示している。 これらのゲインは高度にマルチモーダルな実世界のタスクに転送され、コンパイラのフェーズ順序付けでは245%、分子設計では0-1スケールで最大0.4の強いベースラインを上回ります。

Path planning, the problem of efficiently discovering high-reward trajectories, often requires optimizing a high-dimensional and multimodal reward function. Popular approaches like CEM and CMA-ES greedily focus on promising regions of the search space and may get trapped in local maxima. DOO and VOOT balance exploration and exploitation, but use space partitioning strategies independent of the reward function to be optimized. Recently, LaMCTS empirically learns to partition the search space in a reward-sensitive manner for black-box optimization. In this paper, we develop a novel formal regret analysis for when and why such an adaptive region partitioning scheme works. We also propose a new path planning method PlaLaM which improves the function value estimation within each sub-region, and uses a latent representation of the search space. Empirically, PlaLaM outperforms existing path planning methods in 2D navigation tasks, especially in the presence of difficult-to-escape local optima, and shows benefits when plugged into model-based RL with planning components such as PETS. These gains transfer to highly multimodal real-world tasks, where we outperform strong baselines in compiler phase ordering by up to 245% and in molecular design by up to 0.4 on properties on a 0-1 scale.
翻訳日:2021-06-22 15:44:34 公開日:2021-06-19
# データ管理と機械学習におけるスコアベース説明--対実解析への解法-

Score-Based Explanations in Data Management and Machine Learning: An Answer-Set Programming Approach to Counterfactual Analysis ( http://arxiv.org/abs/2106.10562v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) データベースにおける問合せ回答のスコアベース説明に対する最近のアプローチと機械学習における分類モデルによる結果について述べる。 焦点は著者と共同作業者による作業である。 スコアの特定と計算に反事実推論を使うため、回答集合プログラミングに基づく宣言的アプローチに特に重点が置かれている。 これらの手法の柔軟性を示すいくつかの例を示す。

We describe some recent approaches to score-based explanations for query answers in databases and outcomes from classification models in machine learning. The focus is on work done by the author and collaborators. Special emphasis is placed on declarative approaches based on answer-set programming to the use of counterfactual reasoning for score specification and computation. Several examples that illustrate the flexibility of these methods are shown.
翻訳日:2021-06-22 15:44:10 公開日:2021-06-19
# STEM:フェデレートラーニングのためのほぼ最適サンプルと通信複雑性を実現する確率的2次元モーメントアルゴリズム

STEM: A Stochastic Two-Sided Momentum Algorithm Achieving Near-Optimal Sample and Communication Complexities for Federated Learning ( http://arxiv.org/abs/2106.10435v1 )

ライセンス: Link先を確認
Prashant Khanduri, Pranay Sharma, Haibo Yang, Mingyi Hong, Jia Liu, Ketan Rajawat, and Pramod K. Varshney(参考訳) フェデレートラーニング(FL)とは、複数のワーカノード(WN)がローカルデータを用いてジョイントモデルを構築するパラダイムを指す。 大規模な研究にもかかわらず、一般的な非凸FL問題に対して、WNとサーバの更新方向、ミニバッチサイズ、およびローカル更新頻度をどのように選択するかは明らかではない。 この研究は上記の問題に対処し、WNが通信前にいくつかのローカル更新を行う確率的アルゴリズムのクラスを考える。 wnとサーバの方向が確率的運動量推定器に基づいて選択されると、アルゴリズムは$\tilde{\mathcal{o}}(\epsilon^{-3/2})$サンプルと$\tilde{\mathcal{o}}(\epsilon^{-1})$の通信ラウンドが必要となり、$\epsilon$定常解を計算する。 我々の知る限りでは、このようなほぼ最適なサンプルと通信の複雑さを同時に達成する最初のFLアルゴリズムである。 さらに, 局所更新周波数と局所ミニバッチサイズとの間にはトレードオフ曲線があり, 上記のサンプルと通信の複雑さを維持できることを示した。 最後に、古典的な FedAvg (a.k.a) について示す。 局所SGD(STEMの運動量のない特別な場合)も同様なトレードオフ曲線が存在するが、サンプルや通信の複雑さは悪い。 このトレードオフに関する私たちの洞察は、FLアルゴリズムの4つの重要な設計要素、更新頻度、方向、そして最高のパフォーマンスを達成するためのミニバッチサイズを選択するためのガイドラインを提供します。

Federated Learning (FL) refers to the paradigm where multiple worker nodes (WNs) build a joint model by using local data. Despite extensive research, for a generic non-convex FL problem, it is not clear, how to choose the WNs' and the server's update directions, the minibatch sizes, and the local update frequency, so that the WNs use the minimum number of samples and communication rounds to achieve the desired solution. This work addresses the above question and considers a class of stochastic algorithms where the WNs perform a few local updates before communication. We show that when both the WN's and the server's directions are chosen based on a stochastic momentum estimator, the algorithm requires $\tilde{\mathcal{O}}(\epsilon^{-3/2})$ samples and $\tilde{\mathcal{O}}(\epsilon^{-1})$ communication rounds to compute an $\epsilon$-stationar y solution. To the best of our knowledge, this is the first FL algorithm that achieves such {\it near-optimal} sample and communication complexities simultaneously. Further, we show that there is a trade-off curve between local update frequencies and local minibatch sizes, on which the above sample and communication complexities can be maintained. Finally, we show that for the classical FedAvg (a.k.a. Local SGD, which is a momentum-less special case of the STEM), a similar trade-off curve exists, albeit with worse sample and communication complexities. Our insights on this trade-off provides guidelines for choosing the four important design elements for FL algorithms, the update frequency, directions, and minibatch sizes to achieve the best performance.
翻訳日:2021-06-22 15:42:58 公開日:2021-06-19
# EvoGrad: 効率的なグラディエントベースメタラーニングとハイパーパラメータ最適化

EvoGrad: Efficient Gradient-Based Meta-Learning and Hyperparameter Optimization ( http://arxiv.org/abs/2106.10575v1 )

ライセンス: Link先を確認
Ondrej Bohdal, Yongxin Yang, Timothy Hospedales(参考訳) 勾配に基づくメタラーニングとハイパーパラメータ最適化が最近大きく進歩し、多くのハイパーパラメータとともにニューラルネットワークの実践的なエンドツーエンドトレーニングを可能にした。 しかしながら、既存のアプローチは2階微分を計算し、より長い計算グラフを保存する必要があるため、比較的高価である。 このコストは、より大きなネットワークアーキテクチャへのスケールを妨げる。 EvoGradはメタラーニングの新しいアプローチで、進化的手法を駆使して、より効率的なハイパーグラディエント計算を行う。 evogradは2次勾配を計算せずにハイパーパラメータに関して超勾配を推定し、計算グラフを長く保存することで効率が大幅に向上した。 本稿では,最近のメタラーニングアプリケーションである機能変換によるクロスドメイン・マイノショット学習と,metaweightnetを用いたノイズの多いラベル学習について,evogradを評価する。 その結果、EvoGradは効率を大幅に改善し、ResNet18やResNet34といった大規模CNNアーキテクチャへのメタ学習のスケーリングを可能にした。

Gradient-based meta-learning and hyperparameter optimization have seen significant progress recently, enabling practical end-to-end training of neural networks together with many hyperparameters. Nevertheless, existing approaches are relatively expensive as they need to compute second-order derivatives and store a longer computational graph. This cost prevents scaling them to larger network architectures. We present EvoGrad, a new approach to meta-learning that draws upon evolutionary techniques to more efficiently compute hypergradients. EvoGrad estimates hypergradient with respect to hyperparameters without calculating second-order gradients, or storing a longer computational graph, leading to significant improvements in efficiency. We evaluate EvoGrad on two substantial recent meta-learning applications, namely cross-domain few-shot learning with feature-wise transformations and noisy label learning with MetaWeightNet. The results show that EvoGrad significantly improves efficiency and enables scaling meta-learning to bigger CNN architectures such as from ResNet18 to ResNet34.
翻訳日:2021-06-22 15:42:24 公開日:2021-06-19
# rayleigh-gauss-newto n optimization with enhanced sampling for variational monte carlo

Rayleigh-Gauss-Newto n optimization with enhanced sampling for variational Monte Carlo ( http://arxiv.org/abs/2106.10558v1 )

ライセンス: Link先を確認
Robert J. Webber, Michael Lindsey(参考訳) 変分モンテカルロ(VMC)は、ニューラルネットワークベースの波動関数パラメトリゼーションの導入により、最近より強力になった基底状態波動関数の計算手法である。 しかし、エネルギー最小限に収束するために効率的に神経波関数を訓練することは難しい問題である。 本研究では,VMCにおける最適化手法とサンプリング手法を解析し,性能改善のための修正を導入する。 まず,無雑音環境における理論的収束解析に基づいて,レイリー・ガウス・ニュートン法(rayleigh-gauss-newt on method)と呼ばれる超線形収束を実現するための新しい最適化器を開発した。 第二に, この確率的雑音の存在下での良好な比較を実現するため, サンプリング誤差がVMCパラメータの更新に与える影響を分析し, 並列テンパリング法により低減できることを実験的に実証した。 特に、RGNは、最適化の過程で、新しい構成空間の領域がサンプルに利用可能になったときに生じるエネルギースパイクに対して堅牢にすることができることを示す。 最後に,理論を実践し,大格子上の横場イジングモデルとxxzモデルに対して拡張最適化とサンプリング法を適用し,200~500パラメータ更新後の地上エネルギー推定を極めて高精度に実現した。

Variational Monte Carlo (VMC) is an approach for computing ground-state wavefunctions that has recently become more powerful due to the introduction of neural network-based wavefunction parametrizations. However, efficiently training neural wavefunctions to converge to an energy minimum remains a difficult problem. In this work, we analyze optimization and sampling methods used in VMC and introduce alterations to improve their performance. First, based on theoretical convergence analysis in a noiseless setting, we motivate a new optimizer that we call the Rayleigh-Gauss-Newto n method, which can improve upon gradient descent and natural gradient descent to achieve superlinear convergence. Second, in order to realize this favorable comparison in the presence of stochastic noise, we analyze the effect of sampling error on VMC parameter updates and experimentally demonstrate that it can be reduced by the parallel tempering method. In particular, we demonstrate that RGN can be made robust to energy spikes that occur when new regions of configuration space become available to the sampler over the course of optimization. Finally, putting theory into practice, we apply our enhanced optimization and sampling methods to the transverse-field Ising and XXZ models on large lattices, yielding ground-state energy estimates with remarkably high accuracy after just 200-500 parameter updates.
翻訳日:2021-06-22 15:39:23 公開日:2021-06-19
# 常識知識による質問生成の促進

Enhancing Question Generation with Commonsense Knowledge ( http://arxiv.org/abs/2106.10454v1 )

ライセンス: Link先を確認
Xin Jia, Hao Wang, Dawei Yin, Yunfang Wu(参考訳) 質問生成(QG)とは、特定の文脈に対する特定の回答によって答えられる自然で文法的な質問を生成することである。 従来のシーケンス・ツー・シーケンスのモデルは、高品質な質問をするには背景として常識的な知識が必要であるという問題に悩まされ、ほとんどの場合、トレーニングデータから直接は学習できないため、知識を奪われる不満足な質問が発生する。 本稿では,コモンセンス知識を質問生成プロセスに導入するマルチタスク学習フレームワークを提案する。 まず、成熟したデータベースから関連するコモンセンス知識を検索し、ソースコンテキストから質問への変換情報でトリプルを選択する。 これらの情報的知識をベースとして,2つの補助タスクを設計し,コモンセンス知識を主QGモデルに組み込むことで,その1つは概念関係分類であり,もう1つはテイル概念生成である。 squadの実験結果は,提案手法が自動評価と人間評価の指標の両方において,qg性能を顕著に向上できることを示し,マルチタスク学習に外部コモンセンス知識を組み込むことにより,モデルが人間らしく高品質な質問を生成できることを実証した。

Question generation (QG) is to generate natural and grammatical questions that can be answered by a specific answer for a given context. Previous sequence-to-sequence models suffer from a problem that asking high-quality questions requires commonsense knowledge as backgrounds, which in most cases can not be learned directly from training data, resulting in unsatisfactory questions deprived of knowledge. In this paper, we propose a multi-task learning framework to introduce commonsense knowledge into question generation process. We first retrieve relevant commonsense knowledge triples from mature databases and select triples with the conversion information from source context to question. Based on these informative knowledge triples, we design two auxiliary tasks to incorporate commonsense knowledge into the main QG model, where one task is Concept Relation Classification and the other is Tail Concept Generation. Experimental results on SQuAD show that our proposed methods are able to noticeably improve the QG performance on both automatic and human evaluation metrics, demonstrating that incorporating external commonsense knowledge with multi-task learning can help the model generate human-like and high-quality questions.
翻訳日:2021-06-22 15:38:22 公開日:2021-06-19
# テキスト要約のためのcondense-then-Select 戦略

A Condense-then-Select Strategy for Text Summarization ( http://arxiv.org/abs/2106.10468v1 )

ライセンス: Link先を確認
Hou Pong Chan and Irwin King(参考訳) select-then-compress はテキスト要約のための人気のあるハイブリッドフレームワークである。 このフレームワークは、まず、まともな文を選択し、それから独立して選択された各文を簡潔なバージョンに凝縮する。 しかし、圧縮文は文書のコンテキスト情報を別々に無視するので、健全な情報を削除しがちである。 そこで本研究では,テキスト要約のための新しいコンデンサ選択フレームワークを提案する。 まず、各文書文を同時に要約する。 原文文とその圧縮されたバージョンが抽出の候補となる。 最後に、抽出器は文書のコンテキスト情報を利用して候補を選択し、要約にまとめる。 凝縮中に有能な情報が削除された場合、抽出者は原文を選択して情報を保持することができる。 したがって,本フレームワークは,文レベルの圧縮の効率を高く保ちながら,有能な情報の損失を回避するのに役立つ。 CNN/DailyMail、DUC-2002、Pubmedデータセットの実験結果から、我々のフレームワークはセレクトthen圧縮フレームワークや他の強力なベースラインよりも優れていることが示された。

Select-then-compress is a popular hybrid, framework for text summarization due to its high efficiency. This framework first selects salient sentences and then independently condenses each of the selected sentences into a concise version. However, compressing sentences separately ignores the context information of the document, and is therefore prone to delete salient information. To address this limitation, we propose a novel condense-then-select framework for text summarization. Our framework first concurrently condenses each document sentence. Original document sentences and their compressed versions then become the candidates for extraction. Finally, an extractor utilizes the context information of the document to select candidates and assembles them into a summary. If salient information is deleted during condensing, the extractor can select an original sentence to retain the information. Thus, our framework helps to avoid the loss of salient information, while preserving the high efficiency of sentence-level compression. Experiment results on the CNN/DailyMail, DUC-2002, and Pubmed datasets demonstrate that our framework outperforms the select-then-compress framework and other strong baselines.
翻訳日:2021-06-22 15:38:03 公開日:2021-06-19
# adazoom:大規模シーンにおけるマルチスケール物体検出のための適応型ズームネットワーク

AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large Scenes ( http://arxiv.org/abs/2106.10409v1 )

ライセンス: Link先を確認
Jingtao Xu and Yali Li and Shengjin Wang(参考訳) 大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。 小さな物体の画像領域に焦点を合わせることが不可欠である。 本稿では,物体検出のための焦点領域を適応的にズームする,フレキシブルな形状と焦点長を持つ選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。 政策勾配に基づいて,オブジェクト分布による報酬を定式化した集中領域生成のための強化学習フレームワークを構築した。 生成された領域のスケールとアスペクト比は、内部のオブジェクトのスケールと分布に適応する。 適応型マルチスケール検出のための領域のスケールに応じて可変倍率を適用する。 さらに,AdaZoomと検出ネットワークの性能を相補的に促進するための協調学習を提案する。 有効性を検証するため、VisDrone2019, UAVDT, DOTAデータセットについて広範な実験を行った。 実験によると、AdaZoomはさまざまな検出ネットワークに対して一貫した大幅な改善をもたらし、これらのデータセット上で最先端のパフォーマンスを実現している。

Detection in large-scale scenes is a challenging problem due to small objects and extreme scale variation. It is essential to focus on the image regions of small objects. In this paper, we propose a novel Adaptive Zoom (AdaZoom) network as a selective magnifier with flexible shape and focal length to adaptively zoom the focus regions for object detection. Based on policy gradient, we construct a reinforcement learning framework for focus region generation, with the reward formulated by object distributions. The scales and aspect ratios of the generated regions are adaptive to the scales and distribution of objects inside. We apply variable magnification according to the scale of the region for adaptive multi-scale detection. We further propose collaborative training to complementarily promote the performance of AdaZoom and the detection network. To validate the effectiveness, we conduct extensive experiments on VisDrone2019, UAVDT, and DOTA datasets. The experiments show AdaZoom brings a consistent and significant improvement over different detection networks, achieving state-of-the-art performance on these datasets, especially outperforming the existing methods by AP of 4.64% on Vis-Drone2019.
翻訳日:2021-06-22 15:35:28 公開日:2021-06-19
# 教師が教師に教える半教師によるオブジェクト検出

Humble Teachers Teach Better Students for Semi-Supervised Object Detection ( http://arxiv.org/abs/2106.10456v1 )

ライセンス: Link先を確認
Yihe Tang, Weifeng Chen, Yijun Luo, Yuting Zhang(参考訳) 教師と学生の両モデルフレームワークに倣って,現代オブジェクト検出のための半教師付きアプローチを提案する。 本手法は,(1)教師をオンライン上で更新するための指数的移動平均化戦略,(2)学生のトレーニング対象として多くの地域提案とソフトな擬似ラベルを用い,(3)教師がより信頼性の高い擬似ラベルを生成するための軽量な検出専用データアンサンブルを特徴とする。 厳密に選択された疑似サンプルにハードラベルを使用する最近のSTACと比較して,本モデルの教師は,多くの提案に対してソフトラベルを持つ生徒に豊かな情報を公開する。 voc12をラベルなしデータとして使用する場合,本モデルはvoc07 valセットのcoco型apを53.04%,stacより8.4%向上した。 MS-COCOでは、ラベル付けされたデータの割合がわずかである場合、前処理よりも優れる。 MS-COCOテストデーブでは53.8%のAPに達し、ラベル付きデータと同じサイズのラベル付きデータをタップすることで、完全に監督されたResNet-152 Cascaded R-CNNよりも3.1%向上した。

We propose a semi-supervised approach for contemporary object detectors following the teacher-student dual model framework. Our method is featured with 1) the exponential moving averaging strategy to update the teacher from the student online, 2) using plenty of region proposals and soft pseudo-labels as the student's training targets, and 3) a light-weighted detection-specific data ensemble for the teacher to generate more reliable pseudo-labels. Compared to the recent state-of-the-art -- STAC, which uses hard labels on sparsely selected hard pseudo samples, the teacher in our model exposes richer information to the student with soft-labels on many proposals. Our model achieves COCO-style AP of 53.04% on VOC07 val set, 8.4% better than STAC, when using VOC12 as unlabeled data. On MS-COCO, it outperforms prior work when only a small percentage of data is taken as labeled. It also reaches 53.8% AP on MS-COCO test-dev with 3.1% gain over the fully supervised ResNet-152 Cascaded R-CNN, by tapping into unlabeled data of a similar size to the labeled data.
翻訳日:2021-06-22 15:35:12 公開日:2021-06-19
# 動的クリック変換を用いた対話型オブジェクトセグメンテーション

Interactive Object Segmentation with Dynamic Click Transform ( http://arxiv.org/abs/2106.10465v1 )

ライセンス: Link先を確認
Chun-Tse Lin, Wei-Chih Tu, Chih-Ting Liu, Shao-Yi Chien(参考訳) 対話的なセグメンテーションでは、ユーザはまずターゲットオブジェクトをクリックして本体をセグメンテーションし、次にラベルのつかない領域の修正を行い、セグメンテーションマスクを反復的に洗練する。 既存のほとんどのメソッドは、これらのユーザが提供するクリックをインタラクションマップに変換し、入力テンソルとしてイメージと結合する。 通常、インタラクションマップは、クリックと誤ラベル領域の関係を無視して、各ピクセルとクリック点の距離を測定することによって決定される。 本稿では,空間的dctと特徴的dctからなる動的クリック変換ネットワーク(dct-net)を提案する。 空間dctは、各ユーザ提供クリックを目標スケールに応じて個々の拡散距離で変換し、特徴dctは、抽出された特徴マップを、クリックされたポイントから予測された特定の分布に正規化する。 提案手法の有効性を実証し、3つの標準ベンチマークデータセットの最先端技術と比較して良好な性能を示す。

In the interactive segmentation, users initially click on the target object to segment the main body and then provide corrections on mislabeled regions to iteratively refine the segmentation masks. Most existing methods transform these user-provided clicks into interaction maps and concatenate them with image as the input tensor. Typically, the interaction maps are determined by measuring the distance of each pixel to the clicked points, ignoring the relation between clicks and mislabeled regions. We propose a Dynamic Click Transform Network~(DCT-Net), consisting of Spatial-DCT and Feature-DCT, to better represent user interactions. Spatial-DCT transforms each user-provided click with individual diffusion distance according to the target scale, and Feature-DCT normalizes the extracted feature map to a specific distribution predicted from the clicked points. We demonstrate the effectiveness of our proposed method and achieve favorable performance compared to the state-of-the-art on three standard benchmark datasets.
翻訳日:2021-06-22 15:34:48 公開日:2021-06-19
# CompConv: 効率的な特徴学習のためのコンパクトな畳み込みモジュール

CompConv: A Compact Convolution Module for Efficient Feature Learning ( http://arxiv.org/abs/2106.10486v1 )

ライセンス: Link先を確認
Chen Zhang, Yinghao Xu, Yujun Shen(参考訳) 畳み込みニューラルネットワーク(CNN)は様々なコンピュータビジョンタスクで顕著に成功しているが、膨大な計算コストに依存している。 この問題を解決するため、既存のアプローチでは、十分に訓練された大規模モデルを圧縮するか、慎重に設計されたネットワーク構造を持つ軽量モデルを学習する。 本研究では,cnnで使用される基本単位である畳み込み演算子について,計算負荷の低減のために詳細に検討する。 特に,効率的な機能学習を容易にするためのコンパクト畳み込みモジュールcompconvを提案する。 CompConvは、分割・分散戦略により、多くの計算とパラメータを保存して、ある次元の特徴マップを生成することができる。 さらに、CompConvは、入力情報を効率的に継承するために、入力特徴を出力に統合する。 より重要なことに、新しいcompconvはプラグアンドプレイモジュールであり、バニラ畳み込み層を置き換えるために現代のcnn構造に直接適用することができる。 CompConvはベンチマークCNN構造を適切に圧縮できるが、パフォーマンスを犠牲にせず、他の競合より上回っている。

Convolutional Neural Networks (CNNs) have achieved remarkable success in various computer vision tasks but rely on tremendous computational cost. To solve this problem, existing approaches either compress well-trained large-scale models or learn lightweight models with carefully designed network structures. In this work, we make a close study of the convolution operator, which is the basic unit used in CNNs, to reduce its computing load. In particular, we propose a compact convolution module, called CompConv, to facilitate efficient feature learning. With the divide-and-conquer strategy, CompConv is able to save a great many computations as well as parameters to produce a certain dimensional feature map. Furthermore, CompConv discreetly integrates the input features into the outputs to efficiently inherit the input information. More importantly, the novel CompConv is a plug-and-play module that can be directly applied to modern CNN structures to replace the vanilla convolution layers without further effort. Extensive experimental results suggest that CompConv can adequately compress the benchmark CNN structures yet barely sacrifice the performance, surpassing other competitors.
翻訳日:2021-06-22 15:34:30 公開日:2021-06-19
# CenterAtt: 高速2ステージセンターアテンションネットワーク

CenterAtt: Fast 2-stage Center Attention Network ( http://arxiv.org/abs/2106.10493v1 )

ライセンス: Link先を確認
Jianyun Xu, Xin Tang, Jian Dou, Xu Shu, Yushi Zhu(参考訳) 本稿では,waymo open datasetリアルタイム3d検出の課題として,hikvision_lidar_det の手法を紹介する。 コンペのソリューションは、Centerpoint 3D検出フレームワーク上に構築されています。 センターポイントのいくつかの変種は、センターアテンションヘッドや特徴ピラミッドネットワークネックなど、探索されている。 リアルタイム検出を実現するため,バッチノームマージや半精度浮動小数点ネットワーク,GPU加速ボキセル化プロセスなどが採用されている。 これらの手法を用いることで、waymo open datasetのリアルタイム3d検出チャレンジでは、全メソッドの6位にランクインしました。

In this technical report, we introduce the methods of HIKVISION_LiDAR_Det in the challenge of waymo open dataset real-time 3D detection. Our solution for the competition are built upon Centerpoint 3D detection framework. Several variants of CenterPoint are explored, including center attention head and feature pyramid network neck. In order to achieve real time detection, methods like batchnorm merge, half-precision floating point network and GPU-accelerated voxelization process are adopted. By using these methods, our team ranks 6th among all the methods on real-time 3D detection challenge in the waymo open dataset.
翻訳日:2021-06-22 15:34:11 公開日:2021-06-19
# 弱監視された人物探索のための視覚コンテキスト探索

Exploring Visual Context for Weakly Supervised Person Search ( http://arxiv.org/abs/2106.10506v1 )

ライセンス: Link先を確認
Yichao Yan, Jinpeng Li, Shengcai Liao, Jie Qin, Bingbing Ni, Xiaokang Yang, and Ling Shao(参考訳) 最近、歩行者検出と人物再特定を共同で行う課題として、人物検索が登場した。 既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従う。 しかし、アノテートIDは労働集約的であり、現在のフレームワークの実践性とスケーラビリティを制限する。 本稿では,境界付きボックスアノテーションのみを用いた弱い教師付き人物探索を考案的に検討する。 本研究では,この課題に対処する最初の枠組み,すなわちコンテキスト誘導人物探索(cgps)を提案し,制約のない自然画像における3段階のコンテキスト手がかり(検出,記憶,シーン)を調査した。 最初の2つは局所的およびグローバルな識別能力を促進するために使用され、後者はクラスタリングの精度を高める。 簡単な設計ではあるが、CGPSはCUHK-SYSUのmAPを8.3%向上させる。 驚くべきことに、2段階の人物検索モデルに匹敵する性能を実現し、効率も向上している。 私たちのコードはhttps://github.com/l jpadam/cgpsで利用可能です。

Person search has recently emerged as a challenging task that jointly addresses pedestrian detection and person re-identification. Existing approaches follow a fully supervised setting where both bounding box and identity annotations are available. However, annotating identities is labor-intensive, limiting the practicability and scalability of current frameworks. This paper inventively considers weakly supervised person search with only bounding box annotations. We proposed the first framework to address this novel task, namely Context-Guided Person Search (CGPS), by investigating three levels of context clues (i.e., detection, memory and scene) in unconstrained natural images. The first two are employed to promote local and global discriminative capabilities, while the latter enhances clustering accuracy. Despite its simple design, our CGPS boosts the baseline model by 8.3% in mAP on CUHK-SYSU. Surprisingly, it even achieves comparable performance to two-step person search models, while displaying higher efficiency. Our code is available at https://github.com/l jpadam/CGPS.
翻訳日:2021-06-22 15:34:02 公開日:2021-06-19
# 3次元時空間u-netによる強化学習による映像要約

Video Summarization through Reinforcement Learning with a 3D Spatio-Temporal U-Net ( http://arxiv.org/abs/2106.10528v1 )

ライセンス: Link先を確認
Tianrui Liu, Qingjie Meng, Jun-Jie Huang, Athanasios Vlontzos, Daniel Rueckert, Bernhard Kainz(参考訳) インテリジェントなビデオ要約アルゴリズムは、冗長なビデオフレームを除去しながら、最も重要かつ説明的なコンテンツの識別を通じて、ビデオ内の最も関連性の高い情報を素早く伝達することができる。 本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。 下流強化学習(rl)のための入力ビデオの時空間情報を効率良くエンコードするために3次元時空間u-netを用いる。 RLエージェントは、時空間潜時スコアから学習し、ビデオ要約におけるビデオフレームの保持又は拒否の動作を予測する。 本研究では,3次元空間的cnn特徴が,一般的な2次元画像特徴よりも映像表現の学習に適しているか検討する。 我々のフレームワークは、完全に教師なしモードと教師なしトレーニングモードの両方で操作できる。 我々は、所定の要約長の影響を分析し、3DST-UNet-RLの2つの一般的なビデオ要約ベンチマークにおける有効性を示す実験的な証拠を示す。 また,本手法を医用ビデオ要約作業に適用した。 提案手法は, 超音波検診ビデオの保存コストを削減できるとともに, 再考分析や監査中に患者の映像データを閲覧する場合に, 重要な情報を漏らさずに効率を上げる可能性がある。

Intelligent video summarization algorithms allow to quickly convey the most relevant information in videos through the identification of the most essential and explanatory content while removing redundant video frames. In this paper, we introduce the 3DST-UNet-RL framework for video summarization. A 3D spatio-temporal U-Net is used to efficiently encode spatio-temporal information of the input videos for downstream reinforcement learning (RL). An RL agent learns from spatio-temporal latent scores and predicts actions for keeping or rejecting a video frame in a video summary. We investigate if real/inflated 3D spatio-temporal CNN features are better suited to learn representations from videos than commonly used 2D image features. Our framework can operate in both, a fully unsupervised mode and a supervised training mode. We analyse the impact of prescribed summary lengths and show experimental evidence for the effectiveness of 3DST-UNet-RL on two commonly used general video summarization benchmarks. We also applied our method on a medical video summarization task. The proposed video summarization method has the potential to save storage costs of ultrasound screening videos as well as to increase efficiency when browsing patient video data during retrospective analysis or audit without loosing essential information
翻訳日:2021-06-22 15:33:46 公開日:2021-06-19
# VQA-Aid:災害後の被害評価と分析のための視覚的質問応答

VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment and Analysis ( http://arxiv.org/abs/2106.10548v1 )

ライセンス: Link先を確認
Argho Sarkar, Maryam Rahnemoonfar(参考訳) 無人航空機(UAV)と統合された視覚質問応答システムには、災害後の被害評価を前進させる多くの可能性がある。 被害地域への支援の提供は、リアルタイムデータアセスメントと分析に大きく依存している。 Visual Question Answeringのスコープは、状況を理解し、災害後のリカバリプロセスを確実に高速化するクエリ関連の回答を提供することである。 本稿では, ハリケーン・マイケル時に収集したVQAデータセットである「textit{HurMic-VQA}」を提示し, ベースラインVQAモデルの性能を比較することで, 災害後の被害評価における「textit{visual question answering (VQA)」タスクの重要性を考察する。

Visual Question Answering system integrated with Unmanned Aerial Vehicle (UAV) has a lot of potentials to advance the post-disaster damage assessment purpose. Providing assistance to affected areas is highly dependent on real-time data assessment and analysis. Scope of the Visual Question Answering is to understand the scene and provide query related answer which certainly faster the recovery process after any disaster. In this work, we address the importance of \textit{visual question answering (VQA)} task for post-disaster damage assessment by presenting our recently developed VQA dataset called \textit{HurMic-VQA} collected during hurricane Michael, and comparing the performances of baseline VQA models.
翻訳日:2021-06-22 15:33:28 公開日:2021-06-19
# 集合的再生可能種数予測のためのニューラルネットワークの解釈可能性

Neural network interpretability for forecasting of aggregated renewable generatiion ( http://arxiv.org/abs/2106.10476v1 )

ライセンス: Link先を確認
Yucun Lu, Ilgiz Murzakhanov and Spyros Chatzivasileiadis(参考訳) 再生可能エネルギーの急速な成長に伴い、多くの小型太陽光発電(PV)が出現する。 太陽発電の不確実性のため、総括的プロシューマーは太陽発電を予測し、太陽発電が負荷よりも大きいかどうかを予測する必要がある。 本稿では,二分分類ニューラルネットワークと回帰ニューラルネットワークの2つの解釈可能なニューラルネットワークを提案する。 ニューラルネットワークはTensorFlowを使って構築されている。 グローバルな特徴の重要性と局所的な特徴の寄与は、3つの勾配に基づく手法によって検証される。 さらに,ベイズニューラルネットワークを用いて予測の不確かさを推定することにより,予測が失敗した場合の異常を検出する。 勾配に基づく手法で解釈され、不確実性推定を補完するニューラルネットワークは、意思決定者にロバストで説明可能な予測を提供する。

With the rapid growth of renewable energy, lots of small photovoltaic (PV) prosumers emerge. Due to the uncertainty of solar power generation, there is a need for aggregated prosumers to predict solar power generation and whether solar power generation will be larger than load. This paper presents two interpretable neural networks to solve the problem: one binary classification neural network and one regression neural network. The neural networks are built using TensorFlow. The global feature importance and local feature contributions are examined by three gradient-based methods: Integrated Gradients, Expected Gradients, and DeepLIFT. Moreover, we detect abnormal cases when predictions might fail by estimating the prediction uncertainty using Bayesian neural networks. Neural networks, which are interpreted by gradient-based methods and complemented with uncertainty estimation, provide robust and explainable forecasting for decision-makers.
翻訳日:2021-06-22 15:25:06 公開日:2021-06-19
# 教師のペット:蒸留におけるバイアスの理解と緩和

Teacher's pet: understanding and mitigating biases in distillation ( http://arxiv.org/abs/2106.10494v1 )

ライセンス: Link先を確認
Michal Lukasik and Srinadh Bhojanapalli and Aditya Krishna Menon and Sanjiv Kumar(参考訳) 知識蒸留は, 複雑な教師モデルからの予測を用いて, 比較的単純な学生モデルの性能を向上させる手段として広く用いられている。 いくつかの研究は、蒸留が学生の全体的なパフォーマンスを著しく向上させることを示したが、これらの利益はすべてのデータサブグループで均一か? 本稿では, 蒸留が特定の部分群(例えば, 関連サンプルが少ないクラス)のパフォーマンスに影響を及ぼすことを示す。 この行動は,教師分布が生徒モデルによって伝達,増幅されるエラーに追従する。 この問題を軽減するため,教師の信頼度が低いサブグループに対して,教師の影響を和らげる手法を提案する。 いくつかの画像分類ベンチマークの実験では、これらの蒸留の改質は全体の精度を向上し、サブグループ性能の向上も保証されている。

Knowledge distillation is widely used as a means of improving the performance of a relatively simple student model using the predictions from a complex teacher model. Several works have shown that distillation significantly boosts the student's overall performance; however, are these gains uniform across all data subgroups? In this paper, we show that distillation can harm performance on certain subgroups, e.g., classes with few associated samples. We trace this behaviour to errors made by the teacher distribution being transferred to and amplified by the student model. To mitigate this problem, we present techniques which soften the teacher influence for subgroups where it is less reliable. Experiments on several image classification benchmarks show that these modifications of distillation maintain boost in overall accuracy, while additionally ensuring improvement in subgroup performance.
翻訳日:2021-06-22 15:24:54 公開日:2021-06-19
# QFCNN:量子フーリエ畳み込みニューラルネットワーク

QFCNN: Quantum Fourier Convolutional Neural Network ( http://arxiv.org/abs/2106.10421v1 )

ライセンス: Link先を確認
Feihong Shen and Jun Liu(参考訳) ニューラルネットワークと量子コンピューティングはどちらも重要かつ魅力的な分野であり、そのインタラクティブな規律は、従来のコンピュータには乗らない大規模コンピューティングタスクを約束している。 しかし、どちらの開発もハードウェア開発の範囲によって制限されている。 それでも、gpuが非常に深いモデルの実行に十分強力になる前に、多くのニューラルネットワークアルゴリズムが提案されていた。 同様に、量子アルゴリズムは、実際の量子コンピュータが容易にアクセスできるようになる前に知識予約として提案することもできる。 具体的には、ニューラルネットワークと量子計算の両方を活用し、ノイズ中間スケール量子(NISQ)プロセッサ上でのアクセラレーションに量子ディープニューラルネットワーク(QDNN)を設計することが重要な研究課題である。 最も広く使われているニューラルネットワークアーキテクチャの1つとして、畳み込みニューラルネットワーク(CNN)は量子機構によって加速され、いくつかの試みが実証されている。 本稿では,量子フーリエ畳み込みネットワーク(Quantum Fourier Convolutional Network, QFCN)というハイブリッド量子古典回路を提案する。 提案モデルは,古典的CNNと比較して指数的な高速化を実現し,既存の量子CNNの最良の結果よりも向上する。 交通予測や画像分類など,さまざまなディープラーニングタスクに適用することで,このアーキテクチャの可能性を示す。

The neural network and quantum computing are both significant and appealing fields, with their interactive disciplines promising for large-scale computing tasks that are untackled by conventional computers. However, both developments are restricted by the scope of the hardware development. Nevertheless, many neural network algorithms had been proposed before GPUs become powerful enough for running very deep models. Similarly, quantum algorithms can also be proposed as knowledge reserves before real quantum computers are easily accessible. Specifically, taking advantage of both the neural networks and quantum computation and designing quantum deep neural networks (QDNNs) for acceleration on Noisy Intermediate-Scale Quantum (NISQ) processors is also an important research problem. As one of the most widely used neural network architectures, convolutional neural network (CNN) remains to be accelerated by quantum mechanisms, with only a few attempts have been demonstrated. In this paper, we propose a new hybrid quantum-classical circuit, namely Quantum Fourier Convolutional Network (QFCN). Our model achieves exponential speed-up compared with classical CNN theoretically and improves over the existing best result of quantum CNN. We demonstrate the potential of this architecture by applying it to different deep learning tasks, including traffic prediction and image classification.
翻訳日:2021-06-22 15:19:43 公開日:2021-06-19
# 反射係数と極値マシンを用いたemg信号の分類

EMG Signal Classification Using Reflection Coefficients and Extreme Value Machine ( http://arxiv.org/abs/2106.10561v1 )

ライセンス: Link先を確認
Reza Bagherian Azhiri, Mohammad Esmaeili, Mohsen Jafarzadeh, and Mehrdad Nourani(参考訳) エレクトロミオグラフィーは、高精度な効率的な分類器が利用可能であれば、人間のジェスチャー認識に有望なアプローチである。 本稿では,emg信号の分類のための高性能アルゴリズムとして,evm(extreme value machine)の利用を提案する。 自己回帰(AR)モデルから得られた反射係数を用いて分類器の集合を訓練する。 K-Nearest Neighbors (KNN) と Support Vector Machine (SVM) に基づく文献で承認された従来の分類器と比較して,EVM の精度がよいことを示す。

Electromyography is a promising approach to the gesture recognition of humans if an efficient classifier with high accuracy is available. In this paper, we propose to utilize Extreme Value Machine (EVM) as a high-performance algorithm for the classification of EMG signals. We employ reflection coefficients obtained from an Autoregressive (AR) model to train a set of classifiers. Our experimental results indicate that EVM has better accuracy in comparison to the conventional classifiers approved in the literature based on K-Nearest Neighbors (KNN) and Support Vector Machine (SVM).
翻訳日:2021-06-22 15:19:22 公開日:2021-06-19
# グラフ畳み込みニューラルネットワークの確率摂動に対する安定性

Stability of Graph Convolutional Neural Networks to Stochastic Perturbations ( http://arxiv.org/abs/2106.10526v1 )

ライセンス: Link先を確認
Zhan Gao, Elvin Isufi and Alejandro Ribeiro(参考訳) graph convolutional neural networks(gcnn)は、ネットワークデータから表現を学ぶ非線形処理ツールである。 GCNNの重要な特性は、グラフ摂動に対する安定性である。 現在の分析では決定論的摂動を考慮しているが、トポロジカルな変化がランダムである場合、関連する洞察を与えられない。 本稿では,リンク損失に起因する確率的グラフ摂動に対するGCNNの安定性について検討する。 特に、ランダムな摂動グラフ上のGCNNと、名目グラフ上のGCNNとの出力差は、リンク損失確率において線形な係数によって上界となることを証明している。 グラフスペクトル領域における安定性解析を行い、結果を任意のグラフに対して均一に保持する。 この結果は、非線形性とアーキテクチャ幅と深さの役割も示しており、識別ハンドルによりgcnnのロバスト性が向上する。 音源定位とロボット群制御の数値シミュレーションは,我々の理論的知見を裏付けるものである。

Graph convolutional neural networks (GCNNs) are nonlinear processing tools to learn representations from network data. A key property of GCNNs is their stability to graph perturbations. Current analysis considers deterministic perturbations but fails to provide relevant insights when topological changes are random. This paper investigates the stability of GCNNs to stochastic graph perturbations induced by link losses. In particular, it proves the expected output difference between the GCNN over random perturbed graphs and the GCNN over the nominal graph is upper bounded by a factor that is linear in the link loss probability. We perform the stability analysis in the graph spectral domain such that the result holds uniformly for any graph. This result also shows the role of the nonlinearity and the architecture width and depth, and allows identifying handle to improve the GCNN robustness. Numerical simulations on source localization and robot swarm control corroborate our theoretical findings.
翻訳日:2021-06-22 15:14:34 公開日:2021-06-19
# 信号処理に基づくブラインドシンボル復号と変調分類のための深層学習

Signal Processing Based Deep Learning for Blind Symbol Decoding and Modulation Classification ( http://arxiv.org/abs/2106.10543v1 )

ライセンス: Link先を確認
Samer Hanna, Chris Dick, and Danijela Cabric(参考訳) 信号の盲目的復号には、未知の送信パラメータを推定し、無線チャネルの障害を補償し、変調タイプを特定する必要がある。 ディープラーニングは複雑な問題を解決することができるが、デジタル信号処理(DSP)は解釈可能であり、より計算効率が高い。 この2つを組み合わせるために、デュアルパスネットワーク(DPN)を提案する。 これは、信号を復元するdsp操作の信号経路と、未知の送信パラメータを推定するニューラルネットワークの特徴経路からなる。 いくつかの回復段階の経路を相互接続することで、後段は回収された信号の恩恵を受け、以前抽出された全ての特徴を再利用する。 提案設計は, 特徴共有や回復信号へのアクセスに欠ける代替設計と比較して, 変調分類を5%改善することを示した。 DPNの推定結果とブラインド復号性能は、シミュレーションデータセット上でBPSKとQPSKのブラインド信号処理アルゴリズムより優れていることを示す。 DPN結果を高いSNRで検証するために、オーバー・ザ・エアのソフトウェア定義ラジオキャプチャが使用された。 dpn設計は可変長入力を処理でき、変調分類において、長信号の平均値が最大15%の予測値を持つ固定長入力よりも優れる。

Blindly decoding a signal requires estimating its unknown transmit parameters, compensating for the wireless channel impairments, and identifying the modulation type. While deep learning can solve complex problems, digital signal processing (DSP) is interpretable and can be more computationally efficient. To combine both, we propose the dual path network (DPN). It consists of a signal path of DSP operations that recover the signal, and a feature path of neural networks that estimate the unknown transmit parameters. By interconnecting the paths over several recovery stages, later stages benefit from the recovered signals and reuse all the previously extracted features. The proposed design is demonstrated to provide 5% improvement in modulation classification compared to alternative designs lacking either feature sharing or access to recovered signals. The estimation results of DPN along with its blind decoding performance are shown to outperform a blind signal processing algorithm for BPSK and QPSK on a simulated dataset. An over-the-air software-defined-rad io capture was used to verify DPN results at high SNRs. DPN design can process variable length inputs and is shown to outperform relying on fixed length inputs with prediction averaging on longer signals by up to 15% in modulation classification.
翻訳日:2021-06-22 15:14:21 公開日:2021-06-19
# ステガナリシスのための畳み込みニューラルネットワークのマルチコンテキスト設計

Multi-Contextual Design of Convolutional Neural Network for Steganalysis ( http://arxiv.org/abs/2106.10430v1 )

ライセンス: Link先を確認
Brijesh Singh, Arijit Sur, and Pinaki Mitra(参考訳) 近年、最先端技術により、深層学習に基づくステガナリシス分類器が普及している。 ほとんどの深部ステグアナリシス分類器は、通常、ハイパスフィルタを前処理ステップとしてノイズ残差を抽出し、それらを分類のための深部モデルに供給する。 近年のステガノグラフィーの埋め込みは、必ずしも高周波帯への埋め込みを制限せず、埋め込みポリシーに従って配布している。 したがって、ノイズ残差に加えて、埋め込みゾーンの学習も難しい課題である。 本研究では,従来の手法とは異なり,まず学習した復号化カーネルを用いて雑音残差を抽出し,信号対雑音比を向上する。 前処理後、スパースノイズ残差は、異種コンテキストサイズを用いてノイズ残差のスパースおよび低振幅表現を学習する新しいマルチコンテキスト畳み込みニューラルネットワーク(M-CNET)に供給される。 さらに、ステガナ溶解埋め込みしやすい領域に焦点をあてるセルフアテンションモジュールを組み込むことにより、モデル性能をさらに向上させる。 提案手法が先行技術に対して有効であることを示すため,総合的な実験を行った。 さらに,提案アーキテクチャの様々なモジュールの寄与を正当化するためのアブレーション研究を行った。

In recent times, deep learning-based steganalysis classifiers became popular due to their state-of-the-art performance. Most deep steganalysis classifiers usually extract noise residuals using high-pass filters as preprocessing steps and feed them to their deep model for classification. It is observed that recent steganographic embedding does not always restrict their embedding in the high-frequency zone; instead, they distribute it as per embedding policy. Therefore, besides noise residual, learning the embedding zone is another challenging task. In this work, unlike the conventional approaches, the proposed model first extracts the noise residual using learned denoising kernels to boost the signal-to-noise ratio. After preprocessing, the sparse noise residuals are fed to a novel Multi-Contextual Convolutional Neural Network (M-CNET) that uses heterogeneous context size to learn the sparse and low-amplitude representation of noise residuals. The model performance is further improved by incorporating the Self-Attention module to focus on the areas prone to steganalytic embedding. A set of comprehensive experiments is performed to show the proposed scheme's efficacy over the prior arts. Besides, an ablation study is given to justify the contribution of various modules of the proposed architecture.
翻訳日:2021-06-22 15:08:49 公開日:2021-06-19
# GPLA-12:ガスパイプライン漏れの音響信号データセット

GPLA-12: An Acoustic Signal Dataset of Gas Pipeline Leakage ( http://arxiv.org/abs/2106.10277v1 )

ライセンス: Link先を確認
Jie Li and Lizhong Yao(参考訳) 本稿では,684以上の訓練/テスト音響信号のカテゴリを持つ,gpla-12と呼ばれるガスパイプラインの音響漏洩データセットを提案する。 大規模な画像や音声データセットとは異なり、特にエンジニアリング故障検出のための音響信号データセットは比較的少ない。 故障診断の進展を促進するために,外部の人工漏洩を伴う無傷ガス管システムに基づいて音響漏洩信号を収集し,収集したデータをgpla-12に変換した構造的調整により前処理する。 gpla-12は時系列タスクと分類のための特徴学習データセットとして機能する。 データセットをさらに理解するために、影と深層学習の両方のアルゴリズムを訓練してパフォーマンスを観察する。 データセットと事前訓練されたモデルがwww.daip.clubとgithub.com/Deep-AI-A pplication-DAIPの両方でリリースされた。

In this paper, we introduce a new acoustic leakage dataset of gas pipelines, called as GPLA-12, which has 12 categories over 684 training/testing acoustic signals. Unlike massive image and voice datasets, there have relatively few acoustic signal datasets, especially for engineering fault detection. In order to enhance the development of fault diagnosis, we collect acoustic leakage signals on the basis of an intact gas pipe system with external artificial leakages, and then preprocess the collected data with structured tailoring which are turned into GPLA-12. GPLA-12 dedicates to serve as a feature learning dataset for time-series tasks and classifications. To further understand the dataset, we train both shadow and deep learning algorithms to observe the performance. The dataset as well as the pretrained models have been released at both www.daip.club and github.com/Deep-AI-A pplication-DAIP
翻訳日:2021-06-22 15:08:07 公開日:2021-06-19
# DiffLoop:フィードバックループを微分することでPIDコントローラをチューニング

DiffLoop: Tuning PID controllers by differentiating through the feedback loop ( http://arxiv.org/abs/2106.10516v1 )

ライセンス: Link先を確認
Athindran Ramesh Kumar, Peter J. Ramadge(参考訳) ほとんどの産業用制御アプリケーションはPIDコントローラを使用しているため、PIDチューニングとアンチワインドアップ対策は重要な問題である。 本稿では, PIDコントローラのフィードバック利得を, バック計算と自動微分ツールを用いて調整する。 特に,グラデーション生成にコスト関数を使用し,グラデーション降下を行い,コントローラの性能を向上させる。 我々は,この非凸最適化を解析するための理論的枠組みを提案し,逆計算と外乱フィードバックの関係性を確立する。 本手法の有効性を示すために,アクチュエータ飽和を有する線形系の数値実験を行う。

Since most industrial control applications use PID controllers, PID tuning and anti-windup measures are significant problems. This paper investigates tuning the feedback gains of a PID controller via back-calculation and automatic differentiation tools. In particular, we episodically use a cost function to generate gradients and perform gradient descent to improve controller performance. We provide a theoretical framework for analyzing this non-convex optimization and establish a relationship between back-calculation and disturbance feedback policies. We include numerical experiments on linear systems with actuator saturation to show the efficacy of this approach.
翻訳日:2021-06-22 15:07:32 公開日:2021-06-19
# 電気市場におけるリアルタイム価格学習のためのグラフニューラルネットワーク

Graph Neural Networks for Learning Real-Time Prices in Electricity Market ( http://arxiv.org/abs/2106.10529v1 )

ライセンス: Link先を確認
Shaohui Liu, Chengyang Wu, Hao Zhu(参考訳) リアルタイム電力市場における最適電力フロー(OPF)問題の解決は、低炭素エネルギー資源を電力グリッドに統合する際の効率と信頼性を向上させる。 既存のエンドツーエンドのOPF学習ソリューションのスケーラビリティと適応性の問題に対処するため、我々はOPFの解決から電力市場価格を予測する新しいグラフニューラルネットワーク(GNN)フレームワークを提案する。 提案したGNN-for-OPFフレームワークは、価格の局所性を革新的に活用し、モデル複雑性の低減とグリッドトポロジへの高速適応性を実現しつつ、物理対応の正規化を導入する。 数値実験により,提案手法の学習効率と適応性が既存手法よりも向上した。

Solving the optimal power flow (OPF) problem in real-time electricity market improves the efficiency and reliability in the integration of low-carbon energy resources into the power grids. To address the scalability and adaptivity issues of existing end-to-end OPF learning solutions, we propose a new graph neural network (GNN) framework for predicting the electricity market prices from solving OPFs. The proposed GNN-for-OPF framework innovatively exploits the locality property of prices and introduces physics-aware regularization, while attaining reduced model complexity and fast adaptivity to varying grid topology. Numerical tests have validated the learning efficiency and adaptivity improvements of our proposed method over existing approaches.
翻訳日:2021-06-22 15:07:23 公開日:2021-06-19
# WaveGrad 2: テキスト音声合成のための反復的リファインメント

WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis ( http://arxiv.org/abs/2106.09660v2 )

ライセンス: Link先を確認
Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, Najim Dehak, William Chan(参考訳) 本稿では,音声合成のための非自己回帰生成モデルWaveGrad 2を提案する。 WaveGrad 2は、音素列が与えられた波形の対数条件密度の勾配を推定するために訓練される。 モデルは入力音素シーケンスを受け取り、反復的な改良プロセスを通じて音声波形を生成する。 これは、別のモデルによって生成されるメル・スペクトログラムの特徴を条件とする元のwavegrad vocoderとは対照的である。 反復的な精錬プロセスはガウスノイズから始まり、一連の精錬ステップ(例:50ステップ)を通じて徐々にオーディオシーケンスを復元する。 wavegrad 2は、改良ステップの数を調整することによって、推論速度とサンプル品質のトレードオフを自然な方法で提供する。 実験により、このモデルは高忠実度オーディオを生成でき、最先端のニューラルTSシステムの性能に近づいた。 また,異なるモデル構成に関する様々なアブレーション研究についても報告する。 オーディオサンプルはhttps://wavegrad.git hub.io/v2で入手できる。

This paper introduces WaveGrad 2, a non-autoregressive generative model for text-to-speech synthesis. WaveGrad 2 is trained to estimate the gradient of the log conditional density of the waveform given a phoneme sequence. The model takes an input phoneme sequence, and through an iterative refinement process, generates an audio waveform. This contrasts to the original WaveGrad vocoder which conditions on mel-spectrogram features, generated by a separate model. The iterative refinement process starts from Gaussian noise, and through a series of refinement steps (e.g., 50 steps), progressively recovers the audio sequence. WaveGrad 2 offers a natural way to trade-off between inference speed and sample quality, through adjusting the number of refinement steps. Experiments show that the model can generate high fidelity audio, approaching the performance of a state-of-the-art neural TTS system. We also report various ablation studies over different model configurations. Audio samples are available at https://wavegrad.git hub.io/v2.
翻訳日:2021-06-22 10:26:12 公開日:2021-06-19