このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200312となっている論文です。

PDF登録状況(公開日: 20200312)

TitleAuthorsAbstract論文公表日・翻訳日
# 事前学習モデルを用いた転校学習に対するバックドア攻撃

Backdoor Attacks against Transfer Learning with Pre-trained Deep Learning Models ( http://arxiv.org/abs/2001.03274v2 )

ライセンス: Link先を確認
Shuo Wang, Surya Nepal, Carsten Rudolph, Marthie Grobler, Shangyu Chen, Tianle Chen(参考訳) 転送学習は、訓練済みの \textit{Teacher} モデルの学習知識を、微調整によって大きなデータセットに転送することで、実現可能かつ高速なカスタマイズが可能な、正確な \textit{Student} モデルのための効果的なソリューションを提供する。 トランスファーラーニングで使用される多くの事前訓練された教師モデルは、公開プラットフォームによって公開され、維持されており、バックドア攻撃に対する脆弱性が増大している。 本稿では,一般的に採用されている3つの防御を破ることを目的とした,公開アクセス可能な教師モデルの知識を活用した,画像データと時系列データの両方における学習タスクを転送するバックドアの脅威を実証する。 具体的には、(a)バックドアトリガ生成と摂動プロセスを高速化するランキングベースの選択機構で、 \textit{pruning-based} と \textit{retraining-based defenses} を破る。 (B) オートエンコーダによるトリガー生成は、選択されたニューロンが著しく活性化されることを保証しながら、 \textit{input pre-processing-based Defense} を破ることができるロバストトリガーを生成する。 c) リバースエンジニアリングモデル入力を用いた制御モデル生成のための防御アウェアリトレーニング。 脳磁気共鳴画像(MRI)データと心電図(ECG)学習システムを用いた学生モデルに対する効果的な誤分類攻撃を開始する。 実験により,本攻撃は,画像および時系列入力の真正なモデルとして,98.4\%$と97.2\%$の識別精度を維持しつつ,トロイの木馬による画像および時系列入力に対して,27.9\%-100\%$と27.1\%-56.1\%$のアタック成功率を改善することができた。

Transfer learning provides an effective solution for feasibly and fast customize accurate \textit{Student} models, by transferring the learned knowledge of pre-trained \textit{Teacher} models over large datasets via fine-tuning. Many pre-trained Teacher models used in transfer learning are publicly available and maintained by public platforms, increasing their vulnerability to backdoor attacks. In this paper, we demonstrate a backdoor threat to transfer learning tasks on both image and time-series data leveraging the knowledge of publicly accessible Teacher models, aimed at defeating three commonly-adopted defenses: \textit{pruning-based}, \textit{retraining-based} and \textit{input pre-processing-based defenses}. Specifically, (A) ranking-based selection mechanism to speed up the backdoor trigger generation and perturbation process while defeating \textit{pruning-based} and/or \textit{retraining-based defenses}. (B) autoencoder-powered trigger generation is proposed to produce a robust trigger that can defeat the \textit{input pre-processing-based defense}, while guaranteeing that selected neuron(s) can be significantly activated. (C) defense-aware retraining to generate the manipulated model using reverse-engineered model inputs. We launch effective misclassification attacks on Student models over real-world images, brain Magnetic Resonance Imaging (MRI) data and Electrocardiography (ECG) learning systems. The experiments reveal that our enhanced attack can maintain the $98.4\%$ and $97.2\%$ classification accuracy as the genuine model on clean image and time series inputs respectively while improving $27.9\%-100\%$ and $27.1\%-56.1\%$ attack success rate on trojaned image and time series inputs respectively in the presence of pruning-based and/or retraining-based defenses.
翻訳日:2023-01-12 23:40:58 公開日:2020-03-12
# キャリブレーション機能機構による分別的・公平な分類

Differentially Private and Fair Classification via Calibrated Functional Mechanism ( http://arxiv.org/abs/2001.04958v2 )

ライセンス: Link先を確認
Jiahao Ding, Xinyue Zhang, Xiaohuan Li, Junyi Wang, Rong Yu, Miao Pan(参考訳) 機械学習は、医療診断や自動運転など、さまざまなアプリケーションで意思決定を行うための強力なツールになりつつある。 特定の属性(例えば、性別、人種)に関するいくつかの決定のトレーニングデータや不公平な行動に関するプライバシーの懸念がますます重要になっている。 これにより、プライバシー保護と同時に公平な機械学習モデルを構築することが課題となる。 本稿では,機能機構と決定境界フェアネスを組み合わせることにより,公平性と微分プライバシー保証を備えた分類モデルの設計に着目する。 微分プライバシーと公正性を$\epsilon$-differential privacy and fairness(英語版)で適用するために、関数機構を利用して、フェアネス制約を考慮した目的関数の多項式係数に異なる属性に関する異なる量のラプラスノイズを加える。 さらに,ラプラスノイズの代わりにガウス雑音を付加することにより,実用性向上手法を提案し,従って$(\epsilon,\delta)$-differential privacyを実現する。 緩和された機能機構に基づいて、$(\epsilon,\delta)$-微分プライベートかつ公正な分類モデルを設計することができる。 さらに, 理論解析と実験の結果から, 有効性を維持しつつ公平性と微分プライバシを両立させ, 最先端アルゴリズムに勝ることを示した。

Machine learning is increasingly becoming a powerful tool to make decisions in a wide variety of applications, such as medical diagnosis and autonomous driving. Privacy concerns related to the training data and unfair behaviors of some decisions with regard to certain attributes (e.g., sex, race) are becoming more critical. Thus, constructing a fair machine learning model while simultaneously providing privacy protection becomes a challenging problem. In this paper, we focus on the design of classification model with fairness and differential privacy guarantees by jointly combining functional mechanism and decision boundary fairness. In order to enforce $\epsilon$-differential privacy and fairness, we leverage the functional mechanism to add different amounts of Laplace noise regarding different attributes to the polynomial coefficients of the objective function in consideration of fairness constraint. We further propose an utility-enhancement scheme, called relaxed functional mechanism by adding Gaussian noise instead of Laplace noise, hence achieving $(\epsilon,\delta)$-differential privacy. Based on the relaxed functional mechanism, we can design $(\epsilon,\delta)$-differentially private and fair classification model. Moreover, our theoretical analysis and empirical results demonstrate that our two approaches achieve both fairness and differential privacy while preserving good utility and outperform the state-of-the-art algorithms.
翻訳日:2023-01-11 13:26:37 公開日:2020-03-12
# サイクル一貫性と特徴アライメントに基づくモバイル意味セグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Mobile Semantic Segmentation based on Cycle Consistency and Feature Alignment ( http://arxiv.org/abs/2001.04692v2 )

ライセンス: Link先を確認
Marco Toldo and Umberto Michieli and Gianluca Agresti and Pietro Zanuttigh(参考訳) セマンティックセグメンテーションのためのディープネットワークの教師付きトレーニングは、膨大な量のラベル付き現実世界データを必要とする。 この問題を解決するために、一般的に利用される回避策は、トレーニングに合成データを使用することであるが、深層ネットワークは、トレーニングセットに関してわずかに異なる統計特性を持つデータを解析する際に、重要な性能低下を示す。 本研究では,実世界と合成表現間の領域シフト問題に対処するために,新しいunsupervised domain adaptation (uda)戦略を提案する。 サイクル整合性フレームワークに基づく逆モデルは、合成ドメインと実ドメインの間のマッピングを実行する。 データはmobilenet-v2アーキテクチャに供給され、セマンティックセグメンテーションタスクを実行する。 MobileNet-v2の機能レベルで作業するさらに2つの差別要因により、2つのドメインディストリビューションの機能の整合性が向上し、パフォーマンスがさらに向上する。 最後に、セマンティックマップの一貫性が悪用される。 合成データの初期教師付きトレーニングの後、UDAアーキテクチャ全体は、すべてのコンポーネントを一度に考慮してエンドツーエンドにトレーニングされる。 実験結果から,合成データに基づくセグメンテーションネットワークを実世界シナリオに適用する上で,提案手法がいかに印象的な性能を得るかを示す。 軽量なmobilenet-v2アーキテクチャを使用することで、自動運転車で使用されるような計算リソースの少ないデバイスへの展開が可能になる。

The supervised training of deep networks for semantic segmentation requires a huge amount of labeled real world data. To solve this issue, a commonly exploited workaround is to use synthetic data for training, but deep networks show a critical performance drop when analyzing data with slightly different statistical properties with respect to the training set. In this work, we propose a novel Unsupervised Domain Adaptation (UDA) strategy to address the domain shift issue between real world and synthetic representations. An adversarial model, based on the cycle consistency framework, performs the mapping between the synthetic and real domain. The data is then fed to a MobileNet-v2 architecture that performs the semantic segmentation task. An additional couple of discriminators, working at the feature level of the MobileNet-v2, allows to better align the features of the two domain distributions and to further improve the performance. Finally, the consistency of the semantic maps is exploited. After an initial supervised training on synthetic data, the whole UDA architecture is trained end-to-end considering all its components at once. Experimental results show how the proposed strategy is able to obtain impressive performance in adapting a segmentation network trained on synthetic data to real world scenarios. The usage of the lightweight MobileNet-v2 architecture allows its deployment on devices with limited computational resources as the ones employed in autonomous vehicles.
翻訳日:2023-01-11 12:17:38 公開日:2020-03-12
# スマート・コネクテッド・コミュニティにおける緊急対応システムにおけるアルゴリズム決定手順について

On Algorithmic Decision Procedures in Emergency Response Systems in Smart and Connected Communities ( http://arxiv.org/abs/2001.07362v3 )

ライセンス: Link先を確認
Geoffrey Pettet, Ayan Mukhopadhyay, Mykel Kochenderfer, Yevgeniy Vorobeychik, Abhishek Dubey(参考訳) 緊急対応管理(ERM)は、世界中のコミュニティが直面する重要な問題である。 それにもかかわらず、ERMシステムでは現実世界における筋電図決定ポリシーに従うことが一般的である。 不確実性下でのerm意思決定を支援する原則的なアプローチは検討されてきたが、現実のシステムでは受け入れられていない。 緊急対応へのアルゴリトミックなアプローチは、リアクティブでインシデント後のディスパッチアクション、すなわち、応答者 \textit{after}インシデントを最適にディスパッチすることに焦点を当てている。 しかし、緊急応答の重大な性質は、インシデントが発生したとき、最初の応答者はインシデントに最も近い応答者を派遣している。 ermシステムの計画の重要な期間はインシデント後ではなくインシデントの間にあると論じる。 これは簡単な計画の問題ではありません -- 応答者の空間分布を動的にバランスさせる上での大きな課題は、問題の複雑さです。 ERMシステムの直交問題は、通信ネットワークに影響を与える災害シナリオにおいて特に重要な、限られた通信下での計画である。 本稿では、ヒューリスティックスを活用し、ディスパッチ問題の構造を利用する2つの部分分散マルチエージェント計画アルゴリズムを提案する。 提案手法を実世界のデータを用いて評価し、いくつかの文脈において、緊急応答器の空間分布を動的に再バランスすることで、平均応答時間とばらつきを低減できることを示す。

Emergency Response Management (ERM) is a critical problem faced by communities across the globe. Despite this, it is common for ERM systems to follow myopic decision policies in the real world. Principled approaches to aid ERM decision-making under uncertainty have been explored but have failed to be accepted into real systems. We identify a key issue impeding their adoption --- algorithmic approaches to emergency response focus on reactive, post-incident dispatching actions, i.e. optimally dispatching a responder \textit{after} incidents occur. However, the critical nature of emergency response dictates that when an incident occurs, first responders always dispatch the closest available responder to the incident. We argue that the crucial period of planning for ERM systems is not post-incident, but between incidents. This is not a trivial planning problem --- a major challenge with dynamically balancing the spatial distribution of responders is the complexity of the problem. An orthogonal problem in ERM systems is planning under limited communication, which is particularly important in disaster scenarios that affect communication networks. We address both problems by proposing two partially decentralized multi-agent planning algorithms that utilize heuristics and exploit the structure of the dispatch problem. We evaluate our proposed approach using real-world data, and find that in several contexts, dynamic re-balancing the spatial distribution of emergency responders reduces both the average response time as well as its variance.
翻訳日:2023-01-08 00:12:43 公開日:2020-03-12
# 過負荷表現のシーケンスベースマッチングによる高速でコンパクトでスケーラブルな視覚的位置認識

Fast, Compact and Highly Scalable Visual Place Recognition through Sequence-based Matching of Overloaded Representations ( http://arxiv.org/abs/2001.08434v2 )

ライセンス: Link先を確認
Sourav Garg and Michael Milford(参考訳) 視覚的位置認識アルゴリズムは、ストレージフットプリント、計算要求、結果のパフォーマンスの3つの重要な特徴を、しばしばリコールレートで表現する。 重要な先行研究は、非常にコンパクトな場所表現、サブリニア計算スケーリング、サブリニアストレージスケーリング技術を調査してきたが、これら1つ以上の点では常に大きな妥協を巻き起こしており、比較的小さなデータセットでのみ実証されている。 本稿では,超コンパクトなプレース表現,ニアサブリニアストレージスケーリング,極めて軽量な計算要求の組み合わせを初めて可能にする新しいプレース認識システムを提案する。 本手法は,ロボット工学領域における多くの空間データの本質的に逐次的性質を生かして,故意に粗いスカラー量子化に基づくハッシュ化を行い,逐次マッチングによって解決する。 従来の最先端のアプローチはどちらも1300倍の計算を消費し、破滅的に失敗するので、100フレームのシーケンスにマッチする50%以上のリコールを達成するには、1カ所あたり8バイトのストレージと37Kのユニタリ操作しか必要としない。 本稿では,量子化ベクトル長の異なるサイズでのハッシュオーバーロード手法の有効性を検討するとともに,実際のマッチング選択との比較を行い,データの分散再スケーリングが量子化に与える影響を特徴付ける。

Visual place recognition algorithms trade off three key characteristics: their storage footprint, their computational requirements, and their resultant performance, often expressed in terms of recall rate. Significant prior work has investigated highly compact place representations, sub-linear computational scaling and sub-linear storage scaling techniques, but have always involved a significant compromise in one or more of these regards, and have only been demonstrated on relatively small datasets. In this paper we present a novel place recognition system which enables for the first time the combination of ultra-compact place representations, near sub-linear storage scaling and extremely lightweight compute requirements. Our approach exploits the inherently sequential nature of much spatial data in the robotics domain and inverts the typical target criteria, through intentionally coarse scalar quantization-based hashing that leads to more collisions but is resolved by sequence-based matching. For the first time, we show how effective place recognition rates can be achieved on a new very large 10 million place dataset, requiring only 8 bytes of storage per place and 37K unitary operations to achieve over 50% recall for matching a sequence of 100 frames, where a conventional state-of-the-art approach both consumes 1300 times more compute and fails catastrophically. We present analysis investigating the effectiveness of our hashing overload approach under varying sizes of quantized vector length, comparison of near miss matches with the actual match selections and characterise the effect of variance re-scaling of data on quantization.
翻訳日:2023-01-07 12:56:44 公開日:2020-03-12
# マルチパーティモデリングのためのプライバシ保護PCA

Privacy Preserving PCA for Multiparty Modeling ( http://arxiv.org/abs/2002.02091v3 )

ライセンス: Link先を確認
Yingting Liu, Chaochao Chen, Longfei Zheng, Li Wang, Jun Zhou, Guiquan Liu, Shuang Yang(参考訳) 本稿では,水平分割データに対するプライバシ保護主成分分析(PPPCA)を用いた汎用マルチパーティモデリングパラダイムを提案する。 PPPCAは、平文データをローカルに保持する前提で、PCAの多人数共同実行を実現することができる。 また,準同型暗号と秘密共有という2つの手法による実装を提案する。 PPPCAの出力はデータコンシューマに直接送信して、任意の機械学習モデルを構築することができる。 3つのUCIベンチマークデータセットと実世界の不正検出データセットの実験を行った。 PPPCA上に構築されたモデルの精度は、集中型平文データに基づいて構築されたPCAモデルと同一であることを示す。

In this paper, we present a general multiparty modeling paradigm with Privacy Preserving Principal Component Analysis (PPPCA) for horizontally partitioned data. PPPCA can accomplish multiparty cooperative execution of PCA under the premise of keeping plaintext data locally. We also propose implementations using two techniques, i.e., homomorphic encryption and secret sharing. The output of PPPCA can be sent directly to data consumer to build any machine learning models. We conduct experiments on three UCI benchmark datasets and a real-world fraud detection dataset. Results show that the accuracy of the model built upon PPPCA is the same as the model with PCA that is built based on centralized plaintext data.
翻訳日:2023-01-03 13:15:07 公開日:2020-03-12
# グラフ注意ネットワークを用いたシングルセルデータからの病状予測

Disease State Prediction From Single-Cell Data Using Graph Attention Networks ( http://arxiv.org/abs/2002.07128v2 )

ライセンス: Link先を確認
Neal G. Ravindra, Arijit Sehanobish, Jenna L. Pappalardo, David A. Hafler, David van Dijk(参考訳) 単細胞RNAシークエンシング(scRNA-seq)は生物学的発見に革命をもたらし、組織における細胞不均一性の無バイアスな画像を提供する。 scRNA-seqは健康なシステムと病気の両方の知見を提供するために広く用いられているが、病気の予測や診断には使われていない。 グラフ注意ネットワーク(GAT)は、もともとの機能とグラフ構造の両方から学習することで、幅広いタスクに汎用性があることが証明されている。 本稿では,多発性硬化症(ms)患者の大規模データセットにおける単細胞データから疾患状態を予測するグラフ注目モデルを提案する。 MSは中枢神経系の疾患であり、診断が困難である。 7例のMS患者と6例の健常成人 (HA) のコホートに対して, 血液および髄液(CSF)から得られた単細胞データを用いて本モデルを訓練した。 グラフ畳み込みネットワークやランダムフォレスト分類器などの最先端手法を上回って,ms予測における92 %の精度を達成した。 さらに,この予測に重要な特徴(細胞タイプや遺伝子)について洞察を得るために,学習グラフの注意モデルを用いた。 グラフの注意モデルはまた、2つの条件の違いを強調した細胞のための新しい特徴空間を推測することもできます。 最後に、注意重みを用いて、可視化可能な新しい低次元埋め込みを学ぶ。 私たちの知る限りでは、シングルセルデータから病気の状態を予測するためにグラフ注意とディープラーニングを利用する最初の試みである。 本手法を他の疾患に対する単細胞データに適用する。

Single-cell RNA sequencing (scRNA-seq) has revolutionized biological discovery, providing an unbiased picture of cellular heterogeneity in tissues. While scRNA-seq has been used extensively to provide insight into both healthy systems and diseases, it has not been used for disease prediction or diagnostics. Graph Attention Networks (GAT) have proven to be versatile for a wide range of tasks by learning from both original features and graph structures. Here we present a graph attention model for predicting disease state from single-cell data on a large dataset of Multiple Sclerosis (MS) patients. MS is a disease of the central nervous system that can be difficult to diagnose. We train our model on single-cell data obtained from blood and cerebrospinal fluid (CSF) for a cohort of seven MS patients and six healthy adults (HA), resulting in 66,667 individual cells. We achieve 92 % accuracy in predicting MS, outperforming other state-of-the-art methods such as a graph convolutional network and a random forest classifier. Further, we use the learned graph attention model to get insight into the features (cell types and genes) that are important for this prediction. The graph attention model also allow us to infer a new feature space for the cells that emphasizes the differences between the two conditions. Finally we use the attention weights to learn a new low-dimensional embedding that can be visualized. To the best of our knowledge, this is the first effort to use graph attention, and deep learning in general, to predict disease state from single-cell data. We envision applying this method to single-cell data for other diseases.
翻訳日:2023-01-01 04:30:31 公開日:2020-03-12
# 共有特徴伝達によるモダリティ間の人物再識別

Cross-modality Person re-identification with Shared-Specific Feature Transfer ( http://arxiv.org/abs/2002.12489v3 )

ライセンス: Link先を確認
Yan Lu, Yue Wu, Bin Liu, Tianzhu Zhang, Baopu Li, Qi Chu and Nenghai Yu(参考訳) クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。 既存の仕事は主に、異なるモダリティを同じ機能空間に埋め込むことで共通表現を学ぶことに焦点を当てている。 しかし、共通の特徴のみを学ぶことは、大きな情報損失を意味し、特徴の上限を下げる。 本稿では,モダリティ共有特化特徴伝達アルゴリズム(cm-SSFT)を提案し,モダリティ共有情報とモダリティ特化特性の両方のポテンシャルを探索し,再識別性能を高めることにより,上記の制限に対処する。 我々は、共有特徴に応じて異なるモダリティサンプルの親和性をモデル化し、モダリティ間の共有特徴と特定特徴の両方を伝達する。 また,モダリティ適応,プロジェクト反対学習,再構成強化を含む補完的特徴学習戦略を提案し,各モダリティの識別的特徴と相補的特徴をそれぞれ学習する。 cm-SSFTアルゴリズム全体をエンドツーエンドでトレーニングすることができる。 全体アルゴリズムの優位性と各成分の有効性を検証するための総合的な実験を行った。 提案手法は,2つの主要ベンチマークデータセットであるsysu-mm01とregdbにおいて,22.5%,19.3%の精度で有意差を示した。

Cross-modality person re-identification (cm-ReID) is a challenging but key technology for intelligent video analysis. Existing works mainly focus on learning common representation by embedding different modalities into a same feature space. However, only learning the common characteristics means great information loss, lowering the upper bound of feature distinctiveness. In this paper, we tackle the above limitation by proposing a novel cross-modality shared-specific feature transfer algorithm (termed cm-SSFT) to explore the potential of both the modality-shared information and the modality-specific characteristics to boost the re-identification performance. We model the affinities of different modality samples according to the shared features and then transfer both shared and specific features among and across modalities. We also propose a complementary feature learning strategy including modality adaption, project adversarial learning and reconstruction enhancement to learn discriminative and complementary shared and specific features of each modality, respectively. The entire cm-SSFT algorithm can be trained in an end-to-end manner. We conducted comprehensive experiments to validate the superiority of the overall algorithm and the effectiveness of each component. The proposed algorithm significantly outperforms state-of-the-arts by 22.5% and 19.3% mAP on the two mainstream benchmark datasets SYSU-MM01 and RegDB, respectively.
翻訳日:2022-12-28 02:23:08 公開日:2020-03-12
# Web上の知識グラフ - 概要

Knowledge Graphs on the Web -- an Overview ( http://arxiv.org/abs/2003.00719v3 )

ライセンス: Link先を確認
Nicolas Heist, Sven Hertling, Daniel Ringler and Heiko Paulheim(参考訳) 知識グラフは知識表現の新たな形態である。 GoogleはまずKnowledge Graphという用語を作り、検索結果を改善する手段として宣伝したが、今日では多くのアプリケーションで使われている。 ナレッジグラフでは、実世界のエンティティおよび/またはビジネスドメイン(例えば、人、場所、イベント)はノードとして表現され、それらのエンティティ間の関係を表すエッジによって接続される。 Google、Microsoft、Facebookなどの企業は独自の公開知識グラフを持っているが、DBpediaやWikidataのような公開知識グラフも多数存在する。 本章では、これらの公開知識グラフの概要と比較を行い、それらの内容、サイズ、カバレッジ、重複に関する洞察を提供する。

Knowledge Graphs are an emerging form of knowledge representation. While Google coined the term Knowledge Graph first and promoted it as a means to improve their search results, they are used in many applications today. In a knowledge graph, entities in the real world and/or a business domain (e.g., people, places, or events) are represented as nodes, which are connected by edges representing the relations between those entities. While companies such as Google, Microsoft, and Facebook have their own, non-public knowledge graphs, there is also a larger body of publicly available knowledge graphs, such as DBpedia or Wikidata. In this chapter, we provide an overview and comparison of those publicly available knowledge graphs, and give insights into their contents, size, coverage, and overlap.
翻訳日:2022-12-27 05:31:22 公開日:2020-03-12
# 大規模フェデレーション学習のための評価フレームワーク

Evaluation Framework For Large-scale Federated Learning ( http://arxiv.org/abs/2003.01575v2 )

ライセンス: Link先を確認
Lifeng Liu, Fengda Zhang, Jun Xiao, and Chao Wu(参考訳) フェデレートラーニング(Federated Learning)は、携帯電話などの分散型エッジデバイスが、デバイス上ですべてのトレーニングデータを保持しながら、共有予測モデルを共同で学習可能にするための機械学習設定として提案されている。 しかし、上記のシナリオで学ぶことは、新しい課題をもたらす。 実際、膨大な数の信頼できないデバイスにまたがるデータは、非iid(識別および独立分散)であり、連合学習によって訓練されたモデルのパフォーマンスを不安定にする可能性がある。 本稿では,データセットとモジュール型評価フレームワークを生成するためのアプローチからなる,大規模フェデレーション学習のためのフレームワークを提案する。 まず,共変量シフト,事前確率シフト,概念シフトの3つの点を実世界の前提として,オープンソースの非IIDデータセット群を構築した。 さらに,ネットワークノード数,データセットサイズ,通信ラウンド数,通信リソースなど,いくつかの厳密な評価指標を設計した。 最後に,大規模フェデレート学習研究のためのオープンソースベンチマークを提案する。

Federated learning is proposed as a machine learning setting to enable distributed edge devices, such as mobile phones, to collaboratively learn a shared prediction model while keeping all the training data on device, which can not only take full advantage of data distributed across millions of nodes to train a good model but also protect data privacy. However, learning in scenario above poses new challenges. In fact, data across a massive number of unreliable devices is likely to be non-IID (identically and independently distributed), which may make the performance of models trained by federated learning unstable. In this paper, we introduce a framework designed for large-scale federated learning which consists of approaches to generating dataset and modular evaluation framework. Firstly, we construct a suite of open-source non-IID datasets by providing three respects including covariate shift, prior probability shift, and concept shift, which are grounded in real-world assumptions. In addition, we design several rigorous evaluation metrics including the number of network nodes, the size of datasets, the number of communication rounds and communication resources etc. Finally, we present an open-source benchmark for large-scale federated learning research.
翻訳日:2022-12-26 22:24:52 公開日:2020-03-12
# Markovian Dependence による大規模収縮予測

Large-Scale Shrinkage Estimation under Markovian Dependence ( http://arxiv.org/abs/2003.01873v2 )

ライセンス: Link先を確認
Bowen Gang, Gourab Mukherjee and Wenguang Sun(参考訳) 隠れマルコフモデルから生成される従属パラメータ列の同時推定の問題を考える。 このような系列モデルから観測されたノイズ汚染ベクトルを観測することにより,2乗誤差損失下での隠れた状態とは無関係に,すべてのパラメータの同時推定を考える。 これらのパラメータの推定を改善するための統計的縮小の役割について検討した。 未知の隠れマルコフモデルの分布特性に全く依存せず,新しい非パラメトリック縮小アルゴリズムを開発した。 提案手法は,<textit{Tweedie} に基づく非パラメトリック収縮アイデアとマルコフ依存下での隠れ状態の効率的な推定をエレガントに組み合わせる。 広範に数値実験を行った結果,本提案アルゴリズムは,非収縮型最先端パラメトリックや隠れマルコフモデルで用いられる非パラメトリックアルゴリズムと比較して,優れた性能が得られた。 提案手法の意思決定理論的性質を提供し,独立性の下で構築された一般的な収縮法に対する有効性を示す。 提案手法を実世界のデータセットに適用し,検索トレンドや失業率などの時間的依存型社会・経済指標の分析や,空間的依存型コピー数変動の推定を行う。

We consider the problem of simultaneous estimation of a sequence of dependent parameters that are generated from a hidden Markov model. Based on observing a noise contaminated vector of observations from such a sequence model, we consider simultaneous estimation of all the parameters irrespective of their hidden states under square error loss. We study the roles of statistical shrinkage for improved estimation of these dependent parameters. Being completely agnostic on the distributional properties of the unknown underlying Hidden Markov model, we develop a novel non-parametric shrinkage algorithm. Our proposed method elegantly combines \textit{Tweedie}-based non-parametric shrinkage ideas with efficient estimation of the hidden states under Markovian dependence. Based on extensive numerical experiments, we establish superior performance our our proposed algorithm compared to non-shrinkage based state-of-the-art parametric as well as non-parametric algorithms used in hidden Markov models. We provide decision theoretic properties of our methodology and exhibit its enhanced efficacy over popular shrinkage methods built under independence. We demonstrate the application of our methodology on real-world datasets for analyzing of temporally dependent social and economic indicators such as search trends and unemployment rates as well as estimating spatially dependent Copy Number Variations.
翻訳日:2022-12-26 13:26:41 公開日:2020-03-12
# infdetect:eコマース保険のための大規模グラフに基づく不正検出システム

InfDetect: a Large Scale Graph-based Fraud Detection System for E-Commerce Insurance ( http://arxiv.org/abs/2003.02833v3 )

ライセンス: Link先を確認
Cen Chen, Chen Liang, Jianbin Lin, Li Wang, Ziqi Liu, Xinxing Yang, Xiukun Wang, Jun Zhou, Yang Shuang, Yuan Qi(参考訳) 保険業界は、新興オンラインショッピング活動に関する革新的な製品を生み出している。 このようなeコマース保険は、衝動購入や偽造などの潜在的なリスクから購入者を保護するように設計されている。 オンライン保険に対する過激な主張は、通常、買い手、売り手、急行会社などの複数の当事者を巻き込み、大きな損失をもたらす可能性がある。 組織的詐欺師の背景にある関係を解明し,不正行為を検知するために,一般的なグラフのインターフェース,標準データ処理手順,統一的なグラフ学習プラットフォームを提供する大規模保険詐欺検知システムInfDetectを開発した。 InfDetectは最大1億のノードと数十億のエッジを含む巨大なグラフを処理することができる。 本稿では,デバイス共有グラフ,トランザクショングラフ,フレンドシップグラフ,バイヤーセラーグラフなど,詐欺師マイニングを容易にするために,異なるグラフを調査した。 これらのグラフは、教師付きおよび教師なしグラフ学習アルゴリズムを含む一様グラフ学習プラットフォームに供給される。 本システムの利用と能力を示すために, 広く適用された電子商取引保険の事例について述べる。 InfDetectは何千もの不正なクレームを検知し、毎日数万ドル以上を節約した。

The insurance industry has been creating innovative products around the emerging online shopping activities. Such e-commerce insurance is designed to protect buyers from potential risks such as impulse purchases and counterfeits. Fraudulent claims towards online insurance typically involve multiple parties such as buyers, sellers, and express companies, and they could lead to heavy financial losses. In order to uncover the relations behind organized fraudsters and detect fraudulent claims, we developed a large-scale insurance fraud detection system, i.e., InfDetect, which provides interfaces for commonly used graphs, standard data processing procedures, and a uniform graph learning platform. InfDetect is able to process big graphs containing up to 100 millions of nodes and billions of edges. In this paper, we investigate different graphs to facilitate fraudster mining, such as a device-sharing graph, a transaction graph, a friendship graph, and a buyer-seller graph. These graphs are fed to a uniform graph learning platform containing supervised and unsupervised graph learning algorithms. Cases on widely applied e-commerce insurance are described to demonstrate the usage and capability of our system. InfDetect has successfully detected thousands of fraudulent claims and saved over tens of thousands of dollars daily.
翻訳日:2022-12-26 06:51:02 公開日:2020-03-12
# インクリメンタルFewショットオブジェクト検出

Incremental Few-Shot Object Detection ( http://arxiv.org/abs/2003.04668v2 )

ライセンス: Link先を確認
Juan-Manuel Perez-Rua and Xiatian Zhu and Timothy Hospedales and Tao Xiang(参考訳) 既存のオブジェクト検出メソッドのほとんどは、クラス毎の豊富なラベル付きトレーニングサンプルと、バッチモードでのオフラインモデルトレーニングの可用性に依存している。 これらの要件は、ラベル付きトレーニングデータに制限された新しいクラスのオープンエンド宿泊にスケーラビリティを著しく制限する。 本稿では,新しいクラスを(ベースクラスを再検討せずに)段階的に登録し,いくつか例を挙げて,この制限を克服することを目的とした研究について述べる。 そこで我々は,新しいクラスオブジェクトを検出するためのインクリメンタルに学習する検出器であるopen-ended centre net (once)を提案する。 これは、数ショットの学習シナリオにCentralNet検出器をエレガントに適応させ、新しいクラスを登録するためのクラス固有のコードジェネレータモデルをメタラーニングすることで実現される。 ひとたびインクリメンタルな学習パラダイムを完全に尊重すると、新しいクラス登録では、少数のトレーニングサンプルの1回のフォワードパスしか必要なくなり、ベースクラスへのアクセスがなくなるため、組み込みデバイスへのデプロイに適している。 標準オブジェクト検出とファッションランドマーク検出の両方で実施された大規模な実験は、初めてiFSDの実現可能性を示し、興味深く非常に重要な研究のラインを開く。

Most existing object detection methods rely on the availability of abundant labelled training samples per class and offline model training in a batch mode. These requirements substantially limit their scalability to open-ended accommodation of novel classes with limited labelled training data. We present a study aiming to go beyond these limitations by considering the Incremental Few-Shot Detection (iFSD) problem setting, where new classes must be registered incrementally (without revisiting base classes) and with few examples. To this end we propose OpeN-ended Centre nEt (ONCE), a detector designed for incrementally learning to detect novel class objects with few examples. This is achieved by an elegant adaptation of the CentreNet detector to the few-shot learning scenario, and meta-learning a class-specific code generator model for registering novel classes. ONCE fully respects the incremental learning paradigm, with novel class registration requiring only a single forward pass of few-shot training samples, and no access to base classes -- thus making it suitable for deployment on embedded devices. Extensive experiments conducted on both the standard object detection and fashion landmark detection tasks show the feasibility of iFSD for the first time, opening an interesting and very important line of research.
翻訳日:2022-12-24 21:11:23 公開日:2020-03-12
# deep image prior and learned reconstruction 法によるct再構成

Computed Tomography Reconstruction Using Deep Image Prior and Learned Reconstruction Methods ( http://arxiv.org/abs/2003.04989v2 )

ライセンス: Link先を確認
Daniel Otero Baguer, Johannes Leuschner, Maximilian Schmidt(参考訳) 本研究では,低データ状態の文脈における深層学習手法の計算トモグラフィへの応用について検討する。 モチベーションとして、既存のアプローチをレビューし、異なる量のデータでトレーニングした後、定量的な結果を得る。 その結果,本研究は,復元品質とデータ効率において優れた性能を有することがわかった。 しかし、一般的に、エンドツーエンドの学習方法には2つの問題がある。 a)逆問題における古典的保証の欠如 b) 十分なデータで訓練されていない場合の一般化の欠如 これらの問題を克服するために、古典的な正規化と組み合わせて、より深い画像の事前アプローチを導入する。 提案手法は低データレジスタの最先端結果を改善する。

In this work, we investigate the application of deep learning methods for computed tomography in the context of having a low-data regime. As motivation, we review some of the existing approaches and obtain quantitative results after training them with different amounts of data. We find that the learned primal-dual has an outstanding performance in terms of reconstruction quality and data efficiency. However, in general, end-to-end learned methods have two issues: a) lack of classical guarantees in inverse problems and b) lack of generalization when not trained with enough data. To overcome these issues, we bring in the deep image prior approach in combination with classical regularization. The proposed methods improve the state-of-the-art results in the low data-regime.
翻訳日:2022-12-24 20:26:08 公開日:2020-03-12
# 協調urllcとembbリソース割り当てのための深層学習支援csi推定

Deep Learning Assisted CSI Estimation for Joint URLLC and eMBB Resource Allocation ( http://arxiv.org/abs/2003.05685v1 )

ライセンス: Link先を確認
Hamza Khan, M. Majid Butt, Sumudu Samarakoon, Philippe Sehier, and Mehdi Bennis(参考訳) マルチインプット多重出力(MIMO)は、高スペクトル効率、空間利得、エネルギー効率のため、第5世代(5G)および無線通信システム以上の鍵である。 送信側でチャネル状態情報(CSI)が利用可能であれば、MIMO送信の利点を十分に活用することができる。 しかし、送信側CSIの取得には多くの課題が伴う。 本稿では, 伝播環境(散乱器, 反射器)がほぼ同一であり, データ駆動型深層ニューラルネットワーク (dnn) が不要なオーバーヘッドを伴う非線形csi関係を学習できるという事実に基づいて, 高移動型車載ネットワークにおけるディープラーニング支援csi推定手法を提案する。 さらに,拡張モバイルブロードバンド (embb) とultra-reliable low latency (urllc) トラフィックスライスを要求する車両ユーザ機器 (vues) の動的ネットワークスライシングに基づくリソース割り当て問題を定式化し,解決する。 定式化は、eMBBスライスに対する閾値違反確率最小化を、URLLCスライスに対する確率的閾値基準を満たすものとみなす。 シミュレーションの結果,完全なCSI知識を持つ理想的な場合と比較して12%の閾値違反の増加で50%のオーバーヘッド削減が達成できた。

Multiple-input multiple-output (MIMO) is a key for the fifth generation (5G) and beyond wireless communication systems owing to higher spectrum efficiency, spatial gains, and energy efficiency. Reaping the benefits of MIMO transmission can be fully harnessed if the channel state information (CSI) is available at the transmitter side. However, the acquisition of transmitter side CSI entails many challenges. In this paper, we propose a deep learning assisted CSI estimation technique in highly mobile vehicular networks, based on the fact that the propagation environment (scatterers, reflectors) is almost identical thereby allowing a data driven deep neural network (DNN) to learn the non-linear CSI relations with negligible overhead. Moreover, we formulate and solve a dynamic network slicing based resource allocation problem for vehicular user equipments (VUEs) requesting enhanced mobile broadband (eMBB) and ultra-reliable low latency (URLLC) traffic slices. The formulation considers a threshold rate violation probability minimization for the eMBB slice while satisfying a probabilistic threshold rate criterion for the URLLC slice. Simulation result shows that an overhead reduction of 50% can be achieved with 12% increase in threshold violations compared to an ideal case with perfect CSI knowledge.
翻訳日:2022-12-24 16:00:38 公開日:2020-03-12
# 大規模MIMOのための設計パイロットとチャネル推定のためのデータ駆動ディープラーニング

Data-Driven Deep Learning to Design Pilot and Channel Estimator For Massive MIMO ( http://arxiv.org/abs/2003.05875v1 )

ライセンス: Link先を確認
Xisuo Ma, Zhen Gao(参考訳) 本稿では,広帯域マルチインプットマルチアウトプット(MIMO)システムのためのパイロット信号とチャネル推定器を共同設計するための,データ駆動型ディープラーニング(DL)アプローチを提案する。 大規模MIMOチャネルの角度領域圧縮性を利用することで、その下決定された測定値から高次元チャネルを確実に再構築することができる。 具体的には、次元減少ネットワークと再構成ネットワークからなるエンドツーエンドのディープニューラルネットワーク(DNN)アーキテクチャを設計し、それぞれがデータ駆動型ディープラーニングによって取得可能なパイロット信号とチャネル推定器を模倣する。 次元低減ネットワークでは, 重みをパイロット信号と見なす低次元受信測定への入力として, 高次元大容量mimoチャネルベクトルを圧縮することにより, 完全連結層を設計する。 再構成ネットワークでは,完全連結層と複数のカスケード畳み込み層を設計し,高次元チャネルを出力として再構成する。 入力と出力間の平均二乗誤差を損失関数として定義することにより、Adamアルゴリズムを利用して、上記のチャネルサンプルでトレーニングする。 これにより、パイロット信号とチャネル推定器とを同時に得ることができる。 シミュレーションの結果,提案手法が最先端の圧縮センシング手法よりも優れていることが示された。

In this paper, we propose a data-driven deep learning (DL) approach to jointly design the pilot signals and channel estimator for wideband massive multiple-input multiple-output (MIMO) systems. By exploiting the angular-domain compressibility of massive MIMO channels, the conceived DL framework can reliably reconstruct the high-dimensional channels from the under-determined measurements. Specifically, we design an end-to-end deep neural network (DNN) architecture composed of dimensionality reduction network and reconstruction network to respectively mimic the pilot signals and channel estimator, which can be acquired by data-driven deep learning. For the dimensionality reduction network, we design a fully-connected layer by compressing the high-dimensional massive MIMO channel vector as input to low-dimensional received measurements, where the weights are regarded as the pilot signals. For the reconstruction network, we design a fully-connected layer followed by multiple cascaded convolutional layers, which will reconstruct the high-dimensional channel as the output. By defining the mean square error between input and output as loss function, we leverage Adam algorithm to train the end-to-end DNN aforementioned with extensive channel samples. In this way, both the pilot signals and channel estimator can be simultaneously obtained. The simulation results demonstrate that the superiority of the proposed solution over state-of-the-art compressive sensing approaches.
翻訳日:2022-12-24 16:00:02 公開日:2020-03-12
# 深層学習を用いたRSSIに基づくハイブリッドビームフォーミング設計

RSSI-Based Hybrid Beamforming Design with Deep Learning ( http://arxiv.org/abs/2003.06042v1 )

ライセンス: Link先を確認
Hamed Hojatian, Vu Nguyen Ha, J\'er\'emy Nadal, Jean-Fran\c{c}ois Frigon, and Fran\c{c}ois Leduc-Primeau(参考訳) ハイブリッドビームフォーミングは5gミリ波通信に有望な技術である。 しかし、非凸最適化問題を解く必要があるため、実用的なマルチインプット多重出力(mimo)システムでは、その実装は困難である。 加えて、チャネル状態情報(csi)はパイロット信号から推定するか、専用のチャネルを介して送り返すかのどちらかでなければならない。 本稿では,各ユーザからの受信信号強度インジケータ(rssi)フィードバックのみに基づいて,ハイブリッドプリコーダを設計する。 適切な複雑性で関連する最適化を行うためのディープラーニング手法を提案する。 その結果, 得られた総和率は, 完全CSI最適だが複素解に非常に近いことがわかった。 最後に,提案手法により,csiフィードバックの最小化が要求されるため,既存の手法と比較してシステムのスペクトル効率を大幅に向上させることができる。

Hybrid beamforming is a promising technology for 5G millimetre-wave communications. However, its implementation is challenging in practical multiple-input multiple-output (MIMO) systems because non-convex optimization problems have to be solved, introducing additional latency and energy consumption. In addition, the channel-state information (CSI) must be either estimated from pilot signals or fed back through dedicated channels, introducing a large signaling overhead. In this paper, a hybrid precoder is designed based only on received signal strength indicator (RSSI) feedback from each user. A deep learning method is proposed to perform the associated optimization with reasonable complexity. Results demonstrate that the obtained sum-rates are very close to the ones obtained with full-CSI optimal but complex solutions. Finally, the proposed solution allows to greatly increase the spectral efficiency of the system when compared to existing techniques, as minimal CSI feedback is required.
翻訳日:2022-12-24 15:59:20 公開日:2020-03-12
# 推薦のための知識グラフによる強化負サンプリング

Reinforced Negative Sampling over Knowledge Graph for Recommendation ( http://arxiv.org/abs/2003.05753v1 )

ライセンス: Link先を確認
Xiang Wang, Yaokun Xu, Xiangnan He, Yixin Cao, Meng Wang, Tat-Seng Chua(参考訳) 欠落したデータの適切な処理は、推奨の基本的な課題である。 現在、多くの作品は観測されていないデータから負のサンプリングを行い、負の信号を持つレコメンダモデルのトレーニングを提供する。 それでも、既存の否定的なサンプリング戦略は、静的あるいは適応的ないずれであっても、高品質な否定的なサンプルを生成するには不十分です。 本研究では,アイテム知識グラフ (kg) がアイテムとkgエンティティの間に豊富な関係性をもたらし,情報的かつ事実的負のサンプルを推測するのに有効であると仮定する。 この目的に向けて、我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(KGPolicy)を開発した。 具体的には、私たちの設計した探索操作を実行することで、ターゲットのポジティブなインタラクションからナビゲートし、知識を認識できるネガティブなシグナルを適応的に受信し、最終的にレコメンダを訓練する潜在的なネガティブアイテムを生成します。 KGPolicy を用いた行列分解(MF)モデルを用いて,DNS や IRGAN のような最先端サンプリング手法と KGAT のような KG 強化レコメンデータモデルの両方に対して,大幅な改善を実現した。 異なる角度からのさらなる分析は、知識認識サンプリングの洞察を提供する。 コードとデータセットはhttps://github.com/xiangwang1223/kgpolicyでリリースします。

Properly handling missing data is a fundamental challenge in recommendation. Most present works perform negative sampling from unobserved data to supply the training of recommender models with negative signals. Nevertheless, existing negative sampling strategies, either static or adaptive ones, are insufficient to yield high-quality negative samples --- both informative to model training and reflective of user real needs. In this work, we hypothesize that item knowledge graph (KG), which provides rich relations among items and KG entities, could be useful to infer informative and factual negative samples. Towards this end, we develop a new negative sampling model, Knowledge Graph Policy Network (KGPolicy), which works as a reinforcement learning agent to explore high-quality negatives. Specifically, by conducting our designed exploration operations, it navigates from the target positive interaction, adaptively receives knowledge-aware negative signals, and ultimately yields a potential negative item to train the recommender. We tested on a matrix factorization (MF) model equipped with KGPolicy, and it achieves significant improvements over both state-of-the-art sampling methods like DNS and IRGAN, and KG-enhanced recommender models like KGAT. Further analyses from different angles provide insights of knowledge-aware sampling. We release the codes and datasets at https://github.com/xiangwang1223/kgpolicy.
翻訳日:2022-12-24 15:54:03 公開日:2020-03-12
# ニーズ分析:顧客ニーズを含むマイクロブログデータの同定

Needmining: Identifying micro blog data containing customer needs ( http://arxiv.org/abs/2003.05917v1 )

ライセンス: Link先を確認
Niklas K\"uhl, Jan Scheurenbrand, Gerhard Satzger(参考訳) 新製品やサービスの設計は、潜在的な顧客やユーザのニーズを特定することから始まる。 観察、調査、実験のような既存の方法の多くは、個人から不満足なニーズを導き出すための特定の努力を描いている。 同時に、マイクロブログの膨大なユーザー生成コンテンツは、無償で自由にアクセス可能である。 この情報は、すでに既存の製品に対する感情を監視するために分析されているが、ニーズの明確化のためにはまだ準備されていない。 本稿では,この取り組みに重要な基盤を築き,ニーズを表現した投稿を識別するための機械学習アプローチを提案する。 e-mobility領域におけるつぶやきの評価は、関連するツイートの小さなシェアが顕著な精度やリコール結果で識別可能であることを示す。 巨大なデータセットに適用すれば、開発手法は、何千ものユーザにわたって、イノベーションマネージャに対するスケーラブルなニーズ緩和サポートを可能にし、サービス設計ツールセットを拡張できるようになります。

The design of new products and services starts with the identification of needs of potential customers or users. Many existing methods like observations, surveys, and experiments draw upon specific efforts to elicit unsatisfied needs from individuals. At the same time, a huge amount of user-generated content in micro blogs is freely accessible at no cost. While this information is already analyzed to monitor sentiments towards existing offerings, it has not yet been tapped for the elicitation of needs. In this paper, we lay an important foundation for this endeavor: we propose a Machine Learning approach to identify those posts that do express needs. Our evaluation of tweets in the e-mobility domain demonstrates that the small share of relevant tweets can be identified with remarkable precision or recall results. Applied to huge data sets, the developed method should enable scalable need elicitation support for innovation managers - across thousands of users, and thus augment the service design tool set available to him.
翻訳日:2022-12-24 15:53:39 公開日:2020-03-12
# 画像コンテンツの保存を適応的に行うフォトリアリスティックな仮想トライオン

Towards Photo-Realistic Virtual Try-On by Adaptively Generating$\leftrightarrow$Preserving Image Content ( http://arxiv.org/abs/2003.05863v1 )

ライセンス: Link先を確認
Han Yang, Ruimao Zhang, Xiaobao Guo, Wei Liu, Wangmeng Zuo, Ping Luo(参考訳) image visual try-onは、対象の衣料品画像を参照者に転送することを目的としており、近年ではホットな話題となっている。 先行芸術は通常、服装のイメージ(例えば、テクスチャ、ロゴ、刺青)を、任意の人間のポーズに合わせる際に保存することに焦点を当てる。 しかし、参照者には大きなオクルージョンと人間のポーズが提示される場合、写真リアルな試写画像を生成することは依然として大きな課題である。 そこで本研究では,適応コンテンツ生成・保存ネットワーク(ACGPN)という新しいビジュアル・トライオン・ネットワークを提案する。 特にACGPNは、トライオン後に変更される参照画像のセマンティックレイアウト(例えば、ロングスリーブシャツ$\rightarrow$arm, arm$\rightarrow$jacket)を最初に予測し、予測されたセマンティックレイアウトに従って画像の内容が生成されるか保存する必要があるかを判断し、フォトリアリスティックな試着とリッチな衣服の詳細をもたらす。 ACGPNは一般に3つの主要なモジュールを含む。 まず、セマンティックレイアウト生成モジュールは、参照画像のセマンティックセグメンテーションを利用して、試行錯誤後に所望のセマンティックレイアウトを段階的に予測する。 次に、服飾モジュールは、生成した意味的レイアウトに従って衣服画像をワープし、2階差分制約を導入してトレーニング中のワーププロセスを安定化させる。 第3に、コンテンツ融合のための塗装モジュールは、すべての情報(例えば、参照画像、セマンティックレイアウト、歪んだ衣服)を統合し、人間の身体の各意味部分を適応的に生成する。 最先端の手法と比較して、ACGPNはより優れた知覚品質とよりリッチな細部を持つ写真リアル画像を生成することができる。

Image visual try-on aims at transferring a target clothing image onto a reference person, and has become a hot topic in recent years. Prior arts usually focus on preserving the character of a clothing image (e.g. texture, logo, embroidery) when warping it to arbitrary human pose. However, it remains a big challenge to generate photo-realistic try-on images when large occlusions and human poses are presented in the reference person. To address this issue, we propose a novel visual try-on network, namely Adaptive Content Generating and Preserving Network (ACGPN). In particular, ACGPN first predicts semantic layout of the reference image that will be changed after try-on (e.g. long sleeve shirt$\rightarrow$arm, arm$\rightarrow$jacket), and then determines whether its image content needs to be generated or preserved according to the predicted semantic layout, leading to photo-realistic try-on and rich clothing details. ACGPN generally involves three major modules. First, a semantic layout generation module utilizes semantic segmentation of the reference image to progressively predict the desired semantic layout after try-on. Second, a clothes warping module warps clothing images according to the generated semantic layout, where a second-order difference constraint is introduced to stabilize the warping process during training. Third, an inpainting module for content fusion integrates all information (e.g. reference image, semantic layout, warped clothes) to adaptively produce each semantic part of human body. In comparison to the state-of-the-art methods, ACGPN can generate photo-realistic images with much better perceptual quality and richer fine-details.
翻訳日:2022-12-24 15:53:09 公開日:2020-03-12
# 道路走行ビデオにおける物体重要度推定のためのインタラクショングラフ

Interaction Graphs for Object Importance Estimation in On-road Driving Videos ( http://arxiv.org/abs/2003.06045v1 )

ライセンス: Link先を確認
Zehua Zhang, Ashish Tawari, Sujitha Martin, David Crandall(参考訳) 道路を走る車両は多数の物体に囲まれているが、運転者の判断や行動に影響を及ぼすのはごくわずかである。 ドライバのリアルタイムな意思決定における各オブジェクトの重要性を見積もる学習は、人間の運転行動の理解を深め、より信頼性の高い自動運転システムにつながる可能性がある。 この問題を解決するには、自走車と周囲の物体との相互作用を理解するモデルが必要である。 しかし、シーン内の他の物体との相互作用は、例えば、エゴ車と前方の車の間の道路を横断する歩行者が、前方の車を重要視しにくくするなど、非常に役立つ可能性がある。 本稿では,各オブジェクトノードの特徴を,グラフの畳み込みによって相互に関連付けることによって更新する,相互作用グラフを用いたオブジェクト重要度推定のための新しいフレームワークを提案する。 実験の結果,本モデルは入力処理や前処理をはるかに少なくして,最先端のベースラインを上回ることがわかった。

A vehicle driving along the road is surrounded by many objects, but only a small subset of them influence the driver's decisions and actions. Learning to estimate the importance of each object on the driver's real-time decision-making may help better understand human driving behavior and lead to more reliable autonomous driving systems. Solving this problem requires models that understand the interactions between the ego-vehicle and the surrounding objects. However, interactions among other objects in the scene can potentially also be very helpful, e.g., a pedestrian beginning to cross the road between the ego-vehicle and the car in front will make the car in front less important. We propose a novel framework for object importance estimation using an interaction graph, in which the features of each object node are updated by interacting with others through graph convolution. Experiments show that our model outperforms state-of-the-art baselines with much less input and pre-processing.
翻訳日:2022-12-24 15:45:53 公開日:2020-03-12
# 空間混合効果モデルによる大規模フィールドの基底関数の推定

Estimating Basis Functions in Massive Fields under the Spatial Mixed Effects Model ( http://arxiv.org/abs/2003.05990v1 )

ライセンス: Link先を確認
Karl T. Pazdernik and Ranjan Maitra(参考訳) 空間予測は、ガウス確率場(grf)の仮定の下で、パラメータの最大確率推定値を得て、kriging方程式を用いて予測値に到達することで、一般的に達成される。 大規模データセットでは、予測最大化(EM)アルゴリズムを用いた定位クリグが、通常の計算禁止クリグ法に代わるものとして提案されている。 基礎関数と空間ランダム効果の線形結合として空間過程を再定義することにより、推定の計算コストを低減する。 この手法の欠点は、観測された位置と結び目との関係に制約を加えることである。 本研究では,空間混合効果(SME)モデルを用いた代替手法を開発したが,観測値と結び目の間の空間依存性の範囲をAECMアルゴリズムを用いて推定することで,さらなる柔軟性を実現することができる。 実験により,予測精度を犠牲にすることなく,余剰パラメータ推定の計算負担を最小化しながら,予測精度の向上を図っている。 この手法は、アメリカ合衆国国立気候データセンターがアーカイブした温度データセットに適用され、以前の方法よりも優れた結果が得られる。

Spatial prediction is commonly achieved under the assumption of a Gaussian random field (GRF) by obtaining maximum likelihood estimates of parameters, and then using the kriging equations to arrive at predicted values. For massive datasets, fixed rank kriging using the Expectation-Maximization (EM) algorithm for estimation has been proposed as an alternative to the usual but computationally prohibitive kriging method. The method reduces computation cost of estimation by redefining the spatial process as a linear combination of basis functions and spatial random effects. A disadvantage of this method is that it imposes constraints on the relationship between the observed locations and the knots. We develop an alternative method that utilizes the Spatial Mixed Effects (SME) model, but allows for additional flexibility by estimating the range of the spatial dependence between the observations and the knots via an Alternating Expectation Conditional Maximization (AECM) algorithm. Experiments show that our methodology improves estimation without sacrificing prediction accuracy while also minimizing the additional computational burden of extra parameter estimation. The methodology is applied to a temperature data set archived by the United States National Climate Data Center, with improved results over previous methodology.
翻訳日:2022-12-24 15:43:07 公開日:2020-03-12
# airsimドローンレースラボ

AirSim Drone Racing Lab ( http://arxiv.org/abs/2003.05654v1 )

ライセンス: Link先を確認
Ratnesh Madaan, Nicholas Gyde, Sai Vemprala, Matthew Brown, Keiko Nagami, Tim Taubner, Eric Cristofalo, Davide Scaramuzza, Mac Schwager, Ashish Kapoor(参考訳) 自律型ドローンレースは、コンピュータビジョン、計画、状態推定、制御の交差点における困難な研究課題である。 自律性のためのアルゴリズムの高速プロトタイピングと、この分野における機械学習研究の実現を可能にするシミュレーションフレームワークであるAirSim Drone Racing Labを導入し、フィールドロボティクスに関連する時間、お金、リスクを削減することを目的としている。 私たちのフレームワークは、複数のフォトリアリスティック環境におけるレーストラックの生成、ドローンレースのオーケストレーション、複数のゲートアセット、複数のセンサーモダリティ(モノクロ、深度、ニューロモルフィックイベント、オプティカルフロー)、異なるカメラモデル、計画、制御、コンピュータビジョン、学習ベースのアルゴリズムのベンチマークを可能にする。 当社のフレームワークを使用して,NeurIPS 2019で,シミュレーションベースのドローンレースコンテストを開催しました。 競合バイナリはgithubリポジトリから入手可能です。

Autonomous drone racing is a challenging research problem at the intersection of computer vision, planning, state estimation, and control. We introduce AirSim Drone Racing Lab, a simulation framework for enabling fast prototyping of algorithms for autonomy and enabling machine learning research in this domain, with the goal of reducing the time, money, and risks associated with field robotics. Our framework enables generation of racing tracks in multiple photo-realistic environments, orchestration of drone races, comes with a suite of gate assets, allows for multiple sensor modalities (monocular, depth, neuromorphic events, optical flow), different camera models, and benchmarking of planning, control, computer vision, and learning-based algorithms. We used our framework to host a simulation based drone racing competition at NeurIPS 2019. The competition binaries are available at our github repository.
翻訳日:2022-12-24 15:35:28 公開日:2020-03-12
# intensity scan context: ループクロージャ検出のための符号化強度と幾何関係

Intensity Scan Context: Coding Intensity and Geometry Relations for Loop Closure Detection ( http://arxiv.org/abs/2003.05656v1 )

ライセンス: Link先を確認
Han Wang, Chen Wang and Lihua Xie(参考訳) ループクロージャ検出は同時ローカライゼーションとマッピング(slam)において必須かつ困難な問題である。 光検出と測光(lidar)センサーにしばしば取り組まれるが、これは視点不変特性と照明不変性のためである。 既存の3次元ループ閉包検出の研究は、しばしば局所的あるいは大域的幾何学的のみの記述子のマッチングを利用するが、強度の読み取りは考慮しない。 本稿では,LiDARスキャンの強度特性について検討し,位置認識に有効であることを示す。 具体的には、幾何学的特徴と強度特性の両方を探求する新しいグローバル記述子、インテンシティ・スキャン・コンテキスト(ISC)を提案する。 ループ閉包検出の効率を向上させるために,二元操作に基づく高速幾何関係検索と強度構造再同定を含む効率的な二段階階層再同定法を提案する。 提案手法の性能評価のために, 局所実験と公開データセットテストの両方を含む詳細な実験を行った。 本手法は,既存の幾何学的手法よりも高いリコール率とリコール精度を実現する。

Loop closure detection is an essential and challenging problem in simultaneous localization and mapping (SLAM). It is often tackled with light detection and ranging (LiDAR) sensor due to its view-point and illumination invariant properties. Existing works on 3D loop closure detection often leverage the matching of local or global geometrical-only descriptors, but without considering the intensity reading. In this paper we explore the intensity property from LiDAR scan and show that it can be effective for place recognition. Concretely, we propose a novel global descriptor, intensity scan context (ISC), that explores both geometry and intensity characteristics. To improve the efficiency for loop closure detection, an efficient two-stage hierarchical re-identification process is proposed, including a binary-operation based fast geometric relation retrieval and an intensity structure re-identification. Thorough experiments including both local experiment and public datasets test have been conducted to evaluate the performance of the proposed method. Our method achieves higher recall rate and recall precision than existing geometric-only methods.
翻訳日:2022-12-24 15:35:11 公開日:2020-03-12
# デュアルカメラからの最適HDRと深さ

Optimal HDR and Depth from Dual Cameras ( http://arxiv.org/abs/2003.05907v1 )

ライセンス: Link先を確認
Pradyumna Chari, Anil Kumar Vadathya, Kaushik Mitra(参考訳) デュアルカメラシステムは、光学ズーム、低光度撮像、高ダイナミックレンジ(hdr)撮像などの様々な応用の拡散を補助している。 本研究では,デュアルカメラを用いたシーンhdrと不均等マップの最適撮影法について検討する。 Hasinoffら (2010) は、単一カメラからのHDRキャプチャーのためのノイズ最適フレームワークを開発した。 これをデュアルカメラに一般化し、hdrとdisparity mapの両方を推定する。 デュアルカメラシステムは、HDRを短時間で捉えることができるようだ。 しかし、この2つのカメラが捉えた画像間で重なり合う必要があるため、差分推定は必要なステップである。 これは捕獲時間の増加につながる可能性がある。 この矛盾する要件に対処するために,各露光SNR上の上限値と下限値の制約条件下での捕捉時間を最小化し,最適な露光とISOシーケンスを見つけるための新しい枠組みを提案する。 結果、最適化問題は一般には非凸であり、適切な初期化手法を提案する。 最適なキャプチャシーケンスからHDRと不均質マップを得るために,カメラICRFとシーン不均質マップを交互に推定するパイプラインを提案する。 最適なキャプチャシーケンスは、他の可能なキャプチャシーケンスよりも優れた結果をもたらすことを示す。 我々の結果は、動的範囲全体にまたがる全ステレオスタックをキャプチャすることで得られるものに近い。 最後に、スマートフォンのデュアルカメラから撮影された高密度isoと露光スタックからなるステレオhdrデータセットを初めて紹介する。 データセットは6つのシーンで構成され、平均142の露光ISO画像シーケンスがある。

Dual camera systems have assisted in the proliferation of various applications, such as optical zoom, low-light imaging and High Dynamic Range (HDR) imaging. In this work, we explore an optimal method for capturing the scene HDR and disparity map using dual camera setups. Hasinoff et al. (2010) have developed a noise optimal framework for HDR capture from a single camera. We generalize this to the dual camera set-up for estimating both HDR and disparity map. It may seem that dual camera systems can capture HDR in a shorter time. However, disparity estimation is a necessary step, which requires overlap among the images captured by the two cameras. This may lead to an increase in the capture time. To address this conflicting requirement, we propose a novel framework to find the optimal exposure and ISO sequence by minimizing the capture time under the constraints of an upper bound on the disparity error and a lower bound on the per-exposure SNR. We show that the resulting optimization problem is non-convex in general and propose an appropriate initialization technique. To obtain the HDR and disparity map from the optimal capture sequence, we propose a pipeline which alternates between estimating the camera ICRFs and the scene disparity map. We demonstrate that our optimal capture sequence leads to better results than other possible capture sequences. Our results are also close to those obtained by capturing the full stereo stack spanning the entire dynamic range. Finally, we present for the first time a stereo HDR dataset consisting of dense ISO and exposure stack captured from a smartphone dual camera. The dataset consists of 6 scenes, with an average of 142 exposure-ISO image sequence per scene.
翻訳日:2022-12-24 15:34:54 公開日:2020-03-12
# LiDARガイドによる小型障害物セグメンテーション

LiDAR guided Small obstacle Segmentation ( http://arxiv.org/abs/2003.05970v1 )

ライセンス: Link先を確認
Aasheesh Singh, Aditya Kamireddypalli, Vineet Gandhi, K Madhava Krishna(参考訳) 道路上の小さな障害物を検出することは、自動運転には不可欠である。 本稿では,スパースLiDAR(VLP-16)とモノクルビジョンの多モードフレームワークを用いて,そのような障害を確実に検出する手法を提案する。 LiDARは、単分子セグメンテーションネットワークへの信頼マップという形で追加のコンテキストを提供するために使用される。 モノクロセマンティクスセグメンテーションフレームワークへの追加入力としてコンテキストが供給されると、パフォーマンスが大幅に向上します。 さらに,3,000以上の画像フレームと対応するlidar観測からなる,新たな意味セグメンテーションデータセットをコミュニティに提示する。 画像には、オフロード、道路、小さな障害物の3つのクラスのピクセル単位のアノテーションが付属している。 そこで本研究では,lidarとカメラの高精度キャリブレーションが重要であることを強調し,遠距離パラメータを用いた新しいハウスドルフ距離に基づくキャリブレーション手法を提案する。 このデータセットに対する最初のベンチマークとして、挑戦的なシナリオで、50メートルまでのインスタンス検出で73%の結果を報告します。 また,50mの深さで15cm未満の障害物の正確なセグメンテーションを定量的に示し,その効果を定量的に比較することにより,本手法の有効性を検証した。 私たちのプロジェクトページとDatasetはhttps://small-obstacle-dataset.github.io/でホストされています。

Detecting small obstacles on the road is critical for autonomous driving. In this paper, we present a method to reliably detect such obstacles through a multi-modal framework of sparse LiDAR(VLP-16) and Monocular vision. LiDAR is employed to provide additional context in the form of confidence maps to monocular segmentation networks. We show significant performance gains when the context is fed as an additional input to monocular semantic segmentation frameworks. We further present a new semantic segmentation dataset to the community, comprising of over 3000 image frames with corresponding LiDAR observations. The images come with pixel-wise annotations of three classes off-road, road, and small obstacle. We stress that precise calibration between LiDAR and camera is crucial for this task and thus propose a novel Hausdorff distance based calibration refinement method over extrinsic parameters. As a first benchmark over this dataset, we report our results with 73% instance detection up to a distance of 50 meters on challenging scenarios. Qualitatively by showcasing accurate segmentation of obstacles less than 15 cms at 50m depth and quantitatively through favourable comparisons vis a vis prior art, we vindicate the method's efficacy. Our project-page and Dataset is hosted at https://small-obstacle-dataset.github.io/
翻訳日:2022-12-24 15:33:51 公開日:2020-03-12
# 能動型人間-ロボットハンドオーバのためのヒューマングラフ分類

Human Grasp Classification for Reactive Human-to-Robot Handovers ( http://arxiv.org/abs/2003.06000v1 )

ライセンス: Link先を確認
Wei Yang, Chris Paxton, Maya Cakmak, Dieter Fox(参考訳) 人間とロボット間の物体の移動は、協調ロボットにとって重要な能力である。 近年、ロボットハンドオーバへの関心が高まっているが、ほとんどの研究はロボットから人間へのハンドオーバに焦点を当てている。 さらに、人間とロボットのハンドオーバは、人間がロボットのグリップにオブジェクトを配置できると仮定することが多い。 本稿では,ロボットが人間の中途で遭遇するロボットハンドオーバに対して,物体の把握を分類し,その意図に応じて物体を人間の手から取り出すための軌道を迅速に計画するアプローチを提案する。 これを実現するために,様々な手形やポーズを持つ物体の保持方法の典型的方法をカバーする人間把握データセットを収集し,このデータセットの深いモデルを学習し,手把握をこれらのカテゴリの1つに分類する。 本稿では,検出された把持位置と手の位置に応じて対象物を人手から取り出し,ハンドオーバを中断した場合に必要に応じて再計画する計画実行手法を提案する。 体系的な評価により、我々のシステムは2つのベースラインに対してより流動的なハンドオーバをもたらすことを示す。 また,N=9のユーザスタディから,異なるシナリオにおけるナイーブユーザによるアプローチの有効性とユーザビリティを示す知見も提示した。 さらなる結果とビデオはhttp://wyang.me/handovers.comで見ることができる。

Transfer of objects between humans and robots is a critical capability for collaborative robots. Although there has been a recent surge of interest in human-robot handovers, most prior research focus on robot-to-human handovers. Further, work on the equally critical human-to-robot handovers often assumes humans can place the object in the robot's gripper. In this paper, we propose an approach for human-to-robot handovers in which the robot meets the human halfway, by classifying the human's grasp of the object and quickly planning a trajectory accordingly to take the object from the human's hand according to their intent. To do this, we collect a human grasp dataset which covers typical ways of holding objects with various hand shapes and poses, and learn a deep model on this dataset to classify the hand grasps into one of these categories. We present a planning and execution approach that takes the object from the human hand according to the detected grasp and hand position, and replans as necessary when the handover is interrupted. Through a systematic evaluation, we demonstrate that our system results in more fluent handovers versus two baselines. We also present findings from a user study (N = 9) demonstrating the effectiveness and usability of our approach with naive users in different scenarios. More results and videos can be found at http://wyang.me/handovers.
翻訳日:2022-12-24 15:33:31 公開日:2020-03-12
# CRWIZ: リアルタイムウィザード・オブ・オズの対話をクラウドソーシングするフレームワーク

CRWIZ: A Framework for Crowdsourcing Real-Time Wizard-of-Oz Dialogues ( http://arxiv.org/abs/2003.05995v1 )

ライセンス: Link先を確認
Francisco J. Chiyah Garcia, Jos\'e Lopes, Xingkun Liu, Helen Hastie(参考訳) タスクベースおよびオープンドメイン対話の大規模なコーパスは、データ駆動対話システムにおいて非常に貴重である。 Amazon Mechanical Turkのようなクラウドソーシングプラットフォームは、このような大量のデータを集める効果的な方法である。 しかし、タスクベースの対話が専門的なドメイン知識を必要とする場合や、観光データベースのようなドメイン関連情報への迅速なアクセスが困難になる。 これは、対話システムがますます野心的になり、我々の緊急対応領域のようなコラボレーションや事前計画を必要とする高いレベルの複雑さを持つタスクへと拡大するにつれて、さらに広まります。 本稿では,協調作業のためのクラウドソーシングを通じて,Oz対話のリアルタイムウィザードを収集するフレームワークであるCRWIZを提案する。 このフレームワークは、専門家にしか知られていないプロセスや手順を破る相互作用を避けるために、半誘導対話を使用する。 フレームワークはhttps://github.com/JChiyah/crwizで入手できる。

Large corpora of task-based and open-domain conversational dialogues are hugely valuable in the field of data-driven dialogue systems. Crowdsourcing platforms, such as Amazon Mechanical Turk, have been an effective method for collecting such large amounts of data. However, difficulties arise when task-based dialogues require expert domain knowledge or rapid access to domain-relevant information, such as databases for tourism. This will become even more prevalent as dialogue systems become increasingly ambitious, expanding into tasks with high levels of complexity that require collaboration and forward planning, such as in our domain of emergency response. In this paper, we propose CRWIZ: a framework for collecting real-time Wizard of Oz dialogues through crowdsourcing for collaborative, complex tasks. This framework uses semi-guided dialogue to avoid interactions that breach procedures and processes only known to experts, while enabling the capture of a wide variety of interactions. The framework is available at https://github.com/JChiyah/crwiz
翻訳日:2022-12-24 15:26:23 公開日:2020-03-12
# ニューラルコントローラの学習に基づく形態発達における問題硬度の影響に関する実験

Some Experiments on the influence of Problem Hardness in Morphological Development based Learning of Neural Controllers ( http://arxiv.org/abs/2003.05817v1 )

ライセンス: Link先を確認
M.Naya-Varela (1), A. Faina (2) and R. J. Duro (3) ((1) Universidade da Coruna, (2) IT University of Copenhagen)(参考訳) 自然生物は、幼児期から成人期にかけて直面する環境を学習し適応している間、身体の形態的発達過程を経る。 実際、この時期は、最も重要な学習促進策、つまり大人としての学習を支援するものが行われる時期である。 しかし, 人工的なシステムでは, 形態学的発達と学習の相互作用とその利点がほとんど考慮されていない。 本稿では, 学習が難しい課題や領域に直面する身体的システムにおける学習を容易にするために, 形態的発達をどのように活用できるかについて考察する。 特に、複雑なタスクを学ぶ際に形態的発達が真に有利になるかどうか、そしてタスクが困難になるにつれて、そのタスクの学習への関連性に焦点をあてる。 そこで本研究では,四足歩行,六脚歩行,八足歩行の3症例について形態学的発達を学習に応用した最初の実験を行った。 これらの結果は,タスク学習が困難になるにつれて,形態的発達の学習への応用がより有利になることを示している。

Natural beings undergo a morphological development process of their bodies while they are learning and adapting to the environments they face from infancy to adulthood. In fact, this is the period where the most important learning pro-cesses, those that will support learning as adults, will take place. However, in artificial systems, this interaction between morphological development and learning, and its possible advantages, have seldom been considered. In this line, this paper seeks to provide some insights into how morphological development can be harnessed in order to facilitate learning in em-bodied systems facing tasks or domains that are hard to learn. In particular, here we will concentrate on whether morphological development can really provide any advantage when learning complex tasks and whether its relevance towards learning in-creases as tasks become harder. To this end, we present the results of some initial experiments on the application of morpho-logical development to learning to walk in three cases, that of a quadruped, a hexapod and that of an octopod. These results seem to confirm that as task learning difficulty increases the application of morphological development to learning becomes more advantageous.
翻訳日:2022-12-24 15:25:24 公開日:2020-03-12
# 遠隔ロボットのメンタルモデルを促進する自然言語対話

Natural Language Interaction to Facilitate Mental Models of Remote Robots ( http://arxiv.org/abs/2003.05870v1 )

ライセンス: Link先を確認
Francisco J. Chiyah Garcia, Jos\'e Lopes, Helen Hastie(参考訳) ますます複雑で自律的なロボットが、現実世界の環境に配備されていく。 緊急対応や沖合のエネルギープラットフォームや核検査といった高リスクシナリオでは、ロボットオペレーターはロボットができることとできないことを明確にしたメンタルモデルを持つ必要があります。 しかし、オペレーターはロボットのオリジナルの設計者ではないことが多いため、初心者である場合、必ずしもそのような明確な精神モデルを持っていない。 メンタルモデルが明確でないことは採用を遅らせ、人間と機械のコラボレーションに悪影響を及ぼす可能性がある。 本稿では,遠隔ロボットの機能を理解し,自然言語による説明を通じて透明性を高めるとともに,操作者のメンタルモデルの評価を容易にするために,仲介者として機能する対話アシスタントとのインタラクションを提案する。

Increasingly complex and autonomous robots are being deployed in real-world environments with far-reaching consequences. High-stakes scenarios, such as emergency response or offshore energy platform and nuclear inspections, require robot operators to have clear mental models of what the robots can and can't do. However, operators are often not the original designers of the robots and thus, they do not necessarily have such clear mental models, especially if they are novice users. This lack of mental model clarity can slow adoption and can negatively impact human-machine teaming. We propose that interaction with a conversational assistant, who acts as a mediator, can help the user with understanding the functionality of remote robots and increase transparency through natural language explanations, as well as facilitate the evaluation of operators' mental models.
翻訳日:2022-12-24 15:25:06 公開日:2020-03-12
# ANNに基づく制御系学習のための形態的開発の試み

An Experiment in Morphological Development for Learning ANN Based Controllers ( http://arxiv.org/abs/2003.07195v1 )

ライセンス: Link先を確認
M.Naya-Varela (1), A. Faina (2) and R. J. Duro (1) ((1) Universidade da Coruna, (2) IT University of Copenhagen)(参考訳) 形態発達は、人間や動物が学ぶ方法の一部である。 学習過程は出生時の形態から始まり、成人になるまで形態を変化させる。 生物学的には、これは学習を促進し、より堅牢にするように見える。 しかし、このアプローチをロボットシステムに移行した場合、文献で得られた結果は矛盾する。 実際、固定形態学で学ぶ場合よりも、結果が貧弱になる可能性がある。 本稿では,四足歩行における簡単な,しかし非常に有意義な実験から,いくつかの問題を解析する。 結果から,学習に形態素発達を応用すべき条件についての最初の知見を得た。

Morphological development is part of the way any human or animal learns. The learning processes starts with the morphology at birth and progresses through changing morphologies until adulthood is reached. Biologically, this seems to facilitate learning and make it more robust. However, when this approach is transferred to robotic systems, the results found in the literature are inconsistent: morphological development does not provide a learning advantage in every case. In fact, it can lead to poorer results than when learning with a fixed morphology. In this paper we analyze some of the issues involved by means of a simple, but very informative experiment in quadruped walking. From the results obtained an initial series of insights on when and under what conditions to apply morphological development for learning are presented.
翻訳日:2022-12-24 15:24:43 公開日:2020-03-12
# サイド情報を用いたDGAドメインのインライン検出

Inline Detection of DGA Domains Using Side Information ( http://arxiv.org/abs/2003.05703v1 )

ライセンス: Link先を確認
Raaghavi Sivaguru, Jonathan Peck, Femi Olumofin, Anderson Nascimento and Martine De Cock(参考訳) マルウェアアプリケーションは通常、コマンドとコントロール(C&C)サーバを使用して、悪意のあるアクティビティを実行するボットを管理する。 ドメイン生成アルゴリズム(DGA)は、感染したボットとC&Cサーバ間の通信を確立するために使用できる擬似ランダムドメイン名を生成する一般的な方法である。 近年,機械学習に基づくシステムはDGAの検出に広く利用されている。 文献では、予測性能の高いリアルタイムアプリケーションにおいて、DGAドメイン名を検出できる最先端の分類器がいくつか知られている。 しかし、これらのDGA分類器は、DGA検出分類器を避けるためにドメイン名を意図的に作っている敵攻撃に対して非常に脆弱である。 本研究は,敵攻撃に対するDGA分類器の強化に焦点を当てる。 そこで我々は,ドメイン名自体よりも敵が操作しづらい側面情報を用いて,DGA検出のための最先端のディープラーニング・ランダム森林分類器を訓練し,評価する。 さらに、サイド情報特徴が選択され、実際に容易に入手でき、インラインDGA検出が可能となる。 これらのモデルの性能とロバスト性は、敵攻撃アルゴリズムによって生成された領域と同様に、実交通データの1日に露呈することで評価される。 ドメイン名と側情報の両方に依存するDGA分類器は高い性能を有し、敵に対してより堅牢であることがわかった。

Malware applications typically use a command and control (C&C) server to manage bots to perform malicious activities. Domain Generation Algorithms (DGAs) are popular methods for generating pseudo-random domain names that can be used to establish a communication between an infected bot and the C&C server. In recent years, machine learning based systems have been widely used to detect DGAs. There are several well known state-of-the-art classifiers in the literature that can detect DGA domain names in real-time applications with high predictive performance. However, these DGA classifiers are highly vulnerable to adversarial attacks in which adversaries purposely craft domain names to evade DGA detection classifiers. In our work, we focus on hardening DGA classifiers against adversarial attacks. To this end, we train and evaluate state-of-the-art deep learning and random forest (RF) classifiers for DGA detection using side information that is harder for adversaries to manipulate than the domain name itself. Additionally, the side information features are selected such that they are easily obtainable in practice to perform inline DGA detection. The performance and robustness of these models is assessed by exposing them to one day of real-traffic data as well as domains generated by adversarial attack algorithms. We found that the DGA classifiers that rely on both the domain name and side information have high performance and are more robust against adversaries.
翻訳日:2022-12-24 15:24:33 公開日:2020-03-12
# ドメイン一般化のための深部領域逆画像生成

Deep Domain-Adversarial Image Generation for Domain Generalisation ( http://arxiv.org/abs/2003.06054v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Yongxin Yang, Timothy Hospedales, Tao Xiang(参考訳) マシンラーニングモデルは通常、ソースデータセットでトレーニングされ、異なるディストリビューションのターゲットデータセットで評価される場合、ドメインシフトの問題に悩まされる。 この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインのデータを活用することを目的としている。 本稿では,emph{deep Domain-Adversarial Image Generation} (DDAIG)に基づく新しいDG手法を提案する。 具体的には、DDAIGは3つのコンポーネント、すなわちラベル分類器、ドメイン分類器、ドメイン変換ネットワーク(DoTNet)から構成される。 dotnetの目標は、ソーストレーニングデータを見えないドメインにマップすることだ。 これは、生成されたデータがラベル分類器によって正しく分類され、ドメイン分類器を騙すことができるように、学習目的を定式化することで達成される。 生成した未知のドメインデータでソーストレーニングデータを増強することにより、未知のドメイン変更に対してラベル分類器をより堅牢にすることができる。 4つのdgデータセットに関する広範な実験により,本手法の有効性が示された。

Machine learning models typically suffer from the domain shift problem when trained on a source dataset and evaluated on a target dataset of different distribution. To overcome this problem, domain generalisation (DG) methods aim to leverage data from multiple source domains so that a trained model can generalise to unseen domains. In this paper, we propose a novel DG approach based on \emph{Deep Domain-Adversarial Image Generation} (DDAIG). Specifically, DDAIG consists of three components, namely a label classifier, a domain classifier and a domain transformation network (DoTNet). The goal for DoTNet is to map the source training data to unseen domains. This is achieved by having a learning objective formulated to ensure that the generated data can be correctly classified by the label classifier while fooling the domain classifier. By augmenting the source training data with the generated unseen domain data, we can make the label classifier more robust to unknown domain changes. Extensive experiments on four DG datasets demonstrate the effectiveness of our approach.
翻訳日:2022-12-24 15:17:34 公開日:2020-03-12
# テンソルネットワークを用いた動的時空間グラフニューラルネットワーク

Dynamic Spatiotemporal Graph Neural Network with Tensor Network ( http://arxiv.org/abs/2003.08729v1 )

ライセンス: Link先を確認
Chengcheng Jia, Bo Wu, Xiao-Ping Zhang(参考訳) 動的空間グラフ構築は時系列データ問題に対するグラフニューラルネットワーク(GNN)の課題である。 いくつかの適応グラフは認識可能であるが、2次元グラフのみがネットワークに埋め込まれ、現在の空間関係を反映している。 本研究では,すべての動的空間関係を収集するための空間テンソルグラフ(stg)と,各ノードの時間に沿った潜在パターンを求める時間テンソルグラフ(ttg)を生成する。 これら2つのテンソルグラフは同じノードとエッジを共有しており、これら2つのグラフを最適化するために、プロジェクテッド・エンタングルド・ペアステート(PEPS)による絡み合った相関を探索する。 本研究では, 公共交通データを用いた最新gnn手法と, 精度と時間コストの比較を行った。

Dynamic spatial graph construction is a challenge in graph neural network (GNN) for time series data problems. Although some adaptive graphs are conceivable, only a 2D graph is embedded in the network to reflect the current spatial relation, regardless of all the previous situations. In this work, we generate a spatial tensor graph (STG) to collect all the dynamic spatial relations, as well as a temporal tensor graph (TTG) to find the latent pattern along time at each node. These two tensor graphs share the same nodes and edges, which leading us to explore their entangled correlations by Projected Entangled Pair States (PEPS) to optimize the two graphs. We experimentally compare the accuracy and time costing with the state-of-the-art GNN based methods on the public traffic datasets.
翻訳日:2022-12-24 15:17:18 公開日:2020-03-12
# インセプション型オートエンコーダを用いた画像の高速距離に基づく異常検出

Fast Distance-based Anomaly Detection in Images Using an Inception-like Autoencoder ( http://arxiv.org/abs/2003.08731v1 )

ライセンス: Link先を確認
Natasa Sarafijanovic-Djukic and Jesse Davis(参考訳) 異常検出の目標は、正常または期待された行動から逸脱する例を特定することである。 我々はこの問題に画像で取り組んだ。 我々は二段階のアプローチを考える。 まず、通常例を用いて、畳み込みオートエンコーダ(CAE)を訓練し、画像の低次元表現を抽出する。 本稿では、インセプションのようなCAEを設計する際の新しいアーキテクチャ選択を提案する。 異なるカーネルサイズの畳み込みフィルタを組み合わせて、CAEのボトルネック層から表現を抽出するために、Global Average Pooling(GAP)操作を使用する。 第2に,画像の学習表現の低次元空間に距離に基づく異常検出器を用いる。 しかし、正確な距離を計算する代わりに、積量子化を用いて近似距離を計算する。 これにより、距離ベースの異常検出器の高メモリと予測時間コストが軽減される。 提案手法を4つの画像データセットのベースラインおよび最先端手法と比較し,提案手法が予測性能の向上に寄与したことを確認した。

The goal of anomaly detection is to identify examples that deviate from normal or expected behavior. We tackle this problem for images. We consider a two-phase approach. First, using normal examples, a convolutional autoencoder (CAE) is trained to extract a low-dimensional representation of the images. Here, we propose a novel architectural choice when designing the CAE, an Inception-like CAE. It combines convolutional filters of different kernel sizes and it uses a Global Average Pooling (GAP) operation to extract the representations from the CAE's bottleneck layer. Second, we employ a distanced-based anomaly detector in the low-dimensional space of the learned representation for the images. However, instead of computing the exact distance, we compute an approximate distance using product quantization. This alleviates the high memory and prediction time costs of distance-based anomaly detectors. We compare our proposed approach to a number of baselines and state-of-the-art methods on four image datasets, and we find that our approach resulted in improved predictive performance.
翻訳日:2022-12-24 15:17:03 公開日:2020-03-12
# グラフ問題における定期的断面積の漸近性:オートマタの助けを借りてグラフのハイスタック内の針を見つける

Regular Intersection Emptiness of Graph Problems: Finding a Needle in a Haystack of Graphs with the Help of Automata ( http://arxiv.org/abs/2003.05826v1 )

ライセンス: Link先を確認
Petra Wolf, Henning Fernau(参考訳) 組合せ問題 P の Int_reg-problem は、M で受理される言語 L(M) が問題 P の正のインスタンスを含むか否かを入力として非決定的オートマトン M が与えられる。 この目的を達成するために、全てのグラフエンコーディングの言語が規則的であるように自然グラフエンコーディングを考える。 そして、形式言語理論の分野から古典的なパンピングとインターチェンジ論の関連を、符号化されたグラフ上で誘導されるグラフ演算と引き起こす。 本手法は,頂点被覆や独立集合などのよく知られたグラフ問題の int_reg-problem やサブグラフ問題,グラフ編集問題,彩色問題を含むグラフ分割問題にも適用できる。

The Int_reg-problem of a combinatorial problem P asks, given a nondeterministic automaton M as input, whether the language L(M) accepted by M contains any positive instance of the problem P. We consider the Int_reg-problem for a number of different graph problems and give general criteria that give decision procedures for these Int_reg-problems. To achieve this goal, we consider a natural graph encoding so that the language of all graph encodings is regular. Then, we draw the connection between classical pumping- and interchange-arguments from the field of formal language theory with the graph operations induced on the encoded graph. Our techniques apply among others to the Int_reg-problem of well-known graph problems like Vertex Cover and Independent Set, as well as to subgraph problems, graph-edit problems and graph-partitioning problems, including coloring problems.
翻訳日:2022-12-24 15:15:23 公開日:2020-03-12
# 特権情報の制約付きスタック雑音自動エンコーダを用いたスケルトンに基づく行動認識

Skeleton Based Action Recognition using a Stacked Denoising Autoencoder with Constraints of Privileged Information ( http://arxiv.org/abs/2003.05684v1 )

ライセンス: Link先を確認
Zhize Wu, Thomas Weise, Le Zou, Fei Sun, Ming Tan(参考訳) 近年,コスト効率のよい深度カメラとリアルタイムの骨格推定が組み合わさって,骨格に基づく人間の行動認識への関心が高まっている。 既存の骨格表現のアプローチのほとんどは、関節の位置または力学モデルを使用する。 本研究は, 骨格再建の観点から骨格表現を研究するために, 時間・カテゴリー制約を用いたDenoising Autoencoder (DAE_CTC) という新しい手法を提案する。 特権情報に基づく学習の概念に基づき,訓練段階において,動作カテゴリと時間座標を重畳した認知オートエンコーダに統合し,カテゴリと時間的特徴を保存しつつ,骨格から隠れた表現を学習する。 これにより,隠蔽表現の識別妥当性を向上させることができる。 一時的不一致に起因する変動を軽減するため,クラス間およびクラス内アクションのシーケンスを登録するために,ローカルウォードシーケンス登録 (lwsr) と呼ばれる新しい時間的登録方法が提案されている。 最終的に、フーリエ時間ピラミッド(FTP)表現を用いてシーケンスを表現し、LWSR登録、FTP表現、線形サポートベクトルマシン(SVM)の組み合わせを用いて分類を行う。 MSR-Action3D, UTKinect-Action, Florence3D-Actionの3つのアクションデータセットに対する実験結果から, 提案手法は既存の多くの手法よりも優れ, 技術状況に相容れない結果が得られた。

Recently, with the availability of cost-effective depth cameras coupled with real-time skeleton estimation, the interest in skeleton-based human action recognition is renewed. Most of the existing skeletal representation approaches use either the joint location or the dynamics model. Differing from the previous studies, we propose a new method called Denoising Autoencoder with Temporal and Categorical Constraints (DAE_CTC)} to study the skeletal representation in a view of skeleton reconstruction. Based on the concept of learning under privileged information, we integrate action categories and temporal coordinates into a stacked denoising autoencoder in the training phase, to preserve category and temporal feature, while learning the hidden representation from a skeleton. Thus, we are able to improve the discriminative validity of the hidden representation. In order to mitigate the variation resulting from temporary misalignment, a new method of temporal registration, called Locally-Warped Sequence Registration (LWSR), is proposed for registering the sequences of inter- and intra-class actions. We finally represent the sequences using a Fourier Temporal Pyramid (FTP) representation and perform classification using a combination of LWSR registration, FTP representation, and a linear Support Vector Machine (SVM). The experimental results on three action data sets, namely MSR-Action3D, UTKinect-Action, and Florence3D-Action, show that our proposal performs better than many existing methods and comparably to the state of the art.
翻訳日:2022-12-24 15:08:14 公開日:2020-03-12
# 低ランク・全変動正規化と画像復元への応用

Low-Rank and Total Variation Regularization and Its Application to Image Recovery ( http://arxiv.org/abs/2003.05698v1 )

ライセンス: Link先を確認
Pawan Goyal, Hussam Al Daas, and Peter Benner(参考訳) 本稿では,部分的(破損した)観測からの画像回復の問題について検討する。 低ランクモデルを用いた画像復元は、データ分析と機械学習において活発な研究分野である。 しかし、多くの場合、画像は低ランクであるだけでなく、変化した空間に空間性を示す。 本研究では,変換された領域において,低ランクで空間性を有する画像の復元を目的とした新しい問題定式化を提案する。 さらに、階数関数の様々な非凸非滑らかなサロゲートについて議論し、緩和問題を引き起こす。 次に、各イテレーションで(重み付けされた)特異値のしきい値を用いる緩和問題を解くための効率的な反復スキームを提案する。 さらに,提案手法の収束特性について考察する。 提案アルゴリズムは画像の復元において最先端の手法よりも優れていることを示す。

In this paper, we study the problem of image recovery from given partial (corrupted) observations. Recovering an image using a low-rank model has been an active research area in data analysis and machine learning. But often, images are not only of low-rank but they also exhibit sparsity in a transformed space. In this work, we propose a new problem formulation in such a way that we seek to recover an image that is of low-rank and has sparsity in a transformed domain. We further discuss various non-convex non-smooth surrogates of the rank function, leading to a relaxed problem. Then, we present an efficient iterative scheme to solve the relaxed problem that essentially employs the (weighted) singular value thresholding at each iteration. Furthermore, we discuss the convergence properties of the proposed iterative method. We perform extensive experiments, showing that the proposed algorithm outperforms state-of-the-art methodologies in recovering images.
翻訳日:2022-12-24 15:07:47 公開日:2020-03-12
# EDC3: セマンティックイメージセグメンテーションを改善するクラス固有コピュラ関数を用いた深層分類器の集合

EDC3: Ensemble of Deep-Classifiers using Class-specific Copula functions to Improve Semantic Image Segmentation ( http://arxiv.org/abs/2003.05710v1 )

ライセンス: Link先を確認
Somenath Kuiry, Nibaran Das, Alaka Das, Mita Nasipuri(参考訳) 文献では、多くの融合技術が画像のセグメンテーションに登録されているが、それらは主に観察された出力、信念スコア、あるいは出力クラスの確率スコアに焦点を当てている。 本研究では,画像のセマンティックセグメンテーションのための異なる深層学習手法を組み込むために,異なる分類器間でのソース間統計依存性を利用した。 そこで本研究では,マルチクラスセグメンテーション問題の解法として,クラスワイズ・コピュラに基づくアンサンブル法を提案する。 実験により,従来の単一コプラ関数よりも,提案するクラス特異的コプラ関数を用いた意味的画像分割の性能が向上したことがわかった。 パフォーマンスは、最先端の3つの手法と比較される。

In the literature, many fusion techniques are registered for the segmentation of images, but they primarily focus on observed output or belief score or probability score of the output classes. In the present work, we have utilized inter source statistical dependency among different classifiers for ensembling of different deep learning techniques for semantic segmentation of images. For this purpose, in the present work, a class-wise Copula-based ensembling method is newly proposed for solving the multi-class segmentation problem. Experimentally, it is observed that the performance has improved more for semantic image segmentation using the proposed class-specific Copula function than the traditionally used single Copula function for the problem. The performance is also compared with three state-of-the-art ensembling methods.
翻訳日:2022-12-24 15:07:13 公開日:2020-03-12
# syncgan: learnable class specific priorsを使って合成データを生成し、サイトロジカル画像の分類性能を向上させる

SynCGAN: Using learnable class specific priors to generate synthetic data for improving classifier performance on cytological images ( http://arxiv.org/abs/2003.05712v1 )

ライセンス: Link先を確認
Soumyajyoti Dey, Soham Das, Swarnendu Ghosh, Shyamali Mitra, Sukanta Chakrabarty and Nibaran Das(参考訳) 医用画像解析の最も難しい側面の1つは、大量の注釈付きデータがないことである。 これにより、入力空間のバリエーションが不足しているため、ディープラーニングアルゴリズムの動作が困難になる。 生成的敵ネットワークは、合成データ生成の分野では期待できるが、慎重に設計されていない場合、生成手順はうまく機能しない。 提案手法では, 自動生成セグメンテーションマスクを学習可能なクラス特異的プリエントとして使用し, 細胞診画像のパスリアリスティックなサンプル生成のための条件付きGANを誘導する。 我々は,提案したSynCGANを用いたデータ拡張により,ResNet-152,DenseNet-161,Inception-V3などの美術分類器の性能が大幅に向上することを示した。

One of the most challenging aspects of medical image analysis is the lack of a high quantity of annotated data. This makes it difficult for deep learning algorithms to perform well due to a lack of variations in the input space. While generative adversarial networks have shown promise in the field of synthetic data generation, but without a carefully designed prior the generation procedure can not be performed well. In the proposed approach we have demonstrated the use of automatically generated segmentation masks as learnable class-specific priors to guide a conditional GAN for the generation of patho-realistic samples for cytology image. We have observed that augmentation of data using the proposed pipeline called "SynCGAN" improves the performance of state of the art classifiers such as ResNet-152, DenseNet-161, Inception-V3 significantly.
翻訳日:2022-12-24 15:07:02 公開日:2020-03-12
# 拡張バッチ正規化

Extended Batch Normalization ( http://arxiv.org/abs/2003.05569v1 )

ライセンス: Link先を確認
Chunjie Luo, Jianfeng Zhan, Lei Wang, Wanling Gao(参考訳) バッチ正規化(bn)は、現代のディープネットワークのトレーニングの標準技術となっている。 しかし、バッチ統計量の推定が不正確になるため、バッチサイズが小さくなると効果が低下する。 これはバッチ正規化の使用を妨げる 1)メモリ消費に制約のある小さなバッチを必要とするより大きなモデルをトレーニングする。 2) メモリリソースが制限されたモバイルまたは組み込みデバイス上でのトレーニング。 本稿では,拡張バッチ正規化(EBN)と呼ばれるシンプルだが効果的な手法を提案する。 NCHWフォーマットの特徴写像では、拡張バッチ正規化は(N, H, W)次元に沿った平均をバッチ正規化と同様に計算し、バッチ正規化の利点を維持する。 バッチサイズを小さくすることで生じる問題を緩和するため、拡張バッチ正規化は(N, C, H, W)次元に沿った標準偏差を計算し、標準偏差を計算するサンプル数を拡大する。 MNIST, CIFAR-10/100, STL-10, ImageNetのデータセットのバッチ正規化とグループ正規化を比較した。 実験により,拡張バッチ正規化はバッチサイズが小さいバッチ正規化の問題を軽減すると同時に,バッチサイズが大きいバッチ正規化に近い性能を実現することを示した。

Batch normalization (BN) has become a standard technique for training the modern deep networks. However, its effectiveness diminishes when the batch size becomes smaller, since the batch statistics estimation becomes inaccurate. That hinders batch normalization's usage for 1) training larger model which requires small batches constrained by memory consumption, 2) training on mobile or embedded devices of which the memory resource is limited. In this paper, we propose a simple but effective method, called extended batch normalization (EBN). For NCHW format feature maps, extended batch normalization computes the mean along the (N, H, W) dimensions, as the same as batch normalization, to maintain the advantage of batch normalization. To alleviate the problem caused by small batch size, extended batch normalization computes the standard deviation along the (N, C, H, W) dimensions, thus enlarges the number of samples from which the standard deviation is computed. We compare extended batch normalization with batch normalization and group normalization on the datasets of MNIST, CIFAR-10/100, STL-10, and ImageNet, respectively. The experiments show that extended batch normalization alleviates the problem of batch normalization with small batch size while achieving close performances to batch normalization with large batch size.
翻訳日:2022-12-24 14:59:36 公開日:2020-03-12
# ZSTAD:ゼロショット時効検出

ZSTAD: Zero-Shot Temporal Activity Detection ( http://arxiv.org/abs/2003.05583v1 )

ライセンス: Link先を確認
Lingling Zhang, Xiaojun Chang, Jun Liu, Minnan Luo, Sen Wang, Zongyuan Ge, Alexander Hauptmann(参考訳) ビデオ分析と監視の不可欠な部分は、時間的活動検出(temporal activity detection)である。 現在、時間的活動検出の最も効果的な方法はディープラーニングに基づいており、訓練のために大規模な注釈付きビデオで非常によく機能する。 しかし、これらの手法は特定のアクティビティクラスや時間を要するデータアノテーションに関するビデオが利用できないため、実際のアプリケーションでは制限されている。 この課題を解決するために,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新しいタスク設定を提案する。 このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。 提案するネットワークは,活動ラベルとそのスーパークラスの埋め込みを考慮し,目に見えない活動の共通意味を学習する革新的な損失関数を用いて最適化されている。 thumos14とcharadesデータセットの両方の実験は、目に見えないアクティビティを検出する点で有望なパフォーマンスを示している。

An integral part of video analysis and surveillance is temporal activity detection, which means to simultaneously recognize and localize activities in long untrimmed videos. Currently, the most effective methods of temporal activity detection are based on deep learning, and they typically perform very well with large scale annotated videos for training. However, these methods are limited in real applications due to the unavailable videos about certain activity classes and the time-consuming data annotation. To solve this challenging problem, we propose a novel task setting called zero-shot temporal activity detection (ZSTAD), where activities that have never been seen in training can still be detected. We design an end-to-end deep network based on R-C3D as the architecture for this solution. The proposed network is optimized with an innovative loss function that considers the embeddings of activity labels and their super-classes while learning the common semantics of seen and unseen activities. Experiments on both the THUMOS14 and the Charades datasets show promising performance in terms of detecting unseen activities.
翻訳日:2022-12-24 14:59:15 公開日:2020-03-12
# カメラの向こうに:世界のニューラルネットワーク

Beyond the Camera: Neural Networks in World Coordinates ( http://arxiv.org/abs/2003.05614v1 )

ライセンス: Link先を確認
Gunnar A. Sigurdsson, Abhinav Gupta, Cordelia Schmid, Karteek Alahari(参考訳) 眼球運動と視覚野の網膜への戦略的配置により、動物はシーンの解像度を高め、邪魔な情報を抑える。 この基本的なシステムはディープネットワークによるビデオ理解に欠けており、通常はカメラフレームにロックされた224×224ピクセルのコンテンツに制限されている。 そこで我々は,各層における各機能が空間変換を持ち,機能マップは必要に応じてのみ変換される,シンプルなアイデア WorldFeatures を提案する。 これらのWorldFeaturesで構築されたネットワークは、事前に記録されたビデオのバッチ設定であっても、ササード、固定、スムーズな追跡などの眼球運動をモデル化することができる。 つまり、ネットワークは例えば、224×224ピクセルすべてを使って、ある瞬間に小さな細部を、そして次のシーン全体を見ることができる。 コンボリューションやプーリングのような一般的なビルディングブロックは、利用可能なツールを使用してWorldFeaturesをサポートすることができることを示す。 実験はチャラデス、オリンピックスポーツ、カルテック-UCSD Birds-200-2011のデータセットで行われ、アクション認識、きめ細かい認識、ビデオ安定化を探求している。

Eye movement and strategic placement of the visual field onto the retina, gives animals increased resolution of the scene and suppresses distracting information. This fundamental system has been missing from video understanding with deep networks, typically limited to 224 by 224 pixel content locked to the camera frame. We propose a simple idea, WorldFeatures, where each feature at every layer has a spatial transformation, and the feature map is only transformed as needed. We show that a network built with these WorldFeatures, can be used to model eye movements, such as saccades, fixation, and smooth pursuit, even in a batch setting on pre-recorded video. That is, the network can for example use all 224 by 224 pixels to look at a small detail one moment, and the whole scene the next. We show that typical building blocks, such as convolutions and pooling, can be adapted to support WorldFeatures using available tools. Experiments are presented on the Charades, Olympic Sports, and Caltech-UCSD Birds-200-2011 datasets, exploring action recognition, fine-grained recognition, and video stabilization.
翻訳日:2022-12-24 14:58:58 公開日:2020-03-12
# オープンソースのコンピュータビジョンに基づくレイヤワイド3Dプリンティング解析

Open Source Computer Vision-based Layer-wise 3D Printing Analysis ( http://arxiv.org/abs/2003.05660v1 )

ライセンス: Link先を確認
Aliaksei L. Petsiuk, Joshua M. Pearce(参考訳) 本稿では,3次元印刷プロセスの階層的解析,印刷誤差の追跡,信頼性向上のための適切なプリンタ動作を生成する,オープンソースのコンピュータビジョンベースのハードウェア構造とソフトウェアアルゴリズムについて述べる。 このアプローチは、印刷物の外形と層の内部構造の両方を監視できる多段階単分子画像検査に基づいて構築される。 側面の高さ検証から,マルチテンプレートマッチングと反復的最近点アルゴリズムを用いた外殻輪郭対応の仮想的トップビューと,ガウス混合モデルによる空間周波数フィルタ応答のクラスタリングと,凝集階層クラスタリングアルゴリズムによる構造異常のセグメンテーションの内層テクスチャ品質を解析した。 これにより、印刷モードのグローバルパラメータとローカルパラメータの両方を評価することができる。 実験で検証された1層あたりの分析時間は1分未満であり、大判印刷の準リアルタイムプロセスと見なすことができる。 システムは、時間と素材を節約するインテリジェントな印刷サスペンションツールとして機能する。 しかし,本手法は,完全なオープンソース故障修正アルゴリズムの第一段階として,インプレイス印刷データを体系化する手段であることを示す。

The paper describes an open source computer vision-based hardware structure and software algorithm, which analyzes layer-wise the 3-D printing processes, tracks printing errors, and generates appropriate printer actions to improve reliability. This approach is built upon multiple-stage monocular image examination, which allows monitoring both the external shape of the printed object and internal structure of its layers. Starting with the side-view height validation, the developed program analyzes the virtual top view for outer shell contour correspondence using the multi-template matching and iterative closest point algorithms, as well as inner layer texture quality clustering the spatial-frequency filter responses with Gaussian mixture models and segmenting structural anomalies with the agglomerative hierarchical clustering algorithm. This allows evaluation of both global and local parameters of the printing modes. The experimentally-verified analysis time per layer is less than one minute, which can be considered a quasi-real-time process for large prints. The systems can work as an intelligent printing suspension tool designed to save time and material. However, the results show the algorithm provides a means to systematize in situ printing data as a first step in a fully open source failure correction algorithm for additive manufacturing.
翻訳日:2022-12-24 14:57:24 公開日:2020-03-12
# The Medical Scribe: Corpus Development and Model Performance Analyses

The Medical Scribe: Corpus Development and Model Performance Analyses ( http://arxiv.org/abs/2003.11531v1 )

ライセンス: Link先を確認
Izhak Shafran, Nan Du, Linh Tran, Amanda Perry, Lauren Keyes, Mark Knichel, Ashley Domin, Lei Huang, Yuhui Chen, Gang Li, Mingqiu Wang, Laurent El Shafey, Hagen Soltau, and Justin S. Paul(参考訳) 患者との出会いの音声を用いて臨床ノート作成を支援するツールの開発への関心が高まっている。 この目標と、提供者や医療従事者の助けを借りて、関連する臨床概念を抽出するアノテーションスキームを開発した。 このアノテーションを用いて約6kの臨床診断結果のコーパスをラベル付けした。 これは最先端のタグ付けモデルのトレーニングに使用された。 本報告では,オントロジー,ラベル付け結果,モデル性能,結果の詳細な分析について報告する。 以上の結果から, 比較的高い精度で薬剤関連物質を抽出でき, 次いで0.72 f-score, 0.57 f-scoreの症状が得られた。 本課題では, 症状が言及されている場所を識別するだけでなく, 臨床ノートに現れるような正準形式にマップする。 異なる種類のエラーのうち、約19~38%のケースにおいて、モデル出力が正しいこと、約17~32%のエラーが臨床ノートに影響を与えないことが判明した。 この研究で開発されたモデルはFスコアの反射よりも有用であり、実用的な応用には有望なアプローチである。

There is a growing interest in creating tools to assist in clinical note generation using the audio of provider-patient encounters. Motivated by this goal and with the help of providers and medical scribes, we developed an annotation scheme to extract relevant clinical concepts. We used this annotation scheme to label a corpus of about 6k clinical encounters. This was used to train a state-of-the-art tagging model. We report ontologies, labeling results, model performances, and detailed analyses of the results. Our results show that the entities related to medications can be extracted with a relatively high accuracy of 0.90 F-score, followed by symptoms at 0.72 F-score, and conditions at 0.57 F-score. In our task, we not only identify where the symptoms are mentioned but also map them to canonical forms as they appear in the clinical notes. Of the different types of errors, in about 19-38% of the cases, we find that the model output was correct, and about 17-32% of the errors do not impact the clinical note. Taken together, the models developed in this work are more useful than the F-scores reflect, making it a promising approach for practical applications.
翻訳日:2022-12-24 14:42:26 公開日:2020-03-12
# 強化学習エージェントのためのChef's Hatシミュレーション環境

The Chef's Hat Simulation Environment for Reinforcement-Learning-Based Agents ( http://arxiv.org/abs/2003.05861v1 )

ライセンス: Link先を確認
Pablo Barros, Anne C. Bloem, Inge M. Hootsmans, Lena M. Opheij, Romain H.A. Toebosch, Emilia Barakova and Alessandra Sciutti(参考訳) 人間-ロボットインタラクション(HRI)環境における社会的相互作用を実現することは、非常に難しい課題である。 現在の研究のほとんどは、最近のインテリジェントロボットの開発を無視したWizard-of-Ozアプローチに焦点を当てている。 一方、現実世界のシナリオは通常、学習アルゴリズムに必要な制御と再現性を提供しない。 本稿では,HRIシナリオで使用されるように設計されたChef's Hatカードゲームを実装した仮想シミュレーション環境を提案し,強化学習アルゴリズムの制御可能な再現可能なシナリオを提供する。

To achieve social interactions within Human-Robot Interaction (HRI) environments is a very challenging task. Most of the current research focuses on Wizard-of-Oz approaches, which neglect the recent development of intelligent robots. On the other hand, real-world scenarios usually do not provide the necessary control and reproducibility which are needed for learning algorithms. In this paper, we propose a virtual simulation environment that implements the Chef's Hat card game, designed to be used in HRI scenarios, to provide a controllable and reproducible scenario for reinforcement-learning algorithms.
翻訳日:2022-12-24 14:41:25 公開日:2020-03-12
# 画像処理ネットワークにおける安定かつ効率的な連続学習のための規則化適応

Regularized Adaptation for Stable and Efficient Continuous-Level Learning on Image Processing Networks ( http://arxiv.org/abs/2003.05145v2 )

ライセンス: Link先を確認
Hyeongmin Lee, Taeoh Kim, Hanbin Son, Sangwook Baek, Minsu Cheon, Sangyoun Lee(参考訳) 畳み込みニューラルネットワーク(cnn)ベースの画像処理において、多くの研究は、単一レベル(または単一目的)に最適化されたネットワークを提案する。 複数のレベルをカバーするために複数のモデルを使用するには、非常に高い計算コストがかかる。 これらの問題を解決するために、最近のアプローチでは、2つの異なるレベルでネットワークを訓練し、任意の中間レベルを可能にする独自の補間法を提案する。 しかし、それらの多くはハードタスクへの適応やスムースな補間に失敗し、その他は大きなメモリと計算コストを必要とする。 本稿では,新しいレベルに容易に適応できる非線形モジュールであるフィルタ遷移ネットワーク(FTN)を用いた新しい連続レベル学習フレームワークを提案する。 さらに,FTNの安定学習のために,IDマッピングを用いて非線形CNNを初期化する手法を提案する。 さらに、FTNはデータに依存しないモジュールであるため、非常に軽量なモジュールであるため、入力の空間分解能の影響を受けない。 様々な画像処理タスクの広範な結果は、FTNの性能は適応や補間において安定であり、他の重いフレームワークと同等であることを示している。

In Convolutional Neural Network (CNN) based image processing, most of the studies propose networks that are optimized for a single-level (or a single-objective); thus, they underperform on other levels and must be retrained for delivery of optimal performance. Using multiple models to cover multiple levels involves very high computational costs. To solve these problems, recent approaches train the networks on two different levels and propose their own interpolation methods to enable the arbitrary intermediate levels. However, many of them fail to adapt hard tasks or interpolate smoothly, or the others still require large memory and computational cost. In this paper, we propose a novel continuous-level learning framework using a Filter Transition Network (FTN) which is a non-linear module that easily adapt to new levels, and is regularized to prevent undesirable side-effects. Additionally, for stable learning of FTN, we newly propose a method to initialize non-linear CNNs with identity mappings. Furthermore, FTN is extremely lightweight module since it is a data-independent module, which means it is not affected by the spatial resolution of the inputs. Extensive results for various image processing tasks indicate that the performance of FTN is stable in terms of adaptation and interpolation, and comparable to that of the other heavy frameworks.
翻訳日:2022-12-24 14:39:25 公開日:2020-03-12
# 対話行為認識のための階層構造を用いた局所的文脈注意

Local Contextual Attention with Hierarchical Structure for Dialogue Act Recognition ( http://arxiv.org/abs/2003.06044v1 )

ライセンス: Link先を確認
Zhigang Dai, Jinhua Fu, Qile Zhu, Hengbin Cui, Xiaolong li, Yuan Qi(参考訳) 対話行動認識は知的対話システムの基本課題である。 以前の作業では、ダイアログ全体をモデル化して、ダイアログの動作を予測する。 本研究では,自己意図に基づく階層モデルを構築し,文内および文間情報をキャプチャする。 発話間の相対的位置情報を組み込むことにより、注意分布を改訂し、局所的および文脈的意味情報に焦点を当てる。 ダイアログの長さがパフォーマンスに影響することから,オンラインおよびオフライン設定下でのダイアログ長とコンテキストパディング長の影響を解析するダイアログセグメンテーション機構を導入する。 提案手法は,80.34\%と85.81\%の精度で,Switchboard Dialogue ActとDailyDialogの2つのデータセット上で有望な性能を実現する。 注意重みの可視化は,発話間の文脈依存性を明示的に学習できることを示す。

Dialogue act recognition is a fundamental task for an intelligent dialogue system. Previous work models the whole dialog to predict dialog acts, which may bring the noise from unrelated sentences. In this work, we design a hierarchical model based on self-attention to capture intra-sentence and inter-sentence information. We revise the attention distribution to focus on the local and contextual semantic information by incorporating the relative position information between utterances. Based on the found that the length of dialog affects the performance, we introduce a new dialog segmentation mechanism to analyze the effect of dialog length and context padding length under online and offline settings. The experiment shows that our method achieves promising performance on two datasets: Switchboard Dialogue Act and DailyDialog with the accuracy of 80.34\% and 85.81\% respectively. Visualization of the attention weights shows that our method can learn the context dependency between utterances explicitly.
翻訳日:2022-12-24 14:30:23 公開日:2020-03-12
# 運動学と運動学のロバストな統合による人間の首の姿勢検出の予測分析

Predictive Analysis for Detection of Human Neck Postures using a robust integration of kinetics and kinematics ( http://arxiv.org/abs/2003.06311v1 )

ライセンス: Link先を確認
Korupalli V Rajesh Kumar and Susan Elias(参考訳) 医療応用における予防措置として、人間の首の姿勢と動きを監視し、測定し、定量化し、分析する必要がある。 不適切な首の姿勢は頸部筋骨格障害の源となり、治療とリハビリを必要としている。 本論文で提示された研究の動機は,不適切な頸部使用のための通知機構を開発することであった。 センサーが捉えた運動データは、首の姿勢を正確に分類するのに制限がある。 そこで我々は,頚部姿勢を効率的に分類するために,運動データと運動データの統合的利用を提案する。 機械学習アルゴリズムを用いて、このデータの予測分析において100%精度を得た。 研究分析および議論の結果,ヒロイド筋の運動データは,頚部バンドが捉えた対応する運動データから,頸部姿勢を正確に検出できることがわかった。 運動学的および運動学的データの統合のための頑健なプラットフォームは、頸部筋骨格障害の予防を目的としたスマートネックバンドの設計を可能にした。

Human neck postures and movements need to be monitored, measured, quantified and analyzed, as a preventive measure in healthcare applications. Improper neck postures are an increasing source of neck musculoskeletal disorders, requiring therapy and rehabilitation. The motivation for the research presented in this paper was the need to develop a notification mechanism for improper neck usage. Kinematic data captured by sensors have limitations in accurately classifying the neck postures. Hence, we propose an integrated use of kinematic and kinetic data to efficiently classify neck postures. Using machine learning algorithms we obtained 100% accuracy in the predictive analysis of this data. The research analysis and discussions show that the kinetic data of the Hyoid muscles can accurately detect the neck posture given the corresponding kinematic data captured by the neck-band. The proposed robust platform for the integration of kinematic and kinetic data has enabled the design of a smart neck-band for the prevention of neck musculoskeletal disorders.
翻訳日:2022-12-24 14:23:25 公開日:2020-03-12
# 潜時空間区分:流体流の安定かつ制御可能な時間予測

Latent Space Subdivision: Stable and Controllable Time Predictions for Fluid Flow ( http://arxiv.org/abs/2003.08723v1 )

ライセンス: Link先を確認
Steffen Wiewel, Byungsoo Kim, Vinicius C. Azevedo, Barbara Solenthaler, Nils Thuerey(参考訳) 本研究では,時間安定性の高い流体流れの複雑なダイナミクスをロバストに予測するために,エンドツーエンドで訓練されたニューラルネットワークアーキテクチャを提案する。 本研究では,非圧縮性Navier-Stokes(NS)方程式に基づく2次元および3次元の単相煙シミュレーションに焦点を当てた。 長期フローシーケンスの安定した予測を実現するため、畳み込みニューラルネットワーク(CNN)は、積み重ねられた長短期メモリ(LSTM)層からなる時間的予測ネットワークと組み合わせて、空間圧縮のために訓練される。 我々のコアコントリビューションは、各入力量を符号化された潜在空間領域の個々の部分に分割する新しい潜在空間分割(LSS)である。 これにより、残りの潜在空間値に干渉することなく、符号化された量を明確に変更することができ、したがって外部制御を最大化することができる。 予測された潜在空間点の一部を選択的に上書きすることで,複雑な物理問題の長期シーケンスをロバストに予測することができる。 さらに,空間圧縮ネットワークによって行われる潜在空間生成の繰り返し学習の利点を強調した。

We propose an end-to-end trained neural networkarchitecture to robustly predict the complex dynamics of fluid flows with high temporal stability. We focus on single-phase smoke simulations in 2D and 3D based on the incompressible Navier-Stokes (NS) equations, which are relevant for a wide range of practical problems. To achieve stable predictions for long-term flow sequences, a convolutional neural network (CNN) is trained for spatial compression in combination with a temporal prediction network that consists of stacked Long Short-Term Memory (LSTM) layers. Our core contribution is a novel latent space subdivision (LSS) to separate the respective input quantities into individual parts of the encoded latent space domain. This allows to distinctively alter the encoded quantities without interfering with the remaining latent space values and hence maximizes external control. By selectively overwriting parts of the predicted latent space points, our proposed method is capable to robustly predict long-term sequences of complex physics problems. In addition, we highlight the benefits of a recurrent training on the latent space creation, which is performed by the spatial compression network.
翻訳日:2022-12-24 14:22:01 公開日:2020-03-12
# 大規模ディープラーニングシステムのための分散階層型GPUパラメータサーバ

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems ( http://arxiv.org/abs/2003.05622v1 )

ライセンス: Link先を確認
Weijie Zhao, Deping Xie, Ronglai Jia, Yulei Qian, Ruiquan Ding, Mingming Sun, Ping Li(参考訳) 広告システムのニューラルネットワークは通常、クエリ適応関連性、広告機能、ユーザポートレートなど、複数のリソースから入力を受け取る。 これらの入力は、1つのホットまたはマルチホットなバイナリ機能にエンコードされる。 オンライン広告業界のディープラーニングモデルは、GPUメモリやコンピューティングノード上のCPUメインメモリに適合しないテラバイト規模のパラメータを持つことができる。 例えば、スポンサー付きオンライン広告システムは、10〜11ドル以上のスパース機能を含むことができ、ニューラルネットワークを約10TBのパラメータを持つ巨大なモデルにする。 本稿では,大規模ディープラーニング広告システムのための分散GPU階層パラメータサーバを提案する。 本稿では,GPU高帯域メモリ,CPU主メモリ,SSDを3層階層ストレージとして利用する階層型ワークフローを提案する。 ニューラルネットワークのトレーニング計算はすべてGPUに含まれている。 実世界データに関する広範囲な実験により,提案システムの有効性とスケーラビリティが確認された。 4ノードの階層型GPUパラメータサーバは、MPIクラスタ内の150ノードのインメモリ分散パラメータサーバよりも2倍以上高速にモデルをトレーニングすることができる。 さらに,提案方式の価格-性能比は,MPIクラスタソリューションの4-9倍である。

Neural networks of ads systems usually take input from multiple resources, e.g., query-ad relevance, ad features and user portraits. These inputs are encoded into one-hot or multi-hot binary features, with typically only a tiny fraction of nonzero feature values per example. Deep learning models in online advertising industries can have terabyte-scale parameters that do not fit in the GPU memory nor the CPU main memory on a computing node. For example, a sponsored online advertising system can contain more than $10^{11}$ sparse features, making the neural network a massive model with around 10 TB parameters. In this paper, we introduce a distributed GPU hierarchical parameter server for massive scale deep learning ads systems. We propose a hierarchical workflow that utilizes GPU High-Bandwidth Memory, CPU main memory and SSD as 3-layer hierarchical storage. All the neural network training computations are contained in GPUs. Extensive experiments on real-world data confirm the effectiveness and the scalability of the proposed system. A 4-node hierarchical GPU parameter server can train a model more than 2X faster than a 150-node in-memory distributed parameter server in an MPI cluster. In addition, the price-performance ratio of our proposed system is 4-9 times better than an MPI-cluster solution.
翻訳日:2022-12-24 14:14:10 公開日:2020-03-12
# 揮発性インスタンスの機械学習

Machine Learning on Volatile Instances ( http://arxiv.org/abs/2003.05649v1 )

ライセンス: Link先を確認
Xiaoxi Zhang, Jianyu Wang, Gauri Joshi, and Carlee Joe-Wong(参考訳) 今日の機械学習で使用されるニューラルネットワークモデルとトレーニングデータセットの巨大なサイズのため、複数のワーカノード間で勾配評価などのタスクを分割することで、確率勾配降下(SGD)を分散することが不可欠である。 しかし、分散sgdの実行は、gpuのような特別な計算リソースを長時間必要とするため、非常に高価である。 標準インスタンスよりも安価だが、優先度の高いワークロードによって中断される可能性のある揮発性クラウドインスタンスを利用するためのコスト効率の高い戦略を提案する。 我々の知る限りでは、この研究は(プリエンプションの結果として)アクティブワーカーノード数の変動がSGD収束とモデルをトレーニングする時間にどのように影響するかを定量化する最初のものである。 インスタンスのプリエンプション確率、精度、トレーニング時間のトレードオフを理解することで、Amazon EC2スポットインスタンスや他のプリエンプティブルクラウドインスタンスのような揮発性インスタンス上で分散SGDジョブを設定するための実用的な戦略を導出することができます。 実験の結果,良好なトレーニング性能を極めて低いコストで達成できることがわかった。

Due to the massive size of the neural network models and training datasets used in machine learning today, it is imperative to distribute stochastic gradient descent (SGD) by splitting up tasks such as gradient evaluation across multiple worker nodes. However, running distributed SGD can be prohibitively expensive because it may require specialized computing resources such as GPUs for extended periods of time. We propose cost-effective strategies to exploit volatile cloud instances that are cheaper than standard instances, but may be interrupted by higher priority workloads. To the best of our knowledge, this work is the first to quantify how variations in the number of active worker nodes (as a result of preemption) affects SGD convergence and the time to train the model. By understanding these trade-offs between preemption probability of the instances, accuracy, and training time, we are able to derive practical strategies for configuring distributed SGD jobs on volatile instances such as Amazon EC2 spot instances and other preemptible cloud instances. Experimental results show that our strategies achieve good training performance at substantially lower cost.
翻訳日:2022-12-24 14:13:51 公開日:2020-03-12
# 動的内部PCAアルゴリズムの収束性について

On the Convergence of the Dynamic Inner PCA Algorithm ( http://arxiv.org/abs/2003.05928v1 )

ライセンス: Link先を確認
Sungho Shin, Alex D. Smith, S. Joe Qin, Victor M. Zavala(参考訳) 動的内部主成分分析(DiPCA)は時間依存多変量解析のための強力な手法である。 DiPCAは、大規模で密度の高い非凸非線形プログラム(NLP)を解くことで、最も支配的な時間的傾向を捉える動的潜伏変数を抽出する。 近年,これらの難解なNLPを解決するために,スケーラブルな分解アルゴリズムが提案されている。 分解アルゴリズムは実際よく機能するが、その収束特性はよく分かっていない。 本研究では,このアルゴリズムが座標最大化アルゴリズムの特殊変形であることを示す。 この観察により、分解アルゴリズムが実際に機能する(あるいは機能しない)理由を説明し、改善を導くことができる。 我々は,分解戦略の性能とオフ・ザ・シェルフ・ソルバ・ipoの性能を比較した。 その結果,分解はよりスケーラブルで,驚くほど高品質なソリューションを提供することがわかった。

Dynamic inner principal component analysis (DiPCA) is a powerful method for the analysis of time-dependent multivariate data. DiPCA extracts dynamic latent variables that capture the most dominant temporal trends by solving a large-scale, dense, and nonconvex nonlinear program (NLP). A scalable decomposition algorithm has been recently proposed in the literature to solve these challenging NLPs. The decomposition algorithm performs well in practice but its convergence properties are not well understood. In this work, we show that this algorithm is a specialized variant of a coordinate maximization algorithm. This observation allows us to explain why the decomposition algorithm might work (or not) in practice and can guide improvements. We compare the performance of the decomposition strategies with that of the off-the-shelf solver Ipopt. The results show that decomposition is more scalable and, surprisingly, delivers higher quality solutions.
翻訳日:2022-12-24 14:12:52 公開日:2020-03-12
# マニフォールドからの高速かつ外部認識型代表選択のための多基準アプローチ

A Multi-criteria Approach for Fast and Outlier-aware Representative Selection from Manifolds ( http://arxiv.org/abs/2003.05989v1 )

ライセンス: Link先を確認
Mahlagha Sedghi, George Atia, Michael Georgiopoulos(参考訳) 代表選考の問題は、大規模なデータセットから情報的な例をほとんど集めることである。 本稿では,非線形構造を示すことのできる高次元データから,新しい代表選択手法MOSAICを提案する。 新たな二次的定式化を前提として,サンプルサブセットのグローバル表現力を最大化し,多様性を保証し,外乱を効果的に検出して破壊情報を拒否する多基準選択手法を提案する。 理論的解析を通じて得られたスケッチを特徴付け、サンプルされた代表者が変換された空間におけるデータカバレッジの明確に定義された概念を最大化することを明らかにする。 さらに,提案アルゴリズムの高度にスケーラブルなランダム化実装により,大幅な高速化を実現することを示す。 代表部分集合の望ましい特性を達成する上でのMOSAICの優位性は, 実データと合成データの両方において, 最先端のアルゴリズムと比較した広範な実験により, 様々な外れ値型に対して顕著な堅牢性を示した。

The problem of representative selection amounts to sampling few informative exemplars from large datasets. This paper presents MOSAIC, a novel representative selection approach from high-dimensional data that may exhibit non-linear structures. Resting upon a novel quadratic formulation, Our method advances a multi-criteria selection approach that maximizes the global representation power of the sampled subset, ensures diversity, and rejects disruptive information by effectively detecting outliers. Through theoretical analyses we characterize the obtained sketch and reveal that the sampled representatives maximize a well-defined notion of data coverage in a transformed space. In addition, we present a highly scalable randomized implementation of the proposed algorithm shown to bring about substantial speedups. MOSAIC's superiority in achieving the desired characteristics of a representative subset all at once while exhibiting remarkable robustness to various outlier types is demonstrated via extensive experiments conducted on both real and synthetic data with comparisons to state-of-the-art algorithms.
翻訳日:2022-12-24 14:12:40 公開日:2020-03-12
# 潜在変数最適化問題に対する縮小推論:ロバスト推定と学習への応用

Truncated Inference for Latent Variable Optimization Problems: Application to Robust Estimation and Learning ( http://arxiv.org/abs/2003.05886v1 )

ライセンス: Link先を確認
Christopher Zach, Huu Le(参考訳) 主モデルパラメータに加えて補助的潜在変数構造による最適化問題は、コンピュータビジョンや機械学習で頻繁に発生する。 追加の潜在変数により、基礎となる最適化タスクは(潜在変数の維持によって)メモリの面でも、ランタイムの面でも高価になる(潜在変数の正確な推論を繰り返す)。 我々は、潜在変数の維持の必要性を取り除き、潜在変数推論の必要な精度を動的に適応する2つの形式的正当化手法を提案する。 これらの手法は大規模ロバストな推定やラベル付きデータからのエネルギーモデル学習に応用できる。

Optimization problems with an auxiliary latent variable structure in addition to the main model parameters occur frequently in computer vision and machine learning. The additional latent variables make the underlying optimization task expensive, either in terms of memory (by maintaining the latent variables), or in terms of runtime (repeated exact inference of latent variables). We aim to remove the need to maintain the latent variables and propose two formally justified methods, that dynamically adapt the required accuracy of latent variable inference. These methods have applications in large scale robust estimation and in learning energy-based models from labeled data.
翻訳日:2022-12-24 14:05:08 公開日:2020-03-12
# ハイブリッド自己回帰トランスデューサ(hat)

Hybrid Autoregressive Transducer (hat) ( http://arxiv.org/abs/2003.07705v1 )

ライセンス: Link先を確認
Ehsan Variani, David Rybach, Cyril Allauzen, Michael Riley(参考訳) 本稿では,従来の自動音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルであるハイブリッド自己回帰トランスデューサ(HAT)モデルを提案し,評価する。 HATモデルは、外部言語モデルによる推論が有用かどうかを決定するのに使用できる内部言語モデルの品質を測定する方法を提供する。 本稿では、露出バイアス問題に対処し、全体的なトレーニングと推論を大幅に単純化する、HATモデルの有限文脈バージョンも提示する。 提案モデルを大規模音声検索タスクで評価する。 我々の実験は、最先端のアプローチと比較して、WERの大幅な改善を示している。

This paper proposes and evaluates the hybrid autoregressive transducer (HAT) model, a time-synchronous encoderdecoder model that preserves the modularity of conventional automatic speech recognition systems. The HAT model provides a way to measure the quality of the internal language model that can be used to decide whether inference with an external language model is beneficial or not. This article also presents a finite context version of the HAT model that addresses the exposure bias problem and significantly simplifies the overall training and inference. We evaluate our proposed model on a large-scale voice search task. Our experiments show significant improvements in WER compared to the state-of-the-art approaches.
翻訳日:2022-12-24 14:04:30 公開日:2020-03-12
# 産業規模のプライバシー保護深層ニューラルネットワーク

Industrial Scale Privacy Preserving Deep Neural Network ( http://arxiv.org/abs/2003.05198v2 )

ライセンス: Link先を確認
Longfei Zheng, Chaochao Chen, Yingting Liu, Bingzhe Wu, Xibin Wu, Li Wang, Lei Wang, Jun Zhou, Shuang Yang(参考訳) deep neural network(dnn)は、詐欺検出や遭難予測など、現実世界のアプリケーションで大きな可能性を秘めている。 一方で、データ分離は現在、さまざまなパーティが互いにデータを共有することができないという深刻な問題になっている。 この問題を解決するために、多くの研究は暗号化技術を活用して、プライベートデータを妥協することなく、複数のパーティでセキュアなDNNモデルをトレーニングしている。 このような手法には強力なセキュリティ保証があるが、通信や計算の複雑さが高いため、ディープネットワークや大規模データセットにスケールすることは困難である。 本稿では、データ分離シナリオにおける既存のセキュアなディープニューラルネットワーク(DNN)のスケーラビリティを解決するために、半正直な敵に対して安全である産業規模のプライバシ保護ニューラルネットワーク学習パラダイムを提案する。 DNNの計算グラフを2つの部分に分割する、すなわち、秘密データに関連する計算は暗号化技術を用いてそれぞれ行い、残りの計算は高い計算能力を持つ中立サーバによって行われる、という考え方である。 さらに,プライバシ保護のための防御機構も提示する。 我々は,実世界の不正検出データセットと金融危機予測データセットについて実験を行い,提案の実用性を示す。

Deep Neural Network (DNN) has been showing great potential in kinds of real-world applications such as fraud detection and distress prediction. Meanwhile, data isolation has become a serious problem currently, i.e., different parties cannot share data with each other. To solve this issue, most research leverages cryptographic techniques to train secure DNN models for multi-parties without compromising their private data. Although such methods have strong security guarantee, they are difficult to scale to deep networks and large datasets due to its high communication and computation complexities. To solve the scalability of the existing secure Deep Neural Network (DNN) in data isolation scenarios, in this paper, we propose an industrial scale privacy preserving neural network learning paradigm, which is secure against semi-honest adversaries. Our main idea is to split the computation graph of DNN into two parts, i.e., the computations related to private data are performed by each party using cryptographic techniques, and the rest computations are done by a neutral server with high computation ability. We also present a defender mechanism for further privacy protection. We conduct experiments on real-world fraud detection dataset and financial distress prediction dataset, the encouraging results demonstrate the practicalness of our proposal.
翻訳日:2022-12-24 14:03:29 公開日:2020-03-12
# ハイパーパラメータ最適化:アルゴリズムと応用のレビュー

Hyper-Parameter Optimization: A Review of Algorithms and Applications ( http://arxiv.org/abs/2003.05689v1 )

ライセンス: Link先を確認
Tong Yu and Hong Zhu(参考訳) ディープニューラルネットワークが開発されて以来、彼らは日常生活に大きな貢献をした。 機械学習は、人間よりも日常生活のほぼすべての面において、より合理的なアドバイスを提供する。 しかし、この成果にもかかわらず、ニューラルネットワークの設計とトレーニングは依然として困難で予測不可能な手順である。 一般ユーザにとっての技術的閾値を下げるために,HPO(Automatic Hyper-parameter Optimization)が学術分野と産業分野の両方で人気となっている。 本稿ではHPOにおける最も重要なトピックについて概説する。 第1節では、モデルトレーニングと構造に関する重要なハイパーパラメータを紹介し、その重要性と値範囲を定義する方法について議論する。 そこで本研究では,特に深層学習ネットワークにおける最適化アルゴリズムとその適用性に着目した。 本研究は,hpoの主要なサービスとツールキットを次にレビューし,最先端検索アルゴリズムのサポート,主要なディープラーニングフレームワークによる実現可能性,ユーザが設計した新しいモジュールの拡張性を比較した。 本稿では,HPOをディープラーニングに適用する際の問題点,最適化アルゴリズムの比較,および限られた計算資源を用いたモデル評価における顕著なアプローチについて述べる。

Since deep neural networks were developed, they have made huge contributions to everyday lives. Machine learning provides more rational advice than humans are capable of in almost every aspect of daily life. However, despite this achievement, the design and training of neural networks are still challenging and unpredictable procedures. To lower the technical thresholds for common users, automated hyper-parameter optimization (HPO) has become a popular topic in both academic and industrial areas. This paper provides a review of the most essential topics on HPO. The first section introduces the key hyper-parameters related to model training and structure, and discusses their importance and methods to define the value range. Then, the research focuses on major optimization algorithms and their applicability, covering their efficiency and accuracy especially for deep learning networks. This study next reviews major services and toolkits for HPO, comparing their support for state-of-the-art searching algorithms, feasibility with major deep learning frameworks, and extensibility for new modules designed by users. The paper concludes with problems that exist when HPO is applied to deep learning, a comparison between optimization algorithms, and prominent approaches for model evaluation with limited computational resources.
翻訳日:2022-12-24 13:56:32 公開日:2020-03-12
# 頂点分類に対する攻撃のトポロジー効果

Topological Effects on Attacks Against Vertex Classification ( http://arxiv.org/abs/2003.05822v1 )

ライセンス: Link先を確認
Benjamin A. Miller and Mustafa \c{C}amurcu and Alexander J. Gomez and Kevin Chan and Tina Eliassi-Rad(参考訳) 頂点分類は、最近の研究で示されているように、グラフトポロジーと頂点属性の両方の摂動に弱い。 他の機械学習領域と同様に、敵対的操作に対する堅牢性に関する懸念は、アクションの結果が非常に高い場合に、潜在的なユーザが提案手法を採用することを妨げる可能性がある。 本稿では,グラフの2つのトポロジ的特徴を考察し,これらの特徴がグラフを乱さなければならない量に与える影響について考察する。 トレーニングセットに特定の頂点が組み込まれている場合、敵の要求する摂動予算を実質的に満たすことができることを示す。 4つの引用データセットにおいて、もしトレーニングセットが、すべてのラベルされていないノードがトレーニングセットに隣り合うことを保証する高次頂点または頂点を含むならば、敵の予算が相当な要因で増加することが示されている。 特に簡単なターゲット(1つまたは2つの摂動の後に誤分類される)であっても、パフォーマンスの低下はずっと遅く、不正確なクラスにずっと低い確率を割り当てる。 さらに,この頑健性は,最近提案された防御が適用された場合でも持続するか,あるいはディフェンダーのパフォーマンス向上と競合するかを示す。

Vertex classification is vulnerable to perturbations of both graph topology and vertex attributes, as shown in recent research. As in other machine learning domains, concerns about robustness to adversarial manipulation can prevent potential users from adopting proposed methods when the consequence of action is very high. This paper considers two topological characteristics of graphs and explores the way these features affect the amount the adversary must perturb the graph in order to be successful. We show that, if certain vertices are included in the training set, it is possible to substantially an adversary's required perturbation budget. On four citation datasets, we demonstrate that if the training set includes high degree vertices or vertices that ensure all unlabeled nodes have neighbors in the training set, we show that the adversary's budget often increases by a substantial factor---often a factor of 2 or more---over random training for the Nettack poisoning attack. Even for especially easy targets (those that are misclassified after just one or two perturbations), the degradation of performance is much slower, assigning much lower probabilities to the incorrect classes. In addition, we demonstrate that this robustness either persists when recently proposed defenses are applied, or is competitive with the resulting performance improvement for the defender.
翻訳日:2022-12-24 13:55:41 公開日:2020-03-12
# post-estimation smoothing: サイド情報を用いた学習のためのシンプルなベースライン

Post-Estimation Smoothing: A Simple Baseline for Learning with Side Information ( http://arxiv.org/abs/2003.05955v1 )

ライセンス: Link先を確認
Esther Rolf, Michael I. Jordan, Benjamin Recht(参考訳) 観測データには、タイムスタンプや地理的位置などの自然構造指標が伴い、予測タスクには意味があるが、しばしば破棄される。 意味的に有意義な索引化データを活用し、潜在的に非形式的あるいは誤解を招くインデックスに対して堅牢性を確保します。 本稿では,構造指標データを予測に組み込む高速かつ効率的な手法として,後推定平滑化演算子を提案する。 平滑化ステップは元の予測器とは分離されているため、モデルの再トレーニングを必要とせず、幅広い機械学習タスクに適用できる。 理論解析では、推定後の平滑化が元の予測器よりも精度を向上させる簡単な条件を詳述する。 大規模な空間的・時間的データセットに関する実験は,実測後のスムース化の速度と精度を強調した。 これらの結果は、機械学習においてインデックス変数の自然な構造を考察し、組み込む新しい方法である。

Observational data are often accompanied by natural structural indices, such as time stamps or geographic locations, which are meaningful to prediction tasks but are often discarded. We leverage semantically meaningful indexing data while ensuring robustness to potentially uninformative or misleading indices. We propose a post-estimation smoothing operator as a fast and effective method for incorporating structural index data into prediction. Because the smoothing step is separate from the original predictor, it applies to a broad class of machine learning tasks, with no need to retrain models. Our theoretical analysis details simple conditions under which post-estimation smoothing will improve accuracy over that of the original predictor. Our experiments on large scale spatial and temporal datasets highlight the speed and accuracy of post-estimation smoothing in practice. Together, these results illuminate a novel way to consider and incorporate the natural structure of index variables in machine learning.
翻訳日:2022-12-24 13:54:46 公開日:2020-03-12
# wassersteinベースのグラフアライメント

Wasserstein-based Graph Alignment ( http://arxiv.org/abs/2003.06048v1 )

ライセンス: Link先を確認
Hermina Petric Maretic, Mireille El Gheche, Matthias Minder, Giovanni Chierchia, Pascal Frossard(参考訳) それぞれのグラフラプラシア行列によって誘導されるグラフ信号分布間のワッサーシュタイン距離に基づいて,異なる大きさの非整合グラフを比較する新しい手法を提案する。 具体的には,より小さいグラフのノードと大きなグラフのノードをマッチングすることを目的とした,1対多のグラフアライメント問題に対する新しい定式化を行った。 グラフ比較フレームワークに最適なトランスポートを統合することで、構造的に意味のあるグラフ距離と、グラフデータの構造をモデル化する信号伝達計画を生成する。 その結果得られるアライメント問題は確率的勾配降下によって解決され、新しいディクストラ作用素を用いて解が一対多の(ソフトな)代入行列であることを保証する。 我々は,グラフアライメントとグラフ分類に関する新しいフレームワークの性能を実証し,各タスクの最先端アルゴリズムに関して,本手法が大幅な改善をもたらすことを示す。

We propose a novel method for comparing non-aligned graphs of different sizes, based on the Wasserstein distance between graph signal distributions induced by the respective graph Laplacian matrices. Specifically, we cast a new formulation for the one-to-many graph alignment problem, which aims at matching a node in the smaller graph with one or more nodes in the larger graph. By integrating optimal transport in our graph comparison framework, we generate both a structurally-meaningful graph distance, and a signal transportation plan that models the structure of graph data. The resulting alignment problem is solved with stochastic gradient descent, where we use a novel Dykstra operator to ensure that the solution is a one-to-many (soft) assignment matrix. We demonstrate the performance of our novel framework on graph alignment and graph classification, and we show that our method leads to significant improvements with respect to the state-of-the-art algorithms for each of these tasks.
翻訳日:2022-12-24 13:54:33 公開日:2020-03-12
# マインクラフトにおける実演からの学習を通した効率的な強化学習のサンプル

Sample Efficient Reinforcement Learning through Learning from Demonstrations in Minecraft ( http://arxiv.org/abs/2003.06066v1 )

ライセンス: Link先を確認
Christian Scheller, Yanick Schraner and Manfred Vogel(参考訳) 深層強化学習手法のサンプル非効率性は, 実世界の応用において大きな障害となる。 本研究では, Minecraftのミニゲーム『ObtainDiamond』において, 環境相互作用のたった8Mフレームで人間によるデモンストレーションがエージェントの最終的なパフォーマンスを改善する方法を示す。 本稿では,まず政策ネットワークを人間データに基づいてトレーニングし,その後強化学習によって微調整した学習手順を提案する。 また, 政策評価機構, 経験再現, 破滅的忘れに対する追加の損失を用いて, ベストエージェントは平均48。 提案手法は,NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learningで3位となった。

Sample inefficiency of deep reinforcement learning methods is a major obstacle for their use in real-world applications. In this work, we show how human demonstrations can improve final performance of agents on the Minecraft minigame ObtainDiamond with only 8M frames of environment interaction. We propose a training procedure where policy networks are first trained on human data and later fine-tuned by reinforcement learning. Using a policy exploitation mechanism, experience replay and an additional loss against catastrophic forgetting, our best agent was able to achieve a mean score of 48. Our proposed solution placed 3rd in the NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learning.
翻訳日:2022-12-24 13:54:18 公開日:2020-03-12
# 非オブザーブド・コンファウンデーション下の逐次決定に対するオフポリシー政策評価

Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding ( http://arxiv.org/abs/2003.05623v1 )

ライセンス: Link先を確認
Hongseok Namkoong, Ramtin Keramati, Steve Yadlowsky, Emma Brunskill(参考訳) 観察された決定が観察された特徴のみに依存する場合、逐次的な意思決定問題に対する外部政策評価(OPE)手法は、それらをデプロイする前に評価ポリシーのパフォーマンスを推定することができる。 この仮定は、観察されていない共同設立者、決定と結果の両方に影響を及ぼす未記録の変数によってしばしば違反される。 評価方針の性能に関する最悪のケース境界を発達させることにより, 観測不能な一致下でのope法のロバスト性を評価する。 観察されていない共同ファウンダーがエピソードのすべての決定に影響を及ぼすことができる場合、たとえ少数の意思決定者でもOPEメソッドに偏りがあることを実証します。 幸いなことに、ヘルスケア、政策立案、オペレーション、テクノロジーで見られる多くの重要な設定において、観察されていない共同ファウンダーは、主に多くの決定のうちの1つにのみ影響する可能性がある。 この悲観的でない一決定共起モデルの下で、最悪のケース境界を計算するための効率的な損失最小化に基づく手順を提案し、その統計的整合性を証明する。 自閉症児に対する敗血症患者の管理と発達的介入の2つの模擬医療例について,本手法が障害のない結果の無効化,堅牢性の有意義な証明を提供することを実証した。

When observed decisions depend only on observed features, off-policy policy evaluation (OPE) methods for sequential decision making problems can estimate the performance of evaluation policies before deploying them. This assumption is frequently violated due to unobserved confounders, unrecorded variables that impact both the decisions and their outcomes. We assess robustness of OPE methods under unobserved confounding by developing worst-case bounds on the performance of an evaluation policy. When unobserved confounders can affect every decision in an episode, we demonstrate that even small amounts of per-decision confounding can heavily bias OPE methods. Fortunately, in a number of important settings found in healthcare, policy-making, operations, and technology, unobserved confounders may primarily affect only one of the many decisions made. Under this less pessimistic model of one-decision confounding, we propose an efficient loss-minimization-based procedure for computing worst-case bounds, and prove its statistical consistency. On two simulated healthcare examples---management of sepsis patients and developmental interventions for autistic children---where this is a reasonable model of confounding, we demonstrate that our method invalidates non-robust results and provides meaningful certificates of robustness, allowing reliable selection of policies even under unobserved confounding.
翻訳日:2022-12-24 13:46:05 公開日:2020-03-12
# fisherのディープドメイン適応

Fisher Deep Domain Adaptation ( http://arxiv.org/abs/2003.05636v1 )

ライセンス: Link先を確認
Yinghua Zhang, Yu Zhang, Ying Wei, Kun Bai, Yangqiu Song, Qiang Yang(参考訳) ディープドメイン適応モデルは、ラベル付きソースドメインからの知識を活用して、ラベルなしのターゲットドメインでニューラルネットワークを学習する。 これはドメイン不変の機能空間を学ぶことで実現できる。 学習された表現はソースドメインで分離可能であるが、通常は大きなばらつきを持ち、異なるクラスラベルを持つサンプルはターゲットドメインで重複する傾向にあり、最適でない適応性能が得られる。 このギャップを埋めるため、クラス内コンパクトかつクラス間分離可能な識別表現を学ぶために、フィッシャー損失が提案されている。 2つのベンチマークデータセットの実験的結果は、フィッシャー損失がディープドメイン適応の汎用的かつ効果的な損失であることを示している。 MMD、CORAL、ドメイン敵損失など、広く採用されている転送基準と併用することで、注目すべき改善がもたらされる。 例えば、平均精度の6.67%の絶対的な改善は、Fisher損失とOffice-Homeデータセットのドメイン逆損失が併用されたときに達成される。

Deep domain adaptation models learn a neural network in an unlabeled target domain by leveraging the knowledge from a labeled source domain. This can be achieved by learning a domain-invariant feature space. Though the learned representations are separable in the source domain, they usually have a large variance and samples with different class labels tend to overlap in the target domain, which yields suboptimal adaptation performance. To fill the gap, a Fisher loss is proposed to learn discriminative representations which are within-class compact and between-class separable. Experimental results on two benchmark datasets show that the Fisher loss is a general and effective loss for deep domain adaptation. Noticeable improvements are brought when it is used together with widely adopted transfer criteria, including MMD, CORAL and domain adversarial loss. For example, an absolute improvement of 6.67% in terms of the mean accuracy is attained when the Fisher loss is used together with the domain adversarial loss on the Office-Home dataset.
翻訳日:2022-12-24 13:45:41 公開日:2020-03-12
# LSTMネットワークを用いた時系列予測:シンボリックアプローチ

Time Series Forecasting Using LSTM Networks: A Symbolic Approach ( http://arxiv.org/abs/2003.05672v1 )

ライセンス: Link先を確認
Steven Elsworth and Stefan G\"uttel(参考訳) 生の数値時系列データに基づいて訓練された機械学習手法は、ハイパーパラメータに対する高感度やランダムウェイトの初期化といった基本的な制限を示す。 時系列予測のために,リカレントニューラルネットワークと次元減少象徴表現の組み合わせを提案し,応用した。 記号表現は上記の問題のいくつかを緩和し、さらに予測性能を犠牲にすることなく、より高速なトレーニングを可能にすることが示されている。

Machine learning methods trained on raw numerical time series data exhibit fundamental limitations such as a high sensitivity to the hyper parameters and even to the initialization of random weights. A combination of a recurrent neural network with a dimension-reducing symbolic representation is proposed and applied for the purpose of time series forecasting. It is shown that the symbolic representation can help to alleviate some of the aforementioned problems and, in addition, might allow for faster training without sacrificing the forecast performance.
翻訳日:2022-12-24 13:45:23 公開日:2020-03-12
# リアルタイムオブジェクト分類のための電力効率2重スパイクニューラルネットワークアーキテクチャ

A Power-Efficient Binary-Weight Spiking Neural Network Architecture for Real-Time Object Classification ( http://arxiv.org/abs/2003.06310v1 )

ライセンス: Link先を確認
Pai-Yu Tan, Po-Yao Chuang, Yen-Ting Lin, Cheng-Wen Wu, and Juin-Ming Lu(参考訳) ニューラルネットワークハードウェアは、将来のエッジデバイスの重要な部分だと考えられている。 本稿では,エッジプラットフォーム上での低消費電力リアルタイムオブジェクト分類のための,bw-snn(binary-weight spiking neural network)ハードウェアアーキテクチャを提案する。 この設計は、チップ上の完全なニューラルネットワークを格納するので、オフチップの帯域幅は不要である。 提案するsystolic配列は、典型的な畳み込み層に対するデータの再利用を最大化する。 5層畳み込みBW-SNNハードウェアを90nmCMOSで実装する。 最先端の設計と比較すると、分類当たりの面積コストとエネルギーは、それぞれ7$\times$と23$\times$に削減され、MNISTベンチマークでは高い精度を達成する。 これはまた、先進的なCNNアーキテクチャをサポートするSNNハードウェアアーキテクチャのパイオニアでもある。

Neural network hardware is considered an essential part of future edge devices. In this paper, we propose a binary-weight spiking neural network (BW-SNN) hardware architecture for low-power real-time object classification on edge platforms. This design stores a full neural network on-chip, and hence requires no off-chip bandwidth. The proposed systolic array maximizes data reuse for a typical convolutional layer. A 5-layer convolutional BW-SNN hardware is implemented in 90nm CMOS. Compared with state-of-the-art designs, the area cost and energy per classification are reduced by 7$\times$ and 23$\times$, respectively, while also achieving a higher accuracy on the MNIST benchmark. This is also a pioneering SNN hardware architecture that supports advanced CNN architectures.
翻訳日:2022-12-24 13:30:19 公開日:2020-03-12
# 短期電力価格予測のための深部畳み込みニューラルネットワークモデル

Deep Convolutional Neural Network Model for Short-Term Electricity Price Forecasting ( http://arxiv.org/abs/2003.07202v1 )

ライセンス: Link先を確認
Hsu-Yung Cheng, Ping-Huan Kuo, Yamin Shen, Chiou-Jye Huang(参考訳) 現代の電力市場では、電力取引は競争の激しい産業である。 より正確な価格予測は、電力生産者とトレーダーがより良い決定を下すのを助けるために不可欠である。 本稿では,エネルギー市場における時間的予測を迅速に行うために,新しい畳み込みニューラルネットワーク(CNN)を提案する。 予測精度を向上させるため,年間電力価格データを季節ごとに4つのカテゴリーに分け,各カテゴリーのトレーニングと予測を行う。 提案手法を他の既存手法と比較することにより,提案手法が優れた結果を得たことを見出し,各カテゴリの平均絶対パーセンテージ誤差 (mape) と根平均二乗誤差 (rmse) はそれぞれ約5.5%, 3。

In the modern power market, electricity trading is an extremely competitive industry. More accurate price forecast is crucial to help electricity producers and traders make better decisions. In this paper, a novel method of convolutional neural network (CNN) is proposed to rapidly provide hourly forecasting in the energy market. To improve prediction accuracy, we divide the annual electricity price data into four categories by seasons and conduct training and forecasting for each category respectively. By comparing the proposed method with other existing methods, we find that the proposed model has achieved outstanding results, the mean absolute percentage error (MAPE) and root mean square error (RMSE) for each category are about 5.5% and 3, respectively.
翻訳日:2022-12-24 13:29:56 公開日:2020-03-12
# 生入力から単語参照マッピングと概念を学ぶ

Learning word-referent mappings and concepts from raw inputs ( http://arxiv.org/abs/2003.05573v1 )

ライセンス: Link先を確認
Wai Keen Vong, Brenden M. Lake(参考訳) 子どもたちは、騒々しい、あいまいで、自然主義的な入力から、言語と世界の間の対応をどうやって学ぶのか? 複数の状況にまたがる単語とその参照候補を追跡することで、学習者は正しい単語参照マッピングを曖昧化することができる(yu & smith, 2007)。 しかし,従来の言語間単語学習のモデルは高度に単純化された表現で動作し,実際の学習問題の2つの重要な側面をサイドステッピングしている。 まず、画像などの生入力から単語参照マッピングをどのように学習するか。 第二に、これらの学習されたマッピングはどうやって既知の単語の新しいインスタンスに一般化できるのか? 本稿では、生画像と単語を入力として取り込んだ自己スーパービジョンを用いて、ゼロから学習したニューラルネットワークモデルを示し、完全あいまいなシーンから単語参照マッピングを学習し、断続的な学習を通して発話を学習できることを示す。 さらに、モデルは、新しい単語インスタンスに一般化し、シーン内の単語の参照者を特定し、相互排他性の好みを示す。

How do children learn correspondences between the language and the world from noisy, ambiguous, naturalistic input? One hypothesis is via cross-situational learning: tracking words and their possible referents across multiple situations allows learners to disambiguate correct word-referent mappings (Yu & Smith, 2007). However, previous models of cross-situational word learning operate on highly simplified representations, side-stepping two important aspects of the actual learning problem. First, how can word-referent mappings be learned from raw inputs such as images? Second, how can these learned mappings generalize to novel instances of a known word? In this paper, we present a neural network model trained from scratch via self-supervision that takes in raw images and words as inputs, and show that it can learn word-referent mappings from fully ambiguous scenes and utterances through cross-situational learning. In addition, the model generalizes to novel word instances, locates referents of words in a scene, and shows a preference for mutual exclusivity.
翻訳日:2022-12-24 13:28:59 公開日:2020-03-12
# 身体的ナビゲーションタスクにおける視覚表現の分析

Analyzing Visual Representations in Embodied Navigation Tasks ( http://arxiv.org/abs/2003.05993v1 )

ライセンス: Link先を確認
Erik Wijmans, Julian Straub, Dhruv Batra, Irfan Essa, Judy Hoffman, Ari Morcos(参考訳) 深層強化学習の最近の進歩は、大量のトレーニングデータを必要とし、一般にターゲットタスクに特化している表現を過剰に生成する。 本稿では,この専門化の根底にある潜在的な原因を研究するための方法論を提案する。 本稿では,最近提案する投影重み付き正準相関解析(pwcca)を用いて,同一環境で学習した視覚表現の類似性を測定した。 次に,提案手法を活用し,関連するが具体化されたナビゲーションタスクで学習した視覚表現のタスク依存度を調べる。 驚くべきことに、タスクの微妙な違いがSqueezeNetとResNetアーキテクチャの視覚的表現に何の影響も与えないことがわかった。 次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。

Recent advances in deep reinforcement learning require a large amount of training data and generally result in representations that are often over specialized to the target task. In this work, we present a methodology to study the underlying potential causes for this specialization. We use the recently proposed projection weighted Canonical Correlation Analysis (PWCCA) to measure the similarity of visual representations learned in the same environment by performing different tasks. We then leverage our proposed methodology to examine the task dependence of visual representations learned on related but distinct embodied navigation tasks. Surprisingly, we find that slight differences in task have no measurable effect on the visual representation for both SqueezeNet and ResNet architectures. We then empirically demonstrate that visual representations learned on one task can be effectively transferred to a different task.
翻訳日:2022-12-24 13:19:46 公開日:2020-03-12
# アルゴリズム非依存な転送学習によるビデオqoe推定

Customized Video QoE Estimation with Algorithm-Agnostic Transfer Learning ( http://arxiv.org/abs/2003.08730v1 )

ライセンス: Link先を確認
Selim Ickin and Markus Fiedler and Konstantinos Vandikas(参考訳) 機械学習(ml)によるqoeモデルの開発は、小規模データセット、ソースドメインにおけるユーザプロファイルの多様性の欠如、qoeモデルのターゲットドメインにおける多様性の多さなどにより、困難である。 さらに、機械学習モデルとユーザ研究から収集したユーザデータは、IPRまたはGDPRに敏感である可能性があるため、データセットを研究エンティティ間で共有することは困難である。 これにより、得られたメトリクスをユーザQoE(Mean Opinion Scores (MOS)など)にマップするローカルモデル間の学習知識の共有と集約にアピールする分散学習ベースのフレームワークが実現される。 本稿では,分散ローカルモデルがmos上で汎用的な指標を共有して汎用ベースモデルを学習し,特定の局所的(かつ潜在的に敏感な)qoeノードに特有の追加機能を用いて汎用ベースモデルをカスタマイズする,転送学習に基づくmlモデルトレーニング手法を提案する。 提案手法は,同一のMLアルゴリズムを実行するために,協調する局所ノードを必要としないため,互いに積み重ねた特定のMLアルゴリズムに非依存であることを示す。 再現可能な結果から,種々の汎用モデルおよび特定モデルと対応する重み係数を積み重ねる利点が明らかになった。 さらに,対応する局所化qoeノードに対するアルゴリズムと重み係数の最適組み合わせを同定した。

The development of QoE models by means of Machine Learning (ML) is challenging, amongst others due to small-size datasets, lack of diversity in user profiles in the source domain, and too much diversity in the target domains of QoE models. Furthermore, datasets can be hard to share between research entities, as the machine learning models and the collected user data from the user studies may be IPR- or GDPR-sensitive. This makes a decentralized learning-based framework appealing for sharing and aggregating learned knowledge in-between the local models that map the obtained metrics to the user QoE, such as Mean Opinion Scores (MOS). In this paper, we present a transfer learning-based ML model training approach, which allows decentralized local models to share generic indicators on MOS to learn a generic base model, and then customize the generic base model further using additional features that are unique to those specific localized (and potentially sensitive) QoE nodes. We show that the proposed approach is agnostic to specific ML algorithms, stacked upon each other, as it does not necessitate the collaborating localized nodes to run the same ML algorithm. Our reproducible results reveal the advantages of stacking various generic and specific models with corresponding weight factors. Moreover, we identify the optimal combination of algorithms and weight factors for the corresponding localized QoE nodes.
翻訳日:2022-12-24 13:19:09 公開日:2020-03-12
# Meta-CoTGAN: 対訳テキスト生成改善のためのメタ協調学習パラダイム

Meta-CoTGAN: A Meta Cooperative Training Paradigm for Improving Adversarial Text Generation ( http://arxiv.org/abs/2003.11530v1 )

ライセンス: Link先を確認
Haiyan Yin, Dingcheng Li, Xu Li, Ping Li(参考訳) 十分な多様性を持つ高品質なテキストを生成することができる生成モデルの訓練は、自然言語生成(NLG)コミュニティにとって重要な課題である。 近年,テキスト生成タスクにおいて,従来の最大ラキシブルアプローチが経験する露光バイアスを回避し,将来性のある生成品質が得られるような生成モデルが広く適用されている。 しかし、敵対的訓練のためのモード崩壊の悪名高い欠陥のために、敵対的に訓練されたジェネレータは品質の多様性のトレードオフに直面し、ジェネレータモデルは世代品質を上げるために生成の多様性を犠牲にしがちである。 本稿では,対人訓練のモード崩壊を効率的に高速化することで,対人テキスト生成の性能向上を目的とした新しいアプローチを提案する。 そこで我々は,言語モデルとジェネレータを協調的に学習する協調学習パラダイムを導入し,生成器のデータ分布をモード崩壊に対して効率的に形成するために言語モデルを利用する。 さらに、ジェネレータの協調更新を原則的に行う代わりに、ジェネレータへの協調更新が高レベルメタタスクとして機能するメタ学習機構を定式化し、敵対的更新後のジェネレータのパラメータがモード崩壊に対して耐性を持つようにする。 実験では,提案手法により,逆テキスト生成器のモード崩壊の速度を効果的に遅くできることを示す。 提案手法は, 検証された領域における生成品質と多様性の両面において, かなりの差で, ベースラインアプローチを上回り得る。

Training generative models that can generate high-quality text with sufficient diversity is an important open problem for Natural Language Generation (NLG) community. Recently, generative adversarial models have been applied extensively on text generation tasks, where the adversarially trained generators alleviate the exposure bias experienced by conventional maximum likelihood approaches and result in promising generation quality. However, due to the notorious defect of mode collapse for adversarial training, the adversarially trained generators face a quality-diversity trade-off, i.e., the generator models tend to sacrifice generation diversity severely for increasing generation quality. In this paper, we propose a novel approach which aims to improve the performance of adversarial text generation via efficiently decelerating mode collapse of the adversarial training. To this end, we introduce a cooperative training paradigm, where a language model is cooperatively trained with the generator and we utilize the language model to efficiently shape the data distribution of the generator against mode collapse. Moreover, instead of engaging the cooperative update for the generator in a principled way, we formulate a meta learning mechanism, where the cooperative update to the generator serves as a high level meta task, with an intuition of ensuring the parameters of the generator after the adversarial update would stay resistant against mode collapse. In the experiment, we demonstrate our proposed approach can efficiently slow down the pace of mode collapse for the adversarial text generators. Overall, our proposed method is able to outperform the baseline approaches with significant margins in terms of both generation quality and diversity in the testified domains.
翻訳日:2022-12-24 13:11:43 公開日:2020-03-12
# PyODDS: 自動機械学習によるエンドツーエンドのアウトレーラ検出システム

PyODDS: An End-to-end Outlier Detection System with Automated Machine Learning ( http://arxiv.org/abs/2003.05602v1 )

ライセンス: Link先を確認
Yuening Li, Daochen Zha, Praveen Kumar Venugopal, Na Zou, and Xia Hu(参考訳) 外乱検出は様々なデータマイニングアプリケーションにとって重要な課題である。 現在の外れ値検出技術は、しばしば特定のドメインのために手動で設計され、データベースの設定、アルゴリズムの選択、ハイパーパラメータチューニングといった大きな人的努力を必要とする。 このギャップを埋めるために、データベースサポート付きアウトレイラ検出のための自動エンドツーエンドPythonシステムであるPyODDSを紹介し、新しいデータソースに対するアウトレイラ検出パイプラインを自動的に最適化する。 具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。 PyODDSはApache Sparkバックエンドサーバと軽量データベースに基づくエンドツーエンドの実行を可能にする。 また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、ユーザのための統一インターフェースと視覚化を提供する。 特に,数種類の実世界のデータセット上で,定量化分析と可視化結果を用いてpyoddを実証する。

Outlier detection is an important task for various data mining applications. Current outlier detection techniques are often manually designed for specific domains, requiring large human efforts of database setup, algorithm selection, and hyper-parameter tuning. To fill this gap, we present PyODDS, an automated end-to-end Python system for Outlier Detection with Database Support, which automatically optimizes an outlier detection pipeline for a new data source at hand. Specifically, we define the search space in the outlier detection pipeline, and produce a search strategy within the given search space. PyODDS enables end-to-end executions based on an Apache Spark backend server and a light-weight database. It also provides unified interfaces and visualizations for users with or without data science or machine learning background. In particular, we demonstrate PyODDS on several real-world datasets, with quantification analysis and visualization results.
翻訳日:2022-12-24 13:11:14 公開日:2020-03-12
# 分散行列因子化を用いたプライバシー保護的関心点推薦

Privacy Preserving Point-of-interest Recommendation Using Decentralized Matrix Factorization ( http://arxiv.org/abs/2003.05610v1 )

ライセンス: Link先を確認
Chaochao Chen, Ziqi Liu, Peilin Zhao, Jun Zhou, Xiaolong Li(参考訳) POSI(Points of interest)勧告は、FoursquareやYelpといった位置情報ベースのネットワークの普及により、最近注目を集めている。 POIレコメンデーションへの既存のアプローチの中で、マトリックス因子化(MF)ベースの手法が有効であることが証明されている。 しかし,既存のMFアプローチは,1)集中型モデル学習機構による計算量と記憶量の増加,2)ユーザ・イテム評価行列全体の維持,および潜在的に巨大な低ランク行列の維持,の2つの大きな問題に悩まされている。 2)プライバシの問題: ユーザの好みは,集中学習者を通じて悪意ある攻撃者に漏洩する危険性がある。 そこで本稿では,poiレコメンデーションのための分散mf(dmf)フレームワークを提案する。 具体的には,すべての低ランク行列とセンシティブ評価データをトレーニング用に保持する代わりに,携帯電話やパッドなど各ユーザ側のmfモデルをトレーニングするためのランダムウォークベースの分散トレーニング手法を提案する。 これにより、各ユーザのレーティングは依然として自分の手で保持され、さらに、分散学習をマルチリーナー(ユーザ)による分散学習として捉えることができ、計算とストレージの問題を軽減することができる。 2つの実世界のデータセットによる実験結果から、古典的および最先端の潜在因子モデルと比較すると、DMFは精度とリコールの観点から推奨性能を大幅に改善することが示された。

Points of interest (POI) recommendation has been drawn much attention recently due to the increasing popularity of location-based networks, e.g., Foursquare and Yelp. Among the existing approaches to POI recommendation, Matrix Factorization (MF) based techniques have proven to be effective. However, existing MF approaches suffer from two major problems: (1) Expensive computations and storages due to the centralized model training mechanism: the centralized learners have to maintain the whole user-item rating matrix, and potentially huge low rank matrices. (2) Privacy issues: the users' preferences are at risk of leaking to malicious attackers via the centralized learner. To solve these, we present a Decentralized MF (DMF) framework for POI recommendation. Specifically, instead of maintaining all the low rank matrices and sensitive rating data for training, we propose a random walk based decentralized training technique to train MF models on each user's end, e.g., cell phone and Pad. By doing so, the ratings of each user are still kept on one's own hand, and moreover, decentralized learning can be taken as distributed learning with multi-learners (users), and thus alleviates the computation and storage issue. Experimental results on two real-world datasets demonstrate that, comparing with the classic and state-of-the-art latent factor models, DMF significantly improvements the recommendation performance in terms of precision and recall.
翻訳日:2022-12-24 13:11:00 公開日:2020-03-12
# モデル非依存多レベル説明

Model Agnostic Multilevel Explanations ( http://arxiv.org/abs/2003.06005v1 )

ライセンス: Link先を確認
Karthikeyan Natesan Ramamurthy, Bhanukiran Vinzamuri, Yunfeng Zhang, Amit Dhurandhar(参考訳) 近年,ブラックボックスモデルのローカルインスタンスレベルとグローバルデータセットレベルの説明可能性に注目が集まっている。 これは、一般データ保護規則(gdpr)におけるガイドライン実現の課題を研究する最近の研究で概説されたニーズである。 本稿では,典型的な局所的説明可能性法が与えられ,多レベル説明木を構築できるメタ手法を提案する。 この木の葉は局所的な説明に対応し、根は大域的な説明に対応し、中間レベルは自動的にクラスタ化されるデータポイントのグループの説明に対応する。 この手法はサイド情報を活用でき、ユーザーは説明を類似させたいかもしれないポイントを指定できる。 このようなマルチレベル構造は効果的なコミュニケーション形態であり,説明ツリーの適切なレベルを考慮すれば,データセット全体を特徴付ける説明がほとんど得られないことを論じる。 新たなテストポイントの説明は、最も近いトレーニングポイントと関連付けることで、コスト効率良く得られる。 局所的説明可能性法が一般化加法 (viz. LIME, GAMs) となると、多層木の構築と収束挙動の研究のための高速近似アルゴリズムを開発する。 提案手法の有効性を,実世界データセット上での2つの人間研究(専門家と非専門家ユーザ)に基づいて検証し,他のいくつかの公開データセットに対して高い忠実度を生み出すことを示す。

In recent years, post-hoc local instance-level and global dataset-level explainability of black-box models has received a lot of attention. Much less attention has been given to obtaining insights at intermediate or group levels, which is a need outlined in recent works that study the challenges in realizing the guidelines in the General Data Protection Regulation (GDPR). In this paper, we propose a meta-method that, given a typical local explainability method, can build a multilevel explanation tree. The leaves of this tree correspond to the local explanations, the root corresponds to the global explanation, and intermediate levels correspond to explanations for groups of data points that it automatically clusters. The method can also leverage side information, where users can specify points for which they may want the explanations to be similar. We argue that such a multilevel structure can also be an effective form of communication, where one could obtain few explanations that characterize the entire dataset by considering an appropriate level in our explanation tree. Explanations for novel test points can be cost-efficiently obtained by associating them with the closest training points. When the local explainability technique is generalized additive (viz. LIME, GAMs), we develop a fast approximate algorithm for building the multilevel tree and study its convergence behavior. We validate the effectiveness of the proposed technique based on two human studies -- one with experts and the other with non-expert users -- on real world datasets, and show that we produce high fidelity sparse explanations on several other public datasets.
翻訳日:2022-12-24 13:10:34 公開日:2020-03-12
# 因果データシート:実世界のベイズネットワークを実際に評価するための近似ガイド

Causal datasheet: An approximate guide to practically assess Bayesian networks in the real world ( http://arxiv.org/abs/2003.07182v1 )

ライセンス: Link先を確認
Bradley Butcher, Vincent S. Huang, Jeremy Reffin, Sema K. Sgaier, Grace Charles, Novi Quadrianto(参考訳) 医療の探究行動を変えるような現実的な問題を解決するには、下流の結果を改善するための介入を設計するには、システム内の因果関係を理解する必要がある。 Causal Bayesian Networks (BN) はそのような強力な手法として提案されている。 しかし、現実世界のアプリケーションでは、bnsの結果に対する信頼度はたいてい中程度である。 これは、DAGが利用できないため、いくつかの根拠的真実に対して検証できないことによる。 学習されたDAGが既存のドメインドクトリンと矛盾する場合、これは特に問題となる。 政策レベルでは、そのような分析によって得られた洞察を正当化し、好ましくは不確実性の推定を伴う。 本稿では、Gebru et al (2018) によって提案されたデータシートの概念の因果拡張について、任意のデータセットに対するBN性能のおよその期待を含むよう提案する。 プロトタイプの因果データシートの結果を生成するために,実データの特性を反映する3万以上の合成データセットを構築した。 次に,最先端構造学習アルゴリズムによる結果を記録する。 これらの結果は因果データシートの投入に使われ、期待するパフォーマンスに依存するリコメンデーションが自動的に生成された。 概念実証として,インド・ウッタルプラデーシュで実施した母体保健調査に,期待されるパフォーマンス期待を割り当てるために,Causal Datasheet Generation Tool(CDG-T)を使用した。

In solving real-world problems like changing healthcare-seeking behaviors, designing interventions to improve downstream outcomes requires an understanding of the causal links within the system. Causal Bayesian Networks (BN) have been proposed as one such powerful method. In real-world applications, however, confidence in the results of BNs are often moderate at best. This is due in part to the inability to validate against some ground truth, as the DAG is not available. This is especially problematic if the learned DAG conflicts with pre-existing domain doctrine. At the policy level, one must justify insights generated by such analysis, preferably accompanying them with uncertainty estimation. Here we propose a causal extension to the datasheet concept proposed by Gebru et al (2018) to include approximate BN performance expectations for any given dataset. To generate the results for a prototype Causal Datasheet, we constructed over 30,000 synthetic datasets with properties mirroring characteristics of real data. We then recorded the results given by state-of-the-art structure learning algorithms. These results were used to populate the Causal Datasheet, and recommendations were automatically generated dependent on expected performance. As a proof of concept, we used our Causal Datasheet Generation Tool (CDG-T) to assign expected performance expectations to a maternal health survey we conducted in Uttar Pradesh, India.
翻訳日:2022-12-24 13:09:24 公開日:2020-03-12
# 小ゲームにおけるハイパーパラメータの分析 : 自己プレイにおけるイテレーションかエポックか?

Analysis of Hyper-Parameters for Small Games: Iterations or Epochs in Self-Play? ( http://arxiv.org/abs/2003.05988v1 )

ライセンス: Link先を確認
Hui Wang, Michael Emmerich, Mike Preuss, Aske Plaat(参考訳) AlphaGo Zeroの目覚ましい業績は、強化学習における自己プレイに大きな関心を生んだ。 セルフプレイでは、モンテカルロ木探索(Monte Carlo Tree Search)が深層ニューラルネットワークのトレーニングに使用され、木探索に使用される。 トレーニング自体が多くのハイパーパラメータによって管理されているが、パラメータ空間を探索する計算コストが禁じられているため、ハイパーパラメータ値と損失関数の設計選択に関する驚くべき研究はほとんど行われていない。 本稿では,alphazeroライクな自己再生アルゴリズムにおける12のハイパーパラメータを調査し,これらのパラメータがトレーニングにどのように寄与するかを評価する。 適度な計算努力で有意義な探索を達成するために、私たちは小さなゲームを使います。 実験の結果,ハイパーパラメータ選択に対するトレーニングの感度が高かった。 多目的分析により4つの重要なハイパーパラメータを特定し、さらなる評価を行う。 まず、トレーニングが多すぎるとパフォーマンスが低下する、という驚くべき結果が得られます。 本研究の主な成果は,MCTS-search シミュレーション,ゲームエポゾネート,トレーニングエポックを仮定したセルフプレイイテレーションの数である。 直感的には、これらの3つは、自己再生の反復が増加するにつれて一緒に増加し、個別に増加させるのは、準最適である。 実験の結果,自己再生におけるハイパーパラメータ値の設定は,直接的に推奨される: 自己再生イテレーションの全体的外ループを最大化し,より低い値に設定すべき3つの内ループハイパーパラメータを優先する。 実験の二次的な結果は最適化目標の選択に関係しており、推奨も提供しています。

The landmark achievements of AlphaGo Zero have created great research interest into self-play in reinforcement learning. In self-play, Monte Carlo Tree Search is used to train a deep neural network, that is then used in tree searches. Training itself is governed by many hyperparameters.There has been surprisingly little research on design choices for hyper-parameter values and loss-functions, presumably because of the prohibitive computational cost to explore the parameter space. In this paper, we investigate 12 hyper-parameters in an AlphaZero-like self-play algorithm and evaluate how these parameters contribute to training. We use small games, to achieve meaningful exploration with moderate computational effort. The experimental results show that training is highly sensitive to hyper-parameter choices. Through multi-objective analysis we identify 4 important hyper-parameters to further assess. To start, we find surprising results where too much training can sometimes lead to lower performance. Our main result is that the number of self-play iterations subsumes MCTS-search simulations, game-episodes, and training epochs. The intuition is that these three increase together as self-play iterations increase, and that increasing them individually is sub-optimal. A consequence of our experiments is a direct recommendation for setting hyper-parameter values in self-play: the overarching outer-loop of self-play iterations should be maximized, in favor of the three inner-loop hyper-parameters, which should be set at lower values. A secondary result of our experiments concerns the choice of optimization goals, for which we also provide recommendations.
翻訳日:2022-12-24 06:37:00 公開日:2020-03-12
# 強化学習を用いた知識グラフの不均一関係推論

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning ( http://arxiv.org/abs/2003.06050v1 )

ライセンス: Link先を確認
Mandana Saebi, Steven Krieg, Chuxu Zhang, Meng Jiang, and Nitesh Chawla(参考訳) ナレッジグラフ上のパスベースの関係推論は,対話システムにおける質問応答,事実予測,レコメンダシステムなど,下流のさまざまなアプリケーションによって人気が高まっている。 近年、強化学習(RL)は、他のディープラーニングモデルよりも解釈可能で説明可能なソリューションを提供している。 しかし、これらのソリューションは、rlエージェントに対する大きなアクションスペースやエンティティ近傍構造の正確な表現など、まだいくつかの課題に直面している。 我々は,知識グラフ上の経路に基づく効率的な推論に局所的近傍情報を用いた型エンハンス型rlエージェントを導入することで,これらの問題に対処する。 提案手法では,グラフニューラルネットワーク(gnn)を用いて近傍情報を符号化し,エンティティタイプを用いて動作空間を縮小する。 実世界のデータセットを用いた実験により,本手法は最先端のRL法より優れ,トレーニング手順中に新たな経路が発見された。

Path-based relational reasoning over knowledge graphs has become increasingly popular due to a variety of downstream applications such as question answering in dialogue systems, fact prediction, and recommender systems. In recent years, reinforcement learning (RL) has provided solutions that are more interpretable and explainable than other deep learning models. However, these solutions still face several challenges, including large action space for the RL agent and accurate representation of entity neighborhood structure. We address these problems by introducing a type-enhanced RL agent that uses the local neighborhood information for efficient path-based reasoning over knowledge graphs. Our solution uses graph neural network (GNN) for encoding the neighborhood information and utilizes entity types to prune the action space. Experiments on real-world dataset show that our method outperforms state-of-the-art RL methods and discovers more novel paths during the training procedure.
翻訳日:2022-12-24 06:36:24 公開日:2020-03-12