このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210708となっている論文です。

PDF登録状況(公開日: 20210708)

TitleAuthorsAbstract論文公表日・翻訳日
# 条件付きGANにおける選択的焦点学習

Selective Focusing Learning in Conditional GANs ( http://arxiv.org/abs/2107.08792v1 )

ライセンス: Link先を確認
Kyeongbo Kong, Kyunghun Kim, Woo-Jin Song, and Suk-Ju Kang(参考訳) 条件付き生成逆数ネットワーク(cGAN)は、クラスワイド制御性と複雑な生成タスクの優れた品質により、顕著な成功を収めている。 典型的なcGANは、境界マッチングと条件マッチングという2つの簡単なサブプロブレムを分解することで、結合分布マッチング問題を解決する。 玩具実験から,識別器のコンテンツ認識最適化により,特定のサンプルに対して条件マッチングのみを適用するのが最適であることがわかった。 本稿では,識別器とジェネレータを併用して,多様性を維持しつつ,各クラスの簡単なサンプルを迅速に学習する,シンプルな(数行のコード)効果的な学習手法を提案する。 我々のキーとなる考え方は、各ミニバッチのデータに対して条件付きおよび関節マッチングを選択的に適用することである。 imagenet(64x64および128x128)、cifar-10、cifar-100データセットにおける最近のcgan変異体について実験を行い、多様性を犠牲にすることなく性能を大幅に改善した(fidでは最大35.18%)。

Conditional generative adversarial networks (cGANs) have demonstrated remarkable success due to their class-wise controllability and superior quality for complex generation tasks. Typical cGANs solve the joint distribution matching problem by decomposing two easier sub-problems: marginal matching and conditional matching. From our toy experiments, we found that it is the best to apply only conditional matching to certain samples due to the content-aware optimization of the discriminator. This paper proposes a simple (a few lines of code) but effective training methodology, selective focusing learning, which enforces the discriminator and generator to learn easy samples of each class rapidly while maintaining diversity. Our key idea is to selectively apply conditional and joint matching for the data in each mini-batch. We conducted experiments on recent cGAN variants in ImageNet (64x64 and 128x128), CIFAR-10, and CIFAR-100 datasets, and improved the performance significantly (up to 35.18% in terms of FID) without sacrificing diversity.
翻訳日:2021-07-25 11:57:08 公開日:2021-07-08
# (参考訳) オートエンコーダと生成逆ネットワークを用いた強制等方性乱流のパラメータ化 [全文訳有]

Parameterization of Forced Isotropic Turbulent Flow using Autoencoders and Generative Adversarial Networks ( http://arxiv.org/abs/2107.06264v1 )

ライセンス: CC BY 4.0
Kanishk, Tanishk Nandal, Prince Tyagi, Raj Kumar Singh(参考訳) 自動エンコーダと生成ニューラルネットワークモデルは最近、高忠実度cfdシミュレーションではなく、自発性と低処理時間のために流体力学で人気を集めている。 オートエンコーダは、入力空間を低次元潜在空間にマッピングするためにエンコーダを用いて入力高次元データを圧縮することにより、流体力学の応用におけるモデルオーダー削減ツールとして使用される。 一方, 変動自己エンコーダ (VAE) やGAN (Generative Adversarial Networks) のような生成モデルは, 乱流のような「ランダム性」の高いカオスモデルに対する解を生成するのに有効であることが証明されている。 本研究では, 基本的な統計特性をパラメータ化することにより, 強制等方性乱流を生成する。 これらの特性に依存した事前シミュレーションデータに基づいてトレーニングされたモデルと、フロー生成は、これらのパラメータによって影響を受ける。 デコーダやジェネレータなどのジェネレータモデルに沿ってプッシュされる潜在ベクトルには、同様の特性を持つ異なる出力を生成するために使用できる独立したエントリが含まれている。 ニューラルネットワークベースのアーキテクチャを使用すると、多くのCFDソフトウェアで顕著な古典的なメッシュベースのNavier-Stoke方程式推定への依存が不要になる。

Autoencoders and generative neural network models have recently gained popularity in fluid mechanics due to their spontaneity and low processing time instead of high fidelity CFD simulations. Auto encoders are used as model order reduction tools in applications of fluid mechanics by compressing input high-dimensional data using an encoder to map the input space into a lower-dimensional latent space. Whereas, generative models such as Variational Auto-encoders (VAEs) and Generative Adversarial Networks (GANs) are proving to be effective in generating solutions to chaotic models with high 'randomness' such as turbulent flows. In this study, forced isotropic turbulence flow is generated by parameterizing into some basic statistical characteristics. The models trained on pre-simulated data from dependencies on these characteristics and the flow generation is then affected by varying these parameters. The latent vectors pushed along the generator models like the decoders and generators contain independent entries which can be used to create different outputs with similar properties. The use of neural network-based architecture removes the need for dependency on the classical mesh-based Navier-Stoke equation estimation which is prominent in many CFD softwares.
翻訳日:2021-07-18 13:27:56 公開日:2021-07-08
# グラフニューラルネットワークを用いた製品集合における成分関数の分類

Classifying Component Function in Product Assemblies with Graph Neural Networks ( http://arxiv.org/abs/2107.07042v1 )

ライセンス: Link先を確認
Vincenzo Ferrero, Kaveh Hassani, Daniele Grandi, Bryony DuPont(参考訳) 関数は、製品が設計目的を完了できるようにするタスクの集合として定義される。 機能モデリングのような機能ツールは、明確な設計決定がまだ行われていない製品設計の初期段階で意思決定ガイダンスを提供する。 関数ベースの設計データは、しばしば個別の解釈においてスパースで基礎づけられる。 そのため、関数ベースの設計ツールは、データ忠実度を向上させる自動関数分類の恩恵を受けることができ、関数ベースのインテリジェントデザインエージェントを可能にする関数表現モデルを提供する。 関数ベースの設計データは、一般的に手動で生成された設計リポジトリに保存される。 これらの設計リポジトリは、機能フローとコンポーネント分類に縛られた製品設計における機能に関する専門知識と解釈の集合である。 本研究では,構造化分類に基づく設計レポジトリをアセンブリフローグラフとして表現し,グラフニューラルネットワーク(GNN)モデルを用いて自動関数分類を行う。 我々は,レポジトリデータから学習し,コンポーネント関数割り当ての基礎的真理を確立することで,自動関数分類を支援する。 実験結果から,gnnモデルではティア1(ブロードウェイ)で0.832,ティア2で0.756,ティア3(特別)関数で0.783のマイクロ平均値f${_1}$-scoreが得られることがわかった。 データ機能の不均衡を考えると、結果は奨励される。 本稿では,知識ベースCADシステムにおけるより高度な応用の出発点となり,機能ベース設計におけるデザイン・フォー・Xの考察を行う。

Function is defined as the ensemble of tasks that enable the product to complete the designed purpose. Functional tools, such as functional modeling, offer decision guidance in the early phase of product design, where explicit design decisions are yet to be made. Function-based design data is often sparse and grounded in individual interpretation. As such, function-based design tools can benefit from automatic function classification to increase data fidelity and provide function representation models that enable function-based intelligent design agents. Function-based design data is commonly stored in manually generated design repositories. These design repositories are a collection of expert knowledge and interpretations of function in product design bounded by function-flow and component taxonomies. In this work, we represent a structured taxonomy-based design repository as assembly-flow graphs, then leverage a graph neural network (GNN) model to perform automatic function classification. We support automated function classification by learning from repository data to establish the ground truth of component function assignment. Experimental results show that our GNN model achieves a micro-average F${_1}$-score of 0.832 for tier 1 (broad), 0.756 for tier 2, and 0.783 for tier 3 (specific) functions. Given the imbalance of data features, the results are encouraging. Our efforts in this paper can be a starting point for more sophisticated applications in knowledge-based CAD systems and Design-for-X consideration in function-based design.
翻訳日:2021-07-18 12:35:00 公開日:2021-07-08
# コンセンシアル・コラボレーティブ・トレーニングを用いた野生動物における表情行動解析

Affect Expression Behaviour Analysis in the Wild using Consensual Collaborative Training ( http://arxiv.org/abs/2107.05736v1 )

ライセンス: Link先を確認
Darshan Gera, S Balasubramanian(参考訳) 顔の表情認識(FER)は、人間とコンピュータの対話システムを構築する上で重要である。 しかし、クラウドソーシング、注釈の主観性、画像の質の低下、キーワード検索に基づく自動ラベル付けなど様々な要因により、ferにおける大規模データセットのアノテーションはノイズに悩まされているため、重要な課題となっている。 このようなノイズの多いアノテーションは、ディープネットワークの記憶能力のためにFERの性能を損なう。 学習の初期段階では、ディープネットワークはクリーンデータに適合する。 そして最終的に、FER性能を制限する記憶能力のために、ノイズの多いラベルに過度に適合し始める。 本報告では,ABAW(Affective Behaviour Analysis in-the-Wild)2021コンペティションの表現認識トラックに,コンセンサス協調訓練(CCT)フレームワークを提出する。 CCTは、騒音分布を仮定することなく、監督損失と整合損失の凸結合を用いて3つのネットワークを共同で訓練する。 動的遷移機構は、早期学習における監督損失から、後期のネットワーク間の予測のコンセンサスに対する一貫性損失への移行に使用される。 共トレーニングは全体的なエラーを低減し、一貫性の損失はノイズの多いサンプルへの過剰フィットを防ぐ。 分類式分類のためのAff-Wild2データセットに挑戦するモデルの性能を検証する。 私たちのコードはhttps://github.com/1 980x/ABAW2021DMACSで公開されています。

Facial expression recognition (FER) in the wild is crucial for building reliable human-computer interactive systems. However, annotations of large scale datasets in FER has been a key challenge as these datasets suffer from noise due to various factors like crowd sourcing, subjectivity of annotators, poor quality of images, automatic labelling based on key word search etc. Such noisy annotations impede the performance of FER due to the memorization ability of deep networks. During early learning stage, deep networks fit on clean data. Then, eventually, they start overfitting on noisy labels due to their memorization ability, which limits FER performance. This report presents Consensual Collaborative Training (CCT) framework used in our submission to expression recognition track of the Affective Behaviour Analysis in-the-wild (ABAW) 2021 competition. CCT co-trains three networks jointly using a convex combination of supervision loss and consistency loss, without making any assumption about the noise distribution. A dynamic transition mechanism is used to move from supervision loss in early learning to consistency loss for consensus of predictions among networks in the later stage. Co-training reduces overall error, and consistency loss prevents overfitting to noisy samples. The performance of the model is validated on challenging Aff-Wild2 dataset for categorical expression classification. Our code is made publicly available at https://github.com/1 980x/ABAW2021DMACS.
翻訳日:2021-07-18 12:32:48 公開日:2021-07-08
# 部分微分方程式のロバスト発見のためのパーシモニー強化スパースベイズ学習

Parsimony-Enhanced Sparse Bayesian Learning for Robust Discovery of Partial Differential Equations ( http://arxiv.org/abs/2107.07040v1 )

ライセンス: Link先を確認
Zhiming Zhang and Yongming Liu(参考訳) ロバストな物理学の発見は多くの科学や工学の分野で大きな関心を集めている。 代表モデルが最も単純なものであるという原則に着想を得て、モデルのパーシモニーとスパーシティの両方を考慮した新しいモデル選択基準を提案する。 Parsimony Enhanced Sparse Bayesian Learning (PeSBL) 法は非線形力学系の部分微分方程式 (PDE) を解析するために開発された。 従来のスパースベイズ学習(SBL)法と比較して,PeSBL法は,その疎度に加えて学習モデルのパーシモニーを促進する。 本手法では,多項式のパワーと空間微分の順序との複雑性の増大を考慮したモデル項のパーシモニーを,所定の候補ライブラリ内のそれらの位置を用いて初めて評価する。 その後、モデルパラメータは、生データに対するベイズ推定によって更新される。 本手法は,スパース回帰前のデータ前処理や数値微分における情報損失の可能性のある誤差を低減することを目的とする。 数値ケーススタディの結果、多くの標準力学系のPDEを高雑音データからPeSBL法を用いて正確に同定できることが示唆された(現在の研究では最大50%)。 次に,提案手法は確率的PDE学習のために拡張され,全てのパラメータとモデリング誤差がランダム変数として考慮される。 階層ベイズ推論(英語版)(hbi)は、観測集団から確率的pde学習のためのフレームワークと統合されている。 最後に,不確かさと異常診断を伴うシステム応答予測のためのPeSBLを提案する。 この研究で実証されたすべての例のコードは、Webサイトで公開されている。

Robust physics discovery is of great interest for many scientific and engineering fields. Inspired by the principle that a representative model is the one simplest possible, a new model selection criteria considering both model's Parsimony and Sparsity is proposed. A Parsimony Enhanced Sparse Bayesian Learning (PeSBL) method is developed for discovering the governing Partial Differential Equations (PDEs) of nonlinear dynamical systems. Compared with the conventional Sparse Bayesian Learning (SBL) method, the PeSBL method promotes parsimony of the learned model in addition to its sparsity. In this method, the parsimony of model terms is evaluated using their locations in the prescribed candidate library, for the first time, considering the increased complexity with the power of polynomials and the order of spatial derivatives. Subsequently, the model parameters are updated through Bayesian inference with the raw data. This procedure aims to reduce the error associated with the possible loss of information in data preprocessing and numerical differentiation prior to sparse regression. Results of numerical case studies indicate that the governing PDEs of many canonical dynamical systems can be correctly identified using the proposed PeSBL method from highly noisy data (up to 50% in the current study). Next, the proposed methodology is extended for stochastic PDE learning where all parameters and modeling error are considered as random variables. Hierarchical Bayesian Inference (HBI) is integrated with the proposed framework for stochastic PDE learning from a population of observations. Finally, the proposed PeSBL is demonstrated for system response prediction with uncertainties and anomaly diagnosis. Codes of all demonstrated examples in this study are available on the website: https://github.com/y mlasu.
翻訳日:2021-07-18 12:31:09 公開日:2021-07-08
# 雑音ラベル学習のためのサンプル選択における記憶の緩和

Mitigating Memorization in Sample Selection for Learning with Noisy Labels ( http://arxiv.org/abs/2107.07041v1 )

ライセンス: Link先を確認
Kyeongbo Kong, Junggi Lee, Youngchul Kwak, Young-Rae Cho, Seong-Eun Kim, and Woo-Jin Song(参考訳) ディープラーニングはノイズの多いラベルに弱いため、クリーンなラベル付きデータしか持たないネットワークをトレーニングするサンプル選択技術が注目されている。 しかし、ラベルが少数のクラスによって支配的に破損している場合、これらのノイズのあるサンプルを支配的なノイズのあるラベル付きサンプルと呼ぶ。 本研究では,クラスワイドペナルティラベルを用いて,支配的なノイズラベル付きサンプルを集中的にペナルティ化するための説得力のある基準を提案する。 各ラベルに対する予測信頼度を平均化することにより、ラベルが一部のクラスで大半が破損した場合に高い値の適切なペナルティラベルを得る。 ベンチマーク(CIFAR-10, CIFAR-100, Tiny-ImageNet)と実世界のデータセット(ANIMAL-10N, Clothing1M)を用いて、異なるノイズ率のシナリオで提案された基準を評価する実験を行った。 提案したサンプル選択を用いて,複数のノイズタイプにおける既存手法と比較して,ネットワークの学習過程がノイズラベルに対して著しく堅牢になる。

Because deep learning is vulnerable to noisy labels, sample selection techniques, which train networks with only clean labeled data, have attracted a great attention. However, if the labels are dominantly corrupted by few classes, these noisy samples are called dominant-noisy-label ed samples, the network also learns dominant-noisy-label ed samples rapidly via content-aware optimization. In this study, we propose a compelling criteria to penalize dominant-noisy-label ed samples intensively through class-wise penalty labels. By averaging prediction confidences for the each observed label, we obtain suitable penalty labels that have high values if the labels are largely corrupted by some classes. Experiments were performed using benchmarks (CIFAR-10, CIFAR-100, Tiny-ImageNet) and real-world datasets (ANIMAL-10N, Clothing1M) to evaluate the proposed criteria in various scenarios with different noise rates. Using the proposed sample selection, the learning process of the network becomes significantly robust to noisy labels compared to existing methods in several noise types.
翻訳日:2021-07-18 12:30:45 公開日:2021-07-08
# 効率的なニューラルネットワーク探索のためのコアセットサンプリング

Core-set Sampling for Efficient Neural Architecture Search ( http://arxiv.org/abs/2107.06869v1 )

ライセンス: Link先を確認
Jae-hun Shim, Kyeongbo Kong, and Suk-Ju Kang(参考訳) 自動機械学習の重要な分野であるニューラルネットワーク検索(nas)は、ディープラーニングモデルの設計を自動化する効果的なアプローチになっている。 しかし、NASの大きな問題は、重い計算負荷によって課される大きな探索時間をいかに削減するかである。 近年では冗長集合の抽出や新しい探索手法の開発に焦点が当てられているが,本論文ではデータキュレーションの方法に基づいて問題を定式化しようとしている。 我々の主要な戦略は、要約されたデータ分布、すなわちコアセットを使ってアーキテクチャを探索することである。 通常、多くのNASアルゴリズムは探索と訓練段階を分離し、提案手法は探索段階でのみ使用されるため、性能劣化を最小限に抑えることができる。 実験では,RTX 3090の1つのGPU上で,計算時間を30.8時間から3.5時間,8.8倍に短縮することができた。

Neural architecture search (NAS), an important branch of automatic machine learning, has become an effective approach to automate the design of deep learning models. However, the major issue in NAS is how to reduce the large search time imposed by the heavy computational burden. While most recent approaches focus on pruning redundant sets or developing new search methodologies, this paper attempts to formulate the problem based on the data curation manner. Our key strategy is to search the architecture using summarized data distribution, i.e., core-set. Typically, many NAS algorithms separate searching and training stages, and the proposed core-set methodology is only used in search stage, thus their performance degradation can be minimized. In our experiments, we were able to save overall computational time from 30.8 hours to 3.5 hours, 8.8x reduction, on a single RTX 3090 GPU without sacrificing accuracy.
翻訳日:2021-07-18 12:28:16 公開日:2021-07-08
# 物理インフォームド生成ニューラルネットワーク : 対流圏温度予測への応用

Physics-informed generative neural network: an application to troposphere temperature prediction ( http://arxiv.org/abs/2107.06991v1 )

ライセンス: Link先を確認
Zhihao Chen, Jie Gao, Weikai Wang and Zheng Yan(参考訳) 対流圏は、ほとんどの気象現象が起こる大気層の1つである。 対流圏の温度変化、特に中間対流圏の典型的なレベルである500 hPaは、将来の気象変化を示す重要な指標である。 数値気象予測は温度予測に有効であるが、その計算複雑性はタイムリーな応答を妨げる。 本稿では,物理インフォームド深層学習における新しい温度予測手法を提案する。 新しいモデルはpgnetと呼ばれ、マスクマトリックスを備えた生成ニューラルネットワーク上に構築されている。 マスクは、第1物理ステージによって生成される低品質の予測領域を識別するために設計されている。 生成ニューラルネットワークは、第2ステージの洗練された予測にマスクを前倒しする。 時系列予測を行う際に誤差を蓄積することなく生成ニューラルネットワークを訓練するためにマスクロスとジャンプパターン戦略を開発した。 era5の実験では、pgnetが最先端の温度予測を生成できることが示されている。

The troposphere is one of the atmospheric layers where most weather phenomena occur. Temperature variations in the troposphere, especially at 500 hPa, a typical level of the middle troposphere, are significant indicators of future weather changes. Numerical weather prediction is effective for temperature prediction, but its computational complexity hinders a timely response. This paper proposes a novel temperature prediction approach in framework ofphysics-informed deep learning. The new model, called PGnet, builds upon a generative neural network with a mask matrix. The mask is designed to distinguish the low-quality predicted regions generated by the first physical stage. The generative neural network takes the mask as prior for the second-stage refined predictions. A mask-loss and a jump pattern strategy are developed to train the generative neural network without accumulating errors during making time-series predictions. Experiments on ERA5 demonstrate that PGnet can generate more refined temperature predictions than the state-of-the-art.
翻訳日:2021-07-18 12:28:02 公開日:2021-07-08
# (参考訳) Calliope - ポリフォニック・ミュージック・トランスフォーマー [全文訳有]

Calliope -- A Polyphonic Music Transformer ( http://arxiv.org/abs/2107.05546v1 )

ライセンス: CC BY-SA 4.0
Andrea Valenti, Stefano Berti, Davide Bacciu(参考訳) 音楽のポリフォニックな性質は、深層学習を難しい課題として音楽モデリングに応用する。 一方、transformerのアーキテクチャは、この種のデータに適しているようだ。 本稿では,ポリフォニック音楽のマルチトラックシーケンスを効率的にモデル化するためのトランスフォーマーに基づく,新しいオートエンコーダモデルCalliopeを提案する。 実験により,本モデルは,特に長い系列において非常に良好な結果が得られるような,音楽のシーケンス再構成と生成に関する技術を改善することができることを示した。

The polyphonic nature of music makes the application of deep learning to music modelling a challenging task. On the other hand, the Transformer architecture seems to be a good fit for this kind of data. In this work, we present Calliope, a novel autoencoder model based on Transformers for the efficient modelling of multi-track sequences of polyphonic music. The experiments show that our model is able to improve the state of the art on musical sequence reconstruction and generation, with remarkably good results especially on long sequences.
翻訳日:2021-07-14 13:55:27 公開日:2021-07-08
# (参考訳) パラメータ選択:なぜもっと注意を払うべきなのか [全文訳有]

Parameter Selection: Why We Should Pay More Attention to It ( http://arxiv.org/abs/2107.05393v1 )

ライセンス: CC BY 4.0
Jie-Jyun Liu, Tsung-Han Yang, Si-An Chen, Chih-Jen Lin(参考訳) 教師あり学習におけるパラメータ選択の重要性はよく知られている。 しかし、多くのパラメータの組み合わせのため、不完全または不十分な手順がしばしば適用される。 この状況は誤解を招くか、紛らわしい結論をもたらす可能性がある。 本論では,興味深い例を通して,重大性は一般に認識されているものを超えていることを指摘する。 医療コード予測のためのマルチラベル分類の話題では、ある影響力のある論文がセット上で適切なパラメータ選択を行ったが、頻繁に発生するラベルのサブセットに移行する際には、別のチューニングなしで同じパラメータを使用した。 頻繁なラベルのセットはその後の研究で人気のあるベンチマークとなり、芸術の状態を推し進めた。 しかし,当時パラメータチューニングが行われていた場合,これらの研究結果のほとんどが,原論文のアプローチに勝るものではないことが判明した。 そのため、その後の開発がどの程度進展したのかは不明である。 この教訓は、パラメータ選択に十分な注意を払わずに、我々の分野における研究の進展が不確実であるか、さらには説明可能であることを示している。

The importance of parameter selection in supervised learning is well known. However, due to the many parameter combinations, an incomplete or an insufficient procedure is often applied. This situation may cause misleading or confusing conclusions. In this opinion paper, through an intriguing example we point out that the seriousness goes beyond what is generally recognized. In the topic of multi-label classification for medical code prediction, one influential paper conducted a proper parameter selection on a set, but when moving to a subset of frequently occurring labels, the authors used the same parameters without a separate tuning. The set of frequent labels became a popular benchmark in subsequent studies, which kept pushing the state of the art. However, we discovered that most of the results in these studies cannot surpass the approach in the original paper if a parameter tuning had been conducted at the time. Thus it is unclear how much progress the subsequent developments have actually brought. The lesson clearly indicates that without enough attention on parameter selection, the research progress in our field can be uncertain or even illusive.
翻訳日:2021-07-14 13:50:12 公開日:2021-07-08
# つぶやきの感情検出のためのファジィ粗近傍アプローチ

Fuzzy-Rough Nearest Neighbour Approaches for Emotion Detection in Tweets ( http://arxiv.org/abs/2107.05392v1 )

ライセンス: Link先を確認
Olha Kaminska, Chris Cornelis, Veronique Hoste(参考訳) ソーシャルメディアは、感情分析や感情認識など、さまざまなタスクで使用できる有意義なデータの不可欠な情報源である。 主に、これらのタスクはディープラーニングによって解決される。 テキストデータのファジィ性から,ファジィ粗集合に基づく分類法について検討する。 具体的には,重み付き平均 (OWA) 演算子で強化されたファジィラフニア(FRNN)分類器に基づいて,SemEval-2018感情検出タスクのアプローチを開発する。 我々は、異なるテキスト埋め込み法に基づくFRNN-OWAモデルのチューニングアンサンブルを使用する。 我々の結果は、より複雑なディープラーニング手法に基づく最高のSemEvalソリューションと競合する。

Social media are an essential source of meaningful data that can be used in different tasks such as sentiment analysis and emotion recognition. Mostly, these tasks are solved with deep learning methods. Due to the fuzzy nature of textual data, we consider using classification methods based on fuzzy rough sets. Specifically, we develop an approach for the SemEval-2018 emotion detection task, based on the fuzzy rough nearest neighbour (FRNN) classifier enhanced with ordered weighted average (OWA) operators. We use tuned ensembles of FRNN--OWA models based on different text embedding methods. Our results are competitive with the best SemEval solutions based on more complicated deep learning methods.
翻訳日:2021-07-13 16:18:01 公開日:2021-07-08
# つぶやきの感情検出における最寄りのアプローチ

Nearest neighbour approaches for Emotion Detection in Tweets ( http://arxiv.org/abs/2107.05394v1 )

ライセンス: Link先を確認
Olha Kaminska, Chris Cornelis, Veronique Hoste(参考訳) 感情検出は新しい知識を発見するためにソーシャルメディアデータに適用できる重要なタスクである。 このタスクへのディープラーニングメソッドの使用は一般的だが、それらはブラックボックスモデルであり、人間のオペレーターの解釈を困難にしている。 そこで本稿では,重み付き$k$ nearbys (knn) を用いた,単純で実装が容易で説明可能な機械学習モデルを提案する。 これらの性質は、結果の信頼性を高め、エラー分析を導くのに役立つ。 特に、SemEval-2018のツイートにおける共有感情検出タスクに重み付きkNNモデルを適用する。 ツイートは異なるテキスト埋め込み方法と感情語彙スコアを使用して表現され、分類は重み付けされたkNNモデルによって行われる。 我々の最善のアプローチは最先端のソリューションに匹敵する結果を得、ニューラルネットワークメソッドに有望な代替経路を開く。

Emotion detection is an important task that can be applied to social media data to discover new knowledge. While the use of deep learning methods for this task has been prevalent, they are black-box models, making their decisions hard to interpret for a human operator. Therefore, in this paper, we propose an approach using weighted $k$ Nearest Neighbours (kNN), a simple, easy to implement, and explainable machine learning model. These qualities can help to enhance results' reliability and guide error analysis. In particular, we apply the weighted kNN model to the shared emotion detection task in tweets from SemEval-2018. Tweets are represented using different text embedding methods and emotion lexicon vocabulary scores, and classification is done by an ensemble of weighted kNN models. Our best approaches obtain results competitive with state-of-the-art solutions and open up a promising alternative path to neural network methods.
翻訳日:2021-07-13 16:17:50 公開日:2021-07-08
# (参考訳) 変分推論を用いた微分情報によるガウス過程のスケーリング [全文訳有]

Scaling Gaussian Processes with Derivative Information Using Variational Inference ( http://arxiv.org/abs/2107.04061v1 )

ライセンス: CC BY-SA 4.0
Misha Padidar, Xinran Zhu, Leo Huang, Jacob R. Gardner, David Bindel(参考訳) 微分情報を持つガウス過程は、自然科学で生じる多くのベイズ最適化や回帰タスクを含む、微分情報が利用できる多くの環境で有用である。 しかし、微分観測を組み込むと、$D$入力次元の$N$ポイントでのトレーニングにおいて、O(N^3D^3)$計算コストが支配的になる。 これは中程度の問題でも難解である。 最近の研究では、低ドルのd$設定でこの難易度に対処しているが、高いn$、高い$d$設定はまだ未定であり、特に機械学習の問題が高次元化しているため、大きな価値がある。 本稿では,変分推論を用いた導関数を用いた完全スケーラブルなガウス過程回帰を実現する手法を提案する。 トレーニングセットのラベルをスカラー化するための値の誘導に類似して、トレーニングセットの部分微分情報をスカラー化するために方向微分を誘導するという概念を導入する。 これにより、デリバティブ情報を含むが、サイズがフルデータセットサイズ$n$やフル次元$d$に依存しない変分後部を構築することができる。 我々は,高次元ステラレータ融合回帰タスクからベイズ最適化を用いたPubmed上のグラフ畳み込みニューラルネットワークのトレーニングまで,さまざまなタスクに対するアプローチの完全なスケーラビリティを実証する。 驚いたことに、当社のアプローチはラベルデータのみを利用できる設定でも回帰パフォーマンスを向上できることが分かりました。

Gaussian processes with derivative information are useful in many settings where derivative information is available, including numerous Bayesian optimization and regression tasks that arise in the natural sciences. Incorporating derivative observations, however, comes with a dominating $O(N^3D^3)$ computational cost when training on $N$ points in $D$ input dimensions. This is intractable for even moderately sized problems. While recent work has addressed this intractability in the low-$D$ setting, the high-$N$, high-$D$ setting is still unexplored and of great value, particularly as machine learning problems increasingly become high dimensional. In this paper, we introduce methods to achieve fully scalable Gaussian process regression with derivatives using variational inference. Analogous to the use of inducing values to sparsify the labels of a training set, we introduce the concept of inducing directional derivatives to sparsify the partial derivative information of a training set. This enables us to construct a variational posterior that incorporates derivative information but whose size depends neither on the full dataset size $N$ nor the full dimensionality $D$. We demonstrate the full scalability of our approach on a variety of tasks, ranging from a high dimensional stellarator fusion regression task to training graph convolutional neural networks on Pubmed using Bayesian optimization. Surprisingly, we find that our approach can improve regression performance even in settings where only label data is available.
翻訳日:2021-07-13 04:00:49 公開日:2021-07-08
# (参考訳) パターンに基づく時系列予測のためのランダム化NNのアンサンブル [全文訳有]

Ensembles of Randomized NNs for Pattern-based Time Series Forecasting ( http://arxiv.org/abs/2107.04091v1 )

ライセンス: CC BY 4.0
Grzegorz Dudek and Pawe{\l} Pe{\l}ka(参考訳) 本研究では,ランダム化ニューラルネットワークを用いたアンサンブル予測手法を提案する。 改良されたランダム学習は、データと対象機能の特徴に応じてネットワークパラメータを生成し、個々の学習者の適合能力を合理化する。 時系列のパターンに基づく表現は、複数の季節の時系列を予測するのに適している。 アンサンブルメンバーの多様性を制御するための6つの戦略を提案する。 4つの実世界の予測問題に対するケーススタディにより,提案手法の有効性と性能が検証された。 予測精度の点で、統計モデルと最先端の機械学習モデルを上回った。 提案手法には,高速で簡単なトレーニング,シンプルなアーキテクチャ,実装の容易さ,高精度,非定常性や時系列の多季節性といった利点がある。

In this work, we propose an ensemble forecasting approach based on randomized neural networks. Improved randomized learning streamlines the fitting abilities of individual learners by generating network parameters in accordance with the data and target function features. A pattern-based representation of time series makes the proposed approach suitable for forecasting time series with multiple seasonality. We propose six strategies for controlling the diversity of ensemble members. Case studies conducted on four real-world forecasting problems verified the effectiveness and superior performance of the proposed ensemble forecasting approach. It outperformed statistical models as well as state-of-the-art machine learning models in terms of forecasting accuracy. The proposed approach has several advantages: fast and easy training, simple architecture, ease of implementation, high accuracy and the ability to deal with nonstationarity and multiple seasonality in time series.
翻訳日:2021-07-13 03:45:16 公開日:2021-07-08
# (参考訳) caspianet++ : 多次元チャネル空間的非対称アテンションネットワーク : 脳腫瘍セグメンテーションのための学生カリキュラム学習パラダイム [全文訳有]

CASPIANET++: A Multidimensional Channel-Spatial Asymmetric Attention Network with Noisy Student Curriculum Learning Paradigm for Brain Tumor Segmentation ( http://arxiv.org/abs/2107.04099v1 )

ライセンス: CC BY 4.0
Andrea Liew, Chun Cheng Lee, Boon Leong Lan, Maxine Tan(参考訳) 畳み込みニューラルネットワーク(CNN)は、脳腫瘍のセグメンテーションに非常にうまく使われている。 しかし、現在のcnnと注意機構は自然に確率的であり、放射線科医が興味のある領域を手動で注釈付けるために使用する形態学的指標を無視している。 本稿では,腫瘍の固有構造を利用して塩分領域を検出することで,チャネルと空間的賢明な非対称注意(caspian)を提案する。 提案するレイヤの有効性を示すために,我々は,より少ないgpuリソースで高いdiceスコアを達成するために,確立された畳み込みニューラルネットワーク(cnn)アーキテクチャに統合する。 また,意味的セグメンテーションタスクにおいて重要な空間的コンテキストを増大させるために,補助的マルチスケール・マルチプランアテンションブランチの導入を検討する。 その結果得られたアーキテクチャは新しいcaspianet++であり、91.19%の全腫瘍、87.6%の腫瘍コア、871.03%の腫瘍増強が達成された。 さらに,脳腫瘍データ不足を契機に,分割作業におけるノイズ学生法について検討した。 ネットワークに露出するトレーニング画像の複雑さを増すため,ノイズを段階的に注入する新しいノイズ学生カリキュラム学習パラダイムにより,腫瘍領域が81.53%に増大する。 BraTS2020データで行った追加の検証は、ノイズの多い学生カリキュラム学習法が追加のトレーニングや微調整なしでうまく機能していることを示している。

Convolutional neural networks (CNNs) have been used quite successfully for semantic segmentation of brain tumors. However, current CNNs and attention mechanisms are stochastic in nature and neglect the morphological indicators used by radiologists to manually annotate regions of interest. In this paper, we introduce a channel and spatial wise asymmetric attention (CASPIAN) by leveraging the inherent structure of tumors to detect regions of saliency. To demonstrate the efficacy of our proposed layer, we integrate this into a well-established convolutional neural network (CNN) architecture to achieve higher Dice scores, with less GPU resources. Also, we investigate the inclusion of auxiliary multiscale and multiplanar attention branches to increase the spatial context crucial in semantic segmentation tasks. The resulting architecture is the new CASPIANET++, which achieves Dice Scores of 91.19% whole tumor, 87.6% for tumor core and 81.03% for enhancing tumor. Furthermore, driven by the scarcity of brain tumor data, we investigate the Noisy Student method for segmentation tasks. Our new Noisy Student Curriculum Learning paradigm, which infuses noise incrementally to increase the complexity of the training images exposed to the network, further boosts the enhancing tumor region to 81.53%. Additional validation performed on the BraTS2020 data shows that the Noisy Student Curriculum Learning method works well without any additional training or finetuning.
翻訳日:2021-07-13 03:34:38 公開日:2021-07-08
# (参考訳) Fedlearn-Algo: 柔軟なオープンソースのプライバシ保護機械学習プラットフォーム [全文訳有]

Fedlearn-Algo: A flexible open-source privacy-preserving machine learning platform ( http://arxiv.org/abs/2107.04129v1 )

ライセンス: CC BY 4.0
Bo Liu, Chaowei Tan, Jiazhou Wang, Tao Zeng, Huasong Shan, Houpu Yao, Huang Heng, Peng Dai, Liefeng Bo, Yanqing Chen(参考訳) 本稿では,オープンソースのプライバシ保護機械学習プラットフォームであるFedlearn-Algoを紹介する。 このプラットフォームを使って、プライバシー保護機械学習アルゴリズムの研究と開発結果を実証しています。 新しいflアルゴリズムの例の最初のバッチとして、垂直フェデレーションカーネルバイナリ分類モデルと垂直フェデレーションランダムフォレストモデルをリリースする。 我々の実践では、既存の垂直連合学習モデルよりも効率的であることがテストされている。 新たなFLアルゴリズムの例に加えて,機械通信モジュールもリリースする。 統一データ転送インタフェースは、マシン間で広く使用されるデータフォーマットの転送をサポートする。 より機能的なモジュールやアルゴリズムの例を追加して、このプラットフォームを維持します。

In this paper, we present Fedlearn-Algo, an open-source privacy preserving machine learning platform. We use this platform to demonstrate our research and development results on privacy preserving machine learning algorithms. As the first batch of novel FL algorithm examples, we release vertical federated kernel binary classification model and vertical federated random forest model. They have been tested to be more efficient than existing vertical federated learning models in our practice. Besides the novel FL algorithm examples, we also release a machine communication module. The uniform data transfer interface supports transfering widely used data formats between machines. We will maintain this platform by adding more functional modules and algorithm examples.
翻訳日:2021-07-13 03:14:04 公開日:2021-07-08
# (参考訳) 自然言語環境としてのテキスト世界の体系的調査 [全文訳有]

A Systematic Survey of Text Worlds as Embodied Natural Language Environments ( http://arxiv.org/abs/2107.04132v1 )

ライセンス: CC BY 4.0
Peter A Jansen(参考訳) Text Worldsは2Dや3D環境とは異なり、テキスト記述のみを使用してレンダリングされる、エンボディエージェント用の仮想環境である。 これらの環境は、入力に対する障壁が低いため、高忠実な3D環境に代わるもので、知覚入力を制御しながら、セマンティクス、構成推論、その他の高レベルなタスクをリッチな高レベルなアクション空間で研究することができる。 この体系的な調査は、テキストワールドのツール、環境、エージェントモデリングにおける最近の進展を概説し、知識グラフ、常識推論、テキストワールドパフォーマンスの高忠実性環境への転送学習、およびテキストワールドを自然言語処理のための魅力的な一般的な研究パラダイムにする短期的開発目標の最近のトレンドを調査している。

Text Worlds are virtual environments for embodied agents that, unlike 2D or 3D environments, are rendered exclusively using textual descriptions. These environments offer an alternative to higher-fidelity 3D environments due to their low barrier to entry, providing the ability to study semantics, compositional inference, and other high-level tasks with rich high-level action spaces while controlling for perceptual input. This systematic survey outlines recent developments in tooling, environments, and agent modeling for Text Worlds, while examining recent trends in knowledge graphs, common sense reasoning, transfer learning of Text World performance to higher-fidelity environments, as well as near-term development targets that, once achieved, make Text Worlds an attractive general research paradigm for natural language processing.
翻訳日:2021-07-13 03:06:19 公開日:2021-07-08
# (参考訳) 対角非線形変換による共分散および精密行列の構造保存 [全文訳有]

Diagonal Nonlinear Transformations Preserve Structure in Covariance and Precision Matrices ( http://arxiv.org/abs/2107.04136v1 )

ライセンス: CC BY 4.0
Rebecca E Morrison, Ricardo Baptista, Estelle L Basor(参考訳) 多変量正規分布の場合、共分散行列と精度行列は独立性や条件付き独立性に関する完全な情報を符号化する。 一般分布の場合、共分散行列と精度行列は変数間の相関関係といわゆる部分相関関係を示すが、一般には独立性については対応しない。 本稿では,非ガウシアン分布のあるクラスに対して,これらの対応が共分散に対して正確に保持され,精度について概ね成り立つことを証明した。 分布は「非正規」と呼ばれ、多変量正規確率変数の対角変換によって与えられる。 これらの結果を示すいくつかの解析的および数値的な例を示す。

For a multivariate normal distribution, the sparsity of the covariance and precision matrices encodes complete information about independence and conditional independence properties. For general distributions, the covariance and precision matrices reveal correlations and so-called partial correlations between variables, but these do not, in general, have any correspondence with respect to independence properties. In this paper, we prove that, for a certain class of non-Gaussian distributions, these correspondences still hold, exactly for the covariance and approximately for the precision. The distributions -- sometimes referred to as "nonparanormal" -- are given by diagonal transformations of multivariate normal random variables. We provide several analytic and numerical examples illustrating these results.
翻訳日:2021-07-13 02:37:49 公開日:2021-07-08
# フォームは機能しますか? ハードウェア特化加速におけるディープニューラルネットワークアーキテクチャ設計の影響に関する実証的研究

Does Form Follow Function? An Empirical Exploration of the Impact of Deep Neural Network Architecture Design on Hardware-Specific Acceleration ( http://arxiv.org/abs/2107.04144v1 )

ライセンス: Link先を確認
Saad Abbasi, Mohammad Javad Shafiee, Ellick Chan, and Alexander Wong(参考訳) ディープニューラルネットワークアーキテクチャ設計とハードウェア固有のアクセラレーションに関する形式と関数のきめ細かい関係は、研究文献ではよく研究されていない分野であり、ハードウェア機能とは対照的に、形式が正確性によって決定されることが多い。 本研究では,深層ニューラルネットワークアーキテクチャ設計がハードウェア固有の加速度によって達成できる推論高速化の程度に与える影響を,包括的実験により調査した。 より具体的には、OpenVINOマイクロプロセッサとGPU固有のアクセラレーションのレンズを通して、さまざまなアーキテクチャ深度にわたる一般的なマクロアーキテクチャ設計パターンの影響を実証的に研究する。 実験結果から,ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で,マクロアーキテクチャ設計パターンによって推論速度は大幅に変化し,最大速度は550%のボトルネック畳み込み設計パターンで達成された。 さらに,FLOPの要件,レベル3キャッシュの有効性,アーキテクチャの深さと幅の増大に伴うネットワーク遅延の相関関係を詳細に検討する。 最後に,多種多様な手作りの深層畳み込みニューラルネットワークアーキテクチャ設計と,ニューラルネットワーク探索戦略から得られたものとの比較により,ハードウェア固有の加速度を用いた推論時間削減を解析した。 DARTS由来のアーキテクチャは、ハードウェア固有のソフトウェアアクセラレーション(1200%)による最大の改善の恩恵を受けるのに対し、Deepwise bottleneck convolution-based MobileNet-V2は、およそ2.4msの予測時間で最低であることがわかった。

The fine-grained relationship between form and function with respect to deep neural network architecture design and hardware-specific acceleration is one area that is not well studied in the research literature, with form often dictated by accuracy as opposed to hardware function. In this study, a comprehensive empirical exploration is conducted to investigate the impact of deep neural network architecture design on the degree of inference speedup that can be achieved via hardware-specific acceleration. More specifically, we empirically study the impact of a variety of commonly used macro-architecture design patterns across different architectural depths through the lens of OpenVINO microprocessor-speci fic and GPU-specific acceleration. Experimental results showed that while leveraging hardware-specific acceleration achieved an average inference speed-up of 380%, the degree of inference speed-up varied drastically depending on the macro-architecture design pattern, with the greatest speedup achieved on the depthwise bottleneck convolution design pattern at 550%. Furthermore, we conduct an in-depth exploration of the correlation between FLOPs requirement, level 3 cache efficacy, and network latency with increasing architectural depth and width. Finally, we analyze the inference time reductions using hardware-specific acceleration when compared to native deep learning frameworks across a wide variety of hand-crafted deep convolutional neural network architecture designs as well as ones found via neural architecture search strategies. We found that the DARTS-derived architecture to benefit from the greatest improvement from hardware-specific software acceleration (1200%) while the depthwise bottleneck convolution-based MobileNet-V2 to have the lowest overall inference time of around 2.4 ms.
翻訳日:2021-07-12 14:01:04 公開日:2021-07-08
# グラフニューラルネットワークにおけるロバストな反事実説明

Robust Counterfactual Explanations on Graph Neural Networks ( http://arxiv.org/abs/2107.04086v1 )

ライセンス: Link先を確認
Mohit Bajaj, Lingyang Chu, Zi Yu Xue, Jian Pei, Lanjun Wang, Peter Cho-Ho Lam, Yong Zhang(参考訳) 高速アプリケーションにおけるグラフニューラルネットワーク(GNN)の大規模展開は、ノイズに対して堅牢な説明と人間の直感との整合性を強く要求する。 既存のほとんどの手法は、予測と強い相関を持つ入力グラフのサブグラフを識別することで説明を生成する。 これらの説明は、独立して単一入力の相関を最適化することで、ノイズを過度に過小評価できるため、ノイズに対して堅牢ではない。 さらに、入力グラフから特定サブグラフを削除しても必ずしも予測結果が変更されないため、人間の直感とうまく一致しない。 本稿では,GNNの共通決定論理を類似の入力グラフ上で明示的にモデル化することにより,GNNに対する堅牢な反実的説明を生成する手法を提案する。 我々の説明は、多くの類似した入力グラフの予測を管理するGNNの共通決定境界から生成されるため、自然にノイズに対して堅牢である。 この説明は、入力グラフから説明によって識別される辺の集合が予測を大きく変えるため、人間の直感ともよく一致する。 多くの公開データセットに対する探索実験は,提案手法の優れた性能を示す。

Massive deployment of Graph Neural Networks (GNNs) in high-stake applications generates a strong demand for explanations that are robust to noise and align well with human intuition. Most existing methods generate explanations by identifying a subgraph of an input graph that has a strong correlation with the prediction. These explanations are not robust to noise because independently optimizing the correlation for a single input can easily overfit noise. Moreover, they do not align well with human intuition because removing an identified subgraph from an input graph does not necessarily change the prediction result. In this paper, we propose a novel method to generate robust counterfactual explanations on GNNs by explicitly modelling the common decision logic of GNNs on similar input graphs. Our explanations are naturally robust to noise because they are produced from the common decision boundaries of a GNN that govern the predictions of many similar input graphs. The explanations also align well with human intuition because removing the set of edges identified by an explanation from the input graph changes the prediction significantly. Exhaustive experiments on many public datasets demonstrate the superior performance of our method.
翻訳日:2021-07-12 13:58:07 公開日:2021-07-08
# 大規模車両ルーティングのためのデリート学習

Learning to Delegate for Large-scale Vehicle Routing ( http://arxiv.org/abs/2107.04139v1 )

ライセンス: Link先を確認
Sirui Li, Zhongxia Yan, Cathy Wu(参考訳) 車両経路問題(vrps)は、幅広い実用的応用を伴う組合せ問題の一種である。 これまでのヒューリスティックあるいはラーニングベースの作品は,100ユーザまでの小さな問題インスタンスで適切なソリューションを実現していますが,そのパフォーマンスは大きな問題にはスケールしません。 本稿では,大規模vrpを解決するための新しい学習型局所探索アルゴリズムを提案する。 このメソッドは、適切なサブプロブレムと$\textit{delegating}$をブラックボックスサブソルバに改良することで、ソリューションを反復的に改善する。 各ステップにおいて、空間的局所性を利用して指数関数ではなく、線形な部分問題のみを考える。 回帰問題としてサブプロブレム選択を行い、生成した問題インスタンスのトレーニングセット上でトランスフォーマーを訓練する。 提案手法は,500~3000のvrp上で,強力なベースラインよりも最大15倍のスピードアップで,最先端のパフォーマンスを実現する。

Vehicle routing problems (VRPs) are a class of combinatorial problems with wide practical applications. While previous heuristic or learning-based works achieve decent solutions on small problem instances of up to 100 customers, their performance does not scale to large problems. This article presents a novel learning-augmented local search algorithm to solve large-scale VRP. The method iteratively improves the solution by identifying appropriate subproblems and $\textit{delegating}$ their improvement to a black box subsolver. At each step, we leverage spatial locality to consider only a linear number of subproblems, rather than exponential. We frame subproblem selection as a regression problem and train a Transformer on a generated training set of problem instances. We show that our method achieves state-of-the-art performance, with a speed-up of up to 15 times over strong baselines, on VRPs with sizes ranging from 500 to 3000.
翻訳日:2021-07-12 13:57:50 公開日:2021-07-08
# 多くの客観的ベイズ最適化

Many Objective Bayesian Optimization ( http://arxiv.org/abs/2107.04126v1 )

ライセンス: Link先を確認
Lucia Asencio Mart\'in, Eduardo C. Garrido-Merch\'an(参考訳) 現実の問題は、高価でうるさい客観的関数の評価を必要とする。 さらに、これらの目的関数の分析的表現は未知である可能性がある。 これらの関数はブラックボックスと呼ばれ、例えば、機械学習アルゴリズムの一般化誤差を推定し、そのハイパーパラメータの観点から予測時間を計算する。 マルチオブジェクトベイズ最適化(MOBO)は、ブラックボックスの同時最適化に成功している一連の手法である。 具体的には、BO法は目的関数の確率的モデル(通常ガウス過程)に依存している。 このモデルは、目標の予測分布を生成する。 しかし、MOBO法は、多目的最適化問題における目的の数が3以上である場合に問題があり、これは多くの目的設定である。 特に、boプロセスは、より多くの目的が考慮されるほどコストがかかり、ハイパーボリュームによるソリューションの品質の計算もコストがかかり、最も重要なのは、すべての目的関数を評価し、高価な計算、経済、その他のリソースを無駄にすることです。 しかし、多くの目的が最適化問題に関与しているため、それらのいくつかは冗長であり、問題解決に関する情報を付加しない可能性が高い。 GP予測分布の類似性を示す尺度が提案されている。 また,このメトリックを用いて2つの目的が冗長かどうかを判定する,多数の目的ベイズ最適化アルゴリズムを提案する。 このアルゴリズムは、類似性が見つかった場合の評価を停止し、リソースを節約し、多目的boアルゴリズムの性能を損なわない。 GPが測定値とアルゴリズムの有効性の予測分布を予測できるような,玩具,合成,ベンチマーク,実実験のセットで実証的な証拠を示す。

Some real problems require the evaluation of expensive and noisy objective functions. Moreover, the analytical expression of these objective functions may be unknown. These functions are known as black-boxes, for example, estimating the generalization error of a machine learning algorithm and computing its prediction time in terms of its hyper-parameters. Multi-objective Bayesian optimization (MOBO) is a set of methods that has been successfully applied for the simultaneous optimization of black-boxes. Concretely, BO methods rely on a probabilistic model of the objective functions, typically a Gaussian process. This model generates a predictive distribution of the objectives. However, MOBO methods have problems when the number of objectives in a multi-objective optimization problem are 3 or more, which is the many objective setting. In particular, the BO process is more costly as more objectives are considered, computing the quality of the solution via the hyper-volume is also more costly and, most importantly, we have to evaluate every objective function, wasting expensive computational, economic or other resources. However, as more objectives are involved in the optimization problem, it is highly probable that some of them are redundant and not add information about the problem solution. A measure that represents how similar are GP predictive distributions is proposed. We also propose a many objective Bayesian optimization algorithm that uses this metric to determine whether two objectives are redundant. The algorithm stops evaluating one of them if the similarity is found, saving resources and not hurting the performance of the multi-objective BO algorithm. We show empirical evidence in a set of toy, synthetic, benchmark and real experiments that GPs predictive distributions of the effectiveness of the metric and the algorithm.
翻訳日:2021-07-12 13:57:21 公開日:2021-07-08
# 非修正ハミルトニアンアニーリングによるMCMC変分推定

MCMC Variational Inference via Uncorrected Hamiltonian Annealing ( http://arxiv.org/abs/2107.04150v1 )

ライセンス: Link先を確認
Tomas Geffner and Justin Domke(参考訳) 非正規化対象分布が与えられると、それから近似的なサンプルを得ることができ、その(log)正規化定数log z. annealed importance sampling (ais) 上の厳密な下限を得ることができる。 主な欠点は、非微分可能遷移カーネルを使用することで、多くのパラメータのチューニングが困難になることである。 非補正ハミルトニアンのmcmc(uncorrected hamiltonian mcmc, uncorrected hamiltonian annealing)を用いたaisライクな手順の枠組みを提案する。 我々の手法は、log Z 上の厳密で微分可能な下界につながる。 我々は,本手法が他の競合手法よりも優れた性能が得られること,パラメータをパラメータ化勾配で調整できることが性能改善につながることを実証的に示す。

Given an unnormalized target distribution we want to obtain approximate samples from it and a tight lower bound on its (log) normalization constant log Z. Annealed Importance Sampling (AIS) with Hamiltonian MCMC is a powerful method that can be used to do this. Its main drawback is that it uses non-differentiable transition kernels, which makes tuning its many parameters hard. We propose a framework to use an AIS-like procedure with Uncorrected Hamiltonian MCMC, called Uncorrected Hamiltonian Annealing. Our method leads to tight and differentiable lower bounds on log Z. We show empirically that our method yields better performances than other competing approaches, and that the ability to tune its parameters using reparameterization gradients may lead to large performance improvements.
翻訳日:2021-07-12 13:56:55 公開日:2021-07-08
# マルチタスクマルチデータベース感情認識

Multitask Multi-database Emotion Recognition ( http://arxiv.org/abs/2107.04127v1 )

ライセンス: Link先を確認
Manh Tu Vu, Marie Beurton-Aimar(参考訳) 本稿では,第2回ABAW(Affective Behavior Analysis in-the-Wild)2021コンペティションについて紹介する。 我々は,複数のデータベース上で統合されたディープラーニングモデルを訓練し,7つの基本表情予測とvalence-arousal推定の2つのタスクを実行する。 これらのデータベースは2つのタスクのラベルを含まないため、蒸留知識技術を用いて2つのネットワーク(教師1名と学生1名)を訓練した。 学生モデルは、事前訓練された教師モデルから派生した基底真理ラベルとソフトラベルの両方を使用して訓練される。 トレーニング中にもう1つのタスクを追加します。これは2つのタスクの組み合わせで、タスク間の相関をよりうまく活用します。 また、競争で使用されるAffWild2データベースの2つのタスク間のビデオ共有を利用して、ネットワークの性能をさらに向上する。 実験の結果,ネットワークはAffWild2データベースの検証セットにおいて有望な結果を得た。 コードと事前トレーニングされたモデルはhttps://github.com/g lmanhtu/multitask-ab aw-2021で公開されている。

In this work, we introduce our submission to the 2nd Affective Behavior Analysis in-the-wild (ABAW) 2021 competition. We train a unified deep learning model on multi-databases to perform two tasks: seven basic facial expressions prediction and valence-arousal estimation. Since these databases do not contains labels for all the two tasks, we have applied the distillation knowledge technique to train two networks: one teacher and one student model. The student model will be trained using both ground truth labels and soft labels derived from the pretrained teacher model. During the training, we add one more task, which is the combination of the two mentioned tasks, for better exploiting inter-task correlations. We also exploit the sharing videos between the two tasks of the AffWild2 database that is used in the competition, to further improve the performance of the network. Experiment results shows that the network have achieved promising results on the validation set of the AffWild2 database. Code and pretrained model are publicly available at https://github.com/g lmanhtu/multitask-ab aw-2021
翻訳日:2021-07-12 13:56:14 公開日:2021-07-08
# 効率的なモデルベースマルチエージェント平均場強化学習

Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning ( http://arxiv.org/abs/2107.04050v1 )

ライセンス: Link先を確認
Barna Pasztor, Ilija Bogunovic, Andreas Krause(参考訳) エージェントの相互作用によって引き起こされる固有の複雑さのため、マルチエージェントシステムでの学習は非常に難しい。 我々は、平均場制御(mfc)を介して相互作用する多数のエージェント(例えば群れ)を持つシステムに取り組む。 MFCは、同じエージェントの漸近的に無限の集団を、集団報酬を最大化することを目的としている。 具体的には,報奨を最適化し,経験から学ぶことを目標とする未知のシステムダイナミクスの事例について考察する。 そこで本研究では,効率的なモデルベース強化学習アルゴリズムである$\text{m}^3\text{-ucrl}$を提案する。 $\text{M}^3\text{-UCRL}$は、ポリシー学習中の探索とエクスプロイトのバランスをとるために、高信頼境界を使用する。 我々の理論的な貢献は、新しい平均場型解析によって得られたMFCのモデルベースRLに対する最初の一般的な後悔境界である。 $\text{m}^3\text{-ucrl}$ はニューラルネットワークやガウス過程のような異なるモデルでインスタンス化でき、ニューラルネットワークのポリシー学習と効果的に組み合わせられる。 我々は,位置情報依存的報酬の最大化と混雑領域の回避を求めるエージェントの無限集団を制御する群動問題に対する$\text{m}^3\text{-ucrl}$の収束を実証する。

Learning in multi-agent systems is highly challenging due to the inherent complexity introduced by agents' interactions. We tackle systems with a huge population of interacting agents (e.g., swarms) via Mean-Field Control (MFC). MFC considers an asymptotically infinite population of identical agents that aim to collaboratively maximize the collective reward. Specifically, we consider the case of unknown system dynamics where the goal is to simultaneously optimize for the rewards and learn from experience. We propose an efficient model-based reinforcement learning algorithm $\text{M}^3\text{-UCRL}$ that runs in episodes and provably solves this problem. $\text{M}^3\text{-UCRL}$ uses upper-confidence bounds to balance exploration and exploitation during policy learning. Our main theoretical contributions are the first general regret bounds for model-based RL for MFC, obtained via a novel mean-field type analysis. $\text{M}^3\text{-UCRL}$ can be instantiated with different models such as neural networks or Gaussian Processes, and effectively combined with neural network policy learning. We empirically demonstrate the convergence of $\text{M}^3\text{-UCRL}$ on the swarm motion problem of controlling an infinite population of agents seeking to maximize location-dependent reward and avoid congested areas.
翻訳日:2021-07-12 13:54:15 公開日:2021-07-08
# 3D RegNet:胸部CT画像におけるCOVID-19診断のためのディープラーニングモデル

3D RegNet: Deep Learning Model for COVID-19 Diagnosis on Chest CT Image ( http://arxiv.org/abs/2107.04055v1 )

ライセンス: Link先を確認
Haibo Qi, Yuhan Wang, Xinyu Liu(参考訳) 本稿では,3D-RegNetを用いたニューラルネットワークを用いて,新型コロナウイルス(Covid-19)感染患者の身体状態の診断を行う。 臨床医学の応用では、患者が新型コロナウイルスに感染しているかどうかを判断するために、実践者が肺CT画像を利用する。 しかし、この診断方法には、時間消費や精度の低下など、いくつかの欠点が考えられる。 人体の比較的大きな臓器として、2次元スライス画像を用いて肺を診断すれば、重要な空間的特徴は失われる。 そこで本研究では3次元画像を用いたディープラーニングモデルを構築した。 入力データとしての3D画像は2次元肺画像シーケンスからなり、そこから関連する3D特徴を抽出し分類した。 その結果、3Dモデルの試験セット,f1スコア0.8379,AUC値0.8807が達成された。

In this paper, a 3D-RegNet-based neural network is proposed for diagnosing the physical condition of patients with coronavirus (Covid-19) infection. In the application of clinical medicine, lung CT images are utilized by practitioners to determine whether a patient is infected with coronavirus. However, there are some laybacks can be considered regarding to this diagnostic method, such as time consuming and low accuracy. As a relatively large organ of human body, important spatial features would be lost if the lungs were diagnosed utilizing two dimensional slice image. Therefore, in this paper, a deep learning model with 3D image was designed. The 3D image as input data was comprised of two-dimensional pulmonary image sequence and from which relevant coronavirus infection 3D features were extracted and classified. The results show that the test set of the 3D model, the result: f1 score of 0.8379 and AUC value of 0.8807 have been achieved.
翻訳日:2021-07-12 13:53:26 公開日:2021-07-08
# 腹部CT像における2D vs. 3D U-Net Organ Segmentationの比較

Comparison of 2D vs. 3D U-Net Organ Segmentation in abdominal 3D CT images ( http://arxiv.org/abs/2107.04062v1 )

ライセンス: Link先を確認
Nico Zettler and Andre Mastmeyer(参考訳) ボリュームCT画像中の腹腔内臓器の3次元分画の2段階的概念について述べる。 まず、関連する各臓器の体積をバウンディングボックスとして抽出する。 抽出されたボリュームは第2ステージの入力として働き、2つの異なる構造次元のu-netがラベルマスクとしてオルガンセグメンテーションを再構築する。 本研究では,2次元U-Netと3次元U-Netを比較した。 最初の結果は,最大で約6倍のDice改善を示した。 今回の研究では、例えば肝臓と腎臓は、高速でGPUメモリの2D U-Netを使用して、大幅に改善された。 他の腹部キー臓器には有意な差はなかったが, 研究中の全臓器のGPU計算において, 2次元U-Netに対して極めて有意な優位性を示した。

A two-step concept for 3D segmentation on 5 abdominal organs inside volumetric CT images is presented. First each relevant organ's volume of interest is extracted as bounding box. The extracted volume acts as input for a second stage, wherein two compared U-Nets with different architectural dimensions re-construct an organ segmentation as label mask. In this work, we focus on comparing 2D U-Nets vs. 3D U-Net counterparts. Our initial results indicate Dice improvements of about 6\% at maximum. In this study to our surprise, liver and kidneys for instance were tackled significantly better using the faster and GPU-memory saving 2D U-Nets. For other abdominal key organs, there were no significant differences, but we observe highly significant advantages for the 2D U-Net in terms of GPU computational efforts for all organs under study.
翻訳日:2021-07-12 13:53:12 公開日:2021-07-08
# Lazy+Event駆動塑性と共有原子を用いたSNNシミュレーションの高速化

Even Faster SNN Simulation with Lazy+Event-driven Plasticity and Shared Atomics ( http://arxiv.org/abs/2107.04092v1 )

ライセンス: Link先を確認
Dennis Bautembach, Iason Oikonomidis, Antonis Argyros(参考訳) クロックベーススパイキングニューラルネットワーク(SNN)シミュレータを高速化する2つの新しい最適化を提案する。 最初のターゲットはスパイクタイミング依存塑性(STDP)である。 遅延とイベント駆動の可塑性を組み合わせることで、ビットフィールドと整数固有関数を使って、前および後シナプススパイクの計算を効率的に行うことができる。 イベント駆動のプラスティック性よりも高い帯域幅を提供し、最も近い競合相手よりも1.5x-2倍のスピードアップを実現しています。 第2の最適化はスパイクデリバリを目標とする。 グラフ表現は、グローバルメモリの代わりに共有メモリでその更新を実行することができるように、いつでも更新が必要なニューロンの数を制限する方法で分割します。 これは我々の最も近いライバルより2倍-2.5倍速い。 どちらの最適化も、STDPの長年の反復と、アートSNNシミュレータの状態である"Spice"(/spaIk/)内のスパイク配信の最終的な進化段階を表している。 提案する最適化は、グラフ表現やパイプラインに限らず、多数のシミュレータ設計に適用できる。 3つの確立されたモデル上での性能を評価し、他の3つのアートシミュレータと比較した。

We present two novel optimizations that accelerate clock-based spiking neural network (SNN) simulators. The first one targets spike timing dependent plasticity (STDP). It combines lazy- with event-driven plasticity and efficiently facilitates the computation of pre- and post-synaptic spikes using bitfields and integer intrinsics. It offers higher bandwidth than event-driven plasticity alone and achieves a 1.5x-2x speedup over our closest competitor. The second optimization targets spike delivery. We partition our graph representation in a way that bounds the number of neurons that need be updated at any given time which allows us to perform said update in shared memory instead of global memory. This is 2x-2.5x faster than our closest competitor. Both optimizations represent the final evolutionary stages of years of iteration on STDP and spike delivery inside "Spice" (/spaIk/), our state of the art SNN simulator. The proposed optimizations are not exclusive to our graph representation or pipeline but are applicable to a multitude of simulator designs. We evaluate our performance on three well-established models and compare ourselves against three other state of the art simulators.
翻訳日:2021-07-12 13:52:36 公開日:2021-07-08
# 監視環境における最先端超解像アルゴリズムの有効性

Effectiveness of State-of-the-Art Super Resolution Algorithms in Surveillance Environment ( http://arxiv.org/abs/2107.04133v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Ammar Ali Khan, Ansar Ahmad, Rana Hammad Raza(参考訳) 画像スーパーレゾリューション (SR) は、画像が観測者によって綿密に検査される必要がある領域において、強化された情報を抽出するアプリケーションを見つける。 そのようなアプリケーションの一つは、監視フィードのオフラインの法医学的分析である。 カメラのハードウェア、カメラのポーズ、帯域幅の制限、照明条件の変動、オクルージョンの制限により、監視フィードの品質は時として著しく低下し、シーンにおける行動、活動、その他の散発的な情報の監視を損なう。 本研究では,従来の4つのsrアルゴリズムと3つの深層学習に基づくsrアルゴリズムの有効性を検証し,データ操作量の制限された監視環境において,最も優れた手法を求める。 これらのアルゴリズムは、シングル低解像度(LR)入力画像から高解像度出力画像を生成する。 性能分析には、6つの監視データセットからの220枚の画像のサブセットが使用されており、カメラからの距離が異なる個人、照明条件の変化、複雑な背景で構成されている。 これらのアルゴリズムの性能は質的および定量的な指標を用いて評価・比較されてきた。 これらのSRアルゴリズムは顔検出精度に基づいて比較されている。 すべてのアルゴリズムの性能を分析し比較することにより,外部辞書を用いた畳み込みニューラルネットワーク(cnn)によるsr手法が,ロバストな顔検出精度を達成し,異なる監視条件下で最適な定量的測定結果が得られることが判明した。 これは、CNN層が外部辞書を使ってより複雑な特徴を徐々に学習するためである。

Image Super Resolution (SR) finds applications in areas where images need to be closely inspected by the observer to extract enhanced information. One such focused application is an offline forensic analysis of surveillance feeds. Due to the limitations of camera hardware, camera pose, limited bandwidth, varying illumination conditions, and occlusions, the quality of the surveillance feed is significantly degraded at times, thereby compromising monitoring of behavior, activities, and other sporadic information in the scene. For the proposed research work, we have inspected the effectiveness of four conventional yet effective SR algorithms and three deep learning-based SR algorithms to seek the finest method that executes well in a surveillance environment with limited training data op-tions. These algorithms generate an enhanced resolution output image from a sin-gle low-resolution (LR) input image. For performance analysis, a subset of 220 images from six surveillance datasets has been used, consisting of individuals with varying distances from the camera, changing illumination conditions, and complex backgrounds. The performance of these algorithms has been evaluated and compared using both qualitative and quantitative metrics. These SR algo-rithms have also been compared based on face detection accuracy. By analyzing and comparing the performance of all the algorithms, a Convolutional Neural Network (CNN) based SR technique using an external dictionary proved to be best by achieving robust face detection accuracy and scoring optimal quantitative metric results under different surveillance conditions. This is because the CNN layers progressively learn more complex features using an external dictionary.
翻訳日:2021-07-12 13:50:16 公開日:2021-07-08
# 球状k平均の加速

Accelerating Spherical k-Means ( http://arxiv.org/abs/2107.04074v1 )

ライセンス: Link先を確認
Erich Schubert and Andreas Lang and Gloria Feher(参考訳) 球面k-meansは、文書ベクトルのようなばらばらで高次元のデータに対して広く使われているクラスタリングアルゴリズムである。 オリジナルのk-平均アルゴリズムではいくつかの改良と加速が導入されたが、球面型への変換は必ずしも容易ではなく、エルカンやハメリーのアルゴリズムのような多くの加速技術はユークリッド距離の三角不等式に依存する。 しかし、球面k平均は計算効率のために距離の代わりにコサイン類似性を用いる。 本稿では,エルカンとハメリーの加速度をユークリッド距離の代わりにコサインと直接協調する球面k平均アルゴリズムに組み込んで,実データ上でのこれらの球面加速度の精度向上と評価を行う。

Spherical k-means is a widely used clustering algorithm for sparse and high-dimensional data such as document vectors. While several improvements and accelerations have been introduced for the original k-means algorithm, not all easily translate to the spherical variant: Many acceleration techniques, such as the algorithms of Elkan and Hamerly, rely on the triangle inequality of Euclidean distances. However, spherical k-means uses Cosine similarities instead of distances for computational efficiency. In this paper, we incorporate the Elkan and Hamerly accelerations to the spherical k-means algorithm working directly with the Cosines instead of Euclidean distances to obtain a substantial speedup and evaluate these spherical accelerations on real data.
翻訳日:2021-07-12 13:45:11 公開日:2021-07-08
# 局所分布とグローバル分布によるモデルロバスト性の改善

Improving Model Robustness with Latent Distribution Locally and Globally ( http://arxiv.org/abs/2107.04401v1 )

ライセンス: Link先を確認
Zhuang Qian, Shufei Zhang, Kaizhu Huang, Qiufeng Wang, Rui Zhang, Xinping Yi(参考訳) 本研究では,大域的多様体から見た敵攻撃に対するディープニューラルネットワークのモデルロバスト性を考察する。 局所的およびグローバルな潜伏情報の両方を活用することで、ロバストな最適化による新たな対向訓練法と、識別器と分類器の間の対角ゲームを介して、潜在マニフォールド対向例(LMAE)を生成するためのトラクタブルな方法を提案する。 The proposed adversarial training with latent Distribution (ATLD) method defends against adversarial attack by crafting LMAEs with the latent manifold in unsupervised manner。 ATLDは、潜在多様体の局所的およびグローバル的な情報を保持し、敵攻撃に対する堅牢性を向上させることを約束する。 提案手法の有効性を検証するために,異なる攻撃(例えばpgd,cw)を伴う異なるデータセット(例えばcifar-10,cifar-100,s vhn)について広範囲にわたる実験を行い,本手法が敵対的ロバストネスにおける最先端(例えば特徴散乱)を,高い精度のマージンで実質的に上回ることを示す。 ソースコードはhttps://github.com/L itterQ/ATLD-pytorchで入手できる。

In this work, we consider model robustness of deep neural networks against adversarial attacks from a global manifold perspective. Leveraging both the local and global latent information, we propose a novel adversarial training method through robust optimization, and a tractable way to generate Latent Manifold Adversarial Examples (LMAEs) via an adversarial game between a discriminator and a classifier. The proposed adversarial training with latent distribution (ATLD) method defends against adversarial attacks by crafting LMAEs with the latent manifold in an unsupervised manner. ATLD preserves the local and global information of latent manifold and promises improved robustness against adversarial attacks. To verify the effectiveness of our proposed method, we conduct extensive experiments over different datasets (e.g., CIFAR-10, CIFAR-100, SVHN) with different adversarial attacks (e.g., PGD, CW), and show that our method substantially outperforms the state-of-the-art (e.g., Feature Scattering) in adversarial robustness by a large accuracy margin. The source codes are available at https://github.com/L itterQ/ATLD-pytorch.
翻訳日:2021-07-12 13:43:02 公開日:2021-07-08
# 言語横断型自己監督学習による言語識別の改善

Improved Language Identification Through Cross-Lingual Self-Supervised Learning ( http://arxiv.org/abs/2107.04082v1 )

ライセンス: Link先を確認
Andros Tjandra, Diptanu Gon Choudhury, Frank Zhang, Kritika Singh, Alexei Baevski, Assaf Sela, Yatharth Saraf, Michael Auli(参考訳) 言語識別は、自動音声認識などの下流タスクの成功に大きく影響する。 近年,wav2vec 2.0で学習した自己教師型音声表現は,様々な音声タスクに非常に有効であることが示されている。 英語だけでなく、複数の言語で実世界の未学習音声から学習した事前学習モデルを用いて、言語識別に関する過去の自己教師あり作業を拡張する。 多くの言語で事前訓練されたモデルの性能が向上し,ラベル付きデータが少ない言語識別システムが良好に動作することを示す。 25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。

Language identification greatly impacts the success of downstream tasks such as automatic speech recognition. Recently, self-supervised speech representations learned by wav2vec 2.0 have been shown to be very effective for a range of speech tasks. We extend previous self-supervised work on language identification by experimenting with pre-trained models which were learned on real-world unconstrained speech in multiple languages and not just on English. We show that models pre-trained on many languages perform better and enable language identification systems that require very little labeled data to perform well. Results on a 25 languages setup show that with only 10 minutes of labeled data per language, a cross-lingually pre-trained model can achieve over 93% accuracy.
翻訳日:2021-07-12 13:41:34 公開日:2021-07-08
# コサイン類似性に対する三角不等式

A Triangle Inequality for Cosine Similarity ( http://arxiv.org/abs/2107.04071v1 )

ライセンス: Link先を確認
Erich Schubert(参考訳) 類似性探索は多くのデータ解析手法の基本的な問題である。 多くの効率的な探索手法はメトリクスの三角不等式に依存しており、距離の推移的境界に基づいて探索空間の一部を刈り取ることができる。 近年、コサイン類似性は標準ユークリッド計量、特にテキストデータとニューラルネットワークの埋め込みの文脈において、一般的な選択肢となっている。 残念なことに、コサインの類似性は計量ではなく、標準三角不等式を満たさない。 代わりに、コサインの多くの探索技術は局所性に敏感なハッシュのような近似技術に依存している。 本稿では,多くの標準探索構造(vp-tree, cover-tree, m-treeなど)を持つ効率的な類似性探索に適したコサイン類似性に対する三角不等式を導出し,この境界が密接であることを示し,それに対する高速近似について考察する。 これは、コサイン類似性の正確な検索を加速する新たな研究を刺激し、既存の距離測定以外の類似性対策の可能性も期待している。

Similarity search is a fundamental problem for many data analysis techniques. Many efficient search techniques rely on the triangle inequality of metrics, which allows pruning parts of the search space based on transitive bounds on distances. Recently, Cosine similarity has become a popular alternative choice to the standard Euclidean metric, in particular in the context of textual data and neural network embeddings. Unfortunately, Cosine similarity is not metric and does not satisfy the standard triangle inequality. Instead, many search techniques for Cosine rely on approximation techniques such as locality sensitive hashing. In this paper, we derive a triangle inequality for Cosine similarity that is suitable for efficient similarity search with many standard search structures (such as the VP-tree, Cover-tree, and M-tree); show that this bound is tight and discuss fast approximations for it. We hope that this spurs new research on accelerating exact similarity search for cosine similarity, and possible other similarity measures beyond the existing work for distance metrics.
翻訳日:2021-07-12 13:38:40 公開日:2021-07-08
# 発話識別のための機械学習:レビュー,挑戦,今後の方向性

Machine Learning for Stuttering Identification: Review, Challenges & Future Directions ( http://arxiv.org/abs/2107.04057v1 )

ライセンス: Link先を確認
Shakeel Ahmad Sheikh and Md Sahidullah and Fabrice Hirsch and Slim Ouni(参考訳) シュターリング(stuttering)は、不随意の停止と音の反復によって音声の流れが中断される言語障害である。 スタタリング識別は、病理学、心理学、音響学、信号処理などの分野間の興味深い研究課題であり、検出が困難で複雑である。 機械学習とディープラーニングの最近の進歩は、音声領域を劇的に革命させたが、音声認識にはほとんど注意が払われていない。 この研究は、学際的な分野から研究者を集めようとすることでギャップを埋める。 本稿では,統計的および深層学習に基づくスタブリング/ディフルエンシ分類法について概説する。 いくつかの課題と今後の方向性を示す。

Stuttering is a speech disorder during which the flow of speech is interrupted by involuntary pauses and repetition of sounds. Stuttering identification is an interesting interdisciplinary domain research problem which involves pathology, psychology, acoustics, and signal processing that makes it hard and complicated to detect. Recent developments in machine and deep learning have dramatically revolutionized speech domain, however minimal attention has been given to stuttering identification. This work fills the gap by trying to bring researchers together from interdisciplinary fields. In this paper, we review comprehensively acoustic features, statistical and deep learning based stuttering/disfluenc y classification methods. We also present several challenges and possible future directions.
翻訳日:2021-07-12 13:34:45 公開日:2021-07-08
# (参考訳) 存在感の最大化:mmwave対応バーチャルリアリティーは深層強化学習を実現する

Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2107.01001v2 )

ライセンス: CC BY 4.0
Peng Yang, Tony Q. S. Quek, Jingxuan Chen, Chaoqun You, and Xianbin Cao(参考訳) 本稿では,ワイヤレスモバイルユーザに対して,超信頼性とエネルギー効率のよいvr(vr)体験を提供するという課題について検討する。 モバイルユーザへの信頼性の高い超高精細(UHD)ビデオフレーム配信の確保と没入型視覚体験の向上を目的として,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。 ユーザの動きや時間変化のある無線チャネルにより、アクセスポイント(AP)とユーザヘッドマウントディスプレイ(HMD)の消費電力制約を受けながら、仮想世界でのユーザの存在感(FoP)を最大化することを目的として、シーケンス依存・混合整数問題として無線VR体験向上問題を定式化する。 しかし、ユーザの正確な追跡情報や、シーケンス依存・混合整数特性が欠如しているため、直接的に解決することは困難である。 この課題を克服するために,APが個別に収集した新旧のトラッキングサンプルをトレーニングすることにより,ユーザのトラッキング情報を予測する並列エコー状態ネットワーク(ESN)学習手法を開発した。 学習結果から,定式化問題の解法として,深部強化学習(DRL)に基づく最適化アルゴリズムを提案する。 本アルゴリズムでは,整数決定変数を生成するためのスケーラブルなソリューションとしてディープニューラルネットワーク(dnns)を実装し,整数決定変数を批判する連続電力制御問題を解く。 最後に,提案アルゴリズムの性能を様々なベンチマークアルゴリズムと比較し,異なる設計パラメータの影響について考察した。 シミュレーションの結果,提案アルゴリズムはベンチマークアルゴリズムよりもエネルギー効率が4.14%高いことがわかった。

This paper investigates the problem of providing ultra-reliable and energy-efficient virtual reality (VR) experiences for wireless mobile users. To ensure reliable ultra-high-definitio n (UHD) video frame delivery to mobile users and enhance their immersive visual experiences, a coordinated multipoint (CoMP) transmission technique and millimeter wave (mmWave) communications are exploited. Owing to user movement and time-varying wireless channels, the wireless VR experience enhancement problem is formulated as a sequence-dependent and mixed-integer problem with a goal of maximizing users' feeling of presence (FoP) in the virtual world, subject to power consumption constraints on access points (APs) and users' head-mounted displays (HMDs). The problem, however, is hard to be directly solved due to the lack of users' accurate tracking information and the sequence-dependent and mixed-integer characteristics. To overcome this challenge, we develop a parallel echo state network (ESN) learning method to predict users' tracking information by training fresh and historical tracking samples separately collected by APs. With the learnt results, we propose a deep reinforcement learning (DRL) based optimization algorithm to solve the formulated problem. In this algorithm, we implement deep neural networks (DNNs) as a scalable solution to produce integer decision variables and solving a continuous power control problem to criticize the integer decision variables. Finally, the performance of the proposed algorithm is compared with various benchmark algorithms, and the impact of different design parameters is also discussed. Simulation results demonstrate that the proposed algorithm is more 4.14% energy-efficient than the benchmark algorithms.
翻訳日:2021-07-11 13:34:49 公開日:2021-07-08
# (参考訳) specgrav --深層学習による重力波の検出 [全文訳有]

SpecGrav -- Detection of Gravitational Waves using Deep Learning ( http://arxiv.org/abs/2107.03607v1 )

ライセンス: CC BY 4.0
Hrithika Dodia, Himanshu Tandel, Lynette D'Mello(参考訳) 重力波は、光速で移動する時空の織物に波紋がある。 LIGOによる重力波の検出は天文学の分野で大きなブレークスルーとなる。 ディープラーニングは医療、金融、教育など多くの産業に革命をもたらした。 従来のマッチングフィルタリング手法の欠点を克服するため、重力波の検出にもディープラーニング技術が研究されている。 しかし、いくつかの研究では、ニューラルネットワークのトレーニングフェーズは非常に時間がかかり、タスクには大きなメモリを持つハードウェアデバイスが必要である。 重力波検出のためのニューラルネットワークのトレーニングに必要なハードウェアリソースと時間を削減するため、specgravを開発した。 2次元畳み込みニューラルネットワークと雑音に埋め込まれた重力波の分光図を用いて、二元ブラックホールの融合と二元中性子星の融合から重力波を検出する。 ニューラルネットワークのトレーニングフェーズは、2GBのGPUで約19分でした。

Gravitational waves are ripples in the fabric of space-time that travel at the speed of light. The detection of gravitational waves by LIGO is a major breakthrough in the field of astronomy. Deep Learning has revolutionized many industries including health care, finance and education. Deep Learning techniques have also been explored for detection of gravitational waves to overcome the drawbacks of traditional matched filtering method. However, in several researches, the training phase of neural network is very time consuming and hardware devices with large memory are required for the task. In order to reduce the extensive amount of hardware resources and time required in training a neural network for detecting gravitational waves, we made SpecGrav. We use 2D Convolutional Neural Network and spectrograms of gravitational waves embedded in noise to detect gravitational waves from binary black hole merger and binary neutron star merger. The training phase of our neural network was of about just 19 minutes on a 2GB GPU.
翻訳日:2021-07-09 20:35:13 公開日:2021-07-08
# (参考訳) 空間-時間的特徴変換を用いた内視鏡的ポリープ検出のためのマルチフレームコラボレーション [全文訳有]

Multi-frame Collaboration for Effective Endoscopic Video Polyp Detection via Spatial-Temporal Feature Transformation ( http://arxiv.org/abs/2107.03609v1 )

ライセンス: CC BY 4.0
Lingyun Wu, Zhiqiang Hu, Yuanfeng Ji, Ping Luo, Shaoting Zhang(参考訳) 消化管内視鏡検査におけるポリープの精密局在は早期癌スクリーニングに不可欠である。 endoscopyが提供したビデオは、より豊かなコンテキスト情報と、静止画よりも多くの課題をもたらす。 カメラの移動状況は、通常のカメラ固定オブジェクト移動状況ではなく、フレーム間の背景が著しく変化する。 厳格な内部アーティファクト(例えば、) 人の体内の水の流れ(組織による特異な反射)は、隣接するフレームの品質を慎重に変化させる。 これらの要因は、近隣フレームの機能を効果的に集約し、より良い予測を提供するためのビデオベースのモデルを妨げる。 本稿では,これらの問題に対処する多フレーム協調フレームワークである空間時間特徴変換(STFT)を提案する。 空間的に、STFTは、プロポーザル誘導変形可能な畳み込みによる特徴アライメントを伴う、カメラ移動状況におけるフレーム間変動を緩和する。 時としてSTFTは、適応的特徴集約のための隣接フレームの品質と相関を同時に推定するチャネル対応アテンションモジュールを提案する。 その結果,本手法の有効性と安定性が実証された。 例えば、sftは、cvc-clinic および asumayo データセットの polyp ローカライズタスクの包括的 f1-score において、静止画像ベースライン fco を 10.6% と 20.6% 改善し、それぞれ 3.6% と 8.0% で最先端ビデオベース手法を上回った。 コードは \url{https://github.com/l ingyunwu14/stft} で入手できる。

Precise localization of polyp is crucial for early cancer screening in gastrointestinal endoscopy. Videos given by endoscopy bring both richer contextual information as well as more challenges than still images. The camera-moving situation, instead of the common camera-fixed-object- moving one, leads to significant background variation between frames. Severe internal artifacts (e.g. water flow in the human body, specular reflection by tissues) can make the quality of adjacent frames vary considerately. These factors hinder a video-based model to effectively aggregate features from neighborhood frames and give better predictions. In this paper, we present Spatial-Temporal Feature Transformation (STFT), a multi-frame collaborative framework to address these issues. Spatially, STFT mitigates inter-frame variations in the camera-moving situation with feature alignment by proposal-guided deformable convolutions. Temporally, STFT proposes a channel-aware attention module to simultaneously estimate the quality and correlation of adjacent frames for adaptive feature aggregation. Empirical studies and superior results demonstrate the effectiveness and stability of our method. For example, STFT improves the still image baseline FCOS by 10.6% and 20.6% on the comprehensive F1-score of the polyp localization task in CVC-Clinic and ASUMayo datasets, respectively, and outperforms the state-of-the-art video-based method by 3.6% and 8.0%, respectively. Code is available at \url{https://github.com/l ingyunwu14/STFT}.
翻訳日:2021-07-09 20:32:17 公開日:2021-07-08
# (参考訳) エージェントベースモデルの検証と推論

Validation and Inference of Agent Based Models ( http://arxiv.org/abs/2107.03619v1 )

ライセンス: CC BY 4.0
D. Townsend(参考訳) Agent Based Modelling (ABM) は自律エージェントの動作と相互作用をシミュレーションするための計算フレームワークである。 エージェントベースモデルは通常、複雑なシステムを代表するため、モデルパラメータの確率関数を取得することは、ほぼ常に難解である。 モデル出力を理解するためには、おそらく自由な文脈で推論を行う必要がある。 近似ベイズ計算はこの推論に適した方法である。 エージェントベースモデルに適用することで、シミュレーションの検証とモデルを記述するためのパラメータのセットを推論することができる。 ABCの最近の研究により、近似確率を計算するアルゴリズムがますます効率的になった。 これらをハミルトンCBDの歩行者モデルを用いて検討・比較した。

Agent Based Modelling (ABM) is a computational framework for simulating the behaviours and interactions of autonomous agents. As Agent Based Models are usually representative of complex systems, obtaining a likelihood function of the model parameters is nearly always intractable. There is a necessity to conduct inference in a likelihood free context in order to understand the model output. Approximate Bayesian Computation is a suitable approach for this inference. It can be applied to an Agent Based Model to both validate the simulation and infer a set of parameters to describe the model. Recent research in ABC has yielded increasingly efficient algorithms for calculating the approximate likelihood. These are investigated and compared using a pedestrian model in the Hamilton CBD.
翻訳日:2021-07-09 20:22:00 公開日:2021-07-08
# (参考訳) CollGramを用いた人間とニューラルマシンの翻訳におけるフォーミュラ言語の比較 [全文訳有]

Using CollGram to Compare Formulaic Language in Human and Neural Machine Translation ( http://arxiv.org/abs/2107.03625v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) 質の高い新聞記事の人間とニューラルマシン翻訳における公式シーケンスの比較では、ニューラルマシン翻訳は低頻度であるが、強い関連のある公式シーケンス、より高周波な公式シーケンスを含んでいる。 これらの差は統計的に有意であり、効果の大きさはほぼ常に中程度であった。 これらの観察は、様々なレベルの第二言語学習者と翻訳されたテキストと翻訳されていないテキストの違いと関係がある。 ニューラルマシン翻訳システムの比較は、いくつかのシステムが他のシステムよりも、両方のタイプの公式シーケンスを生成することを示している。

A comparison of formulaic sequences in human and neural machine translation of quality newspaper articles shows that neural machine translations contain less lower-frequency, but strongly-associated formulaic sequences, and more high-frequency formulaic sequences. These differences were statistically significant and the effect sizes were almost always medium or large. These observations can be related to the differences between second language learners of various levels and between translated and untranslated texts. The comparison between the neural machine translation systems indicates that some systems produce more formulaic sequences of both types than other systems.
翻訳日:2021-07-09 20:20:53 公開日:2021-07-08
# (参考訳) MAFIA: IoTアプリケーションのためのFPGA上での機械学習高速化 [全文訳有]

MAFIA: Machine Learning Acceleration on FPGAs for IoT Applications ( http://arxiv.org/abs/2107.03653v1 )

ライセンス: CC BY-SA 4.0
Nikhil Pratap Ghanathe, Vivek Seshadri, Rahul Sharma, Steve Wilton, Aayan Kumar(参考訳) 最近のMLのブレークスルーは、ML推論をミリワットのIoTデバイス上で直接実行可能にする、新たなモデルのクラスを生み出している。 一方、既存のML-to-FPGAコンパイラは、大きなFPGA上でのディープニューラルネットワーク用に設計されている。 一方,汎用HLSツールはML推論に特有の特性を活用できないため,最適化性能が低下する。 我々は,IoTアプリケーション用の小さなフォームファクタFPGA上でML推論をコンパイルするMAFIAを提案する。 MAFIAは線形代数演算のネイティブサポートを提供し、最先端モデルを含む様々なMLアルゴリズムを表現できる。 そこで,MAFIA 生成プログラムは商用 HLS コンパイラの性能を平均2.5倍に向上させる。

Recent breakthroughs in ML have produced new classes of models that allow ML inference to run directly on milliwatt-powered IoT devices. On one hand, existing ML-to-FPGA compilers are designed for deep neural-networks on large FPGAs. On the other hand, general-purpose HLS tools fail to exploit properties specific to ML inference, thereby resulting in suboptimal performance. We propose MAFIA, a tool to compile ML inference on small form-factor FPGAs for IoT applications. MAFIA provides native support for linear algebra operations and can express a variety of ML algorithms, including state-of-the-art models. We show that MAFIA-generated programs outperform best-performing variant of a commercial HLS compiler by 2.5x on average.
翻訳日:2021-07-09 20:11:43 公開日:2021-07-08
# (参考訳) パースペクティブ誘導分数拡大畳み込みによる群集数 [全文訳有]

Crowd Counting via Perspective-Guided Fractional-Dilation Convolution ( http://arxiv.org/abs/2107.03665v1 )

ライセンス: CC BY 4.0
Zhaoyi Yan, Ruimao Zhang, Hongzhi Zhang, Qingfu Zhang, and Wangmeng Zuo(参考訳) 群衆のカウントは多くのビデオ監視シナリオにとって重要である。 このタスクの主な問題の一つは、視点効果によって引き起こされる歩行者の劇的な規模の変化をどう扱うかである。 そこで本稿では,新しい畳み込みニューラルネットワークに基づく群衆カウント手法である「パースペクティブガイド分数拡張ネットワーク(pfdnet)」を提案する。 連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。 これは、個々の代表スケールのみを考慮する最先端の柔軟性を大幅に改善する。 さらに、他の方法で使用されるマルチスケールやマルチカラムアーキテクチャを避けることにより、計算効率が向上する。 実際に提案したPFDNetは、複数のPFCをVGG16-BNバックボーン上に積み重ねて構築されている。 新たに一般化された拡張畳み込み操作を導入することで、PFCはパースペクティブアノテーションの指導の下で空間領域の分数拡張比を処理し、歩行者の連続的なスケールモデリングを実現する。 利用できない視点情報の問題に対処するために,提案したPFDNetに効果的な視点推定分岐を導入する。 大規模な実験により、提案されたPFDNetは上海技術A、上海技術B、WorldExpo'10、UCF-QNRF、UCF_CC_50、TRANCOSのデータセットでそれぞれMAE 53.8、6.5、84.3、205.8、3.06の最先端の手法より優れていた。

Crowd counting is critical for numerous video surveillance scenarios. One of the main issues in this task is how to handle the dramatic scale variations of pedestrians caused by the perspective effect. To address this issue, this paper proposes a novel convolution neural network-based crowd counting method, termed Perspective-guided Fractional-Dilation Network (PFDNet). By modeling the continuous scale variations, the proposed PFDNet is able to select the proper fractional dilation kernels for adapting to different spatial locations. It significantly improves the flexibility of the state-of-the-arts that only consider the discrete representative scales. In addition, by avoiding the multi-scale or multi-column architecture that used in other methods, it is computationally more efficient. In practice, the proposed PFDNet is constructed by stacking multiple Perspective-guided Fractional-Dilation Convolutions (PFC) on a VGG16-BN backbone. By introducing a novel generalized dilation convolution operation, the PFC can handle fractional dilation ratios in the spatial domain under the guidance of perspective annotations, achieving continuous scales modeling of pedestrians. To deal with the problem of unavailable perspective information in some cases, we further introduce an effective perspective estimation branch to the proposed PFDNet, which can be trained in either supervised or weakly-supervised setting once the branch has been pre-trained. Extensive experiments show that the proposed PFDNet outperforms state-of-the-art methods on ShanghaiTech A, ShanghaiTech B, WorldExpo'10, UCF-QNRF, UCF_CC_50 and TRANCOS dataset, achieving MAE 53.8, 6.5, 6.8, 84.3, 205.8, and 3.06 respectively.
翻訳日:2021-07-09 19:55:38 公開日:2021-07-08
# (参考訳) 動的再構成可能デコーダとLDPC符号を用いた組込みアイリス認識システム最適化 [全文訳有]

An Embedded Iris Recognition System Optimization using Dynamically ReconfigurableDecode r with LDPC Codes ( http://arxiv.org/abs/2107.03688v1 )

ライセンス: CC BY 4.0
Longyu Ma, Chiu-Wing Sham, Chun Yan Lo, and Xinchao Zhong(参考訳) バイオメトリック認識のための虹彩テクスチャの抽出と解析が広く研究されている。 虹彩認識が研究所技術から国家規模のアプリケーションへと移行するにつれ、ほとんどのシステムは時間や空間において高い複雑さに直面しており、組込みデバイスには不適当である。 本稿では,最小限のコンピュータビジョンモジュールと多モードQC-LDPCデコーダを備えることで,アイリス獲得と追従プロセスによる変動やノイズを軽減する。 IEEE 802.16のQC-LDPCコードのいくつかのクラスは、精度の改善の妥当性をテストする。 上記のコードの一部は、QC-LDPCデコーダの量子化、検証、相互比較のために使われる。 アイリス認識システムにマルチモードQC-LDPCデコーダを実装するために動的部分再構成技術を適用することができることを示す。 結果は、実装が電力効率が高く、エッジアプリケーションに適していることを示している。

Extracting and analyzing iris textures for biometric recognition has been extensively studied. As the transition of iris recognition from lab technology to nation-scale applications, most systems are facing high complexity in either time or space, leading to unfitness for embedded devices. In this paper, the proposed design includes a minimal set of computer vision modules and multi-mode QC-LDPC decoder which can alleviate variability and noise caused by iris acquisition and follow-up process. Several classes of QC-LDPC code from IEEE 802.16 are tested for the validity of accuracy improvement. Some of the codes mentioned above are used for further QC-LDPC decoder quantization, validation and comparison to each other. We show that we can apply Dynamic Partial Reconfiguration technology to implement the multi-mode QC-LDPC decoder for the iris recognition system. The results show that the implementation is power-efficient and good for edge applications.
翻訳日:2021-07-09 19:21:15 公開日:2021-07-08
# (参考訳) OpenCvによる全スキャンアプリケーション [全文訳有]

Complete Scanning Application Using OpenCv ( http://arxiv.org/abs/2107.03700v1 )

ライセンス: CC BY-SA 4.0
Ayushe Gangal, Peeyush Kumar and Sunita Kumari(参考訳) 本稿では,カラー画像からグレースケールへの変換,しきい値の算出,輪郭の抽出,輪郭点の利用など,コンピュータビジョンアプリケーションのためのオープンソースであるnumpyライブラリとopencvライブラリが提供する様々な基本機能を組み合わせて,pythonバージョン3.7を用いて,ユーザが入力した画像の視点変換を行う。 その他の機能としては、切り刻み、回転、保存などがある。 これらの機能と機能は、ステップバイステップで実装されると、完全なスキャニングアプリケーションになる。 適用手順は、輪郭探索、パースペクティブ変換の適用、画像の鮮明化、ノイズキャンセリングのための適応的閾値保持およびフィルタの適用、特別な収穫アルゴリズムのための回転特徴とパースペクティブ変換を含む。 この技術は様々なサンプルに実装されている。

In the following paper, we have combined the various basic functionalities provided by the NumPy library and OpenCv library, which is an open source for Computer Vision applications, like conversion of colored images to grayscale, calculating threshold, finding contours and using those contour points to take perspective transform of the image inputted by the user, using Python version 3.7. Additional features include cropping, rotating and saving as well. All these functions and features, when implemented step by step, results in a complete scanning application. The applied procedure involves the following steps: Finding contours, applying Perspective transform and brightening the image, Adaptive Thresholding and applying filters for noise cancellation, and Rotation features and perspective transform for a special cropping algorithm. The described technique is implemented on various samples.
翻訳日:2021-07-09 19:09:46 公開日:2021-07-08
# (参考訳) センサペンによる手書き文字のデジタル化 : 書き手非依存認識装置 [全文訳有]

Digitizing Handwriting with a Sensor Pen: A Writer-Independent Recognizer ( http://arxiv.org/abs/2107.03704v1 )

ライセンス: CC BY 4.0
Mohamad Wehbi, Tim Hamann, Jens Barth, Bjoern Eskofier(参考訳) オンライン手書き文字認識は, 通常の紙に書き込む際の実践的な結果はほとんど得られていない。 センサベースのデバイスを使った従来のアプローチは、現実世界のアプリケーションで開発されたシステムの使用を制限する問題に遭遇した。 本稿では,センサ付ペンを用いて平紙に書かれた文字を認識する文字非依存システムを提案する。 このシステムは現実世界のアプリケーションに適用でき、認識のためのユーザ固有のトレーニングは不要である。 このペンは、ユーザが使用する直線加速度、角速度、磁場、力を提供し、通常の紙に書きながらセンサーのアナログ信号を時系列データに変換するデジタイザとして機能する。 このペンで収集したデータセットは、ラテン文字の下文字と上文字からなる。 本稿では,文字分類のための畳み込みニューラルネットワークモデルの結果を示し,このアプローチが実用的であり,文字認識に有望な結果が得られることを示す。 本研究の目的は,通常の紙に書き込むためのリアルタイム手書き認識システムを提供することである。

Online handwriting recognition has been studied for a long time with only few practicable results when writing on normal paper. Previous approaches using sensor-based devices encountered problems that limited the usage of the developed systems in real-world applications. This paper presents a writer-independent system that recognizes characters written on plain paper with the use of a sensor-equipped pen. This system is applicable in real-world applications and requires no user-specific training for recognition. The pen provides linear acceleration, angular velocity, magnetic field, and force applied by the user, and acts as a digitizer that transforms the analogue signals of the sensors into timeseries data while writing on regular paper. The dataset we collected with this pen consists of Latin lower-case and upper-case alphabets. We present the results of a convolutional neural network model for letter classification and show that this approach is practical and achieves promising results for writer-independent character recognition. This work aims at providing a realtime handwriting recognition system to be used for writing on normal paper.
翻訳日:2021-07-09 19:01:57 公開日:2021-07-08
# (参考訳) ニューラルネットワーク検索のためのトリックのバグ [全文訳有]

Bag of Tricks for Neural Architecture Search ( http://arxiv.org/abs/2107.03719v1 )

ライセンス: CC BY 4.0
Thomas Elsken, Benedikt Staffler, Arber Zela, Jan Hendrik Metzen, Frank Hutter(参考訳) ニューラルネットワークの検索手法は、ここ数年で成功し、様々な問題に対する新たな最先端のパフォーマンスをもたらしたが、それらは不安定であり、ハイパーパラメータに対して非常に敏感であり、しばしばランダム検索よりもパフォーマンスが良いと批判されてきた。 この問題に光を当てるために,我々は,安定性,効率,全体的な性能を改善するための実践的考察について論じる。

While neural architecture search methods have been successful in previous years and led to new state-of-the-art performance on various problems, they have also been criticized for being unstable, being highly sensitive with respect to their hyperparameters, and often not performing better than random search. To shed some light on this issue, we discuss some practical considerations that help improve the stability, efficiency and overall performance.
翻訳日:2021-07-09 18:52:56 公開日:2021-07-08
# (参考訳) 教師なし学習におけるパターン発見のための3組クラスタリング(EC)アルゴリズム [全文訳有]

The Three Ensemble Clustering (3EC) Algorithm for Pattern Discovery in Unsupervised Learning ( http://arxiv.org/abs/2107.03729v1 )

ライセンス: CC BY 4.0
Kundu, Debasish(参考訳) 本稿では,教師なし学習の一環として,ラベルなしデータを品質クラスタに分類する"three ensemble clustering 3ec"アルゴリズムを提案する。 内部検証指標に基づいたアルゴリズムの集合によって形成された新しいクラスタのコンテキストを探索する柔軟性を提供する。 入力データセットはクラスタのクラスタと考えられている点に注意が必要だ。 異常もクラスタとして現れる可能性がある。 各分割されたクラスタは、新しいデータセットと見なされ、事前定義された停止基準が満たされるまで最も最適なアルゴリズムとその分割数を探索する候補である。 アルゴリズムはデータセットを個別にクラスタに分割し、パーティショニングの品質は内部クラスタ検証指標のアンサンブルによって評価される。 3ecアルゴリズムはアルゴリズムの選択による検証指標スコアとパーティションの構成を示し、これをtauグリッドと呼ぶ。 3ECは最適なスコアを選択する。 3ECアルゴリズムは、アルゴリズムと内部検証指標の2つの入力アンサンブルと最終クラスタの出力アンサンブルに由来する。 このクラスタリングアプローチでは品質が重要な役割を担い、さらにパーティショニングの停止基準としても機能します。 品質はアルゴリズムによって提供されるクラスタの品質と最適な分割数に基づいて決定される。 3ECアルゴリズムは、検証指標のアンサンブルのスコアからこれを決定する。 ユーザは、各検証指標のスコア範囲と出力クラスタの最適サイズとに対して品質閾値を設けることにより、停止基準を設定することができる。 ユーザはさまざまな停止基準を試すことができ、品質クラスタの最も‘センシブルグループ’を選択することができる。

This paper presents a multiple learner algorithm called the 'Three Ensemble Clustering 3EC' algorithm that classifies unlabeled data into quality clusters as a part of unsupervised learning. It offers the flexibility to explore the context of new clusters formed by an ensemble of algorithms based on internal validation indices. It is worth mentioning that the input data set is considered to be a cluster of clusters. An anomaly can possibly manifest as a cluster as well. Each partitioned cluster is considered to be a new data set and is a candidate to explore the most optimal algorithm and its number of partition splits until a predefined stopping criteria is met. The algorithms independently partition the data set into clusters and the quality of the partitioning is assessed by an ensemble of internal cluster validation indices. The 3EC algorithm presents the validation index scores from a choice of algorithms and its configuration of partitions and it is called the Tau Grid. 3EC chooses the most optimal score. The 3EC algorithm owes its name to the two input ensembles of algorithms and internal validation indices and an output ensemble of final clusters. Quality plays an important role in this clustering approach and it also acts as a stopping criteria from further partitioning. Quality is determined based on the quality of the clusters provided by an algorithm and its optimal number of splits. The 3EC algorithm determines this from the score of the ensemble of validation indices. The user can configure the stopping criteria by providing quality thresholds for the score range of each of the validation indices and the optimal size of the output cluster. The users can experiment with different sets of stopping criteria and choose the most 'sensible group' of quality clusters
翻訳日:2021-07-09 18:43:45 公開日:2021-07-08
# (参考訳) 説明可能な潜在変数を推論するためのスパースプリデントによるドメイン情報の符号化 [全文訳有]

Encoding Domain Information with Sparse Priors for Inferring Explainable Latent Variables ( http://arxiv.org/abs/2107.03730v1 )

ライセンス: CC BY 4.0
Arber Qoku and Florian Buettner(参考訳) 潜在変数モデルは、観測可能な高次元データから観測不能な隠蔽状態を推定することにより、患者または細胞間の関連する変動を明らかにする強力な統計ツールである。 しかし、現在の方法の大きな欠点は、スパースと解釈可能な隠れ状態の学習ができないことである。 また、データの潜在構造に関する部分的な知識が容易に利用できる環境では、従来の情報を現在の方法に統計的に健全に統合することは困難である。 これらの問題に対処するために、ドメイン関連情報によって引き起こされる説明可能な要因の推論を促進するために、スパース事前を持つ因子潜在変数モデルspex-LVMを提案する。 spex-LVMは、既存の生物医療経路の知識を利用して、潜在因子に注釈属性を自動的に割り当て、対応する関心領域に合わせて解釈可能な結果を得る。 シミュレーションおよび実シングルセルRNA-seqデータセットの評価は、本モデルが本質的に説明可能な方法で関連構造を強く識別し、バイオメディカルな変化源から技術的ノイズを識別し、既存の経路アノテーションのデータセット固有の適応を提供することを示す。 実装はhttps://github.com/m lo-lab/spexlvmで利用可能である。

Latent variable models are powerful statistical tools that can uncover relevant variation between patients or cells, by inferring unobserved hidden states from observable high-dimensional data. A major shortcoming of current methods, however, is their inability to learn sparse and interpretable hidden states. Additionally, in settings where partial knowledge on the latent structure of the data is readily available, a statistically sound integration of prior information into current methods is challenging. To address these issues, we propose spex-LVM, a factorial latent variable model with sparse priors to encourage the inference of explainable factors driven by domain-relevant information. spex-LVM utilizes existing knowledge of curated biomedical pathways to automatically assign annotated attributes to latent factors, yielding interpretable results tailored to the corresponding domain of interest. Evaluations on simulated and real single-cell RNA-seq datasets demonstrate that our model robustly identifies relevant structure in an inherently explainable manner, distinguishes technical noise from sources of biomedical variation, and provides dataset-specific adaptations of existing pathway annotations. Implementation is available at https://github.com/M LO-lab/spexlvm.
翻訳日:2021-07-09 18:33:09 公開日:2021-07-08
# (参考訳) メタラーニングによる四足歩行ロボットの適応 [全文訳有]

Adaptation of Quadruped Robot Locomotion with Meta-Learning ( http://arxiv.org/abs/2107.03741v1 )

ライセンス: CC BY 4.0
Arsen Kuzhamuratov, Dmitry Sorokin, Alexander Ulanov, A. I. Lvovsky(参考訳) 動物は異なる地形やタスクに移動を適応させる能力がある。 しかし、強化学習によって訓練されたロボットは、通常、1つのタスクのみを解決でき、移行ポリシーは、通常、スクラッチから訓練されたものよりも劣っている。 本研究では,多種多様なロコモーション課題を解決することができるロボットの訓練にメタリフォースメント学習を活用できることを実証する。 メタ訓練されたロボットの性能は、1つのタスクで訓練されたロボットのそれと似ている。

Animals have remarkable abilities to adapt locomotion to different terrains and tasks. However, robots trained by means of reinforcement learning are typically able to solve only a single task and a transferred policy is usually inferior to that trained from scratch. In this work, we demonstrate that meta-reinforcement learning can be used to successfully train a robot capable to solve a wide range of locomotion tasks. The performance of the meta-trained robot is similar to that of a robot that is trained on a single task.
翻訳日:2021-07-09 18:24:39 公開日:2021-07-08
# (参考訳) グリッド分割注意:高分解能詳細生成のためのインダクティブバイアスを用いた効率的なトランスフォーマー近似 [全文訳有]

Grid Partitioned Attention: Efficient TransformerApproxima tion with Inductive Bias for High Resolution Detail Generation ( http://arxiv.org/abs/2107.03742v1 )

ライセンス: CC BY 4.0
Nikolay Jetchev, G\"okhan Yildirim, Christian Bracher, Roland Vollgraf(参考訳) 注意力は画像情報を柔軟に扱うよりも一般的な推論機構であるが、そのメモリ要件は高精細な画像生成には実用的ではない。 本稿では,画像領域の計算およびメモリ効率向上のために,粗い帰納バイアスを利用する新しい近似アテンションアルゴリズムであるグリッド分割注意アルゴリズム(GPA)を提案する。 本稿では,新しいアテンション層を紹介し,その複雑さとハイパーパラメータによるメモリ使用量とモデルパワーのトレードオフを解析し,ポーズモーフィングなどの条件付き画像生成タスクに特に有用なモジュールをコピーすることで,新たなディープラーニングアーキテクチャを実現する方法を示す。 我々の貢献は、(i)新しいGPA層のアルゴリズムとコード1、(ii)新しい注目コピーアーキテクチャ、(iii)人間のポーズフォーミング生成ベンチマークにおける新しい最先端実験結果である。

Attention is a general reasoning mechanism than can flexibly deal with image information, but its memory requirements had made it so far impractical for high resolution image generation. We present Grid Partitioned Attention (GPA), a new approximate attention algorithm that leverages a sparse inductive bias for higher computational and memory efficiency in image domains: queries attend only to few keys, spatially close queries attend to close keys due to correlations. Our paper introduces the new attention layer, analyzes its complexity and how the trade-off between memory usage and model power can be tuned by the hyper-parameters.We will show how such attention enables novel deep learning architectures with copying modules that are especially useful for conditional image generation tasks like pose morphing. Our contributions are (i) algorithm and code1of the novel GPA layer, (ii) a novel deep attention-copying architecture, and (iii) new state-of-the art experimental results in human pose morphing generation benchmarks.
翻訳日:2021-07-09 18:11:07 公開日:2021-07-08
# (参考訳) 暗黙の質的ネットワークを用いた確率的時系列予測 [全文訳有]

Probabilistic Time Series Forecasting with Implicit Quantile Networks ( http://arxiv.org/abs/2107.03743v1 )

ライセンス: CC BY 4.0
Ad\`ele Gouttes, Kashif Rasul, Mateusz Koren, Johannes Stephan, Tofigh Naghibi(参考訳) 本稿では,確率時系列予測の一般的な方法を提案する。 自己回帰型リカレントニューラルネットワークを,時間的ダイナミクスと暗黙の質的ネットワークのモデル化に組み合わせることで,時系列ターゲット上での大規模分布を学習する。 実データおよびシミュレーションデータ上の他の確率的ニューラル予測モデルと比較した場合,本手法は時間分布の推定だけでなく,ポイントワイズ予測精度の観点からも好ましい。

Here, we propose a general method for probabilistic time series forecasting. We combine an autoregressive recurrent neural network to model temporal dynamics with Implicit Quantile Networks to learn a large class of distributions over a time-series target. When compared to other probabilistic neural forecasting models on real- and simulated data, our approach is favorable in terms of point-wise prediction accuracy as well as on estimating the underlying temporal distribution.
翻訳日:2021-07-09 17:51:56 公開日:2021-07-08
# (参考訳) ベイズニューラルネットワークにおける解析的トラクタブル隠れ状態推定

Analytically Tractable Hidden-States Inference in Bayesian Neural Networks ( http://arxiv.org/abs/2107.03759v1 )

ライセンス: CC BY 4.0
Luong-Ha Nguyen and James-A. Goulet(参考訳) 少数の例外を除いて、ニューラルネットワークはモデルパラメータを学習するために推論エンジンとしてバックプロパゲーションと勾配降下に依存してきた。 本稿では,ネットワークのパラメータを推定するためにのみ使用するのではなく,抽出可能なガウス推定(TAGI)機能を用いて隠れ状態の推測を行う方法を示す。 特定の目的を達成するために設計された制約を付与することで隠れた状態を推測できる、新たな側面として、(1)敵攻撃例の生成、(2)ブラックボックス最適化法としてのニューラルネットワークの使用、(3)連続行動強化学習への推論の3つの例が挙げられる。 これらのアプリケーションは、これまでグラデーションベースの最適化アプローチに留まっていたタスクが、分析的に扱いやすい推論によってどのようにアプローチできるかを示す。

With few exceptions, neural networks have been relying on backpropagation and gradient descent as the inference engine in order to learn the model parameters, because the closed-form Bayesian inference for neural networks has been considered to be intractable. In this paper, we show how we can leverage the tractable approximate Gaussian inference's (TAGI) capabilities to infer hidden states, rather than only using it for inferring the network's parameters. One novel aspect it allows is to infer hidden states through the imposition of constraints designed to achieve specific objectives, as illustrated through three examples: (1) the generation of adversarial-attack examples, (2) the usage of a neural network as a black-box optimization method, and (3) the application of inference on continuous-action reinforcement learning. These applications showcase how tasks that were previously reserved to gradient-based optimization approaches can now be approached with analytically tractable inference
翻訳日:2021-07-09 17:38:31 公開日:2021-07-08
# (参考訳) HinGE: Code-Mixed Hinglishテキストの生成と評価のためのデータセット [全文訳有]

HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish Text ( http://arxiv.org/abs/2107.03760v1 )

ライセンス: CC BY 4.0
Vivek Srivastava, Mayank Singh(参考訳) テキスト生成は、計算言語コミュニティにおいて非常に活発な研究領域である。 生成したテキストの評価は難しい課題であり、長年にわたって複数の理論やメトリクスが提案されてきた。 残念ながら、テキスト生成と評価は、複数の言語の単語とフレーズをテキストと音声の単一発話で混合するコード混合言語において、高品質なリソースが不足しているため、比較的過小評価されている。 この課題に対処するために、広く使われているコード混合言語Hinglish(ヒンディー語と英語のコード混合)のためのコーパス(HinGE)を提示する。 HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。 さらに,コード混合データ上で広く利用されている評価指標の有用性を示す。 HinGEデータセットは、コード混合言語における自然言語生成研究の進展を促進する。

Text generation is a highly active area of research in the computational linguistic community. The evaluation of the generated text is a challenging task and multiple theories and metrics have been proposed over the years. Unfortunately, text generation and evaluation are relatively understudied due to the scarcity of high-quality resources in code-mixed languages where the words and phrases from multiple languages are mixed in a single utterance of text and speech. To address this challenge, we present a corpus (HinGE) for a widely popular code-mixed language Hinglish (code-mixing of Hindi and English languages). HinGE has Hinglish sentences generated by humans as well as two rule-based algorithms corresponding to the parallel Hindi-English sentences. In addition, we demonstrate the inefficacy of widely-used evaluation metrics on the code-mixed data. The HinGE dataset will facilitate the progress of natural language generation research in code-mixed languages.
翻訳日:2021-07-09 17:37:00 公開日:2021-07-08
# (参考訳) 双曲空間における暗黙的階層学習による離散時間時間ネットワーク埋め込み [全文訳有]

Discrete-time Temporal Network Embedding via Implicit Hierarchical Learning in Hyperbolic Space ( http://arxiv.org/abs/2107.03767v1 )

ライセンス: CC BY 4.0
Menglin Yang, Min Zhou, Marcus Kalander, Zengfeng Huang, Irwin King(参考訳) 近年,時間的ネットワークによる表現学習が注目されている。 主にユークリッド空間における構造的依存関係と時間的進化規則性のモデル化に焦点が当てられているが、多くの実世界の時間ネットワークにおいて本質的に複雑で階層的な性質を過小評価し、準最適埋め込みをもたらす。 複合時間ネットワークのこれらの特性を探索するため,双曲型時間グラフネットワーク(HTGN)を提案し,双曲型幾何学の指数的能力と階層的認識をフル活用する。 より具体的には、HTGNは時間グラフを双曲型空間にマッピングし、双曲型グラフニューラルネットワークと双曲型ゲート型リカレントニューラルネットワークを組み込んで、進化する振る舞いを捉え、階層的な情報を同時に暗黙的に保存する。 さらに,HTGNが時間的ネットワークをモデル化できる重要なモジュールを2つ提案する。(1) 時間的時間的文脈自己アテンション (HTA) モジュールは歴史的状態に対応し,(2) 時間的安定性と一般化を確保するための双曲的時間的一貫性 (HTC) モジュールである。 複数の実世界のデータセットに対する実験結果は、時間的グラフ埋め込みにおけるHTGNの優位性を示し、様々な時間的リンク予測タスクにおいて競合する手法よりも一貫して優れていた。 具体的には、HTGNはリンク予測で9.98%、新しいリンク予測で11.4%のAUC改善を実現している。 さらに、アブレーション研究は、双曲幾何学の表現能力と提案したHTAおよびHTCモジュールの有効性をさらに検証する。

Representation learning over temporal networks has drawn considerable attention in recent years. Efforts are mainly focused on modeling structural dependencies and temporal evolving regularities in Euclidean space which, however, underestimates the inherent complex and hierarchical properties in many real-world temporal networks, leading to sub-optimal embeddings. To explore these properties of a complex temporal network, we propose a hyperbolic temporal graph network (HTGN) that fully takes advantage of the exponential capacity and hierarchical awareness of hyperbolic geometry. More specially, HTGN maps the temporal graph into hyperbolic space, and incorporates hyperbolic graph neural network and hyperbolic gated recurrent neural network, to capture the evolving behaviors and implicitly preserve hierarchical information simultaneously. Furthermore, in the hyperbolic space, we propose two important modules that enable HTGN to successfully model temporal networks: (1) hyperbolic temporal contextual self-attention (HTA) module to attend to historical states and (2) hyperbolic temporal consistency (HTC) module to ensure stability and generalization. Experimental results on multiple real-world datasets demonstrate the superiority of HTGN for temporal graph embedding, as it consistently outperforms competing methods by significant margins in various temporal link prediction tasks. Specifically, HTGN achieves AUC improvement up to 9.98% for link prediction and 11.4% for new link prediction. Moreover, the ablation study further validates the representational ability of hyperbolic geometry and the effectiveness of the proposed HTA and HTC modules.
翻訳日:2021-07-09 17:27:27 公開日:2021-07-08
# (参考訳) ゲームとしてのフェデレーション学習 [全文訳有]

Federated Learning as a Mean-Field Game ( http://arxiv.org/abs/2107.03770v1 )

ライセンス: CC BY 4.0
Arash Mehrjou(参考訳) 我々は,機械学習の概念であるフェデレート学習と,ゲーム理論と制御理論の概念である平均場ゲームとの関連性を確立する。 このアナロジーでは、ローカルなフェデレーション学習者がプレイヤーと見なされ、中央サーバにおける勾配の集約が平均フィールド効果である。 微分ゲームとしてフェデレート学習を行い,このゲームの平衡の性質について考察する。 フェデレーション学習に対するこの新たな見解は、この2つの異なる分野の研究者を集結させ、大規模分散およびプライバシ保護学習アルゴリズムの根本的な問題に取り組むことを願っている。

We establish a connection between federated learning, a concept from machine learning, and mean-field games, a concept from game theory and control theory. In this analogy, the local federated learners are considered as the players and the aggregation of the gradients in a central server is the mean-field effect. We present federated learning as a differential game and discuss the properties of the equilibrium of this game. We hope this novel view to federated learning brings together researchers from these two distinct areas to work on fundamental problems of large-scale distributed and privacy-preserving learning algorithms.
翻訳日:2021-07-09 17:06:39 公開日:2021-07-08
# (参考訳) 出力ランダム化: ホワイトボックスとブラックボックスの両モデルに対する新しい防御 [全文訳有]

Output Randomization: A Novel Defense for both White-box and Black-box Adversarial Models ( http://arxiv.org/abs/2107.03806v1 )

ライセンス: CC BY 4.0
Daniel Park, Haidar Khan, Azer Khan, Alex Gittens, B\"ulent Yener(参考訳) 敵対的な例は、さまざまなシナリオにおけるディープニューラルネットワークモデルに対する脅威となる。"ホワイトボックス"設定でモデルを完全に理解している設定から、"ブラックボックス"設定でモデルと逆の設定までである。 本稿では,ブラックボックスモデルとホワイトボックスモデルの両方において,攻撃に対する防御として出力ランダム化の利用を検討し,二つの防御を提案する。 第1の弁護では,ブラックボックス設定における有限差分攻撃を回避するために,テスト時の出力ランダム化を提案する。 このタイプの攻撃は、モデルへの繰り返しクエリに依存して勾配を推定するので、そのような敵が逆の例を作成するのをうまく防ぐために、ランダム化の利用について検討する。 我々は、この防御がゼロ次最適化攻撃を用いてブラックボックス敵の成功率を0%に制限できることを実証的に示す。 次に,ホワイトボックス敵に対する防御として,出力ランダム化トレーニングを提案する。 ランダム化を使用する以前のアプローチとは異なり、我々の防御はテスト時にその使用を必要とせず、他のランダム化防御に対して有効であることが示されている後方通過微分可能な近似攻撃を排除する。 さらに、この防御はオーバーヘッドが少なく、容易に実装でき、様々なモデルアーキテクチャで他の防御と併用することができる。 提案手法は,プロジェクテッド・グラディエント・ディキスト・アタックに対する出力ランダム化訓練を評価した結果,クロスエントロピー損失を用いてPGD攻撃の成功率を12%に抑えることができた。

Adversarial examples pose a threat to deep neural network models in a variety of scenarios, from settings where the adversary has complete knowledge of the model in a "white box" setting and to the opposite in a "black box" setting. In this paper, we explore the use of output randomization as a defense against attacks in both the black box and white box models and propose two defenses. In the first defense, we propose output randomization at test time to thwart finite difference attacks in black box settings. Since this type of attack relies on repeated queries to the model to estimate gradients, we investigate the use of randomization to thwart such adversaries from successfully creating adversarial examples. We empirically show that this defense can limit the success rate of a black box adversary using the Zeroth Order Optimization attack to 0%. Secondly, we propose output randomization training as a defense against white box adversaries. Unlike prior approaches that use randomization, our defense does not require its use at test time, eliminating the Backward Pass Differentiable Approximation attack, which was shown to be effective against other randomization defenses. Additionally, this defense has low overhead and is easily implemented, allowing it to be used together with other defenses across various model architectures. We evaluate output randomization training against the Projected Gradient Descent attacker and show that the defense can reduce the PGD attack's success rate down to 12% when using cross-entropy loss.
翻訳日:2021-07-09 16:53:57 公開日:2021-07-08
# (参考訳) 預言分解と木系アンサンブルを用いたギリシャの短期再生可能エネルギー予測 [全文訳有]

Short-term Renewable Energy Forecasting in Greece using Prophet Decomposition and Tree-based Ensembles ( http://arxiv.org/abs/2107.03825v1 )

ライセンス: CC BY 4.0
Argyrios Vartholomaios, Stamatis Karlos, Eleftherios Kouloumpris, Grigorios Tsoumakas(参考訳) 再生可能エネルギーを用いたエネルギー生産は、断続的な性質から固有の不確実性を示す。 それにもかかわらず、欧州統一エネルギー市場は地域エネルギーシステム事業者による再生可能エネルギー源(res)の普及を促進する。 したがって、res予測は、高い信頼性と電力系統の補助運用コストの削減につながるため、これらの揮発性エネルギー源の統合を支援することができる。 本稿では,ギリシャにおける太陽・風力発電予測のための新しいデータセットと,データセットの次元空間を豊かにする機能工学パイプラインを提案する。 また,木ベースのアンサンブルが短期予測を行う前に,エネルギー時系列の分解における様々な非線形傾向を考慮したエンドツーエンド予測ツールである,革新的予言モデルを用いた新しい手法を提案する。 システムの性能は、代表評価指標を用いて測定され、絶対誤差閾値の産業的なスキームの下でモデルの一般化を推定する。 提案したハイブリッドモデルは,ベースラインの永続化モデル,木に基づく回帰アンサンブル,およびProphetモデルと競合する。

Energy production using renewable sources exhibits inherent uncertainties due to their intermittent nature. Nevertheless, the unified European energy market promotes the increasing penetration of renewable energy sources (RES) by the regional energy system operators. Consequently, RES forecasting can assist in the integration of these volatile energy sources, since it leads to higher reliability and reduced ancillary operational costs for power systems. This paper presents a new dataset for solar and wind energy generation forecast in Greece and introduces a feature engineering pipeline that enriches the dimensional space of the dataset. In addition, we propose a novel method that utilizes the innovative Prophet model, an end-to-end forecasting tool that considers several kinds of nonlinear trends in decomposing the energy time series before a tree-based ensemble provides short-term predictions. The performance of the system is measured through representative evaluation metrics, and by estimating the model's generalization under an industryprovided scheme of absolute error thresholds. The proposed hybrid model competes with baseline persistence models, tree-based regression ensembles, and the Prophet model, managing to outperform them, presenting both lower error rates and more favorable error distribution.
翻訳日:2021-07-09 16:34:41 公開日:2021-07-08
# (参考訳) クラウドソーシング遺産データの分類に向けた補助プラグインとしての拡張データ [全文訳有]

Augmented Data as an Auxiliary Plug-in Towards Categorization of Crowdsourced Heritage Data ( http://arxiv.org/abs/2107.03852v1 )

ライセンス: CC BY 4.0
Shashidhar Veerappa Kudari, Akshaykumar Gunari, Adarsh Jamadandi, Ramesh Ashok Tabib, Uma Mudenagudi(参考訳) 本稿では,データ拡張を補助プラグインとして導入することで,非効率クラスタリング性能の問題を緩和する戦略を提案する。 k-平均、ガウス混合モデル、スペクトルクラスタリングといった古典的なクラスタリング技術は多くのデータ駆動アプリケーションの中心である。 しかし、最近、deep embedded clustering(dec)として知られるニューラルネットワークを用いた教師なし機能学習とクラスタリングが注目されている。 Pioneeringは、関連するクラスタリング損失関数を定義し、機能を抽出する適切なニューラルネットワークを選択することに焦点を当てている。 これらすべてのケースにおける中心的な問題は、高いクラス内分散と低いクラス間分散を伴うデータのスパーシティである。 これに向けて,クラスタの密度向上のためにデータ拡張技術を採用し,全体のパフォーマンスを向上させる。 我々は,拡張データを用いた畳み込みオートエンコーダ(cae)の変種を訓練し,その初期特徴空間を深層クラスタリングの新しいモデルとして構築する。 クラウドソーシングされたインド遺産データセットにおける提案戦略の結果を実証する。 大規模な実験は、既存の作業よりも一貫した改善を示している。

In this paper, we propose a strategy to mitigate the problem of inefficient clustering performance by introducing data augmentation as an auxiliary plug-in. Classical clustering techniques such as K-means, Gaussian mixture model and spectral clustering are central to many data-driven applications. However, recently unsupervised simultaneous feature learning and clustering using neural networks also known as Deep Embedded Clustering (DEC) has gained prominence. Pioneering works on deep feature clustering focus on defining relevant clustering loss function and choosing the right neural network for extracting features. A central problem in all these cases is data sparsity accompanied by high intra-class and low inter-class variance, which subsequently leads to poor clustering performance and erroneous candidate assignments. Towards this, we employ data augmentation techniques to improve the density of the clusters, thus improving the overall performance. We train a variant of Convolutional Autoencoder (CAE) with augmented data to construct the initial feature space as a novel model for deep clustering. We demonstrate the results of proposed strategy on crowdsourced Indian Heritage dataset. Extensive experiments show consistent improvements over existing works.
翻訳日:2021-07-09 16:26:43 公開日:2021-07-08
# (参考訳) 産業資産のPHMのための説明可能なAI(XAI:The-The-Art, PRISMA-Compliant Systematic Review)

Explainable AI (XAI) for PHM of Industrial Asset: A State-of-The-Art, PRISMA-Compliant Systematic Review ( http://arxiv.org/abs/2107.03869v1 )

ライセンス: CC BY-SA 4.0
Ahmad Kamal BIN MOHD NOR, Srinivasa Rao PEDAPATI, Masdi MUHAMMAD(参考訳) 産業資産の予後・健康管理(PHM)に適用されたXAIに関する最新の体系的レビューを紹介する。 この研究は、PHMにおけるXAIの一般的な傾向の概要を提供し、正確性と説明可能性の疑問に答え、PHM XAIにおける人的役割の程度、説明可能性の評価、不確実性管理について調査する。 2015年から2021年までのPHM XAIに関連する研究論文は、IEEE Xplore、ScienceDirect、SpringerLink、ACM Digital Library、Scopusデータベースから、PRISMAガイドラインを用いて選択されている。 35項目からデータを抽出し,MS.Excelを用いて検討した。 いくつかの発見が合成された。 第一に、規律はまだ若いが、この分析はPHMドメインにおけるXAIの受容が増加することを示している。 第2に、XAIは二重刃剣として機能し、特に診断や異常検出において、PHMタスクの実行と説明の手段として同化される。 したがって、PHMにはXAIが必要である。 第3に、PHM XAI論文は、一般的に良い結果または優れた結果をもたらすことを示し、PHM性能がXAIの影響を受けないことを示唆している。 第4に、人間の役割、説明可能性指標、不確実性管理はPHMコミュニティのさらなる注意を必要とする領域である。 PHMのニーズを満たすための適切な説明可能性指標が緊急必要である。 最後に、受け入れられた記事に取り上げられたほとんどのケーススタディは、現実に基づいており、利用可能なAIとXAIアプローチが、複雑な現実世界の課題を解決するために装備されていることを示し、業界におけるAIモデルの採用に対する自信を高めている。 この研究は、Universiti Teknologi Petronas Foundationが出資している。

A state-of-the-art systematic review on XAI applied to Prognostic and Health Management (PHM) of industrial asset is presented. The work attempts to provide an overview of the general trend of XAI in PHM, answers the question of accuracy versus explainability, investigates the extent of human role, explainability evaluation and uncertainty management in PHM XAI. Research articles linked to PHM XAI, in English language, from 2015 to 2021 are selected from IEEE Xplore, ScienceDirect, SpringerLink, ACM Digital Library and Scopus databases using PRISMA guidelines. Data was extracted from 35 selected articles and examined using MS. Excel. Several findings were synthesized. Firstly, while the discipline is still young, the analysis indicates the growing acceptance of XAI in PHM domain. Secondly, XAI functions as a double edge sword, where it is assimilated as a tool to execute PHM tasks as well as a mean of explanation, in particular in diagnostic and anomaly detection. There is thus a need for XAI in PHM. Thirdly, the review shows that PHM XAI papers produce either good or excellent results in general, suggesting that PHM performance is unaffected by XAI. Fourthly, human role, explainability metrics and uncertainty management are areas requiring further attention by the PHM community. Adequate explainability metrics to cater for PHM need are urgently needed. Finally, most case study featured on the accepted articles are based on real, indicating that available AI and XAI approaches are equipped to solve complex real-world challenges, increasing the confidence of AI model adoption in the industry. This work is funded by the Universiti Teknologi Petronas Foundation.
翻訳日:2021-07-09 16:19:47 公開日:2021-07-08
# (参考訳) イベントデータから発見されたプロセスモデルのブートストラップ一般化 [全文訳有]

Bootstrapping Generalization of Process Models Discovered From Event Data ( http://arxiv.org/abs/2107.03876v1 )

ライセンス: CC BY 4.0
Artem Polyvyanyy, Alistair Moffat, Luciano Garc\'ia-Ba\~nuelos(参考訳) プロセスマイニングは、ITシステムのイベントログに記録されたプロセス実行から価値を導き出す方法であり、プロセス発見は、未知のシステムによって出力されるイベントログのプロセスモデルを推論するタスクである。 検出されたプロセスモデルの1つの品質基準は一般化である。 一般化は、発見されたモデルがシステムの将来の実行をいかにうまく表現するかを定量化し、おそらくプロセスマイニングにおいて最も理解されていない品質基準である。 理解の欠如は、イベントログ自体が提供する行動の唯一のサンプルである場合、システムの将来の振る舞い全体にわたって特性を計測しようとする一般化の結果である。 本稿では,計算統計学からインスピレーションを得て,サンプルに基づいて集団の特性を推定するブートストラップ手法を提案する。 具体的には、検出したイベントログに基づいてモデル一般化の推定器を定義し、ブートストラップを用いてシステムに関するモデルの一般化とその統計的意義を計測する。 産業環境でのアプローチの実現可能性を示す実験。

Process mining studies ways to derive value from process executions recorded in event logs of IT-systems, with process discovery the task of inferring a process model for an event log emitted by some unknown system. One quality criterion for discovered process models is generalization. Generalization seeks to quantify how well the discovered model describes future executions of the system, and is perhaps the least understood quality criterion in process mining. The lack of understanding is primarily a consequence of generalization seeking to measure properties over the entire future behavior of the system, when the only available sample of behavior is that provided by the event log itself. In this paper, we draw inspiration from computational statistics, and employ a bootstrap approach to estimate properties of a population based on a sample. Specifically, we define an estimator of the model's generalization based on the event log it was discovered from, and then use bootstrapping to measure the generalization of the model with respect to the system, and its statistical significance. Experiments demonstrate the feasibility of the approach in industrial settings.
翻訳日:2021-07-09 16:18:27 公開日:2021-07-08
# (参考訳) CANDLE:タスク指向対話システムにおける条件および接続型クエリの分解 [全文訳有]

CANDLE: Decomposing Conditional and Conjunctive Queries for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2107.03884v1 )

ライセンス: CC BY 4.0
Aadesh Gupta, Kaustubh D.Dhole, Rahul Tarway, Swetha Prabhakar, Ashish Shrivastava(参考訳) ドメイン固有の対話システムは、通常、単一のアクション文を中心にした文レベルの分類器に依存することによって、ユーザ意図を決定する。 このような分類器は、複数のアクションを表す条件付きおよびシーケンシャルな節からなる複雑なクエリを効果的に扱うように設計されていない。 我々は,このようなクエリを,意図的分類器が対話パイプラインで理解できるような,より小さな単一アクションサブクエリに分解しようと試みる。 CANDLE(Conditional & AND type Expressions)は、条件付きラベルとシーケンシャルラベルを手動でタグ付けした3124の発話からなるデータセットで、2つのベースラインタグをトレーニングすることでこの分解を実証する。

Domain-specific dialogue systems generally determine user intents by relying on sentence-level classifiers which mainly focus on single action sentences. Such classifiers are not designed to effectively handle complex queries composed of conditional and sequential clauses that represent multiple actions. We attempt to decompose such queries into smaller single-action sub-queries that are reasonable for intent classifiers to understand in a dialogue pipeline. We release CANDLE (Conditional & AND type Expressions), a dataset consisting of 3124 utterances manually tagged with conditional and sequential labels and demonstrates this decomposition by training two baseline taggers.
翻訳日:2021-07-09 16:01:55 公開日:2021-07-08
# (参考訳) 3次元胸部CT画像によるCovid-19検出のためのハイブリッドディープラーニングフレームワーク [全文訳有]

A hybrid deep learning framework for Covid-19 detection via 3D Chest CT Images ( http://arxiv.org/abs/2107.03904v1 )

ライセンス: CC BY 4.0
Shuang Liang(参考訳) 本稿では,畳み込みニューラルネットワークとトランスフォーマーを組み合わせた3次元胸部CT画像によるCOVID-19検出のためのハイブリッドディープラーニングフレームワークCTNetを提案する。 これは、CTスキャンから十分な特徴を抽出するためにSEが注目するCNN特徴抽出モジュールと、3D CTスキャンの識別特徴をモデル化するトランスフォーマーモデルで構成されている。 従来の研究と比較すると、CTNetは、データ再サンプリング戦略を備えた3D CTスキャンによる新型コロナウイルスの診断を効果的かつ効率的に行う方法を提供している。 大規模かつパブリックなベンチマークによる高度な結果、COV19-CT-DBデータベースは、提案されたCTNetによって達成された。

In this paper, we present a hybrid deep learning framework named CTNet which combines convolutional neural network and transformer together for the detection of COVID-19 via 3D chest CT images. It consists of a CNN feature extractor module with SE attention to extract sufficient features from CT scans, together with a transformer model to model the discriminative features of the 3D CT scans. Compared to previous works, CTNet provides an effective and efficient method to perform COVID-19 diagnosis via 3D CT scans with data resampling strategy. Advanced results on a large and public benchmarks, COV19-CT-DB database was achieved by the proposed CTNet, over the state-of-the-art baseline approachproposed together with the dataset.
翻訳日:2021-07-09 15:53:23 公開日:2021-07-08
# (参考訳) データ中毒による教師なしドメイン適応の限界の理解 [全文訳有]

Understanding the Limits of Unsupervised Domain Adaptation via Data Poisoning ( http://arxiv.org/abs/2107.03919v1 )

ライセンス: CC BY 4.0
Akshay Mehra, Bhavya Kailkhura, Pin-Yu Chen and Jihun Hamm(参考訳) 教師なしドメイン適応(UDA)は、ターゲットと分布が異なるラベル付きソースドメインから知識を転送することで、対象ドメインラベルなしでドメイン間の学習を可能にする。 しかし、UDAは必ずしも成功せず、「負の移動」のいくつかの記述が文献に報告されている。 本研究では,既存の上界を補完する,対象領域の誤差に対する単純な下界の証明を行う。 我々の境界線は、誘導ラベリング関数のミスマッチの増加により、ソースドメインエラーの最小化と、ターゲットドメインエラーの保証された削減に対する限界分布ミスマッチの不足を示す。 この不完全性は、同じUDAアプローチが成功し、失敗し、同じ確率で成功または失敗する単純な分布によってさらに説明される。 そこで本研究では,udaメソッドを騙し,大きなターゲットドメインエラーを発生させる表現を学習する新しいデータ中毒攻撃を提案する。 我々は,これらの攻撃が有望なUDA手法に与える影響をベンチマークデータセットを用いて評価した。 以上の結果から, 被毒領域の精度は有意に低下し, 一部では0\%に低下し, ソース領域に10\%の有毒データのみが付加されることが示唆された。 UDA法の失敗は、下位境界との整合性を保証するためのUDAの限界を示す。 したがって、データ中毒などの敵対的状況下でのUDA手法の評価は、UDAにとって好ましくないシナリオにおけるその堅牢性をよりよく理解することができる。

Unsupervised domain adaptation (UDA) enables cross-domain learning without target domain labels by transferring knowledge from a labeled source domain whose distribution differs from the target. However, UDA is not always successful and several accounts of "negative transfer" have been reported in the literature. In this work, we prove a simple lower bound on the target domain error that complements the existing upper bound. Our bound shows the insufficiency of minimizing source domain error and marginal distribution mismatch for a guaranteed reduction in the target domain error, due to the possible increase of induced labeling function mismatch. This insufficiency is further illustrated through simple distributions for which the same UDA approach succeeds, fails, and may succeed or fail with an equal chance. Motivated from this, we propose novel data poisoning attacks to fool UDA methods into learning representations that produce large target domain errors. We evaluate the effect of these attacks on popular UDA methods using benchmark datasets where they have been previously shown to be successful. Our results show that poisoning can significantly decrease the target domain accuracy, dropping it to almost 0\% in some cases, with the addition of only 10\% poisoned data in the source domain. The failure of UDA methods demonstrates the limitations of UDA at guaranteeing cross-domain generalization consistent with the lower bound. Thus, evaluation of UDA methods in adversarial settings such as data poisoning can provide a better sense of their robustness in scenarios unfavorable for UDA.
翻訳日:2021-07-09 15:47:34 公開日:2021-07-08
# (参考訳) 古典統計学のブリッジングとシミュレーションと不確かさ定量化における機械学習

Likelihood-Free Frequentist Inference: Bridging Classical Statistics and Machine Learning in Simulation and Uncertainty Quantification ( http://arxiv.org/abs/2107.03920v1 )

ライセンス: CC BY 4.0
Niccol\`o Dalmasso, David Zhao, Rafael Izbicki, Ann B. Lee(参考訳) 科学の多くの分野は、複雑なシステムの可能性関数を暗黙的にエンコードするコンピュータシミュレータを広範囲に活用している。 古典的な統計手法は、漸近的および低次元のレギュレーションの外側のいわゆる「可能性のない推論(LFI)」設定にはあまり適していない。 フローの正規化などの新しい機械学習手法は、LFI法のサンプル効率とキャパシティに革命をもたらしたが、信頼性の高い不確実性尺度を作成するかどうかには疑問が残る。 本稿では,古典統計学を現代機械学習と統合するLFIの統計的枠組みについて述べる。(1) パラメータ空間全体にわたる経験的カバレッジを評価するための厳密な診断を行うための,名目的カバレッジ(I型エラー制御)とパワーの有限サンプル保証による頻繁な信頼度セットと仮説テストを構築する。 我々はこの枠組みを「確率自由頻発的推論(lf2i)」と呼んでいる。 可能性比率などのテスト統計を見積もるメソッドは、私たちのフレームワークにプラグインして、強力なテストと信頼性セットを適切なカバレッジで作成できます。 本研究では,パラメータ空間上のオッズ関数の最大値と積分値の2つのテスト統計値(ACOREとBFF)について検討する。 理論的および実証的な結果は、エラー源の多面的視点と、可能性のない頻繁な推論における課題を提供する。

Many areas of science make extensive use of computer simulators that implicitly encode likelihood functions for complex systems. Classical statistical methods are poorly suited for these so-called likelihood-free inference (LFI) settings, outside the asymptotic and low-dimensional regimes. Although new machine learning methods, such as normalizing flows, have revolutionized the sample efficiency and capacity of LFI methods, it remains an open question whether they produce reliable measures of uncertainty. In this paper, we present a statistical framework for LFI that unifies classical statistics with modern machine learning to: (1) construct frequentist confidence sets and hypothesis tests with finite-sample guarantees of nominal coverage (type I error control) and power, and (2) provide rigorous diagnostics for assessing empirical coverage over the entire parameter space. We refer to our framework as likelihood-free frequentist inference (LF2I). Any method that estimates a test statistic, such as the likelihood ratio, can be plugged into our framework to create powerful tests and confidence sets with correct coverage. In this work, we specifically study two test statistics (ACORE and BFF), which, respectively, maximize versus integrate an odds function over the parameter space. Our theoretical and empirical results offer multifaceted perspectives on error sources and challenges in likelihood-free frequentist inference.
翻訳日:2021-07-09 15:21:07 公開日:2021-07-08
# (参考訳) 線形判別学習によるベクトル空間形態 [全文訳有]

Vector Space Morphology with Linear Discriminative Learning ( http://arxiv.org/abs/2107.03950v1 )

ライセンス: CC BY 4.0
Yu-Ying Chuang, Mihi Kang, Xuefeng Luo, R. Harald Baayen(参考訳) 本稿では,線形識別学習(LDL)による語彙処理のモデル化を3つのケーススタディとして,識別的語彙モデル(Baayen et al., 2019)の計算エンジンについて述べる。 ワード形式と意味の数値表現により、LDLは、形態的構造や屈折クラスについて知らされることなく、あるベクトル空間を他方にマッピングすることを学ぶ。 モデル化の結果,LDLは形態学的に複雑な単語の理解や生成に優れるだけでなく,人間の行動データに対して予測可能な定量的尺度を生成することがわかった。 LDLモデルはJudiLingパッケージで簡単に実装できる(Luo et al., 2021)。 韓国語の動詞の屈折の生成と理解、オランダの初歩的な語彙決定の遅延の予測、マンダリン語の音響的持続時間予測の3つのモデル課題について検討した。

This paper presents three case studies of modeling aspects of lexical processing with Linear Discriminative Learning (LDL), the computational engine of the Discriminative Lexicon model (Baayen et al., 2019). With numeric representations of word forms and meanings, LDL learns to map one vector space onto the other, without being informed about any morphological structure or inflectional classes. The modeling results demonstrated that LDL not only performs well for understanding and producing morphologically complex words, but also generates quantitative measures that are predictive for human behavioral data. LDL models are straightforward to implement with the JudiLing package (Luo et al., 2021). Worked examples are provided for three modeling challenges: producing and understanding Korean verb inflection, predicting primed Dutch lexical decision latencies, and predicting the acoustic duration of Mandarin words.
翻訳日:2021-07-09 15:19:48 公開日:2021-07-08
# (参考訳) 階層計画における中間報酬の計算効果

Computational Benefits of Intermediate Rewards for Hierarchical Planning ( http://arxiv.org/abs/2107.03961v1 )

ライセンス: CC BY 4.0
Yuexiang Zhai, Christina Baek, Zhengyuan Zhou, Jiantao Jiao, Yi Ma(参考訳) 多くの階層型強化学習(RL)アプリケーションは、報酬設計に事前知識を取り入れることで収束速度と実用性能が向上することが実証されている。 我々は、中間状態と中間報酬に関する仮定の下で計画的な視点から階層的RLの計算上の利点を定量化しようと試み、実際は頻繁に(しかし、しばしば暗黙的に)採用される。 提案手法は,計算複雑性と階層的計画における最短経路の追求のトレードオフを明らかにする。中間報酬を用いると,計算複雑性が著しく減少するが,最短経路を見つけることは保証されない。 また、Q-learningや他の人気のある深層RLアルゴリズムを用いて、MiniGrid環境に関する広範な実験を行い、理論結果を裏付ける。

Many hierarchical reinforcement learning (RL) applications have empirically verified that incorporating prior knowledge in reward design improves convergence speed and practical performance. We attempt to quantify the computational benefits of hierarchical RL from a planning perspective under assumptions about the intermediate state and intermediate rewards frequently (but often implicitly) adopted in practice. Our approach reveals a trade-off between computational complexity and the pursuit of the shortest path in hierarchical planning: using intermediate rewards significantly reduces the computational complexity in finding a successful policy but does not guarantee to find the shortest path, whereas using sparse terminal rewards finds the shortest path at a significantly higher computational cost. We also corroborate our theoretical results with extensive experiments on the MiniGrid environments using Q-learning and other popular deep RL algorithms.
翻訳日:2021-07-09 14:57:32 公開日:2021-07-08
# (参考訳) 教師付きモデルと学習音声表現を比較して, 障害音声の明瞭度を判断する [全文訳有]

Comparing Supervised Models And Learned Speech Representations For Classifying Intelligibility Of Disordered Speech On Selected Phrases ( http://arxiv.org/abs/2107.03985v1 )

ライセンス: CC BY-SA 4.0
Subhashini Venugopalan, Joel Shor, Manoj Plakal, Jimmy Tobin, Katrin Tomanek, Jordan R. Green, Michael P. Brenner(参考訳) 混乱した音声の自動分類は、音声障害の有無と重症度を特定する客観的ツールを提供することができる。 分類アプローチはまた、難解な音声サンプルを識別し、障害のある音声の変動表現についてASRシステムに教えるのに役立つ。 そこで本研究では,異なる深層学習手法を開発・比較し,不規則な音声を選択語句に分類する。 言語病理学者が5点のLikert尺度を用いた総合的理解度で評価した,29の単語やフレーズを多種多様な自己申告障害を持つ661人の話者のサンプルを収集した。 次に,(1)タスク用に訓練された畳み込みニューラルネットワーク(cnn),(2)教師なし目的のcnnからの非意味的音声表現を訓練した分類器[1],(3)典型的な音声認識で訓練されたasrシステムから音響(エンコーダ)埋め込みを訓練した分類器[2]という3つのアプローチを用いて,分類器を評価した。 ASRエンコーダの埋め込みは、混乱した音声の検出と分類において、他の2つよりもかなり優れていた。 さらに分析した結果,ASRは音声フレーズによるクラスタ音声を埋め込み,非意味な埋め込みは話者によるクラスタ音声を埋め込むことがわかった。 また、長いフレーズは単一の単語よりも知性不足を示す。

Automatic classification of disordered speech can provide an objective tool for identifying the presence and severity of speech impairment. Classification approaches can also help identify hard-to-recognize speech samples to teach ASR systems about the variable manifestations of impaired speech. Here, we develop and compare different deep learning techniques to classify the intelligibility of disordered speech on selected phrases. We collected samples from a diverse set of 661 speakers with a variety of self-reported disorders speaking 29 words or phrases, which were rated by speech-language pathologists for their overall intelligibility using a five-point Likert scale. We then evaluated classifiers developed using 3 approaches: (1) a convolutional neural network (CNN) trained for the task, (2) classifiers trained on non-semantic speech representations from CNNs that used an unsupervised objective [1], and (3) classifiers trained on the acoustic (encoder) embeddings from an ASR system trained on typical speech [2]. We found that the ASR encoder's embeddings considerably outperform the other two on detecting and classifying disordered speech. Further analysis shows that the ASR embeddings cluster speech by the spoken phrase, while the non-semantic embeddings cluster speech by speaker. Also, longer phrases are more indicative of intelligibility deficits than single words.
翻訳日:2021-07-09 14:56:29 公開日:2021-07-08
# (参考訳) クロスモーダルトランスフォーマーを用いた学習視覚誘導四足歩行終端運動 [全文訳有]

Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers ( http://arxiv.org/abs/2107.03996v1 )

ライセンス: CC BY 4.0
Ruihan Yang, Minghao Zhang, Nicklas Hansen, Huazhe Xu, Xiaolong Wang(参考訳) 本研究では,高次元深度センサ入力と固有情報を組み合わせたトランスフォーマティブモデルを用いた強化学習(rl)を用いて,四足歩行課題に対処することを提案する。 学習に基づく移動はRLを使用して大きな進歩を遂げてきたが、ほとんどの手法は、挑戦的な地形に一般化するブラインドエージェントの訓練にドメインランダム化に依存している。 我々の重要な洞察は、プロセプティヴな状態は即時反応のための接触測定のみを提供するのに対し、視覚的な感覚観察を備えたエージェントは、環境の変化を予測して障害物や不均一な地形で積極的に環境を操ることを学ぶことができるということです。 本稿では,四足歩行のためのエンドツーエンドrl法であるlocotransformerについて紹介する。 異なる障害物と不均一な地形を有するシミュレート環境において,提案手法を評価する。 提案手法は,プロプリセプティブな状態入力のみによるポリシーよりも大幅に改善され,トランスフォーマーベースモデルにより環境全体の一般化がさらに向上することを示す。 ビデオ付きプロジェクトページはhttps://rchalyang.gi thub.io/locotransfor mer.com/。

We propose to address quadrupedal locomotion tasks using Reinforcement Learning (RL) with a Transformer-based model that learns to combine proprioceptive information and high-dimensional depth sensor inputs. While learning-based locomotion has made great advances using RL, most methods still rely on domain randomization for training blind agents that generalize to challenging terrains. Our key insight is that proprioceptive states only offer contact measurements for immediate reaction, whereas an agent equipped with visual sensory observations can learn to proactively maneuver environments with obstacles and uneven terrain by anticipating changes in the environment many steps ahead. In this paper, we introduce LocoTransformer, an end-to-end RL method for quadrupedal locomotion that leverages a Transformer-based model for fusing proprioceptive states and visual observations. We evaluate our method in challenging simulated environments with different obstacles and uneven terrain. We show that our method obtains significant improvements over policies with only proprioceptive state inputs, and that Transformer-based models further improve generalization across environments. Our project page with videos is at https://RchalYang.gi thub.io/LocoTransfor mer .
翻訳日:2021-07-09 14:42:12 公開日:2021-07-08
# (参考訳) 観察によるインスピレーション:自動生成テキストが創造的文章に与える影響の実証 [全文訳有]

Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing ( http://arxiv.org/abs/2107.04007v1 )

ライセンス: CC BY 4.0
Melissa Roemmele(参考訳) 機械に創造的と見なされるテキストを生成することが、長年の目標だ。 研究の活発化は、この目標を人間作家の創造的な執筆能力の増強に向けている。 本稿では,自動生成テキストの観察が文章にどのような影響を及ぼすかを分析することにより,この目的を追求する。 具体的には、単語のリストを完全な文に変換することを含む、文インフィルングと呼ばれるタスクについて検討する。 我々は、「保存性」を、読者が好むであろう物語を暗示する「保存性」文が、結果として得られる文の望ましい特徴として強調する。 人間と(ニューラルネットワークモデルに基づく)自動化システムの両方が、この文入力タスクを実行した。 ある設定では、人々は自分で文章を書き、別の設定では、自分の文章を書きながらモデルが生成した文章を観察した。 読み手は次に評価した文に保存可能性の好みを割り当てる。 著者が生成した例を観察すると,人間による文章はより保存性が高いと判断され,著者が実例からより意味的な内容を引き出すにつれて保存性は増大した。 この結果は、人間とコンピュータが協調して書く「観察によるインスパイア」パラダイムの証拠となり、テキスト生成モデルによって、出力を直接コピーすることなく、人間の文章が強化される。

Getting machines to generate text perceived as creative is a long-pursued goal. A growing body of research directs this goal towards augmenting the creative writing abilities of human authors. In this paper, we pursue this objective by analyzing how observing examples of automatically generated text influences writing. In particular, we examine a task referred to as sentence infilling, which involves transforming a list of words into a complete sentence. We emphasize "storiability" as a desirable feature of the resulting sentences, where "storiable" sentences are those that suggest a story a reader would be curious to hear about. Both humans and an automated system (based on a neural language model) performed this sentence infilling task. In one setting, people wrote sentences on their own; in a different setting, people observed the sentences produced by the model while writing their own sentences. Readers then assigned storiability preferences to the resulting sentences in a subsequent evaluation. We find that human-authored sentences were judged as more storiable when authors observed the generated examples, and that storiability increased as authors derived more semantic content from the examples. This result gives evidence of an "inspiration through observation" paradigm for human-computer collaborative writing, through which human writing can be enhanced by text generation models without directly copying their output.
翻訳日:2021-07-09 14:20:09 公開日:2021-07-08
# バングラ自然言語処理タスクのレビューと変圧器モデルの有用性

A Review of Bangla Natural Language Processing Tasks and the Utility of Transformer Models ( http://arxiv.org/abs/2107.03844v1 )

ライセンス: Link先を確認
Firoj Alam, Arid Hasan, Tanvir Alam, Akib Khan, Janntatul Tajrin, Naira Khan, Shammur Absar Chowdhury(参考訳) Banglaは世界で6番目に広く話されている言語(https://www.ethnolo gue.com/guides/ethno logue200)であり、2億3000万人のネイティブスピーカーを持つ。 30年にわたる研究を経て、Bangla NLP(BNLP)は、主に資源不足とそれに伴う課題のために、まだ遅れを取っている。 BNLPのさまざまな領域に疎結合な研究があるが、以前の研究や最近の進歩を報告する詳細な調査はまだ行われていない。 本研究は,まずバングラ・nlpのタスク,リソース,ツールのレビューを行い,現状のアルゴリズム(トランスフォーマーベースモデル)を用いて,様々なプラットフォームから収集したデータセットを9つのnlpタスク向けにベンチマークする。 異なる大きさの単言語モデルと多言語モデルを比較することで,NLPタスクの比較結果を提供する。 個人と統合されたデータセットを用いてその結果を報告し、今後の研究にデータ分割を提供する。 我々は合計108の論文をレビューし、175の実験を行った。 本結果は,計算コストとのトレードオフを強調しつつ,トランスフォーマーモデルを用いた有望な性能を示す。 このような包括的調査がコミュニティを活性化させ、バングラNLPの研究をさらに前進させることを期待している。

Bangla -- ranked as the 6th most widely spoken language across the world (https://www.ethnolo gue.com/guides/ethno logue200), with 230 million native speakers -- is still considered as a low-resource language in the natural language processing (NLP) community. With three decades of research, Bangla NLP (BNLP) is still lagging behind mainly due to the scarcity of resources and the challenges that come with it. There is sparse work in different areas of BNLP; however, a thorough survey reporting previous work and recent advances is yet to be done. In this study, we first provide a review of Bangla NLP tasks, resources, and tools available to the research community; we benchmark datasets collected from various platforms for nine NLP tasks using current state-of-the-art algorithms (i.e., transformer-based models). We provide comparative results for the studied NLP tasks by comparing monolingual vs. multilingual models of varying sizes. We report our results using both individual and consolidated datasets and provide data splits for future research. We reviewed a total of 108 papers and conducted 175 sets of experiments. Our results show promising performance using transformer-based models while highlighting the trade-off with computational costs. We hope that such a comprehensive survey will motivate the community to build on and further advance the research on Bangla NLP.
翻訳日:2021-07-09 13:50:46 公開日:2021-07-08
# 確率保証付き軽量カーテンを用いた能動安全封筒

Active Safety Envelopes using Light Curtains with Probabilistic Guarantees ( http://arxiv.org/abs/2107.04000v1 )

ライセンス: Link先を確認
Siddharth Ancha, Gaurav Pathak, Srinivasa G. Narasimhan, David Held(参考訳) 未知の環境を安全にナビゲートするには、ロボットは動的障害物を正確に認識する必要がある。 LiDARセンサーでシーンの奥行きを直接測定する代わりに、より安価で高解像度のセンサー、プログラマブルなライトカーテンを使っています。 光カーテンは、ユーザーが選択した表面に沿ってのみ感知する、制御可能な深度センサーである。 ライトカーテンを使ってシーンの安全エンベロープを推定します。ロボットをすべての障害物から切り離す仮想的な表面です。 ランダムな場所(特定の分布から)を感知する光カーテンを生成することで、未知の物体を含むシーンの安全エンベロープを素早く発見できることを示す。 重要となるのは,ランダムカーテンを用いた障害物検出の可能性に関する理論的安全性の保証である。 ランダムカーテンと機械学習に基づくモデルを組み合わせて、安全封筒の動きを効率的に予測し追跡する。 本手法は,ロボット認識システムの有効性を証明し,動的障害物を検出し回避するための確率論的安全保証を提供しながら,安全封筒を正確に推定する。 本研究は,軽カーテンを用いた移動歩行者による都市走行環境と実環境のシミュレーションによるアプローチを評価し,安全エンベロープを効率的かつ効果的に推定できることを示す。 プロジェクトwebサイト: https://siddancha.gi thub.io/projects/act ive-safety-envelopes -with-guarantees

To safely navigate unknown environments, robots must accurately perceive dynamic obstacles. Instead of directly measuring the scene depth with a LiDAR sensor, we explore the use of a much cheaper and higher resolution sensor: programmable light curtains. Light curtains are controllable depth sensors that sense only along a surface that a user selects. We use light curtains to estimate the safety envelope of a scene: a hypothetical surface that separates the robot from all obstacles. We show that generating light curtains that sense random locations (from a particular distribution) can quickly discover the safety envelope for scenes with unknown objects. Importantly, we produce theoretical safety guarantees on the probability of detecting an obstacle using random curtains. We combine random curtains with a machine learning based model that forecasts and tracks the motion of the safety envelope efficiently. Our method accurately estimates safety envelopes while providing probabilistic safety guarantees that can be used to certify the efficacy of a robot perception system to detect and avoid dynamic obstacles. We evaluate our approach in a simulated urban driving environment and a real-world environment with moving pedestrians using a light curtain device and show that we can estimate safety envelopes efficiently and effectively. Project website: https://siddancha.gi thub.io/projects/act ive-safety-envelopes -with-guarantees
翻訳日:2021-07-09 13:50:21 公開日:2021-07-08
# 3次元物体検出のためのマルチモダリティタスクカスケード

Multi-Modality Task Cascade for 3D Object Detection ( http://arxiv.org/abs/2107.04013v1 )

ライセンス: Link先を確認
Jinhyung Park, Xinshuo Weng, Yunze Man, Kris Kitani(参考訳) ポイントクラウドとRGBイメージは自然に3D視覚的理解のための相補的なモダリティであり、前者は粗いが正確なオブジェクト上のポイントの位置を提供し、後者は濃密な色とテクスチャ情報を含んでいる。 近接センサー融合の可能性にもかかわらず、多くの方法は2つのモデルを分離して訓練し、3dセンサーデータを表現するために単純な特徴結合を使用する。 この分離されたトレーニングスキームは、潜在的に準最適性能をもたらし、3Dタスクが単独で有用な2Dタスクの恩恵を受けるのを防ぐ。 より統合的なアプローチとして、3dボックスの提案を利用して2dセグメンテーション予測を改善し、3dボックスをさらに洗練するために使用する、新しいマルチモダリティタスクカスケードネットワーク(mtc-rcnn)を提案する。 3dモジュールの2段階間の2dネットワークを含めると、2dと3dの両方のタスクパフォーマンスが大幅に向上する。 さらに,2次元モジュールが過剰な2次元予測を過剰に反映することを防止するため,2次元モジュールが不完全な2次元分割予測を解釈することを可能にする,デュアルヘッド2次元セグメンテーショントレーニングと推論スキームを提案する。 挑戦的なSUN RGB-Dデータセット上でのモデルを評価することにより、単一モダリティと融合ネットワークの最先端の結果を大きなマージン(\textbf{+3.8}$ mAP@0.5)で改善する。 コードは $\href{https://github.com/D ivadi/MTC_RCNN}{\text{here.com でリリースされる。 }}$

Point clouds and RGB images are naturally complementary modalities for 3D visual understanding - the former provides sparse but accurate locations of points on objects, while the latter contains dense color and texture information. Despite this potential for close sensor fusion, many methods train two models in isolation and use simple feature concatenation to represent 3D sensor data. This separated training scheme results in potentially sub-optimal performance and prevents 3D tasks from being used to benefit 2D tasks that are often useful on their own. To provide a more integrated approach, we propose a novel Multi-Modality Task Cascade network (MTC-RCNN) that leverages 3D box proposals to improve 2D segmentation predictions, which are then used to further refine the 3D boxes. We show that including a 2D network between two stages of 3D modules significantly improves both 2D and 3D task performance. Moreover, to prevent the 3D module from over-relying on the overfitted 2D predictions, we propose a dual-head 2D segmentation training and inference scheme, allowing the 2nd 3D module to learn to interpret imperfect 2D segmentation predictions. Evaluating our model on the challenging SUN RGB-D dataset, we improve upon state-of-the-art results of both single modality and fusion networks by a large margin ($\textbf{+3.8}$ mAP@0.5). Code will be released $\href{https://github.com/D ivadi/MTC_RCNN}{\text{here.}}$
翻訳日:2021-07-09 13:49:59 公開日:2021-07-08
# RMA:ラジコンロボットの高速モータ適応

RMA: Rapid Motor Adaptation for Legged Robots ( http://arxiv.org/abs/2107.04034v1 )

ライセンス: Link先を確認
Ashish Kumar, Zipeng Fu, Deepak Pathak, Jitendra Malik(参考訳) 実世界のロボットの展開に成功すれば、地形の変更、ペイロードの変更、摩耗、ひび割れといった、目に見えないシナリオにリアルタイムで適応する必要がある。 本稿では,四足歩行ロボットにおけるリアルタイムオンライン適応の課題を解決するために,RMAアルゴリズムを提案する。 RMAは基本ポリシーと適応モジュールの2つのコンポーネントから構成される。 これらの部品の組み合わせにより、ロボットは1秒の分数で新しい状況に適応できる。 RMAは、参照軌跡や事前に定義された足跡発生器のようなドメイン知識を使わずに、完全にシミュレーションで訓練され、微調整なしでA1ロボットに展開される。 バイオエネルギクスに触発された報奨を用いてrmaを多種多様な地形発生器に訓練し, 草原, 長植生, コンクリート, 小石, 階段, 砂などの環境において, 岩盤, すべり, 変形可能な表面上に配置した。 RMAは、様々な現実世界にわたる最先端のパフォーマンスとシミュレーション実験を示す。 https://ashish-kmr.g ithub.io/rma-legged- robots/

Successful real-world deployment of legged robots would require them to adapt in real-time to unseen scenarios like changing terrains, changing payloads, wear and tear. This paper presents Rapid Motor Adaptation (RMA) algorithm to solve this problem of real-time online adaptation in quadruped robots. RMA consists of two components: a base policy and an adaptation module. The combination of these components enables the robot to adapt to novel situations in fractions of a second. RMA is trained completely in simulation without using any domain knowledge like reference trajectories or predefined foot trajectory generators and is deployed on the A1 robot without any fine-tuning. We train RMA on a varied terrain generator using bioenergetics-inspir ed rewards and deploy it on a variety of difficult terrains including rocky, slippery, deformable surfaces in environments with grass, long vegetation, concrete, pebbles, stairs, sand, etc. RMA shows state-of-the-art performance across diverse real-world as well as simulation experiments. Video results at https://ashish-kmr.g ithub.io/rma-legged- robots/
翻訳日:2021-07-09 13:49:27 公開日:2021-07-08
# ディープリーニングに基づくハルース渦角推定のためのデータセットと手法

A Dataset and Method for Hallux Valgus Angle Estimation Based on Deep Learing ( http://arxiv.org/abs/2107.03640v1 )

ライセンス: Link先を確認
Ningyuan Xu, Jiayan Zhuang, Yaojun Wu, Jiangjian Xiao(参考訳) 角の測定は、一般的な前足変形である hallux valgus (hv) の共鳴治療に必須である。 しかし、まだ手動のラベリングと測定に依存しており、時間がかかり、時には信頼できないこともある。 このプロセスを自動化することは懸念事項です。 しかし,この分野では,ポーズ推定に大きな成功をおさめたデータセットやキーポイントベース手法の欠如が適さないため,データセットを作成し,深層学習と線形回帰に基づくアルゴリズムを開発した。 地上の真実にぴったり合う能力を示している。

Angular measurements is essential to make a resonable treatment for Hallux valgus (HV), a common forefoot deformity. However, it still depends on manual labeling and measurement, which is time-consuming and sometimes unreliable. Automating this process is a thing of concern. However, it lack of dataset and the keypoints based method which made a great success in pose estimation is not suitable for this field.To solve the problems, we made a dataset and developed an algorithm based on deep learning and linear regression. It shows great fitting ability to the ground truth.
翻訳日:2021-07-09 13:48:52 公開日:2021-07-08
# ゼロショットディープラーニングを用いた画像分類のためのソーシャルネットワークにおける視覚特徴とテキスト特徴の関係

Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning ( http://arxiv.org/abs/2107.03751v1 )

ライセンス: Link先を確認
Luis Lucas and David Tomas and Jose Garcia-Rodriguez(参考訳) 教師なし機械学習に関連する主な課題の1つは、大規模なデータセットから有用な情報を処理し抽出するコストである。 本研究では,ソーシャルメディアからのマルチモーダル環境(画像とテキスト)におけるCLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。 そこで我々はinstany100kデータセットを用いてサンプリング手法に基づく検証手法を提案した。 本実験は,Placesデータセットのラベルによる画像分類タスクに基づいて,まず視覚的部分のみを考慮し,関連するテキストを補助として追加することにより実施する。 結果は、CLIPのような訓練されたニューラルネットワークを微調整の少ない画像分類に適用できることを示し、画像に関連付けられたテキストを考慮することで、目標に応じて精度を向上させることができることを示した。 その結果、有望な研究の方向性が示された。

One of the main issues related to unsupervised machine learning is the cost of processing and extracting useful information from large datasets. In this work, we propose a classifier ensemble based on the transferable learning capabilities of the CLIP neural network architecture in multimodal environments (image and text) from social media. For this purpose, we used the InstaNY100K dataset and proposed a validation approach based on sampling techniques. Our experiments, based on image classification tasks according to the labels of the Places dataset, are performed by first considering only the visual part, and then adding the associated texts as support. The results obtained demonstrated that trained neural networks such as CLIP can be successfully applied to image classification with little fine-tuning, and considering the associated texts to the images can help to improve the accuracy depending on the goal. The results demonstrated what seems to be a promising research direction.
翻訳日:2021-07-09 13:48:42 公開日:2021-07-08
# チャットボットのインタラクションにおけるプライバシーの懸念 - 信頼すべき時と心配すべき時

Privacy Concerns in Chatbot Interactions: When to Trust and When to Worry ( http://arxiv.org/abs/2107.03959v1 )

ライセンス: Link先を確認
Rahime Belen Saglam and Jason R.C. Nurse and Duncan Hodges(参考訳) 会話能力の進歩を通じて、チャットボットは様々な機密情報を要求し、処理し始めた。 センシティブな情報の正確な開示は、医療や金融分野のユーザーにアドバイスやサポートを提供するために使用される場合に不可欠である。 本研究では,チャットボットプロバイダによるセンシティブなデータの利用に関連する要因に関するユーザの懸念について検討する。 英国国民491人の代表例を調査した。 以上の結果から,ユーザの関心は個人情報の削除とデータの不適切な使用に対する懸念に焦点が当てられている。 また、会話エージェントと会話した後、個人がデータのコントロールを失うことを懸念していることも確認した。 性別や教育による影響は認められなかったが,45歳以上は45歳未満以上の者に比べて,年齢による影響は認められなかった。 また、チャットボットを信頼する要因も検討した。 回答者の主な焦点はチャットボットの技術要素であり、応答品質などの要因が最も重要な要因であると認識されている。 利用者の性別や教育水準からは影響は認められなかったが,社会的要因(例えば,)について検討した。 アバターや「友情」と認識された45歳未満の人は これを45歳以上より 重要だと評価しました 本稿は、幅広いユーザをサポートする包括的デジタルシステムの設計の文脈におけるこれらの結果に関する議論から締めくくっている。

Through advances in their conversational abilities, chatbots have started to request and process an increasing variety of sensitive personal information. The accurate disclosure of sensitive information is essential where it is used to provide advice and support to users in the healthcare and finance sectors. In this study, we explore users' concerns regarding factors associated with the use of sensitive data by chatbot providers. We surveyed a representative sample of 491 British citizens. Our results show that the user concerns focus on deleting personal information and concerns about their data's inappropriate use. We also identified that individuals were concerned about losing control over their data after a conversation with conversational agents. We found no effect from a user's gender or education but did find an effect from the user's age, with those over 45 being more concerned than those under 45. We also considered the factors that engender trust in a chatbot. Our respondents' primary focus was on the chatbot's technical elements, with factors such as the response quality being identified as the most critical factor. We again found no effect from the user's gender or education level; however, when we considered some social factors (e.g. avatars or perceived 'friendliness'), we found those under 45 years old rated these as more important than those over 45. The paper concludes with a discussion of these results within the context of designing inclusive, digital systems that support a wide range of users.
翻訳日:2021-07-09 13:48:29 公開日:2021-07-08
# 不均衡時系列異常診断のための四重項深度学習モデル

Quadruplet Deep Metric Learning Model for Imbalanced Time-series Fault Diagnosis ( http://arxiv.org/abs/2107.03786v1 )

ライセンス: Link先を確認
Xingtai Gui, Jiyang Zhang(参考訳) 近年,データ駆動型・深層学習に基づく知能診断法は,魅力的かつ有意義な分野である。 しかし,実際の適用シナリオでは,時系列欠陥の不均衡は解決すべき緊急の問題である。 本稿では,ベイズ確率の観点から,クラス間距離とクラス内分布を調整し,不均衡分類の性能を向上させる方法について分析し,深部メトリック学習に基づく時系列的故障診断モデルを提案する。 ディープメトリック学習のコアとして、従来のディープメトリック学習に関連して、不均衡クラスを考慮した新しい四重項データペア設計を提案する。 このようなデータペアに基づいて,クラス間距離とクラス内データ分布を考慮した4重項損失関数を提案し,不均衡なサンプルペアに特に注意を払う。 四重項損失とソフトマックス損失関数の合理的な組み合わせは、不均衡の影響を減らすことができる。 2つのオープンデータセットの実験を行い、モデルの有効性と堅牢性を検証する。 実験の結果,本手法は不均衡分類の性能を効果的に向上できることがわかった。

Intelligent diagnosis method based on data-driven and deep learning is an attractive and meaningful field in recent years. However, in practical application scenarios, the imbalance of time-series fault is an urgent problem to be solved. From the perspective of Bayesian probability, this paper analyzes how to improve the performance of imbalanced classification by adjusting the distance between classes and the distribution within a class and proposes a time-series fault diagnosis model based on deep metric learning. As a core of deep metric learning, a novel quadruplet data pair design considering imbalance class is proposed with reference to traditional deep metric learning. Based on such data pair, this paper proposes a quadruplet loss function which takes into account the inter-class distance and the intra-class data distribution, and pays special attention to imbalanced sample pairs. The reasonable combination of quadruplet loss and softmax loss function can reduce the impact of imbalance. Experiments on two open datasets are carried out to verify the effectiveness and robustness of the model. Experimental results show that the proposed method can effectively improve the performance of imbalanced classification.
翻訳日:2021-07-09 13:48:08 公開日:2021-07-08
# 観察予測による模倣

Imitation by Predicting Observations ( http://arxiv.org/abs/2107.03851v1 )

ライセンス: Link先を確認
Andrew Jaegle, Yury Sulsky, Arun Ahuja, Jake Bruce, Rob Fergus, Greg Wayne(参考訳) 模倣学習は、エージェントが他人の厳しい専門知識を再利用し、適応することを可能にし、学習行動におけるいくつかの重要な課題に対する解決策を提供する。 現実世界での行動は容易に観察できるが、根底にある行動はアクセスできないかもしれない。 本研究は, 連続制御課題に挑戦する専門家に匹敵する性能を達成しつつ, 課題とは無関係な観察の存在に頑健さを呈する観察のみを模倣する新しい手法を提案する。 提案手法は,「未来観測リワードモデル(Future Observation Reward Model)」とよばれる,逆RLの目的から派生した手法であり,基礎的な真理的な行動を必要としない,専門家の観察を生成モデルとして学習した専門家の行動モデルを用いて模倣する。 本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示した。

Imitation learning enables agents to reuse and adapt the hard-won expertise of others, offering a solution to several key challenges in learning behavior. Although it is easy to observe behavior in the real-world, the underlying actions may not be accessible. We present a new method for imitation solely from observations that achieves comparable performance to experts on challenging continuous control tasks while also exhibiting robustness in the presence of observations unrelated to the task. Our method, which we call FORM (for "Future Observation Reward Model") is derived from an inverse RL objective and imitates using a model of expert behavior learned by generative modelling of the expert's observations, without needing ground truth actions. We show that FORM performs comparably to a strong baseline IRL method (GAIL) on the DeepMind Control Suite benchmark, while outperforming GAIL in the presence of task-irrelevant features.
翻訳日:2021-07-09 13:47:53 公開日:2021-07-08
# 判別器から見たGANの一般化誤差

Generalization Error of GAN from the Discriminator's Perspective ( http://arxiv.org/abs/2107.03633v1 )

ライセンス: Link先を確認
Hongkang Yang and Weinan E(参考訳) GAN(Generative Adversarial Network)は高次元分布を学習するためのよく知られたモデルであるが、その一般化能力のメカニズムは理解されていない。 特に、GANは記憶現象、つまり経験的分布への最終的な収束に弱い。 我々は,ジェネレータを密度に置き換えた単純化されたGANモデルを考察し,判別器が一般化にどのように貢献するかを分析する。 早めに止まると、ワッサーシュタイン計量によって測定された一般化誤差が次元性の呪いから逃れることが示されるが、長期的には記憶は避けられない。 また,WGANの学習結果の難しさも示す。

The generative adversarial network (GAN) is a well-known model for learning high-dimensional distributions, but the mechanism for its generalization ability is not understood. In particular, GAN is vulnerable to the memorization phenomenon, the eventual convergence to the empirical distribution. We consider a simplified GAN model with the generator replaced by a density, and analyze how the discriminator contributes to generalization. We show that with early stopping, the generalization error measured by Wasserstein metric escapes from the curse of dimensionality, despite that in the long term, memorization is inevitable. In addition, we present a hardness of learning result for WGAN.
翻訳日:2021-07-09 13:46:52 公開日:2021-07-08
# SSSE: トレーニングされた機械学習モデルからサンプルを効率的に消去する

SSSE: Efficiently Erasing Samples from Trained Machine Learning Models ( http://arxiv.org/abs/2107.03860v1 )

ライセンス: Link先を確認
Alexandra Peste, Dan Alistarh, Christoph H. Lampert(参考訳) 大量のユーザ提供データの提供は、多くの実世界のタスクにおいて機械学習の成功の鍵となった。 近年,ユーザに対して,データの使用方法をもっとコントロールすべきという意識が高まっている。 特に、ユーザーは、機械学習システムのトレーニングに自分のデータの使用を禁止し、すでに訓練されたシステムから消去する権利を持つべきである。 いくつかのサンプル消去法が提案されているが、いずれも欠点があり、普及を妨げている。 ほとんどのメソッドは、非常に特定のモデルのファミリーにのみ適用されるか、オリジナルのモデルの正確さを犠牲にしすぎているか、あるいは禁止されたメモリや計算上の要求がある。 本稿では,幅広い機械学習モデルに適用可能なサンプル消去のための効率的かつ効率的なアルゴリズムであるssseを提案する。 モデルのロスランドスケープの2次解析から、元のトレーニングセットではなく、消去されるデータへのアクセスのみを必要とするモデルパラメータのクローズドフォーム更新ステップを導出します。 CelebFaces属性(CelebA)、Attributes 2(AwA2)、CIFAR10(CIFAR10)の3つのデータセットの実験では、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングするための最適な、しかし実用的でない金の標準と同様に、サンプルをほとんど消去することができる。

The availability of large amounts of user-provided data has been key to the success of machine learning for many real-world tasks. Recently, an increasing awareness has emerged that users should be given more control about how their data is used. In particular, users should have the right to prohibit the use of their data for training machine learning systems, and to have it erased from already trained systems. While several sample erasure methods have been proposed, all of them have drawbacks which have prevented them from gaining widespread adoption. Most methods are either only applicable to very specific families of models, sacrifice too much of the original model's accuracy, or they have prohibitive memory or computational requirements. In this paper, we propose an efficient and effective algorithm, SSSE, for samples erasure, that is applicable to a wide class of machine learning models. From a second-order analysis of the model's loss landscape we derive a closed-form update step of the model parameters that only requires access to the data to be erased, not to the original training set. Experiments on three datasets, CelebFaces attributes (CelebA), Animals with Attributes 2 (AwA2) and CIFAR10, show that in certain cases SSSE can erase samples almost as well as the optimal, yet impractical, gold standard of training a new model from scratch with only the permitted data.
翻訳日:2021-07-09 13:46:42 公開日:2021-07-08
# データ解析におけるマニフォールド仮説:二重幾何学的確率論的手法によるマニフォールド次元推定

Manifold Hypothesis in Data Analysis: Double Geometrically-Probab ilistic Approach to Manifold Dimension Estimation ( http://arxiv.org/abs/2107.03903v1 )

ライセンス: Link先を確認
Alexander Ivanov, Gleb Nosovskiy, Alexey Chekunov, Denis Fedoseev, Vladislav Kibkalo, Mikhail Nikulin, Fedor Popelenskiy, Stepan Komkov, Ivan Mazurenko, Aleksandr Petiushko(参考訳) 多様体仮説では、高次元空間のデータポイントは実際には、より低い次元の多様体の近くに存在する。 多くの場合、この仮説は実証的に検証され、教師なし学習と半教師なし学習の強化に使われる。 ここでは、多様体仮説チェックと基礎となる多様体次元推定に対する新しいアプローチを提案する。 1つの幾何学的手法ともう1つの確率論的手法を同時に使い、それらが同じ結果を与えるかどうかを確認します。 我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。 確率的手法は新しい。 近距離を標準としているが、このような状況で使用されていた方法とは異なる。 この手法は堅牢で高速で、特別な予備データ変換を含む。 実データセットに関する実験では、2つの手法の組み合わせに基づく提案手法が強力かつ効果的であることが示されている。

Manifold hypothesis states that data points in high-dimensional space actually lie in close vicinity of a manifold of much lower dimension. In many cases this hypothesis was empirically verified and used to enhance unsupervised and semi-supervised learning. Here we present new approach to manifold hypothesis checking and underlying manifold dimension estimation. In order to do it we use two very different methods simultaneously - one geometric, another probabilistic - and check whether they give the same result. Our geometrical method is a modification for sparse data of a well-known box-counting algorithm for Minkowski dimension calculation. The probabilistic method is new. Although it exploits standard nearest neighborhood distance, it is different from methods which were previously used in such situations. This method is robust, fast and includes special preliminary data transformation. Experiments on real datasets show that the suggested approach based on two methods combination is powerful and effective.
翻訳日:2021-07-09 13:46:18 公開日:2021-07-08
# 顔認識モデルの解像度感受性

Image Resolution Susceptibility of Face Recognition Models ( http://arxiv.org/abs/2107.03769v1 )

ライセンス: Link先を確認
Martin Knoche, Stefan H\"ormann, Gerhard Rigoll(参考訳) 顔認識のアプローチは、2つの画像の検証に同じ解像度に依存することが多い。 しかし、現実的な応用では、これらの画像解像度は、通常、異なる画像キャプチャ機構やソースのため、同じ範囲にない。 本研究では,画像解像度が顔認証性能に与える影響を,最先端の顔認識モデルを用いて解析する。 画像は合成的に$5\, \times 5\, \mathrm{px}$ に減少し、検証性能は$99.23\%$から$5.5\%$に低下する。 特に、クロスレゾリューション画像対(1つの高解像度画像と1つの低解像度画像)では、検証精度はさらに低下する。 2-imageテストペアごとに特徴距離を調べることにより,この挙動をより深く調査する。 この問題に対処するために,1) 各バッチ内に直接50 %$の低解像度画像を用いて,最先端の顔認識モデルを訓練する。 2 シアムネットワーク構造を訓練し,高分解能特徴と低分解能特徴の間に余弦距離特徴損失を加える。 どちらの方法もクロスレゾリューションシナリオの改善を示しており、非常に低い解像度で約70\%$まで精度を向上させることができる。 しかし、デメリットは、特定のモデルを解像度ペア毎にトレーニングする必要があることだ。

Face recognition approaches often rely on equal image resolution for verification faces on two images. However, in practical applications, those image resolutions are usually not in the same range due to different image capture mechanisms or sources. In this work, we first analyze the impact of image resolutions on the face verification performance with a state-of-the-art face recognition model. For images, synthetically reduced to $5\, \times 5\, \mathrm{px}$ resolution, the verification performance drops from $99.23\%$ increasingly down to almost $55\%$. Especially, for cross-resolution image pairs (one high- and one low-resolution image), the verification accuracy decreases even further. We investigate this behavior more in-depth by looking at the feature distances for every 2-image test pair. To tackle this problem, we propose the following two methods: 1) Train a state-of-the-art face-recognition model straightforward with $50\%$ low-resolution images directly within each batch. \\ 2) Train a siamese-network structure and adding a cosine distance feature loss between high- and low-resolution features. Both methods show an improvement for cross-resolution scenarios and can increase the accuracy at very low resolution to approximately $70\%$. However, a disadvantage is that a specific model needs to be trained for every resolution-pair ...
翻訳日:2021-07-09 13:45:31 公開日:2021-07-08
# エキスパートのコラボレーション:100万のFLOPでImageNetで80%トップ1の精度を達成する

Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs ( http://arxiv.org/abs/2107.03815v1 )

ライセンス: Link先を確認
Yikang Zhang, Zhuo Chen, Zhao Zhong(参考訳) 本稿では,複数のネットワークの専門知識を共通の目的にまとめるために,CoE(Collaboration of Experts)フレームワークを提案する。 各専門家は、データセットのユニークな部分に関する専門知識を持つ個々のネットワークであり、集合的な能力を高める。 サンプルが与えられたら、専門家はデリゲータによって選択され、同時に早期終了をサポートするために粗い予測が出力される。 この枠組みを実現するために, 重み生成モジュール (wgm), ラベル生成モジュール (lgm), 分散計算モジュール (vcm) という, それぞれのモデルに役割を果たすよう促す3つのモジュールを提案する。 提案手法は画像ネットの最先端性能を80.7%, FLOP194Mで達成する。 PWLUアクティベーション関数とCondConvを組み合わせることで、CoEは100MのFLOPで80.0%の精度を初めて達成する。 さらに,本手法はハードウェアフレンドリーであり,既存の条件計算手法と比較して3~6倍の高速化を実現している。

In this paper, we propose a Collaboration of Experts (CoE) framework to pool together the expertise of multiple networks towards a common aim. Each expert is an individual network with expertise on a unique portion of the dataset, which enhances the collective capacity. Given a sample, an expert is selected by the delegator, which simultaneously outputs a rough prediction to support early termination. To fulfill this framework, we propose three modules to impel each model to play its role, namely weight generation module (WGM), label generation module (LGM) and variance calculation module (VCM). Our method achieves the state-of-the-art performance on ImageNet, 80.7% top-1 accuracy with 194M FLOPs. Combined with PWLU activation function and CondConv, CoE further achieves the accuracy of 80.0% with only 100M FLOPs for the first time. More importantly, our method is hardware friendly and achieves a 3-6x speedup compared with some existing conditional computation approaches.
翻訳日:2021-07-09 13:45:10 公開日:2021-07-08
# camtuner: カメラパラメータチューニングのための強化学習型システム

CamTuner: Reinforcement-Learni ng based System for Camera Parameter Tuning to enhance Analytics ( http://arxiv.org/abs/2107.03964v1 )

ライセンス: Link先を確認
Sibendu Paul, Kunal Rao, Giuseppe Coviello, Murugan Sankaradas, Oliver Po, Y. Charlie Hu, Srimat T. Chakradhar(参考訳) ビデオカメラのような複雑なセンサーには、さまざまな設定可能なパラメータが含まれており、エンドユーザーが特定のアプリケーションシナリオに合わせてセンサーをカスタマイズできる。 パラメータ設定はセンサ出力の品質やセンサデータから得られる洞察の精度に大きく影響するが、ほとんどのエンドユーザは、これらのパラメータを適切に設定するためのスキルや理解が欠けているため、固定されたパラメータ設定を使用する。 本研究では,複雑なセンサを自動的に,動的に環境に適応させるシステムであるcamtunerを提案する。 camtunerには2つの重要なコンポーネントがある。 まず、bespoke analytics quality estimator(bespoke analytics quality estimator)は、センサの変化を取り巻く環境として、分析ユニットから洞察の質を自動的かつ継続的に見積もるディープラーニングモデルである。 第二に、品質の変化に反応し、カメラパラメータを自動的に調整して洞察の精度を高める強化学習(rl)モジュールである。 カメラの本質的な動作を模倣する仮想モデルを設計することにより、rlモジュールのトレーニング時間を1桁改善する: カメラの構成可能なパラメータに異なる値を割り当てる効果を模倣するために異なる値に設定可能な仮想ノブを設計、そして、映像カメラからの出力を1日の異なるタイミングで模倣する仮想カメラモデルを設計する。 これらの仮想モデルは、(a)実際のカメラからのフレームレートが25-30fpsに制限されているのに対して、仮想モデルは300fpsで処理できるのに対し、(b)実際のカメラが数週間または数ヶ月で異なる環境を見るのを待つ必要がなく、(c)カメラパラメータ設定を変更するのに200-500msを要する仮想ノブを即座に更新できるため、トレーニングを著しく加速する。 我々の動的チューニング手法は、複数のビデオ分析タスクからの洞察の精度を最大12%向上させる。

Complex sensors like video cameras include tens of configurable parameters, which can be set by end-users to customize the sensors to specific application scenarios. Although parameter settings significantly affect the quality of the sensor output and the accuracy of insights derived from sensor data, most end-users use a fixed parameter setting because they lack the skill or understanding to appropriately configure these parameters. We propose CamTuner, which is a system to automatically, and dynamically adapt the complex sensor to changing environments. CamTuner includes two key components. First, a bespoke analytics quality estimator, which is a deep-learning model to automatically and continuously estimate the quality of insights from an analytics unit as the environment around a sensor change. Second, a reinforcement learning (RL) module, which reacts to the changes in quality, and automatically adjusts the camera parameters to enhance the accuracy of insights. We improve the training time of the RL module by an order of magnitude by designing virtual models to mimic essential behavior of the camera: we design virtual knobs that can be set to different values to mimic the effects of assigning different values to the camera's configurable parameters, and we design a virtual camera model that mimics the output from a video camera at different times of the day. These virtual models significantly accelerate training because (a) frame rates from a real camera are limited to 25-30 fps while the virtual models enable processing at 300 fps, (b) we do not have to wait until the real camera sees different environments, which could take weeks or months, and (c) virtual knobs can be updated instantly, while it can take 200-500 ms to change the camera parameter settings. Our dynamic tuning approach results in up to 12% improvement in the accuracy of insights from several video analytics tasks.
翻訳日:2021-07-09 13:44:54 公開日:2021-07-08
# 金融環境における逆学習のための適応的ストレステスト

Adaptive Stress Testing for Adversarial Learning in a Financial Environment ( http://arxiv.org/abs/2107.03577v1 )

ライセンス: Link先を確認
Khalid El-Awady(参考訳) 金融環境における潜在的な脆弱性を検知し対処するために適応的ストレステスト(adaptive stress testing)の使用を実証する。 ビジネスルールと連動した履歴決済トランザクションデータに基づく線形回帰分類器を用いたクレジットカード不正検出の簡易モデルを開発した。 次に、アダプティブストレステスト(Adaptive Stress Testing)として知られる強化学習モデルを適用して、潜在的な詐欺師と見なされるエージェントを訓練し、システム障害への最も可能性の高い経路を見つけます。 この最も可能性の高い障害パスと分類器の限界との関係を示し、不正検出システムのビジネスルールをさらに強化し、これらの障害モードを軽減する方法について論じる。

We demonstrate the use of Adaptive Stress Testing to detect and address potential vulnerabilities in a financial environment. We develop a simplified model for credit card fraud detection that utilizes a linear regression classifier based on historical payment transaction data coupled with business rules. We then apply the reinforcement learning model known as Adaptive Stress Testing to train an agent, that can be thought of as a potential fraudster, to find the most likely path to system failure -- successfully defrauding the system. We show the connection between this most likely failure path and the limits of the classifier and discuss how the fraud detection system's business rules can be further augmented to mitigate these failure modes.
翻訳日:2021-07-09 13:44:10 公開日:2021-07-08
# オンライン自己スーパービジョンによるオフラインメタ強化学習

Offline Meta-Reinforcement Learning with Online Self-Supervision ( http://arxiv.org/abs/2107.03974v1 )

ライセンス: Link先を確認
Vitchyr H. Pong, Ashvin Nair, Laura Smith, Catherine Huang, Sergey Levine(参考訳) メタ強化学習(rl:meta-reinforceme nt learning)は、標準のrlよりも桁違いに少ないデータで新しいタスクに迅速に適応するポリシーのトレーニングに使用できるが、この迅速な適応は、メタトレーニング時の報酬監督の量を大幅に増加させるコストがかかることが多い。 オフラインのta-RLは、オフラインデータセットの生成時にのみ報酬を提供する必要があるため、報酬の監視を継続的に行う必要がなくなる。 エージェントは新しいタスクを学習するのに必要な経験を収集できる探索戦略を学習し、データセットの軌跡を提示する際にうまく機能する適応戦略を学習するが、適応戦略は学習した探索戦略が収集するデータ分散に適応しない。 オンライン環境とは異なり、適応戦略と探索戦略は互いに効果的に適応できないため、パフォーマンスが低下する。 本稿では,適応ポリシーをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。 提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。 オンライン体験に報奨ラベルを提供する必要がなくなることで,報奨監督が手作業で提供されるような環境での利用がより現実的になる。 シミュレーションロボットの動作と操作タスクにおけるオフラインメタRLの事前作業と比較し,追加データと自己生成報酬を用いることでエージェントの一般化能力が大幅に向上することを確認した。

Meta-reinforcement learning (RL) can be used to train policies that quickly adapt to new tasks with orders of magnitude less data than standard RL, but this fast adaptation often comes at the cost of greatly increasing the amount of reward supervision during meta-training time. Offline meta-RL removes the need to continuously provide reward supervision because rewards must only be provided once when the offline dataset is generated. In addition to the challenges of offline RL, a unique distribution shift is present in meta RL: agents learn exploration strategies that can gather the experience needed to learn a new task, and also learn adaptation strategies that work well when presented with the trajectories in the dataset, but the adaptation strategies are not adapted to the data distribution that the learned exploration strategies collect. Unlike the online setting, the adaptation and exploration strategies cannot effectively adapt to each other, resulting in poor performance. In this paper, we propose a hybrid offline meta-RL algorithm, which uses offline data with rewards to meta-train an adaptive policy, and then collects additional unsupervised online data, without any ground truth reward labels, to bridge this distribution shift problem. Our method uses the offline data to learn the distribution of reward functions, which is then sampled to self-supervise reward labels for the additional online data. By removing the need to provide reward labels for the online experience, our approach can be more practical to use in settings where reward supervision would otherwise be provided manually. We compare our method to prior work on offline meta-RL on simulated robot locomotion and manipulation tasks and find that using additional data and self-generated rewards significantly improves an agent's ability to generalize.
翻訳日:2021-07-09 13:43:31 公開日:2021-07-08
# Benchpress:グラフィカルモデルのための構造学習アルゴリズムをベンチマークするためのスケーラブルでプラットフォームに依存しないワークフロー

Benchpress: a scalable and platform-independent workflow for benchmarking structure learning algorithms for graphical models ( http://arxiv.org/abs/2107.03863v1 )

ライセンス: Link先を確認
Felix L. Rios, Giusi Moffa, Jack Kuipers(参考訳) 研究領域における変数とデータ生成機構のモデル化の関係を記述することは、多くの経験科学において基本的な問題である。 確率的グラフィカルモデルはこの問題に対処するための一般的なアプローチである。 グラフィカルな構造を学ぶことは計算に困難であり、多くのアルゴリズムが開発されている現在の研究の余計な領域である。 確率的グラフィカルモデルのための構造学習アルゴリズムの,スケーラブルで再現性があり,プラットフォームに依存しないベンチマークを作成するための,ベンチプレスと呼ばれる新しい自動ワークフローを提案する。 benchpressはシンプルなjsonファイルでインターフェースされ、すべてのユーザがアクセスできるようにするが、コードは完全なモジュール方式で設計され、研究者は追加の方法論を貢献できる。 Benchpressは現在、BiDAG, bnlearn, GOBNILP, pcalg, r.blip, scikit-learn, TETRAD, trilearnなどのライブラリから多くの最先端アルゴリズムのインターフェースを提供し、データ生成モデルとパフォーマンス評価のための様々な方法を提供している。 ユーザ定義モデルとランダムに生成されたデータセットに加えて、ソフトウェアツールには、ベンチマークワークフローに含まれる可能性のある文献からの標準データセットやグラフィカルモデルも含まれている。 ベイジアンネットワークを4つの典型的なデータシナリオで学習するためのこのワークフローの適用性を示す。 ソースコードとドキュメントはhttp://github.com/fe lixleopoldo/benchpre ss.comから公開されている。

Describing the relationship between the variables in a study domain and modelling the data generating mechanism is a fundamental problem in many empirical sciences. Probabilistic graphical models are one common approach to tackle the problem. Learning the graphical structure is computationally challenging and a fervent area of current research with a plethora of algorithms being developed. To facilitate the benchmarking of different methods, we present a novel automated workflow, called benchpress for producing scalable, reproducible, and platform-independent benchmarks of structure learning algorithms for probabilistic graphical models. Benchpress is interfaced via a simple JSON-file, which makes it accessible for all users, while the code is designed in a fully modular fashion to enable researchers to contribute additional methodologies. Benchpress currently provides an interface to a large number of state-of-the-art algorithms from libraries such as BiDAG, bnlearn, GOBNILP, pcalg, r.blip, scikit-learn, TETRAD, and trilearn as well as a variety of methods for data generating models and performance evaluation. Alongside user-defined models and randomly generated datasets, the software tool also includes a number of standard datasets and graphical models from the literature, which may be included in a benchmarking workflow. We demonstrate the applicability of this workflow for learning Bayesian networks in four typical data scenarios. The source code and documentation is publicly available from http://github.com/fe lixleopoldo/benchpre ss.
翻訳日:2021-07-09 13:42:24 公開日:2021-07-08
# 深層学習モデルトレーニングのための糖尿病黄斑浮腫の光コヒーレンス断層像の弾性変形

Elastic deformation of optical coherence tomography images of diabetic macular edema for deep-learning models training: how far to go? ( http://arxiv.org/abs/2107.03651v1 )

ライセンス: Link先を確認
Daniel Bar-David, Laura Bar-David, Yinon Shapira, Rina Leibu, Dalia Dori, Ronit Schneor, Anath Fischer, Shiri Soudry(参考訳) 糖尿病性黄斑浮腫(DME)の検出のための深層学習モデルの開発において、データ増大のためのOCT画像の弾性変形の臨床的妥当性を検討する。

To explore the clinical validity of elastic deformation of optical coherence tomography (OCT) images for data augmentation in the development of deep-learning model for detection of diabetic macular edema (DME).
翻訳日:2021-07-09 13:41:59 公開日:2021-07-08
# 衛星画像における物体検出のための空間データ処理の最適化

Optimizing Data Processing in Space for Object Detection in Satellite Imagery ( http://arxiv.org/abs/2107.03774v1 )

ライセンス: Link先を確認
Martina Lofqvist, Jos\'e Cano(参考訳) 毎年打ち上げられる衛星の数は急増しており、結果として毎日テラバイトのデータをダウンリンクしている。 地上局が受信したデータは処理されないことが多く、大きなデータサイズを考慮すると高価な処理であり、すべてのデータが有用ではない。 これは、リアルタイムデータ処理の需要の増加と相まって、軌道上の処理ソリューションの必要性が高まっている。 本研究では,衛星データに異なる画像圧縮技術を適用することで,制約されたデバイス上でのcnnベースの物体検出性能について検討する。 NVIDIA Jetson Nano と NVIDIA Jetson AGX Xavier の低消費電力で高性能なコンピュータである NVIDIA Jetson Nano と NVIDIA Jetson AGX XX の機能について検討した。 我々は,ssd(single shot multibox detector)や,航空画像における物体検出のための大規模データセットであるdota上で事前学習された領域ベース完全畳み込みネットワーク(r-fcn)モデルなど,物体検出ネットワークを詳細に検討する。 パフォーマンスは、実行時間、メモリ消費量、正確性の観点から測定され、2つの強力なgpuを持つサーバを含むベースラインと比較される。 その結果、画像圧縮技術を適用することで、実行時間とメモリ消費を改善でき、完全な実行可能データセットを実現できることがわかった。 ロスレス圧縮技術は、実行時間の約10%削減とメモリ消費の約3%削減を実現し、精度に影響を与えない。 圧縮技術が失われると実行時間が最大144%向上し、メモリ消費が最大97%削減される。 しかし、圧縮比によって異なるため、精度に大きな影響を及ぼす。 したがって、これらの圧縮技術の適用と比率は、特定のタスクに必要な精度レベルによって異なる可能性がある。

There is a proliferation in the number of satellites launched each year, resulting in downlinking of terabytes of data each day. The data received by ground stations is often unprocessed, making this an expensive process considering the large data sizes and that not all of the data is useful. This, coupled with the increasing demand for real-time data processing, has led to a growing need for on-orbit processing solutions. In this work, we investigate the performance of CNN-based object detectors on constrained devices by applying different image compression techniques to satellite data. We examine the capabilities of the NVIDIA Jetson Nano and NVIDIA Jetson AGX Xavier; low-power, high-performance computers, with integrated GPUs, small enough to fit on-board a nanosatellite. We take a closer look at object detection networks, including the Single Shot MultiBox Detector (SSD) and Region-based Fully Convolutional Network (R-FCN) models that are pre-trained on DOTA - a Large Scale Dataset for Object Detection in Aerial Images. The performance is measured in terms of execution time, memory consumption, and accuracy, and are compared against a baseline containing a server with two powerful GPUs. The results show that by applying image compression techniques, we are able to improve the execution time and memory consumption, achieving a fully runnable dataset. A lossless compression technique achieves roughly a 10% reduction in execution time and about a 3% reduction in memory consumption, with no impact on the accuracy. While a lossy compression technique improves the execution time by up to 144% and the memory consumption is reduced by as much as 97%. However, it has a significant impact on accuracy, varying depending on the compression ratio. Thus the application and ratio of these compression techniques may differ depending on the required level of accuracy for a particular task.
翻訳日:2021-07-09 13:41:54 公開日:2021-07-08
# 部分的スーパービジョンのためのラベルセット損失関数:胎児脳MRI解析への応用

Label-set Loss Functions for Partial Supervision: Application to Fetal Brain 3D MRI Parcellation ( http://arxiv.org/abs/2107.03846v1 )

ライセンス: Link先を確認
Lucas Fidon, Michael Aertsen, Doaa Emam, Nada Mufti, Frederic Guffens, Thomas Deprest, Philippe Demaerel, Anna L. David, Andrew Melbourne, Sebastien Ourselin, Jam Deprest, Tom Vercauteren(参考訳) ディープニューラルネットワークは自動セグメンテーションの精度を高めているが、その精度は多数の完全セグメンテーションされた画像の可用性に依存する。 部分的に注釈付きデータセットをうまく活用するためには、興味のある領域がセグメンテーションされている画像を使ってディープニューラルネットワークを訓練する方法が必要である。 本稿では,部分分割画像を扱うことができる損失関数であるラベルセット損失関数の最初の公理的定義を提案する。 完全分割画像に対する古典的損失関数を適切なラベルセット損失関数に変換する方法は1つと1つしかないことを証明した。 我々の理論は、特に欠落ラベルしか持たない部分的な監督に適したディース損失のラベルセット一般化であるリーフ・ディース損失を定義できる。 葉分裂損失を用いて,胎児脳3次元mri分割のための部分教師あり学習における新しい状態を設定した。 白質、心室、小脳、室外csf、皮質灰白質、深灰白質、脳幹、コーパスカルーサムを解剖学的に正常な胎児の胎児脳3dmriまたは開放性スピナビフィダに基づいて分節することができる深層ニューラルネットワークを実現する。 提案するラベルセット損失関数の実装は、https://github.com/l ucasfidon/label-set- loss-functionsで利用可能です。

Deep neural networks have increased the accuracy of automatic segmentation, however, their accuracy depends on the availability of a large number of fully segmented images. Methods to train deep neural networks using images for which some, but not all, regions of interest are segmented are necessary to make better use of partially annotated datasets. In this paper, we propose the first axiomatic definition of label-set loss functions that are the loss functions that can handle partially segmented images. We prove that there is one and only one method to convert a classical loss function for fully segmented images into a proper label-set loss function. Our theory also allows us to define the leaf-Dice loss, a label-set generalization of the Dice loss particularly suited for partial supervision with only missing labels. Using the leaf-Dice loss, we set a new state of the art in partially supervised learning for fetal brain 3D MRI segmentation. We achieve a deep neural network able to segment white matter, ventricles, cerebellum, extra-ventricular CSF, cortical gray matter, deep gray matter, brainstem, and corpus callosum based on fetal brain 3D MRI of anatomically normal fetuses or with open spina bifida. Our implementation of the proposed label-set loss functions is available at https://github.com/L ucasFidon/label-set- loss-functions
翻訳日:2021-07-09 13:41:27 公開日:2021-07-08
# visuomotor制御のための3次元ニューラルシーン表現

3D Neural Scene Representations for Visuomotor Control ( http://arxiv.org/abs/2107.04004v1 )

ライセンス: Link先を確認
Yunzhu Li, Shuang Li, Vincent Sitzmann, Pulkit Agrawal, Antonio Torralba(参考訳) 人間は周囲の3d環境を直感的に理解している。 脳の物理学のメンタルモデルは、さまざまな素材のオブジェクトに適用され、現在のロボットの到達範囲をはるかに超える幅広い操作タスクを実行できる。 本研究では,2次元視覚観測から動的3次元シーンのモデルを純粋に学習したい。 本モデルでは,ニューラルラジアンス場(NeRF)と時間コントラスト学習と,視点不変の3次元シーン表現を学習する自動符号化フレームワークを組み合わせる。 学習した表現空間上に構築されたダイナミックスモデルにより,ロボットの動作と異なる視点で目標が特定される剛体と流体の両方を含む操作課題に対して,ビジュモータ制御が可能であることを示す。 自動デコーディングフレームワークと組み合わせることで、トレーニングディストリビューションの外にあるカメラの視点から目標仕様をサポートすることもできる。 さらに,今後の予測と新たな視点合成を行い,学習した3次元ダイナミクスモデルの豊かさを実証する。 最後に,異なるシステム設計と学習表現の質的分析に関する詳細なアブレーション研究を行う。

Humans have a strong intuitive understanding of the 3D environment around us. The mental model of the physics in our brain applies to objects of different materials and enables us to perform a wide range of manipulation tasks that are far beyond the reach of current robots. In this work, we desire to learn models for dynamic 3D scenes purely from 2D visual observations. Our model combines Neural Radiance Fields (NeRF) and time contrastive learning with an autoencoding framework, which learns viewpoint-invariant 3D-aware scene representations. We show that a dynamics model, constructed over the learned representation space, enables visuomotor control for challenging manipulation tasks involving both rigid bodies and fluids, where the target is specified in a viewpoint different from what the robot operates on. When coupled with an auto-decoding framework, it can even support goal specification from camera viewpoints that are outside the training distribution. We further demonstrate the richness of the learned 3D dynamics model by performing future prediction and novel view synthesis. Finally, we provide detailed ablation studies regarding different system designs and qualitative analysis of the learned representations.
翻訳日:2021-07-09 13:40:34 公開日:2021-07-08
# 深層学習を用いたマルウェア分類

Malware Classification Using Deep Boosted Learning ( http://arxiv.org/abs/2107.04008v1 )

ライセンス: Link先を確認
Muhammad Asam, Saddam Hussain Khan, Tauseef Jamal, Umme Zahoora, Asifullah Khan(参考訳) サイバースペースにおける悪意のある活動は、単にマシンをハッキングし、ウイルスを拡散する以上のものになった。 これは国家が生き残るための挑戦となり、それゆえサイバー戦争へと進化した。 マルウェアはサイバー犯罪の重要な要素であり、その分析は攻撃に対する最初の防衛線である。 本研究は,deep boosted feature space-based malware classification (dfs-mc) と呼ばれる,新しい深層学習型マルウェア分類フレームワークを提案する。 提案フレームワークでは,最高のカスタマイズCNNアーキテクチャモデルの特徴空間と,分類のためのSVMによる識別を融合することにより,識別能力が向上する。 提案する分類フレームワークの識別能力は,標準のカスタマイズCNNと比較することで評価する。 カスタマイズされたcnnモデルは、softmax分類器とdeep hybrid learningベースのマルウェア分類の2つの方法で実装されている。 ハイブリッド学習では、カスタマイズされたcnnアーキテクチャから深い特徴を抽出し、従来の機械学習分類器に供給し、分類性能を向上させる。 我々はまた、微調整によるCNNアーキテクチャに基づくマルウェア分類フレームワークにおいて、転送学習の概念を導入した。 提案するマルウェア分類手法の性能は,MalImgマルウェアデータセット上で,ホールドアウトクロスバリデーション手法を用いて検証する。 実験では,革新的でカスタマイズされたcnnを用い,スクラッチから学習し,トランスファー学習を用いてカスタマイズしたcnnを微調整した。 提案する分類フレームワークdfs-mcは, 精度が98.61%, f-score: 0.96, 精度: 0.96, リコール: 0.96であった。

Malicious activities in cyberspace have gone further than simply hacking machines and spreading viruses. It has become a challenge for a nations survival and hence has evolved to cyber warfare. Malware is a key component of cyber-crime, and its analysis is the first line of defence against attack. This work proposes a novel deep boosted hybrid learning-based malware classification framework and named as Deep boosted Feature Space-based Malware classification (DFS-MC). In the proposed framework, the discrimination power is enhanced by fusing the feature spaces of the best performing customized CNN architectures models and its discrimination by an SVM for classification. The discrimination capacity of the proposed classification framework is assessed by comparing it against the standard customized CNNs. The customized CNN models are implemented in two ways: softmax classifier and deep hybrid learning-based malware classification. In the hybrid learning, Deep features are extracted from customized CNN architectures and fed into the conventional machine learning classifier to improve the classification performance. We also introduced the concept of transfer learning in a customized CNN architecture based malware classification framework through fine-tuning. The performance of the proposed malware classification approaches are validated on the MalImg malware dataset using the hold-out cross-validation technique. Experimental comparisons were conducted by employing innovative, customized CNN, trained from scratch and fine-tuning the customized CNN using transfer learning. The proposed classification framework DFS-MC showed improved results, Accuracy: 98.61%, F-score: 0.96, Precision: 0.96, and Recall: 0.96.
翻訳日:2021-07-09 13:40:17 公開日:2021-07-08
# 最大情報係数推定器の一貫性

Consistency of the Maximal Information Coefficient Estimator ( http://arxiv.org/abs/2107.03836v1 )

ライセンス: Link先を確認
John Lazarsfeld and Aaron Johnson(参考訳) Reshef et al の最大情報係数 (MIC)。 (Science, 2011)は, 大規模データセットにおける変動対間の依存度を測定する統計量である。 本稿では, MIC が対応する人口統計量 MIC$_*$ の一貫した推定器であることを証明する。 これはReshef et alの引数のエラーを修正する。 (JMLR, 2016)。

The Maximal Information Coefficient (MIC) of Reshef et al. (Science, 2011) is a statistic for measuring dependence between variable pairs in large datasets. In this note, we prove that MIC is a consistent estimator of the corresponding population statistic MIC$_*$. This corrects an error in an argument of Reshef et al. (JMLR, 2016), which we describe.
翻訳日:2021-07-09 13:39:54 公開日:2021-07-08
# 離散分布の非線形汎関数の局所微分プライベート推定

Locally differentially private estimation of nonlinear functionals of discrete distributions ( http://arxiv.org/abs/2107.03940v1 )

ライセンス: Link先を確認
Cristina Butucea and Yann Issartel(参考訳) 離散分布の非線形関数を局所的差分プライバシーの文脈で推定する問題について検討する。 初期データ $x_1,\ldots,x_n \in [K]$ は i.i.d である。 そして、未知の離散分布$p = (p_1,\ldots,p_K)$に従って分布する。 唯一の$\alpha$-locally differentially private (ldp) サンプル $z_1,...,z_n$ が公開されているが、ここでは 'local' という用語は、各$z_i$ が1つの個別属性 $x_i$ を使って生成されることを意味する。 我々は、対話的(すなわち)プライバシメカニズム(pm)を示す。 それらは、既に公開された機密データまたは非対話的の使用が許可されている。 パワー和関数 $F_{\gamma} = \sum_{k=1}^K p_k^{\gamma}$, $\gamma >0$ を $K, \, n$ および $\alpha$ の関数として推定する二次リスクの振る舞いを記述する。 非対話的なケースでは、jiaoらによって分析されたmleに類似したすべての$\gamma >0$に対して、$f_{\gamma}$の2つのプラグインタイプの推定器を調査した。 (2017年) 多項モデル。 しかし、プライバシーの制約のため、私たちが達成したレートは遅く、Collierらによって得られたガウスモデルと似ている。 (2020). インタラクティブな場合には、$\gamma \geq 2$の場合により速いパラメトリックレート$(n \alpha^2)^{-1/2}$となる2ステップの手順をすべて$\gamma >1$に導入する。 我々は,すべての$\alpha$-LDP機構とプライベートサンプルを用いたすべての推定器に対して,より低い境界値を与える。

We study the problem of estimating non-linear functionals of discrete distributions in the context of local differential privacy. The initial data $x_1,\ldots,x_n \in [K]$ are supposed i.i.d. and distributed according to an unknown discrete distribution $p = (p_1,\ldots,p_K)$. Only $\alpha$-locally differentially private (LDP) samples $z_1,...,z_n$ are publicly available, where the term 'local' means that each $z_i$ is produced using one individual attribute $x_i$. We exhibit privacy mechanisms (PM) that are interactive (i.e. they are allowed to use already published confidential data) or non-interactive. We describe the behavior of the quadratic risk for estimating the power sum functional $F_{\gamma} = \sum_{k=1}^K p_k^{\gamma}$, $\gamma >0$ as a function of $K, \, n$ and $\alpha$. In the non-interactive case, we study two plug-in type estimators of $F_{\gamma}$, for all $\gamma >0$, that are similar to the MLE analyzed by Jiao et al. (2017) in the multinomial model. However, due to the privacy constraint the rates we attain are slower and similar to those obtained in the Gaussian model by Collier et al. (2020). In the interactive case, we introduce for all $\gamma >1$ a two-step procedure which attains the faster parametric rate $(n \alpha^2)^{-1/2}$ when $\gamma \geq 2$. We give lower bounds results over all $\alpha$-LDP mechanisms and all estimators using the private samples.
翻訳日:2021-07-09 13:39:48 公開日:2021-07-08
# combo: eudパースのための新しいモジュール

COMBO: a new module for EUD parsing ( http://arxiv.org/abs/2107.03809v1 )

ライセンス: Link先を確認
Mateusz Klimaszewski, Alina Wr\'oblewska(参考訳) IWPT 2021 EUD共有タスクに参加したCOMBOによるEUD解析とその実装について紹介する。 このタスクの目的は、17の言語で生テキストをEUD(Enhanced Universal Dependencies)に解析することである。 提案手法では,UD木とEUDグラフの予測にCOMBOを用いる。 これらの構造は最終EUDグラフにマージされる。 いくつかのEUDエッジラベルは、単一の言語に依存しない拡張ルールを使用してケース情報で拡張される。 公式評価では、解は第4位となり、平均のelisは83.79%に達した。 ソースコードはhttps://gitlab.clari n-pl.eu/syntactic-to ols/comboで入手できる。

We introduce the COMBO-based approach for EUD parsing and its implementation, which took part in the IWPT 2021 EUD shared task. The goal of this task is to parse raw texts in 17 languages into Enhanced Universal Dependencies (EUD). The proposed approach uses COMBO to predict UD trees and EUD graphs. These structures are then merged into the final EUD graphs. Some EUD edge labels are extended with case information using a single language-independent expansion rule. In the official evaluation, the solution ranked fourth, achieving an average ELAS of 83.79%. The source code is available at https://gitlab.clari n-pl.eu/syntactic-to ols/combo.
翻訳日:2021-07-09 13:38:22 公開日:2021-07-08
# 形にとどまる:コントラスト学習による不変形表現の学習

Staying in Shape: Learning Invariant Shape Representations using Contrastive Learning ( http://arxiv.org/abs/2107.03552v1 )

ライセンス: Link先を確認
Jeffrey Gu and Serena Yeung(参考訳) 等尺的あるいはほぼ等尺的変換に不適な形状の表現を作成することは、分散を強制することでより効果的で頑健な形状の表現を学習できるため、長い間、形状のアナルイシスに対する関心の領域であった。 教師なし不変な形状表現を学習する問題を解決するため、ユーザ特定データ拡張の学習不変性を通じて識別ネイティブ表現を生成する、weuseコントラスト学習を行う。 等尺および最端等尺不変量を示す表現を生成するために,これらのトランスフォーマレーションをランダムにサンプリングする新しいデータ拡張を提案する。 提案手法は,従来の教師なし学習のap-proachesを有効性と堅牢性の両方において有効活用できることを実験的に示す。

Creating representations of shapes that are invari-ant to isometric or almost-isometric transforma-tions has long been an area of interest in shape anal-ysis, since enforcing invariance allows the learningof more effective and robust shape representations.Most existing invariant shape representations arehandcrafted, and previous work on learning shaperepresentations do not focus on producing invariantrepresentat ions. To solve the problem of learningunsupervised invariant shape representations, weuse contrastive learning, which produces discrimi-native representations through learning invarianceto user-specified data augmentations. To producerepresentatio ns that are specifically isometry andalmost-isometry invariant, we propose new dataaugmentations that randomly sample these transfor-mations. We show experimentally that our methodoutperforms previous unsupervised learning ap-proaches in both effectiveness and robustness.
翻訳日:2021-07-09 13:37:49 公開日:2021-07-08
# 不確実性を考慮した人間の動作予測

Uncertainty-aware Human Motion Prediction ( http://arxiv.org/abs/2107.03575v1 )

ライセンス: Link先を確認
Pengxiang Ding and Jianqin Yin(参考訳) 人間の動作予測は、人間の動作分析や人間とロボットの相互作用などのタスクに不可欠である。 動き予測を実現するために既存のアプローチが提案されている。 しかし、彼らは重要なタスクである予測結果の品質評価を無視している。 予測の評価なしではマシンと対話する方法が分からず、信頼性の低い予測が機械を誤解して人間を傷つける可能性があるため、実際のシナリオにおける現在のアプローチでは十分である。 そこで我々は,人間の動作予測(UA-HMP)のための不確実性認識フレームワークを提案する。 具体的には,まずガウスモデルを用いて不確かさを認識できる予測器を設計し,予測運動の価値と不確実性を達成する。 そこで, 不確かさを定量化し, ノイズサンプルの悪影響を低減し, 性能を向上させるための不確実性誘導学習手法を提案する。 提案手法は,現在の sota ベースラインと容易に組み合わせることで,不確実性モデリングの弱さを多少のパラメータ増分で克服する。 大規模な実験では、H3.6M、CMU-Mocapの短期および長期の予測でも性能が向上することを示した。

Human motion prediction is essential for tasks such as human motion analysis and human-robot interactions. Most existing approaches have been proposed to realize motion prediction. However, they ignore an important task, the evaluation of the quality of the predicted result. It is far more enough for current approaches in actual scenarios because people can't know how to interact with the machine without the evaluation of prediction, and unreliable predictions may mislead the machine to harm the human. Hence, we propose an uncertainty-aware framework for human motion prediction (UA-HMP). Concretely, we first design an uncertainty-aware predictor through Gaussian modeling to achieve the value and the uncertainty of predicted motion. Then, an uncertainty-guided learning scheme is proposed to quantitate the uncertainty and reduce the negative effect of the noisy samples during optimization for better performance. Our proposed framework is easily combined with current SOTA baselines to overcome their weakness in uncertainty modeling with slight parameters increment. Extensive experiments also show that they can achieve better performance in both short and long-term predictions in H3.6M, CMU-Mocap.
翻訳日:2021-07-09 13:37:32 公開日:2021-07-08
# 歩行者属性認識の再考:ゼロショット歩行者アイデンティティ設定による信頼性評価

Rethinking of Pedestrian Attribute Recognition: A Reliable Evaluation under Zero-Shot Pedestrian Identity Setting ( http://arxiv.org/abs/2107.03576v1 )

ライセンス: Link先を確認
Jian Jia, Houjing Huang, Xiaotang Chen and Kaiqi Huang(参考訳) 歩行者属性認識は、ビデオ監視カメラが捉えた1つの歩行者画像に複数の属性を割り当てることを目的としている。 数多くの手法が提案され,大きな進歩を遂げるが,我々はその領域の状況を分析し解析する時が来たと論じている。 我々は,最近の進歩を3つの視点から見直し,再考する。 まず,歩行者属性認識の明示的かつ完全な定義が存在しないことを考慮し,歩行者属性認識を他の類似タスクと正式に定義・識別する。 第2に,提案した定義に基づいて,学術的規範に反する既存のデータセットの限界を明らかにするとともに,実践的産業応用の必須要件と矛盾する。 そこで,歩行者識別のゼロショット設定に従って構築された2つのデータセット PETA\textsubscript{$ZS$} と RAP\textsubscript{$ZS$} を提案する。 さらに,今後の歩行者属性データセット構築の現実的基準についても紹介する。 最後に,既存の最先端手法を再実装し,信頼性の高い評価と公平な比較を行うための強力なベースライン手法を導入する。 歩行者属性認識の進捗を測定するために,既存の4つのデータセットと2つの提案データセットを用いて実験を行った。

Pedestrian attribute recognition aims to assign multiple attributes to one pedestrian image captured by a video surveillance camera. Although numerous methods are proposed and make tremendous progress, we argue that it is time to step back and analyze the status quo of the area. We review and rethink the recent progress from three perspectives. First, given that there is no explicit and complete definition of pedestrian attribute recognition, we formally define and distinguish pedestrian attribute recognition from other similar tasks. Second, based on the proposed definition, we expose the limitations of the existing datasets, which violate the academic norm and are inconsistent with the essential requirement of practical industry application. Thus, we propose two datasets, PETA\textsubscript{$ZS$} and RAP\textsubscript{$ZS$}, constructed following the zero-shot settings on pedestrian identity. In addition, we also introduce several realistic criteria for future pedestrian attribute dataset construction. Finally, we reimplement existing state-of-the-art methods and introduce a strong baseline method to give reliable evaluations and fair comparisons. Experiments are conducted on four existing datasets and two proposed datasets to measure progress on pedestrian attribute recognition.
翻訳日:2021-07-09 13:37:17 公開日:2021-07-08
# 自己教師型表現学習のためのビデオ3Dサンプリング

Video 3D Sampling for Self-supervised Representation Learning ( http://arxiv.org/abs/2107.03578v1 )

ライセンス: Link先を確認
Wei Li, Dezhao Luo, Bo Fang, Yu Zhou, Weiping Wang(参考訳) 既存のビデオの自己監督手法のほとんどは、動画の時間的シグナルを主に活用しており、移動対象と環境情報のセマンティクスがビデオ関連のタスクに不可欠であることを無視している。 本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。 ビデオで提供される情報(空間的,時間的)を十分に活用するために,3次元(幅,高さ,時間)からビデオを前処理する。 その結果、学習対象として空間情報(物体の大きさ)、時間情報(動きの方向と大きさ)を利用することができる。 本実装では,3次元のサンプリングを組み合わせることで,空間と時間におけるスケール変換と投影変換をそれぞれ提案する。 実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良する。

Most of the existing video self-supervised methods mainly leverage temporal signals of videos, ignoring that the semantics of moving objects and environmental information are all critical for video-related tasks. In this paper, we propose a novel self-supervised method for video representation learning, referred to as Video 3D Sampling (V3S). In order to sufficiently utilize the information (spatial and temporal) provided in videos, we pre-process a video from three dimensions (width, height, time). As a result, we can leverage the spatial information (the size of objects), temporal information (the direction and magnitude of motions) as our learning target. In our implementation, we combine the sampling of the three dimensions and propose the scale and projection transformations in space and time respectively. The experimental results show that, when applied to action recognition, video retrieval and action similarity labeling, our approach improves the state-of-the-arts with significant margins.
翻訳日:2021-07-09 13:36:55 公開日:2021-07-08
# ビデオにおける人間行動推定のための関係に基づく連想的結合位置

Relation-Based Associative Joint Location for Human Pose Estimation in Videos ( http://arxiv.org/abs/2107.03591v1 )

ライセンス: Link先を確認
Yonghao Dang and Jianqin Yin(参考訳) ビデオに基づく人間のポーズ推定(HPE)は不可欠だが難しい課題である。 深層学習法はHPEに大きな進歩を遂げているが,本研究のほとんどの手法は各関節を独立に検出し,ポーズ構造情報を損傷している。 本稿では,従来手法とは違って,関節の位置を連想的に特定する関係型Pose Semantics Transfer Network (RPSTN)を提案する。 具体的には,各ジョイントヒートマップを独立に構築するのではなく,任意の2つのジョイントの関係をヒューリスティックにモデル化することにより,ポーズ構造の特徴をモデル化し,ジョイントのためのヒートマップを連想的に生成する軽量ジョイント関係抽出器(jre)を設計する。 実際、提案したJREモジュールは、任意の2つの関節間の関係を通して、人間のポーズの空間的構成をモデル化する。 また、映像の時間的意味継続性を考慮すると、現在のフレームにおけるポーズ意味情報は、次のフレームにおけるジョイントの位置を導くのに有用である。 そこで,我々は知識再利用の考え方を用いて,連続するフレーム間のポーズ意味情報を伝達する。 このようにして、提案されたRPSTNはポーズの時間的ダイナミクスをキャプチャする。 一方、JREモジュールは、宇宙の見えない関節と他の見えない関節との関係に応じて、見えない関節を推測することができる。 一方,提案モデルでは,非閉塞なフレームから隠蔽されたフレームにポーズの意味的特徴を移し,隠蔽された関節の位置を推定できる。 そこで,本手法は閉包に対して頑健であり,映像に基づく人間のポーズ推定の有効性を示す2つの挑戦的データセットの最先端結果が得られる。 コードとモデルを公開します。

Video-based human pose estimation (HPE) is a vital yet challenging task. While deep learning methods have made significant progress for the HPE, most approaches to this task detect each joint independently, damaging the pose structural information. In this paper, unlike the prior methods, we propose a Relation-based Pose Semantics Transfer Network (RPSTN) to locate joints associatively. Specifically, we design a lightweight joint relation extractor (JRE) to model the pose structural features and associatively generate heatmaps for joints by modeling the relation between any two joints heuristically instead of building each joint heatmap independently. Actually, the proposed JRE module models the spatial configuration of human poses through the relationship between any two joints. Moreover, considering the temporal semantic continuity of videos, the pose semantic information in the current frame is beneficial for guiding the location of joints in the next frame. Therefore, we use the idea of knowledge reuse to propagate the pose semantic information between consecutive frames. In this way, the proposed RPSTN captures temporal dynamics of poses. On the one hand, the JRE module can infer invisible joints according to the relationship between the invisible joints and other visible joints in space. On the other hand, in the time, the propose model can transfer the pose semantic features from the non-occluded frame to the occluded frame to locate occluded joints. Therefore, our method is robust to the occlusion and achieves state-of-the-art results on the two challenging datasets, which demonstrates its effectiveness for video-based human pose estimation. We will release the code and models publicly.
翻訳日:2021-07-09 13:36:39 公開日:2021-07-08
# SCSS-Net:3次元屋内シーンのためのスーパーポイント制約付き半教師付きセグメンテーションネットワーク

SCSS-Net: Superpoint Constrained Semi-supervised Segmentation Network for 3D Indoor Scenes ( http://arxiv.org/abs/2107.03601v1 )

ライセンス: Link先を確認
Shuang Deng, Qiulei Dong, and Bo Liu(参考訳) 3Dポイントクラウドセマンティックセグメンテーションのための既存のディープニューラルネットワーク(DNN)の多くは、大量のラベル付きトレーニングデータを必要とする。 しかし、複雑なシーンにポイントレベルのラベルを手動で割り当てるのには時間がかかる。 ラベルのない点雲はセンサや再構成から容易に得ることができるが,SCSS-Netと呼ばれる3次元点雲のための超点制約付き半教師付きセグメンテーションネットワークを提案する。 具体的には,ラベルのない点雲から予測された擬似ラベルを自己学習に利用し,幾何ベースおよび色ベースの領域拡大アルゴリズムによって生成されたスーパーポイントを組み合わせて,疑似ラベルを低信頼で修正・削除する。 さらに,特徴を幾何学や色彩のエッジポイントから制約するエッジ予測モジュールを提案する。 各スーパーポイントの特徴を円滑にするために、スーパーポイント特徴集合モジュールとスーパーポイント特徴整合損失関数を導入する。 2つの公開屋内データセットにおける広範囲な実験結果から,最先端のクラウドセグメンテーションネットワークや,ラベル付きシーンの少ない半教師付きセグメンテーション手法よりも優れた性能が得られることが示された。

Many existing deep neural networks (DNNs) for 3D point cloud semantic segmentation require a large amount of fully labeled training data. However, manually assigning point-level labels on the complex scenes is time-consuming. While unlabeled point clouds can be easily obtained from sensors or reconstruction, we propose a superpoint constrained semi-supervised segmentation network for 3D point clouds, named as SCSS-Net. Specifically, we use the pseudo labels predicted from unlabeled point clouds for self-training, and the superpoints produced by geometry-based and color-based Region Growing algorithms are combined to modify and delete pseudo labels with low confidence. Additionally, we propose an edge prediction module to constrain the features from edge points of geometry and color. A superpoint feature aggregation module and superpoint feature consistency loss functions are introduced to smooth the point features in each superpoint. Extensive experimental results on two 3D public indoor datasets demonstrate that our method can achieve better performance than some state-of-the-art point cloud segmentation networks and some popular semi-supervised segmentation methods with few labeled scenes.
翻訳日:2021-07-09 13:36:12 公開日:2021-07-08
# deep metric learning を用いた悪性リンパ腫の弱アノテート大きな病理組織像に対するケースベース類似画像検索

Case-based similar image retrieval for weakly annotated large histopathological images of malignant lymphoma using deep metric learning ( http://arxiv.org/abs/2107.03602v1 )

ライセンス: Link先を確認
Noriaki Hashimoto, Yusuke Takagi, Hiroki Masuda, Hiroaki Miyoshi, Kei Kohno, Miharu Nagaishi, Kensaku Sato, Mai Takeuchi, Takuya Furuta, Keisuke Kawamoto, Kyohei Yamada, Mayuko Moritsubo, Kanako Inoue, Yasumasa Shimasaki, Yusuke Ogura, Teppei Imamoto, Tatsuzo Mishina, Koichi Ohshima, Hidekata Hontani, Ichiro Takeuchi(参考訳) そこで本研究では,ヘマトキシリンとエオシン(H&E)による悪性リンパ腫の組織像を検索する新しい症例ベース類似画像検索法を提案する。 全身のスライド画像(WSI)を入力クエリとして使用する場合,腫瘍細胞などの病理学的に重要な領域のイメージパッチに着目して,同様の症例を検索できることが望ましい。 この問題に対処するために,注意に基づく複数インスタンス学習を採用し,症例間の類似性を計算する際に腫瘍特異的領域に着目した。 さらに,免疫組織化学的(ihc)染色パターンを,異種悪性リンパ腫の適切な類似性を定義するための教師付き情報として組み込むために,対比的距離測定を行った。 249例の悪性リンパ腫に対する実験において,本手法はsir法よりも高い評価基準を示した。 また, 病理医による主観的評価により, 悪性リンパ腫に対するh&e染色組織像の類似性を表すために, ihc染色パターンを用いた類似度測定が適切であった。

In the present study, we propose a novel case-based similar image retrieval (SIR) method for hematoxylin and eosin (H&E)-stained histopathological images of malignant lymphoma. When a whole slide image (WSI) is used as an input query, it is desirable to be able to retrieve similar cases by focusing on image patches in pathologically important regions such as tumor cells. To address this problem, we employ attention-based multiple instance learning, which enables us to focus on tumor-specific regions when the similarity between cases is computed. Moreover, we employ contrastive distance metric learning to incorporate immunohistochemical (IHC) staining patterns as useful supervised information for defining appropriate similarity between heterogeneous malignant lymphoma cases. In the experiment with 249 malignant lymphoma patients, we confirmed that the proposed method exhibited higher evaluation measures than the baseline case-based SIR methods. Furthermore, the subjective evaluation by pathologists revealed that our similarity measure using IHC staining patterns is appropriate for representing the similarity of H&E-stained tissue images for malignant lymphoma.
翻訳日:2021-07-09 13:35:51 公開日:2021-07-08
# NccFlow: 幾何学の非閉塞による光学流れの教師なし学習

NccFlow: Unsupervised Learning of Optical Flow With Non-occlusion from Geometry ( http://arxiv.org/abs/2107.03610v1 )

ライセンス: Link先を確認
Guangming Wang, Shuaiqi Ren, and Hesheng Wang(参考訳) 光フロー推定はコンピュータビジョンの根本的な問題であり、ロボット学習や自動運転の分野で多くの応用がある。 本稿では,非閉塞の洞察と詳細な定義に基づく光学的流れの幾何学的法則を明らかにする。 次に,非閉包の幾何学的法則に基づく光流れの教師なし学習のための2つの新しい損失関数を提案する。 具体的には、画像の閉塞部をマスクした後、画素の流れ過程を慎重に考慮し、光学フローの幾何学的法則に基づいて幾何学的制約を行う。 まず、第1フレーム内の隣接画素は、第2フレームへの画素変位時に交差しない。 第1のフレームに隣接する4画素を含むクラスタが第2のフレームに移動すると、他のピクセルはそれらによって形成された四角形に流れ込まない。 2つの幾何学的制約により、非閉塞領域における光学流非遮断損失と光学流非遮断損失が提案される。 2つの損失関数は非閉塞領域における不規則かつ不正確な光学フローを罰する。 実験の結果,非閉塞領域における幾何法則に基づく光フローの教師なし損失は,推定された光フローをより詳細に洗練させ,光フローの教師なし学習の性能を向上させることを示した。 さらに, 合成データのトレーニングと実データによる評価を行った結果, 光フローネットワークの一般化能力は非教師なし手法により向上した。

Optical flow estimation is a fundamental problem of computer vision and has many applications in the fields of robot learning and autonomous driving. This paper reveals novel geometric laws of optical flow based on the insight and detailed definition of non-occlusion. Then, two novel loss functions are proposed for the unsupervised learning of optical flow based on the geometric laws of non-occlusion. Specifically, after the occlusion part of the images are masked, the flowing process of pixels is carefully considered and geometric constraints are conducted based on the geometric laws of optical flow. First, neighboring pixels in the first frame will not intersect during the pixel displacement to the second frame. Secondly, when the cluster containing adjacent four pixels in the first frame moves to the second frame, no other pixels will flow into the quadrilateral formed by them. According to the two geometrical constraints, the optical flow non-intersection loss and the optical flow non-blocking loss in the non-occlusion regions are proposed. Two loss functions punish the irregular and inexact optical flows in the non-occlusion regions. The experiments on datasets demonstrated that the proposed unsupervised losses of optical flow based on the geometric laws in non-occlusion regions make the estimated optical flow more refined in detail, and improve the performance of unsupervised learning of optical flow. In addition, the experiments training on synthetic data and evaluating on real data show that the generalization ability of optical flow network is improved by our proposed unsupervised approach.
翻訳日:2021-07-09 13:35:32 公開日:2021-07-08
# マルチタスク感情分析のための特徴ピラミッドネットワーク

Feature Pyramid Network for Multi-task Affective Analysis ( http://arxiv.org/abs/2107.03670v1 )

ライセンス: Link先を確認
Ruian He, Zhen Xing, Bo Yan(参考訳) Affective Analysisは単一のタスクではなく、valence-arousal値、式クラス、アクションユニットを同時に予測することができる。 これまでの研究では、これら3つの顔属性の絡み合いや階層関係を無視して、全体的タスクとして捉えられなかった。 マルチタスク影響分析のための特徴ピラミッドネットワークという新しいモデルを提案する。 階層的特徴を抽出して3つのラベルを予測し,事前学習されたシングルタスクモデルから学習するための教師学生訓練戦略を適用する。 実験結果は,提案モデルが他のモデルより優れていることを示す。 コードとモデルは、$\href{https://github.com/r yanhe312/ABAW2-FPNMA A}{\text{this link}}$で研究目的で利用可能である。

Affective Analysis is not a single task, and the valence-arousal value, expression class and action unit can be predicted at the same time. Previous researches failed to take them as a whole task or ignore the entanglement and hierarchical relation of this three facial attributes. We propose a novel model named feature pyramid networks for multi-task affect analysis. The hierarchical features are extracted to predict three labels and we apply teacher-student training strategy to learn from pretrained single-task models. Extensive experiment results demonstrate the proposed model outperform other models. The code and model are available for research purposes at $\href{https://github.com/r yanhe312/ABAW2-FPNMA A}{\text{this link}}$.
翻訳日:2021-07-09 13:35:09 公開日:2021-07-08
# 第2回abaw2コンペティションにおけるマルチタスク感情認識のための事前支援ストリーミングネットワーク

Prior Aided Streaming Network for Multi-task Affective Recognitionat the 2nd ABAW2 Competition ( http://arxiv.org/abs/2107.03708v1 )

ライセンス: Link先を確認
Wei Zhang, Zunhu Guo, Keyu Chen, Lincheng Li, Zhimeng Zhang, Yu Ding(参考訳) 自動感情認識は人間のコンピュータインタラクション(HCI)領域において重要な研究課題となっている。 近年の深層学習技術の発展と大規模インザ・ワイルド・アノテーテッド・データセットにより、顔の感情分析は現実世界の設定における課題に向けられている。 本稿では,第2回行動分析コンペティション・イン・ザ・ワイルド(abaw2)コンペティションへの提案について紹介する。 本稿では,Categorical Emotions (CE), Action Units (AU), Valence Arousal (VA)の3つの表現が本質的に相互に関連していることを示すヒューリスティックなマルチタスク・ストリーミングネットワークを提案する。 さらに,表情の類似性を保ちながらアイデンティティ不変な表現特徴をキャプチャし,認識タスクのダウンストリームを支援する,高度な表情埋め込みを事前知識として活用する。 aff-wild2データセットの広範な定量的評価とアブレーション研究により,提案手法の有効性が証明された。

Automatic affective recognition has been an important research topic in human computer interaction (HCI) area. With recent development of deep learning techniques and large scale in-the-wild annotated datasets, the facial emotion analysis is now aimed at challenges in the real world settings. In this paper, we introduce our submission to the 2nd Affective Behavior Analysis in-the-wild (ABAW2) Competition. In dealing with different emotion representations, including Categorical Emotions (CE), Action Units (AU), and Valence Arousal (VA), we propose a multi-task streaming network by a heuristic that the three representations are intrinsically associated with each other. Besides, we leverage an advanced facial expression embedding as prior knowledge, which is capable of capturing identity-invariant expression features while preserving the expression similarities, to aid the down-streaming recognition tasks. The extensive quantitative evaluations as well as ablation studies on the Aff-Wild2 dataset prove the effectiveness of our proposed prior aided streaming network approach.
翻訳日:2021-07-09 13:34:57 公開日:2021-07-08
# 統一的な視点からロングテール認識の本質を探る

Investigate the Essence of Long-Tailed Recognition from a Unified Perspective ( http://arxiv.org/abs/2107.03758v1 )

ライセンス: Link先を確認
Lei Liu and Li Liu(参考訳) データスケールが大きくなるにつれて、深層認識モデルは、カテゴリ間の重い不均衡なサンプル数のために、長い尾のデータ分布に悩まされることが多い。 実際、現実世界のデータは通常、異なるカテゴリ(例えば、ハトとスズメ)間の類似性関係を示し、この研究ではカテゴリ類似性(英語版)と呼ばれる。 類似した外観を持つカテゴリ間で不均衡が発生すると、非常に困難である。 しかし、既存のソリューションはデータ分散を再バランスするためにサンプル数に焦点を当てている。 本研究では,長期問題の本質を統一的な観点から体系的に検討する。 具体的には,ロングテール認識は標本数とカテゴリの類似性の両方に苦しむことを示す。 Intuitively, using a toy example, we showed that sample number is not unique influence factor for performance drop of long-tailed recognition。 理論的には、(1)カテゴリー類似性は、必然的な要因として、同様のサンプルによるロングテール分布下でのモデル学習にも影響を与え、(2)より識別的表現法(例えば、自己教師付き学習)を用いて類似性低減のために、分類子バイアスは、大幅に改善された性能でさらに緩和できることを示す。 いくつかの長い尾を持つデータセットに対する大規模な実験は、我々の理論解析の合理性を検証し、既存の最先端技術(SOTA)に基づいて、類似性の低減によりさらに性能が向上することを示した。 我々の調査は、長期にわたる問題の背後にある本質を浮き彫りにし、今後の作業に向けたいくつかの実現可能な方向性を主張する。

As the data scale grows, deep recognition models often suffer from long-tailed data distributions due to the heavy imbalanced sample number across categories. Indeed, real-world data usually exhibit some similarity relation among different categories (e.g., pigeons and sparrows), called category similarity in this work. It is doubly difficult when the imbalance occurs between such categories with similar appearances. However, existing solutions mainly focus on the sample number to re-balance data distribution. In this work, we systematically investigate the essence of the long-tailed problem from a unified perspective. Specifically, we demonstrate that long-tailed recognition suffers from both sample number and category similarity. Intuitively, using a toy example, we first show that sample number is not the unique influence factor for performance dropping of long-tailed recognition. Theoretically, we demonstrate that (1) category similarity, as an inevitable factor, would also influence the model learning under long-tailed distribution via similar samples, (2) using more discriminative representation methods (e.g., self-supervised learning) for similarity reduction, the classifier bias can be further alleviated with greatly improved performance. Extensive experiments on several long-tailed datasets verify the rationality of our theoretical analysis, and show that based on existing state-of-the-arts (SOTAs), the performance could be further improved by similarity reduction. Our investigations highlight the essence behind the long-tailed problem, and claim several feasible directions for future work.
翻訳日:2021-07-09 13:34:38 公開日:2021-07-08
# グラフ推論を用いたインスタンスレベル相対正則ランク付け

Instance-Level Relative Saliency Ranking with Graph Reasoning ( http://arxiv.org/abs/2107.03824v1 )

ライセンス: Link先を確認
Nian Liu, Long Li, Wangbo Zhao, Junwei Han, Ling Shao(参考訳) 従来の正当性オブジェクト検出モデルは、異なる正当性オブジェクトの重要性を区別できない。 近年,異なる対象に対して異なる給与度を割り当てることで、給与ランキングを検出するための2つの研究が提案されている。 しかし、これらのモデルの1つはオブジェクトインスタンスを区別できず、もう1つは逐次注意シフト順序推論に焦点を当てている。 本稿では,同時にサルエントインスタンスをセグメンテーションし,それらの相対的サルエンシーランクの順序を推定する実用的な問題設定について検討する。 そこでは,改良されたMask R-CNNを用いて,まず有能なインスタンスを分割し,その後,相対的な有能度を推定するために有能度ランキングブランチを追加する。 本研究では,4つのグラフを組み合わせて,インスタンス間相互作用関係,局所的コントラスト,大域的コントラスト,ハイレベルなセマンティクスをそれぞれ前もって組み込む,新たなグラフ推論モジュールを構築する。 また, 給与ランキングを効果的に訓練するために, 新たな損失関数を提案する。 また,この課題に対して新たなデータセットと評価基準を提案し,この研究分野を推し進めることを目指す。 実験の結果,提案手法は従来の手法よりも効果的であることが判明した。 また,適応画像再ターゲティングにおける実用例を示す。

Conventional salient object detection models cannot differentiate the importance of different salient objects. Recently, two works have been proposed to detect saliency ranking by assigning different degrees of saliency to different objects. However, one of these models cannot differentiate object instances and the other focuses more on sequential attention shift order inference. In this paper, we investigate a practical problem setting that requires simultaneously segment salient instances and infer their relative saliency rank order. We present a novel unified model as the first end-to-end solution, where an improved Mask R-CNN is first used to segment salient instances and a saliency ranking branch is then added to infer the relative saliency. For relative saliency ranking, we build a new graph reasoning module by combining four graphs to incorporate the instance interaction relation, local contrast, global contrast, and a high-level semantic prior, respectively. A novel loss function is also proposed to effectively train the saliency ranking branch. Besides, a new dataset and an evaluation metric are proposed for this task, aiming at pushing forward this field of research. Finally, experimental results demonstrate that our proposed model is more effective than previous methods. We also show an example of its practical usage on adaptive image retargeting.
翻訳日:2021-07-09 13:34:14 公開日:2021-07-08
# 不確かさを検知するカメラのポーズ推定

Uncertainty-Aware Camera Pose Estimation from Points and Lines ( http://arxiv.org/abs/2107.03890v1 )

ライセンス: Link先を確認
Alexander Vakhitov, Luis Ferraz Colomina, Antonio Agudo, Francesc Moreno-Noguer(参考訳) Perspective-n-Point- and-Line (P$n$PL)アルゴリズムは、2D-3D特徴対応の3Dモデルに対して、高速で正確で堅牢なカメラローカライゼーションを目標としている。 現在のポイントベースポーズ推定手法は2次元特徴検出の不確実性のみを使用し、ラインベース手法は不確実性を考慮していない。 セットアップでは,特徴の3次元座標と2次元投影の両方が不確実であると考えられる。 本研究では不確実性を考慮したポーズ推定のためのEPnPとDLSに基づくPnP(L)ソルバを提案する。 また、動作のみのバンドル調整を3Dの不確実性を考慮して修正する。 2つの異なる視覚オドメトリーデータセットで、徹底的な合成および実実験を行う。 新しいPnP(L)法は、実際のデータを独立して処理し、KITTIの代表部分集合で平均翻訳精度が18%向上する一方、新しい不確実な改善により、ほとんどの解決者のポーズ精度が向上する。 epnpの平均翻訳誤差は、同じデータセットの標準改良と比較して16%減少する。 コードはhttps://alexandervak hitov.github.io/unce rtain-pnp/で入手できる。

Perspective-n-Point- and-Line (P$n$PL) algorithms aim at fast, accurate, and robust camera localization with respect to a 3D model from 2D-3D feature correspondences, being a major part of modern robotic and AR/VR systems. Current point-based pose estimation methods use only 2D feature detection uncertainties, and the line-based methods do not take uncertainties into account. In our setup, both 3D coordinates and 2D projections of the features are considered uncertain. We propose PnP(L) solvers based on EPnP and DLS for the uncertainty-aware pose estimation. We also modify motion-only bundle adjustment to take 3D uncertainties into account. We perform exhaustive synthetic and real experiments on two different visual odometry datasets. The new PnP(L) methods outperform the state-of-the-art on real data in isolation, showing an increase in mean translation accuracy by 18% on a representative subset of KITTI, while the new uncertain refinement improves pose accuracy for most of the solvers, e.g. decreasing mean translation error for the EPnP by 16% compared to the standard refinement on the same dataset. The code is available at https://alexandervak hitov.github.io/unce rtain-pnp/.
翻訳日:2021-07-09 13:33:54 公開日:2021-07-08
# ABAW2チャレンジにおける妥当性評価技術報告

Technical Report for Valence-Arousal Estimation in ABAW2 Challenge ( http://arxiv.org/abs/2107.03891v1 )

ライセンス: Link先を確認
Hong-Xia Xie, I-Hsuan Li, Ling Lo, Hong-Han Shuai, and Wen-Huang Cheng(参考訳) 本稿では, abaw2 iccv-2021 コンペティションにおけるvalence-arousal estimation challenge への取り組みについて述べる。 コンペティションオーガナイザーは、参加者が実生活で情緒行動を分析するために、wild内のaf-wild2データセットを提供する。 2つのストリームモデルを用いて、それぞれ外見と行動から感情の特徴を学習する。 データ不均衡問題を解決するため,ラベル再重み付けにラベル分散平滑化(LDS)を適用した。 提案手法は, Aff-wild2データセットの検証セットに基づいて, 0.591と0.617の一致相関係数(CCC)を実現する。

In this work, we describe our method for tackling the valence-arousal estimation challenge from ABAW2 ICCV-2021 Competition. The competition organizers provide an in-the-wild Aff-Wild2 dataset for participants to analyze affective behavior in real-life settings. We use a two stream model to learn emotion features from appearance and action respectively. To solve data imbalanced problem, we apply label distribution smoothing (LDS) to re-weight labels. Our proposed method achieves Concordance Correlation Coefficient (CCC) of 0.591 and 0.617 for valence and arousal on the validation set of Aff-wild2 dataset.
翻訳日:2021-07-09 13:33:31 公開日:2021-07-08
# 予算対応型ネットワークの軽量再パラメータ化

Weight Reparametrization for Budget-Aware Network Pruning ( http://arxiv.org/abs/2107.03909v1 )

ライセンス: Link先を確認
Robin Dupont, Hichem Sahbi, Guillaume Michel(参考訳) Pruningは、過パラメータネットワークの冗長な重みを取り除くことで軽量アーキテクチャを設計しようとしている。 既存の技術のほとんどは、まず構造化サブネットワーク(フィルタ、チャネル、...)を除去し、その結果のネットワークを微調整して高い精度を維持する。 しかし, 構造全体の除去は強靭なトポロジカルな前兆であり, 微調整による精度の回復は非常に困難である。 本稿では、微調整をせずにトレーニングと刈り取りを同時に行う「エンドツーエンド」軽量ネットワーク設計を提案する。 本手法の設計原理は,重みだけでなく,軽量サブネットワークのトポロジ的構造も学習する再パラメータ化に依存する。 この再パラメータ化は、トレーニングパラメータの数を増やすことなく、ネットワークの重みから暗黙的にプルーニングマスクを定義する事前(または正規化器)として機能する。 スパーシティは正確な刈り取りを提供する予算損失によって引き起こされる。 標準アーキテクチャ(conv4、vgg19、resnet18)を使用したcifar10とtinyimagenetデータセットに関する広範な実験は、微調整なしで魅力的な結果を示している。

Pruning seeks to design lightweight architectures by removing redundant weights in overparameterized networks. Most of the existing techniques first remove structured sub-networks (filters, channels,...) and then fine-tune the resulting networks to maintain a high accuracy. However, removing a whole structure is a strong topological prior and recovering the accuracy, with fine-tuning, is highly cumbersome. In this paper, we introduce an "end-to-end" lightweight network design that achieves training and pruning simultaneously without fine-tuning. The design principle of our method relies on reparametrization that learns not only the weights but also the topological structure of the lightweight sub-network. This reparametrization acts as a prior (or regularizer) that defines pruning masks implicitly from the weights of the underlying network, without increasing the number of training parameters. Sparsity is induced with a budget loss that provides an accurate pruning. Extensive experiments conducted on the CIFAR10 and the TinyImageNet datasets, using standard architectures (namely Conv4, VGG19 and ResNet18), show compelling results without fine-tuning.
翻訳日:2021-07-09 13:33:17 公開日:2021-07-08
# 生体画像解析におけるメタラーニングのためのタスクフィンガープリント

Task Fingerprinting for Meta Learning in Biomedical Image Analysis ( http://arxiv.org/abs/2107.03949v1 )

ライセンス: Link先を確認
Patrick Godau and Lena Maier-Hein(参考訳) 注釈付きデータの不足は、バイオメディカル画像解析における最大のボトルネックの1つである。 メタ学習は、学習システムが経験を通じて効率を向上し、データ空間を克服するための重要な概念として進化させる方法を研究する。 しかし、メタラーニングベースのアプローチの中核的な能力は、新しいタスクが与えられたのと同様の以前のタスクを識別することである。 本稿では,タスクの類似性を,タスクフィンガープリントと呼ばれる概念で定量化する問題に対処する。 この概念は、画像データと対応するラベルで表される与えられたタスクを固定長ベクトル表現に変換することを含む。 指紋空間では、データセットのサイズやラベルの種類、特定の解像度に関係なく、異なるタスクを直接比較することができる。 外科的データ科学(SDS)の分野では, 様々な医学領域, 非医学領域の26の分類タスクを併用して, (1) 事前トレーニングに適したデータセットの選択, (2) 新規タスクに適したアーキテクチャの選択にタスクフィンガープリントを活用できることが示唆された。 タスクフィンガープリントは、SDSや他の生体画像解析分野におけるメタラーニングの重要なツールとなる可能性がある。

Shortage of annotated data is one of the greatest bottlenecks in biomedical image analysis. Meta learning studies how learning systems can increase in efficiency through experience and could thus evolve as an important concept to overcome data sparsity. However, the core capability of meta learning-based approaches is the identification of similar previous tasks given a new task - a challenge largely unexplored in the biomedical imaging domain. In this paper, we address the problem of quantifying task similarity with a concept that we refer to as task fingerprinting. The concept involves converting a given task, represented by imaging data and corresponding labels, to a fixed-length vector representation. In fingerprint space, different tasks can be directly compared irrespective of their data set sizes, types of labels or specific resolutions. An initial feasibility study in the field of surgical data science (SDS) with 26 classification tasks from various medical and non-medical domains suggests that task fingerprinting could be leveraged for both (1) selecting appropriate data sets for pretraining and (2) selecting appropriate architectures for a new task. Task fingerprinting could thus become an important tool for meta learning in SDS and other fields of biomedical image analysis.
翻訳日:2021-07-09 13:32:56 公開日:2021-07-08
# 単一心房筋電図に基づく視覚刺激分類のための脳波変換器

EEG-ConvTransformer for Single-Trial EEG based Visual Stimuli Classification ( http://arxiv.org/abs/2107.03983v1 )

ライセンス: Link先を確認
Subhranil Bagchi and Deepti R. Bathula(参考訳) 視覚刺激の異なるカテゴリーは、人間の脳で異なる反応を活性化する。 これらの信号をEEGでキャプチャして、Brain-Computer Interface (BCI)のようなアプリケーションで利用することができる。 しかし,脳波の信号対雑音比が低いため,単心房データの正確な分類は困難である。 本研究は,マルチヘッド自己注意に基づくEEG-ConvTranformerネットワークを導入する。 他のトランスフォーマーと異なり、このモデルは地域間の相互作用を捉えるためにセルフ・アテンションを組み込んでいる。 さらに、時間パターンを学習するための単一のモジュールとして、多面的な注目を伴う共役畳み込みフィルタまで拡張する。 EEG-ConvTransformerは,5種類の視覚刺激分類タスクにおいて,最先端技術による分類精度の向上を実証した。 最後に、頭間多様性の定量的解析は表現部分空間の類似度が低いことを示し、多頭注意の暗黙的な多様性を強調している。

Different categories of visual stimuli activate different responses in the human brain. These signals can be captured with EEG for utilization in applications such as Brain-Computer Interface (BCI). However, accurate classification of single-trial data is challenging due to low signal-to-noise ratio of EEG. This work introduces an EEG-ConvTranformer network that is based on multi-headed self-attention. Unlike other transformers, the model incorporates self-attention to capture inter-region interactions. It further extends to adjunct convolutional filters with multi-head attention as a single module to learn temporal patterns. Experimental results demonstrate that EEG-ConvTransformer achieves improved classification accuracy over the state-of-the-art techniques across five different visual stimuli classification tasks. Finally, quantitative analysis of inter-head diversity also shows low similarity in representational subspaces, emphasizing the implicit diversity of multi-head attention.
翻訳日:2021-07-09 13:32:35 公開日:2021-07-08
# TGHop: テクスチャ生成のための説明可能な、効率的で軽量な方法

TGHop: An Explainable, Efficient and Lightweight Method for Texture Generation ( http://arxiv.org/abs/2107.04020v1 )

ライセンス: Link先を確認
Xuejing Lei, Ganning Zhao, Kaitai Zhang, C.-C. Jay Kuo(参考訳) 本稿では,テクスチャ生成のための説明可能で効率的で軽量な手法であるtghop(テクスチャ生成ピクセルホップの頭字語)を提案する。 視覚的に心地よいテクスチャの合成はディープニューラルネットワークによって達成できるが、関連するモデルはサイズが大きく、理論上説明が困難であり、トレーニングで計算コストがかかる。 対照的に、TGHopはモデルサイズが小さく、数学的に透明であり、トレーニングや推論で効率的であり、高品質なテクスチャを生成することができる。 模範的なテクスチャを与えられたTGHopは、まず多くのサンプルパッチを抽出して、ソースと呼ばれるサンプルパッチの集合を形成する。 そして、ソースからサンプルのピクセル統計を分析し、pixelhop++フレームワークを使用して、これらのパッチの細かな部分空間のシーケンスを取得する。 tghopでテクスチャパッチを生成するには、コアと呼ばれる最も粗い部分空間から始め、実サンプルの分布に従って各部分空間でサンプルを生成しようとする。 最後に、テクスチャパッチを縫合して大きなテクスチャ画像を形成する。 実験結果から,TGHopはモデルサイズが小さく,高速で高品質なテクスチャ画像を生成することができることがわかった。

An explainable, efficient and lightweight method for texture generation, called TGHop (an acronym of Texture Generation PixelHop), is proposed in this work. Although synthesis of visually pleasant texture can be achieved by deep neural networks, the associated models are large in size, difficult to explain in theory, and computationally expensive in training. In contrast, TGHop is small in its model size, mathematically transparent, efficient in training and inference, and able to generate high quality texture. Given an exemplary texture, TGHop first crops many sample patches out of it to form a collection of sample patches called the source. Then, it analyzes pixel statistics of samples from the source and obtains a sequence of fine-to-coarse subspaces for these patches by using the PixelHop++ framework. To generate texture patches with TGHop, we begin with the coarsest subspace, which is called the core, and attempt to generate samples in each subspace by following the distribution of real samples. Finally, texture patches are stitched to form texture images of a large size. It is demonstrated by experimental results that TGHop can generate texture images of superior quality with a small model size and at a fast speed.
翻訳日:2021-07-09 13:32:24 公開日:2021-07-08
# 置換行列制約を伴う断熱量子グラフマッチング

Adiabatic Quantum Graph Matching with Permutation Matrix Constraints ( http://arxiv.org/abs/2107.04032v1 )

ライセンス: Link先を確認
Marcel Seelbach Benkner and Vladislav Golyanik and Christian Theobalt and Michael Moeller(参考訳) 3次元形状と画像のマッチング問題は、NPハードな置換行列制約を持つ組合せ二次代入問題(QAP)としてしばしば定式化されるため、困難である。 本研究では,量子コンピューティング技術の進歩に伴う問題に対処し,量子ハードウェア上での効率的な実行に適した制約のない問題として,QAPのいくつかの改革を提案する。 量子ハードウェアにマッピング可能な2次非制約二元最適化問題において、置換行列制約を注入する方法をいくつか検討する。 本研究は,最適解と変分行列を単一ランで測定する確率をさらに高める十分なスペクトルギャップを得ることに焦点を当てる。 量子コンピュータD-Wave 2000Q (2^11 qubits, adiabatic) で実験を行った。 シミュレーションされたアディバティック量子コンピューティングと実際の量子ハードウェア上での実行の相違にもかかわらず、置換行列制約の再構成は、実験における他のペナルティアプローチよりも数値計算の堅牢性を高める。 提案アルゴリズムは、将来の量子コンピューティングアーキテクチャの高次元にスケールできる可能性があり、3次元コンピュータビジョンとグラフィックスのマッチング問題を解決するために、複数の新しい方向を開く。

Matching problems on 3D shapes and images are challenging as they are frequently formulated as combinatorial quadratic assignment problems (QAPs) with permutation matrix constraints, which are NP-hard. In this work, we address such problems with emerging quantum computing technology and propose several reformulations of QAPs as unconstrained problems suitable for efficient execution on quantum hardware. We investigate several ways to inject permutation matrix constraints in a quadratic unconstrained binary optimization problem which can be mapped to quantum hardware. We focus on obtaining a sufficient spectral gap, which further increases the probability to measure optimal solutions and valid permutation matrices in a single run. We perform our experiments on the quantum computer D-Wave 2000Q (2^11 qubits, adiabatic). Despite the observed discrepancy between simulated adiabatic quantum computing and execution on real quantum hardware, our reformulation of permutation matrix constraints increases the robustness of the numerical computations over other penalty approaches in our experiments. The proposed algorithm has the potential to scale to higher dimensions on future quantum computing architectures, which opens up multiple new directions for solving matching problems in 3D computer vision and graphics.
翻訳日:2021-07-09 13:32:01 公開日:2021-07-08
# 不正確な検査結果による疾患進展予測

Predicting Disease Progress with Imprecise Lab Test Results ( http://arxiv.org/abs/2107.03620v1 )

ライセンス: Link先を確認
Mei Wang, Jianwen Su, Zhihua Lin(参考訳) 既存のディープラーニング手法では、ほとんど全ての損失関数は、予測されたサンプルデータ値が正しい唯一のものであると仮定する。 この仮定は実験室のテストデータには当てはまらない。 テスト結果はしばしば許容範囲内または不正確範囲内であり、全ての値が許容範囲内である。 インプレシジョンサンプルを考慮し,インプレシション範囲損失(ir損失)法を提案し,疾患進行予測のためのlong short term memory(lstm)モデルに組み込む。 この方法では、不正確な範囲空間内の各サンプルは、損失計算に参加して実値となる確率が一定である。 損失は、印象範囲空間の各点の誤差の積分として定義される。 インプレクション空間のサンプリング法を定式化する。 連続的精度空間を離散化し、勾配降下学習に便利な一連の不正確なデータセットを得る。 不正確なデータセットに基づいてモデルパラメータを学習するためにヒューリスティック学習アルゴリズムを開発した。 実データを用いた実験の結果,ir損失に基づく予測手法は,不適合範囲から試験試料が生成される場合,より安定かつ一貫した予測結果が得られることがわかった。

In existing deep learning methods, almost all loss functions assume that sample data values used to be predicted are the only correct ones. This assumption does not hold for laboratory test data. Test results are often within tolerable or imprecision ranges, with all values in the ranges acceptable. By considering imprecision samples, we propose an imprecision range loss (IR loss) method and incorporate it into Long Short Term Memory (LSTM) model for disease progress prediction. In this method, each sample in imprecision range space has a certain probability to be the real value, participating in the loss calculation. The loss is defined as the integral of the error of each point in the impression range space. A sampling method for imprecision space is formulated. The continuous imprecision space is discretized, and a sequence of imprecise data sets are obtained, which is convenient for gradient descent learning. A heuristic learning algorithm is developed to learn the model parameters based on the imprecise data sets. Experimental results on real data show that the prediction method based on IR loss can provide more stable and consistent prediction result when test samples are generated from imprecision range.
翻訳日:2021-07-09 13:31:25 公開日:2021-07-08
# 第1回弱監視学習ワークショップ(WeaSuL)の開催報告

Proceedings of the First Workshop on Weakly Supervised Learning (WeaSuL) ( http://arxiv.org/abs/2107.03690v1 )

ライセンス: Link先を確認
Michael A. Hedderich, Benjamin Roth, Katharina Kann, Barbara Plank, Alex Ratner and Dietrich Klakow(参考訳) Welcome to WeaSuL 2021, the First Workshop on Weakly Supervised Learning, colocated with ICLR 2021。 このワークショップでは、専門家が任意のディープニューラルネットワークをトレーニングして予測できる自動データアノテーションに対して、事前にコーディングされた知識を表現できるように、理論、手法、ツールを前進させたいと思っています。 ICLR 2021 Workshop on Weak Supervisionは、観測可能な(ラベルなし)データとの相互作用において、専門家が提供した知識を一般化する、現代的な機械学習手法を支援する方法の進歩を目標としている。 合計15通の論文が提出された。 受理されたすべてのコントリビューションは、これらの手順にリストされます。

Welcome to WeaSuL 2021, the First Workshop on Weakly Supervised Learning, co-located with ICLR 2021. In this workshop, we want to advance theory, methods and tools for allowing experts to express prior coded knowledge for automatic data annotations that can be used to train arbitrary deep neural networks for prediction. The ICLR 2021 Workshop on Weak Supervision aims at advancing methods that help modern machine-learning methods to generalize from knowledge provided by experts, in interaction with observable (unlabeled) data. In total, 15 papers were accepted. All the accepted contributions are listed in these Proceedings.
翻訳日:2021-07-09 13:31:07 公開日:2021-07-08
# セッションベースレコメンダシステムのための教師なしプロキシ選択

Unsupervised Proxy Selection for Session-based Recommender Systems ( http://arxiv.org/abs/2107.03564v1 )

ライセンス: Link先を確認
Junsu Cho, SeongKu Kang, Dongmin Hyun, Hwanjo Yu(参考訳) セッションベースのレコメンダシステム(SRS)は、匿名のショートアイテムシーケンス(セッション)の次の項目を推奨するために活発に開発されている。 ユーザの短期的関心と一般的関心の両方をモデル化するために各ユーザのインタラクションシーケンスを使用できるシーケンス認識レコメンデータシステムとは異なり、SRSにユーザ依存情報がないため、ユーザの一般的関心を直接データから引き出すことは困難である。 したがって、既存のsrssはセッション内の短期的関心に関する情報を効果的にモデル化する方法に重点を置いているが、ユーザの一般的な関心を捉えるには不十分である。 この目的のために,セッションのプロキシをモデル化することで,SRSの欠落情報を模倣するProxySR(ProxySR)という,SRSの制限を克服する新しいフレームワークを提案する。 ProxySRは、教師なしの方法で入力セッションのプロキシを選択し、セッションの符号化された短期的関心と組み合わせる。 プロキシは短期的な関心と共同で学び、複数のセッションによって選択されるので、プロキシはユーザの一般的な関心の役割を演じることを学び、ProxySRは入力セッションに適したプロキシを選択する方法を学ぶ。 さらに,数名のユーザがログインしてセッションに識別子を残すSRSの現実的な状況と,その状況に対するProxySRの改訂を提案する。 実世界のデータセットを用いた実験により, ProxySRは最先端の競合よりかなり優れており, プロキシはユーザ依存の情報を持たないユーザの一般的な関心を模倣することに成功した。

Session-based Recommender Systems (SRSs) have been actively developed to recommend the next item of an anonymous short item sequence (i.e., session). Unlike sequence-aware recommender systems where the whole interaction sequence of each user can be used to model both the short-term interest and the general interest of the user, the absence of user-dependent information in SRSs makes it difficult to directly derive the user's general interest from data. Therefore, existing SRSs have focused on how to effectively model the information about short-term interest within the sessions, but they are insufficient to capture the general interest of users. To this end, we propose a novel framework to overcome the limitation of SRSs, named ProxySR, which imitates the missing information in SRSs (i.e., general interest of users) by modeling proxies of sessions. ProxySR selects a proxy for the input session in an unsupervised manner, and combines it with the encoded short-term interest of the session. As a proxy is jointly learned with the short-term interest and selected by multiple sessions, a proxy learns to play the role of the general interest of a user and ProxySR learns how to select a suitable proxy for an input session. Moreover, we propose another real-world situation of SRSs where a few users are logged-in and leave their identifiers in sessions, and a revision of ProxySR for the situation. Our experiments on real-world datasets show that ProxySR considerably outperforms the state-of-the-art competitors, and the proxies successfully imitate the general interest of the users without any user-dependent information.
翻訳日:2021-07-09 13:30:31 公開日:2021-07-08
# 時間的相互作用ネットワーク学習のための深部構造点プロセス

Deep Structural Point Process for Learning Temporal Interaction Networks ( http://arxiv.org/abs/2107.03573v1 )

ライセンス: Link先を確認
Jiangxia Cao, Xixun Lin, Xin Cong, Shu Guo, Hengzhu Tang, Tingwen Liu, Bin Wang(参考訳) 本研究では,時間的相互作用ネットワークの学習問題について考察する。 時間的相互作用ネットワークは、ユーザとアイテム間の時系列的相互作用からなる。 従来の手法では、時間的相互作用ネットワークの構造情報を考慮せず、必然的に準最適結果につながるシーケンシャルな相互作用をモデル化するために、再帰的ニューラルネットワークの異なる変種を使用することでこの問題に取り組む。 そこで本研究では,時間的相互作用ネットワークを学習するためのDSPP(Deep Structure Point Process)を提案する。 DSPPは, トポロジカル構造と長距離依存構造を同時に組み込んで, モデル表現性を高める。 具体的には、トポロジカル構造を先行として用いることにより、まず位相的融合エンコーダを設計し、ノード埋め込みを得る。 次に注意シフトエンコーダを開発し,ユーザとアイテム間の長期依存構造を連続的に学習する。 提案する2つのモジュールにより,時間的相互作用ネットワークにおけるユーザ・イテム相関と動的影響を捉えることができる。 dsppはアイテム予測と時間予測の2つのタスクのための3つの実世界のデータセットで評価される。 広範な実験によって、このモデルが最先端のベースラインよりも一貫性と大幅な改善を達成できることが示されました。

This work investigates the problem of learning temporal interaction networks. A temporal interaction network consists of a series of chronological interactions between users and items. Previous methods tackle this problem by using different variants of recurrent neural networks to model sequential interactions, which fail to consider the structural information of temporal interaction networks and inevitably lead to sub-optimal results. To this end, we propose a novel Deep Structural Point Process termed as DSPP for learning temporal interaction networks. DSPP simultaneously incorporates the topological structure and long-range dependency structure into our intensity function to enhance model expressiveness. To be specific, by using the topological structure as a strong prior, we first design a topological fusion encoder to obtain node embeddings. An attentive shift encoder is then developed to learn the long-range dependency structure between users and items in continuous time. The proposed two modules enable our model to capture the user-item correlation and dynamic influence in temporal interaction networks. DSPP is evaluated on three real-world datasets for both tasks of item prediction and time prediction. Extensive experiments demonstrate that our model achieves consistent and significant improvements over state-of-the-art baselines.
翻訳日:2021-07-09 13:30:01 公開日:2021-07-08
# CLAIM:未知のソーシャルネットワークにおける影響最大化のためのカリキュラム学習政策

CLAIM: Curriculum Learning Policy for Influence Maximization in Unknown Social Networks ( http://arxiv.org/abs/2107.03603v1 )

ライセンス: Link先を確認
Dexun Li, Meghna Lowalekar, Pradeep Varakantham(参考訳) 影響の最大化は、情報の拡散を最大化できるネットワーク内のノードの小さなサブセットを見つける問題である。 近年,HIV感染防止,薬物乱用防止,マイクロファイナンス導入などにも応用が認められており,その目的は,情報を大勢の人々に広めることのできる現実世界の物理ソーシャルネットワークにおいて,ピアリーダーの集合を識別することにある。 オンラインのソーシャルネットワークとは異なり、現実世界のネットワークは完全には知られていない。 本稿では,影響最大化のためのネットワーク発見の問題に着目する。 この方向の既存の研究は強化学習フレームワークを提案する。 実世界の環境相互作用はコストがかかるため、強化学習アルゴリズムは最小限の環境相互作用、すなわちサンプリング効率を持つことが重要である。 本稿では,RL法のサンプル効率を向上させるために,影響最大化のためのCLAIMCurriculum LeArning Policyを提案する。 実世界のデータセットで実験を行い、我々のアプローチが現在の最良のアプローチより優れていることを示す。

Influence maximization is the problem of finding a small subset of nodes in a network that can maximize the diffusion of information. Recently, it has also found application in HIV prevention, substance abuse prevention, micro-finance adoption, etc., where the goal is to identify the set of peer leaders in a real-world physical social network who can disseminate information to a large group of people. Unlike online social networks, real-world networks are not completely known, and collecting information about the network is costly as it involves surveying multiple people. In this paper, we focus on this problem of network discovery for influence maximization. The existing work in this direction proposes a reinforcement learning framework. As the environment interactions in real-world settings are costly, so it is important for the reinforcement learning algorithms to have minimum possible environment interactions, i.e, to be sample efficient. In this work, we propose CLAIM - Curriculum LeArning Policy for Influence Maximization to improve the sample efficiency of RL methods. We conduct experiments on real-world datasets and show that our approach can outperform the current best approach.
翻訳日:2021-07-09 13:29:42 公開日:2021-07-08
# 階層型強化学習による自律パイプライン検査に向けて

Towards Autonomous Pipeline Inspection with Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2107.03685v1 )

ライセンス: Link先を確認
Nicol\`o Botteghi, Luuk Grefte, Mannes Poel, Beril Sirmacek, Christoph Brune, Edwin Dertien, and Stefano Stramigioli(参考訳) 検査と保守は産業用パイプライン工場の2つの重要な側面である。 ロボット工学は、パイプ内検査ロボットの機械設計において大きな進歩を遂げているが、ロボットの自律的な制御は、多くのアクチュエータと複雑な操作を必要とするため、いまだに大きな課題である。 この問題を解決するために,複雑なトポロジを持つパイプラインネットワークにおいて,パイプ内ロボットの自律ナビゲーションを実現するために,Deep Reinforcement Learningを用いた。 さらに,階層的強化学習に基づく階層的ポリシー分解を導入し,堅牢な高レベルのナビゲーションスキルを学習する。 提案手法で導入された階層構造は,パイプによるナビゲーション課題の解決に基礎的であり,人間レベルの制御よりも優れたナビゲーション性能を実現するために必要なものである。

Inspection and maintenance are two crucial aspects of industrial pipeline plants. While robotics has made tremendous progress in the mechanic design of in-pipe inspection robots, the autonomous control of such robots is still a big open challenge due to the high number of actuators and the complex manoeuvres required. To address this problem, we investigate the usage of Deep Reinforcement Learning for achieving autonomous navigation of in-pipe robots in pipeline networks with complex topologies. Moreover, we introduce a hierarchical policy decomposition based on Hierarchical Reinforcement Learning to learn robust high-level navigation skills. We show that the hierarchical structure introduced in the policy is fundamental for solving the navigation task through pipes and necessary for achieving navigation performances superior to human-level control.
翻訳日:2021-07-09 13:29:24 公開日:2021-07-08
# ドラフトEU人工知能法を廃止する

Demystifying the Draft EU Artificial Intelligence Act ( http://arxiv.org/abs/2107.03721v1 )

ライセンス: Link先を確認
Michael Veale and Frederik Zuiderveen Borgesius(参考訳) 2021年4月、欧州委員会はAI法として知られる人工知能に関する規則を提案した。 我々は、この法律の概要とその意義について分析し、現在のai実践の研究から過去40年間のeu製品安全体制の構造まで幅広い学問について考察する。 AI法の側面、例えばAIのさまざまなリスクレベルに対する異なるルールは理にかなっている。 しかし、草案AI法の一部の条項が驚くべき法的意味を持っているのに対し、他の条項は、規定された目標を達成するのにほとんど効果がないかもしれないこともわかっています。 執行体制やAI政策の空間における最大調和の影響など、いくつかの包括的な側面は、大きな懸念を抱いている。 これらの問題は立法プロセスにおける優先事項として扱われるべきである。

In April 2021, the European Commission proposed a Regulation on Artificial Intelligence, known as the AI Act. We present an overview of the Act and analyse its implications, drawing on scholarship ranging from the study of contemporary AI practices to the structure of EU product safety regimes over the last four decades. Aspects of the AI Act, such as different rules for different risk-levels of AI, make sense. But we also find that some provisions of the draft AI Act have surprising legal implications, whilst others may be largely ineffective at achieving their stated goals. Several overarching aspects, including the enforcement regime and the effect of maximum harmonisation on the space for AI policy more generally, engender significant concern. These issues should be addressed as a priority in the legislative process.
翻訳日:2021-07-09 13:29:11 公開日:2021-07-08
# パーソナライズされたセッションベースレコメンデーションのための異種グローバルグラフニューラルネットワーク

Heterogeneous Global Graph Neural Networks for Personalized Session-based Recommendation ( http://arxiv.org/abs/2107.03813v1 )

ライセンス: Link先を確認
Yitong Pang, Lingfei Wu, Qi Shen, Yiming Zhang, Zhihua Wei, Fangli Xu, Ethan Chang, Bo Long(参考訳) 短期的なインタラクションセッションの次のインタラクションを予測することは、セッションベースのレコメンデーションにおいて難しいタスクである。 既存の作業のほとんどは項目遷移パターンに依存しており、ユーザの好みをモデル化しながらユーザ履歴セッションの影響を無視している。 さらに、既存のパーソナライズされたセッションベースのレコメンダは、現在のユーザのセッションに基づいてのみユーザの好みをキャプチャするが、他のユーザの履歴セッションから有用なアイテム遷移パターンを無視する。 これらの課題に対処するために,現在および過去のセッションからユーザの好みをよりよく推測するために,各セッションの項目遷移を微妙に活用する,新しいヘテロジニアス・グローバルグラフニューラルネットワーク(HG-GNN)を提案する。 ユーザからのすべてのセッションの項目遷移を効果的に活用するために,セッションの項目遷移,ユーザ-イテムインタラクション,グローバル共起項目を含む異種グローバルグラフを提案する。 さらに,セッションからユーザの嗜好を包括的に捉えるために,グローバルグラフから2種類のユーザ表現を2つのグラフ拡張選好エンコーダで学習することを提案する。 具体的には、ヘテロジニアスなグローバルグラフ上に新しいヘテロジニアスなグラフニューラルネットワーク(HGNN)を設計し、リッチなセマンティクスを用いて、長期的なユーザ好みとアイテム表現を学習する。 HGNNをベースとして,現在セッションと歴史セッションの異なるレベルのユーザ嗜好をキャプチャするために,Current Preference Encoder と His Historical Preference Encoder を提案する。 パーソナライズドレコメンデーションを実現するために,現在ユーザの嗜好と歴史的興味の表現を統合し,最終ユーザ選好表現を生成する。 3つの実世界のデータセットの広範な実験結果から、我々のモデルは最先端の他の手法よりも優れています。

Predicting the next interaction of a short-term interaction session is a challenging task in session-based recommendation. Almost all existing works rely on item transition patterns, and neglect the impact of user historical sessions while modeling user preference, which often leads to non-personalized recommendation. Additionally, existing personalized session-based recommenders capture user preference only based on the sessions of the current user, but ignore the useful item-transition patterns from other user's historical sessions. To address these issues, we propose a novel Heterogeneous Global Graph Neural Networks (HG-GNN) to exploit the item transitions over all sessions in a subtle manner for better inferring user preference from the current and historical sessions. To effectively exploit the item transitions over all sessions from users, we propose a novel heterogeneous global graph that contains item transitions of sessions, user-item interactions and global co-occurrence items. Moreover, to capture user preference from sessions comprehensively, we propose to learn two levels of user representations from the global graph via two graph augmented preference encoders. Specifically, we design a novel heterogeneous graph neural network (HGNN) on the heterogeneous global graph to learn the long-term user preference and item representations with rich semantics. Based on the HGNN, we propose the Current Preference Encoder and the Historical Preference Encoder to capture the different levels of user preference from the current and historical sessions, respectively. To achieve personalized recommendation, we integrate the representations of the user current preference and historical interests to generate the final user preference representation. Extensive experimental results on three real-world datasets show that our model outperforms other state-of-the-art methods.
翻訳日:2021-07-09 13:28:57 公開日:2021-07-08
# 量子信念関数

Quantum belief function ( http://arxiv.org/abs/2107.03930v1 )

ライセンス: Link先を確認
Qianli Zhou, Guojing Tian, Yong Deng(参考訳) デンプスター・シェーファーの証拠理論における信念関数は、伝統的なベイズ分布よりも多くの情報を表現できる。 近似推論、意思決定、情報融合に広く用いられている。 しかし、そのパワー指数爆発特性は、古典的コンピュータで大量の要素を扱う際に非常に高い計算複雑性をもたらす。 この問題を解決するために、基本信念割り当て(bba)を量子状態に符号化し、各キュービットを要素の制御に対応させる。 高効率の他に、この量子式は、2つのBBAの類似度を測定するために非常に導出的であり、我々が思いついた量子アルゴリズムは、理論上対応する古典的アルゴリズムと比較して指数加速度を持つ。 さらに,Qiskitプラットフォーム上でのBBAの量子バージョンをシミュレートし,アルゴリズムの合理性を実験的に保証する。 我々の結果は、量子計算の特性を利用して信念関数をより便利に扱うことに光を当てると信じている。

The belief function in Dempster Shafer evidence theory can express more information than the traditional Bayesian distribution. It is widely used in approximate reasoning, decision-making and information fusion. However, its power exponential explosion characteristics leads to the extremely high computational complexity when handling large amounts of elements in classic computers. In order to solve the problem, we encode the basic belief assignment (BBA) into quantum states, which makes each qubit correspond to control an element. Besides the high efficiency, this quantum expression is very conducive to measure the similarity between two BBAs, and the measuring quantum algorithm we come up with has exponential acceleration theoretically compared to the corresponding classical algorithm. In addition, we simulate our quantum version of BBA on Qiskit platform, which ensures the rationality of our algorithm experimentally. We believe our results will shed some light on utilizing the characteristic of quantum computation to handle belief function more conveniently.
翻訳日:2021-07-09 13:28:23 公開日:2021-07-08
# 多言語音声評価:英語、マレー語、タミル語を事例として

Multilingual Speech Evaluation: Case Studies on English, Malay and Tamil ( http://arxiv.org/abs/2107.03675v1 )

ライセンス: Link先を確認
Huayun Zhang, Ke Shi, Nancy F. Chen(参考訳) 音声評価はコンピュータ支援言語学習(CALL)において不可欠な要素である。 英語での音声評価は人気があるが、低資源言語での音声自動スコアリングは依然として困難である。 この分野での仕事は、英語のような資源に富む言語から派生したモノリンガル特有のデザインと手作りの特徴に焦点を当てている。 このようなアプローチは、特にリズムのような過渡的な性質についても検討したい場合、他の言語に一般化することはしばしば困難である。 本研究では、英語(強勢時)、マレー語(音節時)、タミル語(モーラ時)の3つの異なるリズムパターンを持つ言語について検討する。 音楽処理とベクトル表現学習に触発されたロバストな特徴表現を利用する。 経験的検証は、発音、リズム、イントネーションのパフォーマンスを予測するときに、3つの言語すべてに対して一貫した利得を示す。

Speech evaluation is an essential component in computer-assisted language learning (CALL). While speech evaluation on English has been popular, automatic speech scoring on low resource languages remains challenging. Work in this area has focused on monolingual specific designs and handcrafted features stemming from resource-rich languages like English. Such approaches are often difficult to generalize to other languages, especially if we also want to consider suprasegmental qualities such as rhythm. In this work, we examine three different languages that possess distinct rhythm patterns: English (stress-timed), Malay (syllable-timed), and Tamil (mora-timed). We exploit robust feature representations inspired by music processing and vector representation learning. Empirical validations show consistent gains for all three languages when predicting pronunciation, rhythm and intonation performance.
翻訳日:2021-07-09 13:28:09 公開日:2021-07-08
# ビデオセンサを用いた潜在的リスク分析のための物体行動自動抽出

Automated Object Behavioral Feature Extraction for Potential Risk Analysis based on Video Sensor ( http://arxiv.org/abs/2107.03554v1 )

ライセンス: Link先を確認
Byeongjoon Noh, Wonjun Noh, David Lee, Hwasoo Yeo(参考訳) 歩行者は様々な理由で道路、特に標識のない横断歩道で死亡や重傷を負う危険にさらされている。 これまで、視覚ベースの交通安全システムに関する様々な研究が報告されている。 しかし,多くの研究では,交通関連要因を確実に把握するために,交通映像のボリュームを手動で検査する必要がある。 本稿では,道路上に展開する映像センサから,物体の挙動を効果的に抽出するシステムを提案する。 これらの特徴を統計的に解析し,道路交通行動のモニタリングにどのように役立つかを示す。 韓国・大山市の2つの無署名横断歩道にプロトタイプを適用し,提案システムの実現可能性を確認した。 結論として,両エリアにおける車両と歩行者の挙動を簡易な統計分析により比較した。 本研究は,スマートシティに対して,危険な道路環境における歩行者の安全向上のための行動可能なデータを提供するための映像センサネットワークの可能性を示す。

Pedestrians are exposed to risk of death or serious injuries on roads, especially unsignalized crosswalks, for a variety of reasons. To date, an extensive variety of studies have reported on vision based traffic safety system. However, many studies required manual inspection of the volumes of traffic video to reliably obtain traffic related objects behavioral factors. In this paper, we propose an automated and simpler system for effectively extracting object behavioral features from video sensors deployed on the road. We conduct basic statistical analysis on these features, and show how they can be useful for monitoring the traffic behavior on the road. We confirm the feasibility of the proposed system by applying our prototype to two unsignalized crosswalks in Osan city, South Korea. To conclude, we compare behaviors of vehicles and pedestrians in those two areas by simple statistical analysis. This study demonstrates the potential for a network of connected video sensors to provide actionable data for smart cities to improve pedestrian safety in dangerous road environments.
翻訳日:2021-07-09 13:27:57 公開日:2021-07-08
# 4次元注意:時空間注視マッピングのための総合的枠組み

4D Attention: Comprehensive Framework for Spatio-Temporal Gaze Mapping ( http://arxiv.org/abs/2107.03606v1 )

ライセンス: Link先を確認
Shuji Oishi, Kenji Koide, Masashi Yokozuka, Atsuhiko Banno(参考訳) 本研究では、視線追跡メガネを用いた時空間領域における人間の注意を捉えるための枠組みを提案する。 アテンションマッピング(アテンションマッピング)は、人間の視覚認知を支援する人間の知覚行動分析または人間とロボットの相互作用(hri)にとって重要な技術である。 そこで我々は,静的および動的オブジェクトへの統一的視線マッピングのための包括的フレームワークである4d attentionを提案する。 具体的には、直接的視覚局在化と慣性測定ユニット(IMU)値の疎結合を利用してメガネのポーズを推定する。 さらに,本フレームワークに再構成部品を組み込むことで,入力画像に基づいて3次元環境マップに記録されていない動的オブジェクトをインスタンス化する。 最後に、シーンレンダリングコンポーネントは、識別(ID)テクスチャで一人称ビューを合成し、直接2D-3D視線アソシエーションを実行する。 定量的評価の結果,枠組みの有効性が示された。 さらに,実環境における実験による4次元注意の応用を実証した。

This study presents a framework for capturing human attention in the spatio-temporal domain using eye-tracking glasses. Attention mapping is a key technology for human perceptual activity analysis or Human-Robot Interaction (HRI) to support human visual cognition; however, measuring human attention in dynamic environments is challenging owing to the difficulty in localizing the subject and dealing with moving objects. To address this, we present a comprehensive framework, 4D Attention, for unified gaze mapping onto static and dynamic objects. Specifically, we estimate the glasses pose by leveraging a loose coupling of direct visual localization and Inertial Measurement Unit (IMU) values. Further, by installing reconstruction components into our framework, dynamic objects not captured in the 3D environment map are instantiated based on the input images. Finally, a scene rendering component synthesizes a first-person view with identification (ID) textures and performs direct 2D-3D gaze association. Quantitative evaluations showed the effectiveness of our framework. Additionally, we demonstrated the applications of 4D Attention through experiments in real situations.
翻訳日:2021-07-09 13:27:40 公開日:2021-07-08
# 超解像品質評価のための地域差分情報エントロピー

Regional Differential Information Entropy for Super-Resolution Image Quality Assessment ( http://arxiv.org/abs/2107.03642v1 )

ライセンス: Link先を確認
Ningyuan Xu, Jiayan Zhuang, Jiangjian Xiao and Chengbin Peng(参考訳) PSNR と SSIM は超解像問題において最も広く使われている指標であり、使用が容易であり、生成した画像と参照画像の類似性を評価することができる。 しかし、単一画像の超解像は不適切な問題であり、同一の低解像に対して対応する複数の高解像画像が存在する。 その類似性は修復効果を完全に反映できない。 生成した画像の知覚品質も重要であるが、PSNRとSSIMは知覚品質をよく反映していない。 そこで本研究では,類似度と知覚品質の両方を測定するため,地域差情報エントロピーと呼ばれる手法を提案する。 従来の画像情報エントロピーは構造情報を反映できないという問題を克服するため,スライディングウィンドウを用いて各領域の情報エントロピーを測定することを提案した。 ヒトの視覚系は低輝度での明るさ差に敏感であることを考慮すると、線形量子化ではなく$\gamma$量子化を用いる。 提案手法を高速化するため,ニューラルネットワークを用いて情報エントロピーの計算手順を再編成した。 本稿では,我々のIQAデータセットとPIPALの実験を通して,RDIEが画像の知覚品質,特にGANに基づく画像の定量化に有効であることを証明した。

PSNR and SSIM are the most widely used metrics in super-resolution problems, because they are easy to use and can evaluate the similarities between generated images and reference images. However, single image super-resolution is an ill-posed problem, there are multiple corresponding high-resolution images for the same low-resolution image. The similarities can't totally reflect the restoration effect. The perceptual quality of generated images is also important, but PSNR and SSIM do not reflect perceptual quality well. To solve the problem, we proposed a method called regional differential information entropy to measure both of the similarities and perceptual quality. To overcome the problem that traditional image information entropy can't reflect the structure information, we proposed to measure every region's information entropy with sliding window. Considering that the human visual system is more sensitive to the brightness difference at low brightness, we take $\gamma$ quantization rather than linear quantization. To accelerate the method, we reorganized the calculation procedure of information entropy with a neural network. Through experiments on our IQA dataset and PIPAL, this paper proves that RDIE can better quantify perceptual quality of images especially GAN-based images.
翻訳日:2021-07-09 13:27:21 公開日:2021-07-08
# JPEG圧縮領域におけるディープラーニングに基づく画像検索

Deep Learning Based Image Retrieval in the JPEG Compressed Domain ( http://arxiv.org/abs/2107.03648v1 )

ライセンス: Link先を確認
Shrikant Temburwar, Bulla Rajesh and Mohammed Javed(参考訳) 画素領域上のコンテンツベース画像検索(CBIR)システムは、色、テクスチャ、形状などの低レベル特徴を用いて画像を取得する。 この文脈では、2種類の画像表現がある。 ローカル画像とグローバル画像の特徴は文献で研究されている。 これらの特徴をピクセル画像から抽出し、データベースの画像と比較するのは非常に時間がかかる。 そのため,近年は少ない計算量で直接圧縮領域で画像解析を行うことが試みられている。 さらに、日々のトランザクションのほとんどのイメージはJPEG圧縮フォーマットに格納されます。 したがって、部分的にデコードまたは圧縮されたデータから直接機能を検索し、それらを検索に使用できれば理想的です。 本稿では,DCT係数を入力とし,JPEG圧縮領域のグローバルおよびローカルな特徴を直接抽出し,正確な画像検索を行う画像検索統合モデルを提案する。 実験結果から,提案手法は従来のDLGモデルとよく似ており,RGBの特徴を学習速度と検索速度の速い平均精度の入力として用いていることがわかった。

Content-based image retrieval (CBIR) systems on pixel domain use low-level features, such as colour, texture and shape, to retrieve images. In this context, two types of image representations i.e. local and global image features have been studied in the literature. Extracting these features from pixel images and comparing them with images from the database is very time-consuming. Therefore, in recent years, there has been some effort to accomplish image analysis directly in the compressed domain with lesser computations. Furthermore, most of the images in our daily transactions are stored in the JPEG compressed format. Therefore, it would be ideal if we could retrieve features directly from the partially decoded or compressed data and use them for retrieval. Here, we propose a unified model for image retrieval which takes DCT coefficients as input and efficiently extracts global and local features directly in the JPEG compressed domain for accurate image retrieval. The experimental findings indicate that our proposed model performed similarly to the current DELG model which takes RGB features as an input with reference to mean average precision while having a faster training and retrieval speed.
翻訳日:2021-07-09 13:26:56 公開日:2021-07-08
# 人間中心のビデオ要約における情緒的視覚情報の利用

Use of Affective Visual Information for Summarization of Human-Centric Videos ( http://arxiv.org/abs/2107.03783v1 )

ライセンス: Link先を確認
Berkay K\"opr\"u, Engin Erzin(参考訳) ビデオ検索やブラウジングなどのユーザ中心のビデオコンテンツやそれらのアプリケーションでは、ビデオ要約文献によって対処されるコンパクトな表現が必要となる。 現在の教師付き研究は、映像要約をシーケンスからシーケンスへの学習問題として定式化し、既存のソリューションは、本質的に感情的内容を含む人間中心のビューの急増を無視することが多い。 本研究では,人間中心のビデオに対する情緒情報に富む教師付きビデオ要約タスクについて検討する。 まず、RECOLAデータセット上で視覚的入力駆動型感情認識モデル(CER-NET)を訓練し、感情特性を推定する。 次に,CER-NETの感情特性と高レベル表現を視覚情報と統合し,提案した情緒的映像要約アーキテクチャ (AVSUM) を定義する。 さらに,AVSUMアーキテクチャの改善に注意を払って,時間的注意(TA-AVSUM)と空間的注意(SA-AVSUM)に基づく2つの新しいアーキテクチャを提案する。 我々は,TvSumデータベース上で映像要約実験を行う。 提案するavsum-gruアーキテクチャは,f-scoreと自己定義顔のリコールメトリクスの点で,人間中心の映像に対するパフォーマンス向上を実現することにより,高レベルのgrub埋め込みと時間的注意に基づくta-avsumアーキテクチャを早期に融合させ,競争力の高いビデオ要約性能を実現している。

Increasing volume of user-generated human-centric video content and their applications, such as video retrieval and browsing, require compact representations that are addressed by the video summarization literature. Current supervised studies formulate video summarization as a sequence-to-sequence learning problem and the existing solutions often neglect the surge of human-centric view, which inherently contains affective content. In this study, we investigate the affective-informatio n enriched supervised video summarization task for human-centric videos. First, we train a visual input-driven state-of-the-art continuous emotion recognition model (CER-NET) on the RECOLA dataset to estimate emotional attributes. Then, we integrate the estimated emotional attributes and the high-level representations from the CER-NET with the visual information to define the proposed affective video summarization architectures (AVSUM). In addition, we investigate the use of attention to improve the AVSUM architectures and propose two new architectures based on temporal attention (TA-AVSUM) and spatial attention (SA-AVSUM). We conduct video summarization experiments on the TvSum database. The proposed AVSUM-GRU architecture with an early fusion of high level GRU embeddings and the temporal attention based TA-AVSUM architecture attain competitive video summarization performances by bringing strong performance improvements for the human-centric videos compared to the state-of-the-art in terms of F-score and self-defined face recall metrics.
翻訳日:2021-07-09 13:26:39 公開日:2021-07-08
# 顔画像系列を用いた因果影響予測モデル

Causal affect prediction model using a facial image sequence ( http://arxiv.org/abs/2107.03886v1 )

ライセンス: Link先を確認
Geesung Oh, Euiseok Jeong and Sejoon Lim(参考訳) 人間の感情行動研究の中で, 表情認識研究は, 深層学習の発展とともに, 性能の向上に寄与している。 しかし、性能向上のためには、過去の画像だけでなく、将来の画像も対応する顔画像とともに使用すべきであり、リアルタイム環境へのこの技術の適用には障害がある。 本稿では,過去の顔画像のみを用いた感情的感情と覚醒の予測を行うcausal affect prediction network(capnet)を提案する。 aff-wild2データセットを用いて過去の画像のシーケンスと現在のラベルを組み合わせることで、教師付き学習を通じて過去の画像とそれに対応する感情的ヴァレンスと覚醒の間の因果推論を学ぶようにcapnetを訓練する。 本研究は,前者の顔画像の3分の1でのみ情緒的ヴァレンスと覚醒を予測し,情緒的行動分析(abaw2)コンペティションにおける第2の課題のベースラインを,よく訓練されたcapnetが上回ることを示す実験である。 したがって、リアルタイムアプリケーションでは、CAPNetは過去のデータでのみ感情価と覚醒を確実に予測できる。

Among human affective behavior research, facial expression recognition research is improving in performance along with the development of deep learning. However, for improved performance, not only past images but also future images should be used along with corresponding facial images, but there are obstacles to the application of this technique to real-time environments. In this paper, we propose the causal affect prediction network (CAPNet), which uses only past facial images to predict corresponding affective valence and arousal. We train CAPNet to learn causal inference between past images and corresponding affective valence and arousal through supervised learning by pairing the sequence of past images with the current label using the Aff-Wild2 dataset. We show through experiments that the well-trained CAPNet outperforms the baseline of the second challenge of the Affective Behavior Analysis in-the-wild (ABAW2) Competition by predicting affective valence and arousal only with past facial images one-third of a second earlier. Therefore, in real-time application, CAPNet can reliably predict affective valence and arousal only with past data.
翻訳日:2021-07-09 13:26:11 公開日:2021-07-08
# 潜在的最適化による心臓分節の関節運動補正と超分解能

Joint Motion Correction and Super Resolution for Cardiac Segmentation via Latent Optimisation ( http://arxiv.org/abs/2107.03887v1 )

ライセンス: Link先を確認
Shuo Wang, Chen Qin, Nicolo Savioli, Chen Chen, Declan O'Regan, Stuart Cook, Yike Guo, Daniel Rueckert and Wenjia Bai(参考訳) 心臓磁気共鳴(CMR)画像では、心臓の3次元高分解能セグメンテーションが解剖学的構造を詳細に記述するために不可欠である。 しかし, 取得期間と呼吸・心臓運動の限界により, 臨床経過中に多層スライス2D画像が取得される。 これらの画像のセグメンテーションは、運動によって引き起こされるアーティファクトを含む心臓解剖の低解像度表現を提供する。 本稿では,心像分割のための運動補正と超解像を共同で行う新しい潜在最適化フレームワークを提案する。 入力として低分解能セグメンテーションが与えられると、このフレームワークは心MR画像におけるスライス間運動を考慮し、入力と整合した高分解能セグメンテーションに入力を超解する。 心臓画像の短軸視と長軸視の両方からの情報を活用するために多視点損失が組み込まれている。 逆問題を解くために、潜在空間において反復最適化を行い、解剖学的可能性を確保する。 これにより、教師あり学習のための低解像度画像と高解像度画像のペアの必要性が軽減される。 2つの心臓MRデータセットの実験により、提案フレームワークは最先端の超解像アプローチに匹敵する高い性能を実現し、クロスドメインの汎用性と解剖学的妥当性が向上した。

In cardiac magnetic resonance (CMR) imaging, a 3D high-resolution segmentation of the heart is essential for detailed description of its anatomical structures. However, due to the limit of acquisition duration and respiratory/cardiac motion, stacks of multi-slice 2D images are acquired in clinical routine. The segmentation of these images provides a low-resolution representation of cardiac anatomy, which may contain artefacts caused by motion. Here we propose a novel latent optimisation framework that jointly performs motion correction and super resolution for cardiac image segmentations. Given a low-resolution segmentation as input, the framework accounts for inter-slice motion in cardiac MR imaging and super-resolves the input into a high-resolution segmentation consistent with input. A multi-view loss is incorporated to leverage information from both short-axis view and long-axis view of cardiac imaging. To solve the inverse problem, iterative optimisation is performed in a latent space, which ensures the anatomical plausibility. This alleviates the need of paired low-resolution and high-resolution images for supervised learning. Experiments on two cardiac MR datasets show that the proposed framework achieves high performance, comparable to state-of-the-art super-resolution approaches and with better cross-domain generalisability and anatomical plausibility.
翻訳日:2021-07-09 13:25:49 公開日:2021-07-08
# 深部神経回路を用いた耳部CT画像における顎骨内解剖のアトラスによる分類

Atlas-Based Segmentation of Intracochlear Anatomy in Metal Artifact Affected CT Images of the Ear with Co-trained Deep Neural Networks ( http://arxiv.org/abs/2107.03987v1 )

ライセンス: Link先を確認
Jianing Wang, Dingjie Su, Yubo Fan, Srijata Chakravorti, Jack H. Noble, and Be-noit M. Dawant(参考訳) 本稿では,アトラス内のメッシュ間のポイント・ツー・ポイント対応を保った人工内耳インプラント(ci)受像者の術後ct画像中の人工内耳解剖(ica)をアトラスベースで分割する手法を提案する。 インプラントが生成する強いアーティファクトにより困難であるこの問題を解決するために, 対向方向に高密度変形場(ddfs)を発生させる2対の共学習深層ネットワークを用いた。 1つのネットワークは、アトラス画像をポストCT画像に登録し、もう1つのネットワークは、ポストCT画像をアトラス画像に登録する。 ネットワークは、voxel-wiseラベル、画像内容、fiducial registration error、およびcycle-consistency制約に基づく損失関数を用いてトレーニングされる。 その後、トレーニングされた登録ネットワークによって生成された対応するDFFを用いて、アトラス画像中のICAの予め定義されたセグメンテーションメッシュをポストCT画像に転送することにより、ポストCT画像中のICAのセグメンテーションを得る。 本モデルでは,金属工芸品によって隠蔽されているにもかかわらず,ICAの基盤となる幾何学的特徴を学習することができる。 この手法は,まず条件付き生成逆数ネットワークを用いてPost-CT画像からアーティファクトのない画像を合成し,その後,活性形状モデルを用いてICAを合成画像に分割する手法である。 提案手法は,エンドユーザの受け入れに重要なSOTAに必要な時間の一部を要している。

We propose an atlas-based method to segment the intracochlear anatomy (ICA) in the post-implantation CT (Post-CT) images of cochlear implant (CI) recipients that preserves the point-to-point correspondence between the meshes in the atlas and the segmented volumes. To solve this problem, which is challenging because of the strong artifacts produced by the implant, we use a pair of co-trained deep networks that generate dense deformation fields (DDFs) in opposite directions. One network is tasked with registering an atlas image to the Post-CT images and the other network is tasked with registering the Post-CT images to the atlas image. The networks are trained using loss functions based on voxel-wise labels, image content, fiducial registration error, and cycle-consistency constraint. The segmentation of the ICA in the Post-CT images is subsequently obtained by transferring the predefined segmentation meshes of the ICA in the atlas image to the Post-CT images using the corresponding DDFs generated by the trained registration networks. Our model can learn the underlying geometric features of the ICA even though they are obscured by the metal artifacts. We show that our end-to-end network produces results that are comparable to the current state of the art (SOTA) that relies on a two-steps approach that first uses conditional generative adversarial networks to synthesize artifact-free images from the Post-CT images and then uses an active shape model-based method to segment the ICA in the synthetic images. Our method requires a fraction of the time needed by the SOTA, which is important for end-user acceptance.
翻訳日:2021-07-09 13:25:27 公開日:2021-07-08
# ベイズ非パラメトリックにおけるスティック焼成前の感度評価

Evaluating Sensitivity to the Stick-Breaking Prior in Bayesian Nonparametrics ( http://arxiv.org/abs/2107.03584v1 )

ライセンス: Link先を確認
Ryan Giordano (1), Runjing Liu (1), Tamara Broderick, Michael I.~Jordan ((1) Equal contribution authors)(参考訳) クラスタリング、トピックモデリング、その他の教師なし学習タスクのコア要素として、ディリクレプロセスやその他の突破前処理に基づくベイズモデルが提案されている。 しかし、それらの柔軟性は、事前選択の結果がしばしば比較的不透明であることを意味するため、事前の仕様はそのようなモデルにとって比較的困難である。 さらに、これらの選択は後部推論に大きな影響を及ぼす可能性がある。 したがって、ロバスト性についての考察は非パラメトリックなモデリングと相まって行う必要がある。 本稿では,複雑な非パラメトリックモデルに適合する計算上の利点に加えて,ベイズモデルのパラメトリックおよび非パラメトリックな側面に対する感性も与える,変分ベイズ法を活用して,この問題に取り組む。 特に,ディリクレ過程の混合モデルとそれに関連する混合モデルによる推論に対する,濃度パラメータの選択とスティック破断分布に対する結論の感度を評価する方法を示す。 ベイズ感度分析に対する変動的アプローチの理論的および経験的支援を提供する。

Bayesian models based on the Dirichlet process and other stick-breaking priors have been proposed as core ingredients for clustering, topic modeling, and other unsupervised learning tasks. Prior specification is, however, relatively difficult for such models, given that their flexibility implies that the consequences of prior choices are often relatively opaque. Moreover, these choices can have a substantial effect on posterior inferences. Thus, considerations of robustness need to go hand in hand with nonparametric modeling. In the current paper, we tackle this challenge by exploiting the fact that variational Bayesian methods, in addition to having computational advantages in fitting complex nonparametric models, also yield sensitivities with respect to parametric and nonparametric aspects of Bayesian models. In particular, we demonstrate how to assess the sensitivity of conclusions to the choice of concentration parameter and stick-breaking distribution for inferences under Dirichlet process mixtures and related mixture models. We provide both theoretical and empirical support for our variational approach to Bayesian sensitivity analysis.
翻訳日:2021-07-09 13:24:58 公開日:2021-07-08
# 凸ペナルティをもつロバスト$M$推定器の漸近正規性

Asymptotic normality of robust $M$-estimators with convex penalty ( http://arxiv.org/abs/2107.03826v1 )

ライセンス: Link先を確認
Pierre C Bellec, Yiwei Shen, Cun-Hui Zhang(参考訳) 本稿では,高次元の凸ペナルティを持つロバストなm-エスティメータの個々の座標に対する漸近的正規性(英語版)(asymptotic normality)を考案する。そこでは,固定定数$\gamma>0$ に対して $p$ がサンプルサイズ $n$,すなわち $p/n\le\gamma$ とほぼ同値である。 漸近正規性はバイアス補正を必要とし、ハマー損失を含む大きな損失関数のM-推定器のほとんどの座標と、強い凸ペナルティで正規化された滑らかなバージョンを保持する。 得られた信頼区間の幅を特徴付ける漸近的分散をデータ駆動量で推定する。 この分散の見積もりは、自動的に低 (p/n\to0)$または高 (p/n \le \gamma$) 次元に適応し、M-推定器の漸近正規性に関する以前の研究に見られる近位作用素を含まない。 ハマー損失について、推定された分散は、有効な自由度と効果的なサンプルサイズを含む単純な式を持つ。 弾性ネットペナルティによるハマー損失の事例を詳細に研究し、シミュレーション研究により理論的な結果を確認した。 漸近正規性は、独立興味を持つ論文で開発された球面上の高次元ランダムベクトルに対するスタイン公式から導かれる。

This paper develops asymptotic normality results for individual coordinates of robust M-estimators with convex penalty in high-dimensions, where the dimension $p$ is at most of the same order as the sample size $n$, i.e, $p/n\le\gamma$ for some fixed constant $\gamma>0$. The asymptotic normality requires a bias correction and holds for most coordinates of the M-estimator for a large class of loss functions including the Huber loss and its smoothed versions regularized with a strongly convex penalty. The asymptotic variance that characterizes the width of the resulting confidence intervals is estimated with data-driven quantities. This estimate of the variance adapts automatically to low ($p/n\to0)$ or high ($p/n \le \gamma$) dimensions and does not involve the proximal operators seen in previous works on asymptotic normality of M-estimators. For the Huber loss, the estimated variance has a simple expression involving an effective degrees-of-freedom as well as an effective sample size. The case of the Huber loss with Elastic-Net penalty is studied in details and a simulation study confirms the theoretical findings. The asymptotic normality results follow from Stein formulae for high-dimensional random vectors on the sphere developed in the paper which are of independent interest.
翻訳日:2021-07-09 13:24:41 公開日:2021-07-08
# pomdps学習におけるサブリニア後悔

Sublinear Regret for Learning POMDPs ( http://arxiv.org/abs/2107.03635v1 )

ライセンス: Link先を確認
Yi Xiong, Ningyuan Chen, Xuefeng Gao, Xiang Zhou(参考訳) 部分的に観測可能なマルコフ決定過程(POMDP)に対するモデルに基づく非説明強化学習について検討した。 私たちが考えるオラクルは、無限の地平線上の平均的な報酬の観点から、既知の環境を持つPOMDPの最適ポリシーである。 本稿では,隠れマルコフモデルに対するスペクトル手法推定,POMDPにおける信念誤り制御,オンライン学習における高信頼化手法に基づく学習アルゴリズムを提案する。 提案する学習アルゴリズムでは,$t$ が学習の地平線である場合,後悔値が$o(t^{2/3}\sqrt{\log t})$ となる。 これは、私たちの知る限りでは、一般のPOMDPを学習するための私たちの託宣に対して、最初のサブ線形後悔を達成するアルゴリズムである。

We study the model-based undiscounted reinforcement learning for partially observable Markov decision processes (POMDPs). The oracle we consider is the optimal policy of the POMDP with a known environment in terms of the average reward over an infinite horizon. We propose a learning algorithm for this problem, building on spectral method-of-moments estimations for hidden Markov models, the belief error control in POMDPs and upper-confidence-bou nd methods for online learning. We establish a regret bound of $O(T^{2/3}\sqrt{\log T})$ for the proposed learning algorithm where $T$ is the learning horizon. This is, to the best of our knowledge, the first algorithm achieving sublinear regret with respect to our oracle for learning general POMDPs.
翻訳日:2021-07-09 13:22:49 公開日:2021-07-08
# LSTMネットワークを用いた非線形力学系の挙動近似のためのハイブリッド仮想センシング手法

A hybrid virtual sensing approach for approximating non-linear dynamic system behavior using LSTM networks ( http://arxiv.org/abs/2107.03645v1 )

ライセンス: Link先を確認
Leonhard Heindel, Peter Hantschke and Markus K\"astner(参考訳) 現代のIoTソリューションは、コネクテッドカーやヘルスケアから産業アプリケーションまで、さまざまな分野で使用されている。 それらは大量の相互接続センサーに依存しており、技術的な課題と経済的課題の両方につながる可能性がある。 仮想センシング技術は、利用可能な測定値から得られたデータを用いて、システムの物理的センサーの数を減らすことを目的としている。 成功したモデルベースソリューションには、Kalmanフィルタや有限要素モデルとモーダル解析の組み合わせが含まれるが、多くのデータ駆動手法は機械学習アルゴリズムに依存している。 提案手法は,複数入力チャネルと出力チャネルを持つ非線形力学系の挙動を推定するために,Long Short-Term Memory Networkと周波数応答関数モデルを組み合わせる。 ネットワークトレーニングと予測はショート信号列を使用し、後にウィンドウリング手法を適用して再結合する。 周波数応答関数モデルは線形力学系を完全に捉えたベースライン推定として機能し、2つの異なるハイブリッドモデリング戦略に従って非線形長短期記憶ネットワークによって拡張される。 この手法は3成分のサーボ-油圧疲労試験ベンチの測定から得られる非線形実験データセットを用いて試験される。 提案手法の近似品質を評価するために, 時間領域と周波数領域の様々な測定値と, 可変振幅下での疲労強度を用いた。 仮想センシングに加えて、このアルゴリズムは前方予測タスクにも適用される。 合成データは、異なるサイズのデータセットの予測品質を推定するために別の研究で使用される。

Modern Internet of Things solutions are used in a variety of different areas, ranging from connected vehicles and healthcare to industrial applications. They rely on a large amount of interconnected sensors, which can lead to both technical and economical challenges. Virtual sensing techniques aim to reduce the number of physical sensors in a system by using data from available measurements to estimate additional unknown quantities of interest. Successful model-based solutions include Kalman filters or the combination of finite element models and modal analysis, while many data-driven methods rely on machine learning algorithms. The presented hybrid virtual sensing approach combines Long Short-Term Memory networks with frequency response function models in order to estimate the behavior of non-linear dynamic systems with multiple input and output channels. Network training and prediction make use of short signal subsequences, which are later recombined by applying a windowing technique. The frequency response function model acts as a baseline estimate which perfectly captures linear dynamic systems and is augmented by the non-linear Long Short-Term Memory network following two different hybrid modeling strategies. The approach is tested using a non-linear experimental dataset, which results from measurements of a three-component servo-hydraulic fatigue test bench. A variety of metrics in time and frequency domains, as well as fatigue strength under variable amplitudes are used to evaluate the approximation quality of the proposed method. In addition to virtual sensing, the algorithm is also applied to a forward prediction task. Synthetic data are used in a separate study to estimate the prediction quality on datasets of different size.
翻訳日:2021-07-09 13:22:39 公開日:2021-07-08
# 危険度、虚偽性、真実に近い。 確率論に応用できる新ポピュリズム的説明

Degrees of riskiness, falsifiability, and truthlikeness. A neo-Popperian account applicable to probabilistic theories ( http://arxiv.org/abs/2107.03772v1 )

ライセンス: Link先を確認
Leander Vignero and Sylvia Wenmackers(参考訳) 本稿では,科学的仮説や理論のリスク性,偽造可能性,真理的(あるいは同化性)という3つの概念について考察する。 まず、リスクの概念の根底にある次元を明確化します。 第二に、ファシフィビリティの程度が定義できるかどうか、そしてそれらがリスクの概念や実験的な文脈の様々な次元とどのように関連しているかを検討する。 第三に、リスクと(予想される)真偽の関係を考察する。 全体として、確率論的理論に特に注意を払っており、確率論的理論に対する検証の暫定的で定量的な説明を提供する。

In this paper, we take a fresh look at three Popperian concepts: riskiness, falsifiability, and truthlikeness (or verisimilitude) of scientific hypotheses or theories. First, we make explicit the dimensions that underlie the notion of riskiness. Secondly, we examine if and how degrees of falsifiability can be defined, and how they are related to various dimensions of the concept of riskiness as well as the experimental context. Thirdly, we consider the relation of riskiness to (expected degrees of) truthlikeness. Throughout, we pay special attention to probabilistic theories and we offer a tentative, quantitative account of verisimilitude for probabilistic theories.
翻訳日:2021-07-09 13:22:15 公開日:2021-07-08
# 非永続励起条件下での2値観測による同定と適応

Identification and Adaptation with Binary-Valued Observations under Non-Persistent Excitation Condition ( http://arxiv.org/abs/2107.03588v1 )

ライセンス: Link先を確認
Lantian Zhang, Yanlong Zhao, Lei Guo(参考訳) 二値観察を持つ力学系は、情報産業、生物薬局の技術、その他の分野で広く利用されている。 このようなシステムの同定には多くの努力がなされてきたが、以前の調査のほとんどは、通常準ニュートンアルゴリズムよりも収束速度が遅い一階勾配アルゴリズムに基づいている。 さらに、フィードバック制御システムでは検証が難しいか保証が難しい既存の文献における一貫したパラメータ推定を保証するためには、励起(pe)条件の持続性が通常必要となる。 本稿では,2値の観測値と変動しきい値を持つ確率回帰モデルのパラメータ推定のためのオンライン予測準ニュートン型アルゴリズムを提案する。 確率的リアプノフ関数とマルティンゲール推定法の両方を用いることで、推定アルゴリズムの強い一貫性を確立し、従来のpe条件よりもかなり弱く、確率的回帰モデルの古典的最小二乗法で知られている最も弱い励起と一致する信号条件下で収束率を提供する。 適応予測器の収束と適応制御への応用についても述べる。

Dynamical systems with binary-valued observations are widely used in information industry, technology of biological pharmacy and other fields. Though there have been much efforts devoted to the identification of such systems, most of the previous investigations are based on first-order gradient algorithm which usually has much slower convergence rate than the Quasi-Newton algorithm. Moreover, persistence of excitation(PE) conditions are usually required to guarantee consistent parameter estimates in the existing literature, which are hard to be verified or guaranteed for feedback control systems. In this paper, we propose an online projected Quasi-Newton type algorithm for parameter estimation of stochastic regression models with binary-valued observations and varying thresholds. By using both the stochastic Lyapunov function and martingale estimation methods, we establish the strong consistency of the estimation algorithm and provide the convergence rate, under a signal condition which is considerably weaker than the traditional PE condition and coincides with the weakest possible excitation known for the classical least square algorithm of stochastic regression models. Convergence of adaptive predictors and their applications in adaptive control are also discussed.
翻訳日:2021-07-09 13:21:44 公開日:2021-07-08
# MOD-Net: PDEを解くためのモデル演算子-データネットワークによる機械学習アプローチ

MOD-Net: A Machine Learning Approach via Model-Operator-Data Network for Solving PDEs ( http://arxiv.org/abs/2107.03673v1 )

ライセンス: Link先を確認
Lulu Zhang, Tao Luo, Yaoyu Zhang, Zhi-Qin John Xu, Zheng Ma(参考訳) 本稿では,PDEを解くためのモデル演算型データネットワーク(MOD-Net)を提案する。 MOD-Netは、データから正規化された演算子表現に基づいてPDEを解決するモデルによって駆動される。 本研究では,深層ニューラルネットワークを用いて,グリーン関数のパラメータ化を行う。 経験的リスクは、支配方程式の平均二乗、境界条件、およびいくつかのラベルで構成され、計算コストの安い粗い格子点上の従来のスキームによって数値計算される。 ラベル付きデータセットやモデル制約だけでは、複雑な問題のためにMOD-Netを正確にトレーニングするのは不十分です。 直感的には、ラベル付きデータセットはモデルの制約に加えて正規化として機能する。 MOD-Netは、純粋に高価なラベルではなく、支配方程式やPDEの境界条件の情報を使用するため、元の神経オペレータよりも効率的である。 MOD-NetはPDEのグリーン関数を学習するため、特定のケースではなく、ある種のPDEを解決する。 ポアソン方程式と1次元ボルツマン方程式の解法においてmod-netは非常に効率的であることを示す。 グリーン関数の概念が適用されない非線形 PDE に対して、非線形 MOD-Net は非線形 PDE を解くためのアンザッツとして同様に使用できる。

In this paper, we propose a model-operator-data network (MOD-Net) for solving PDEs. A MOD-Net is driven by a model to solve PDEs based on operator representation with regularization from data. In this work, we use a deep neural network to parameterize the Green's function. The empirical risk consists of the mean square of the governing equation, boundary conditions, and a few labels, which are numerically computed by traditional schemes on coarse grid points with cheap computation cost. With only the labeled dataset or only the model constraints, it is insufficient to accurately train a MOD-Net for complicate problems. Intuitively, the labeled dataset works as a regularization in addition to the model constraints. The MOD-Net is much efficient than original neural operator because the MOD-Net also uses the information of governing equation and the boundary conditions of the PDE rather than purely the expensive labels. Since the MOD-Net learns the Green's function of a PDE, it solves a type of PDEs but not a specific case. We numerically show MOD-Net is very efficient in solving Poisson equation and one-dimensional Boltzmann equation. For non-linear PDEs, where the concept of the Green's function does not apply, the non-linear MOD-Net can be similarly used as an ansatz for solving non-linear PDEs.
翻訳日:2021-07-09 13:21:26 公開日:2021-07-08
# 全ひずみプロファイルの進化による塑性発生の直接検出

Direct detection of plasticity onset through total-strain profile evolution ( http://arxiv.org/abs/2107.03738v1 )

ライセンス: Link先を確認
Stefanos Papanikolaou and Mikko J. Alava(参考訳) 固体中のプラスチックの降伏は温度や荷重速度などの様々な条件に強く依存しており、実際に構造材料における降伏点のサンプル依存的な知識は機械的挙動の信頼性を高める。 一般的に、収量測定は、小または大規模での制御された機械的試験によって測定され、弾性(応力)を全変形測定と区別するか、プラスチックスリップの寄与を識別する。 本稿では, 弾性・塑性測定を分離する代わりに, ディジタル画像相関を用いて, 内部で測定したプロファイルの進化過程におけるひずみ変動の統計解析により, 降伏を解くことができることを論じる。 結晶塑性モデルにおいて, 主成分分析や離散ウェーブレット変換を用いて, 多結晶固体に適用可能な収率位置を正確に定量する2つの方法を示す。 これらの手法を多結晶シミュレーションと様々な収率応答の合成データを用いて, 適用負荷率とひずみ速度感度指数の変化を用いて検証し比較した。

Plastic yielding in solids strongly depends on various conditions, such as temperature and loading rate and indeed, sample-dependent knowledge of yield points in structural materials promotes reliability in mechanical behavior. Commonly, yielding is measured through controlled mechanical testing at small or large scales, in ways that either distinguish elastic (stress) from total deformation measurements, or by identifying plastic slip contributions. In this paper we argue that instead of separate elastic/plastic measurements, yielding can be unraveled through statistical analysis of total strain fluctuations during the evolution sequence of profiles measured in-situ, through digital image correlation. We demonstrate two distinct ways of precisely quantifying yield locations in widely applicable crystal plasticity models, that apply in polycrystalline solids, either by using principal component analysis or discrete wavelet transforms. We test and compare these approaches in synthetic data of polycrystal simulations and a variety of yielding responses, through changes of the applied loading rates and the strain-rate sensitivity exponents.
翻訳日:2021-07-09 13:21:02 公開日:2021-07-08
# PACベイにおけるマルジンと非ランダム化について

On Margins and Derandomisation in PAC-Bayes ( http://arxiv.org/abs/2107.03955v1 )

ライセンス: Link先を確認
Felix Biggs, Benjamin Guedj(参考訳) 本研究では, PAC-Bayesian 一般化境界をデランドマイズする枠組みを開発し, トレーニングデータに対するマージンを達成し, この過程を測定の集中現象と関連づける。 これらのツールを線形予測、異常なerf活性化関数を持つ単層ニューラルネットワーク、深層reluネットワークに適用し、新たな境界を得る。 このアプローチは、一部の層のみが非ランダム化され、他の層が確率的である「部分的デランドミゼーション」という考え方にも拡張されている。 これにより、より複雑なデータセット上の単層ネットワークの実証的評価が可能になり、非確率的ディープネットワークの一般化境界と、一般にpac-bayesで検討されたランダム化されたディープネットワークとのギャップを埋めるのに役立つ。

We develop a framework for derandomising PAC-Bayesian generalisation bounds achieving a margin on training data, relating this process to the concentration-of-mea sure phenomenon. We apply these tools to linear prediction, single-hidden-layer neural networks with an unusual erf activation function, and deep ReLU networks, obtaining new bounds. The approach is also extended to the idea of "partial-derandomisat ion" where only some layers are derandomised and the others are stochastic. This allows empirical evaluation of single-hidden-layer networks on more complex datasets, and helps bridge the gap between generalisation bounds for non-stochastic deep networks and those for randomised deep networks as generally examined in PAC-Bayes.
翻訳日:2021-07-09 13:20:44 公開日:2021-07-08
# スパイク型ニューロモーフィックハードウェアにおけるAI応用のための長期記憶

A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware ( http://arxiv.org/abs/2107.03992v1 )

ライセンス: Link先を確認
Philipp Plank, Arjun Rao, Andreas Wild, Wolfgang Maass(参考訳) 集中的な努力にもかかわらず、Deep Neural Networks (DNN) を用いた現在の人工知能(AI)メソッドがスパイクベースのニューロモルフィックハードウェアでよりエネルギー効率良く実装できる範囲において、未解決の問題となっている。 これは特に、スパイクベースのニューロモルフィックハードウェアの主要なアプリケーションターゲットであるシーケンス処理タスクを解決するaiメソッドに当てはまる。 このようなタスクのDNNでは、一般的にLSTM(Long Short-Term Memory)ユニットが使用される。 しかし、スパイクベースのハードウェアにおけるこれらのユニットの効率的なエミュレーションが欠落している。 我々は、この問題を解決する生物学的にインスパイアされた解決策を提案する。 本手法により,時系列分類や質問応答などのシーケンス処理タスクに対して,ニューロモルフィックハードウェア上での省エネ機能を備えた大規模なDNNを実装できる。 実際、私たちが質問応答に使用するオブジェクト間の関係を推論するためのリレーショナルネットワークは、ニューロモルフィックなハードウェア上でかなりの省エネルギーを備えたシーケンス処理タスクを実行する大規模なdnnの最初の例です。

In spite of intensive efforts it has remained an open problem to what extent current Artificial Intelligence (AI) methods that employ Deep Neural Networks (DNNs) can be implemented more energy-efficiently on spike-based neuromorphic hardware. This holds in particular for AI methods that solve sequence processing tasks, a primary application target for spike-based neuromorphic hardware. One difficulty is that DNNs for such tasks typically employ Long Short-Term Memory (LSTM) units. Yet an efficient emulation of these units in spike-based hardware has been missing. We present a biologically inspired solution that solves this problem. This solution enables us to implement a major class of DNNs for sequence processing tasks such as time series classification and question answering with substantial energy savings on neuromorphic hardware. In fact, the Relational Network for reasoning about relations between objects that we use for question answering is the first example of a large DNN that carries out a sequence processing task with substantial energy-saving on neuromorphic hardware.
翻訳日:2021-07-09 13:20:27 公開日:2021-07-08
# (参考訳) 知識コンパイル言語のための効率的な説明 [全文訳有]

Efficient Explanations for Knowledge Compilation Languages ( http://arxiv.org/abs/2107.01654v2 )

ライセンス: CC BY 4.0
Xuanxiang Huang and Yacine Izza and Alexey Ignatiev and Martin C. Cooper and Nicholas Asher and Joao Marques-Silva(参考訳) 知識コンパイル(KC)言語は、制約プログラミング(CP)や機械学習(ML)など、実用的な用途が増えている。 ほとんどのアプリケーションにおいて、自然な疑問は、KC言語で表されるモデルによる決定をどのように説明するかである。 本稿では、最もよく知られたkc言語の多くにおいて、よく知られた説明クラスを多項式時間で計算できることを示す。 これらのクラスには、決定論的分解可能な否定正規形式(d-DNNF)が含まれ、したがって、d-DNNFよりも厳密に簡潔でない任意のKC言語が含まれる。 さらに,説明の多項式時間計算を,d-DNNFよりも簡潔なKC言語に拡張できる条件についても検討した。

Knowledge compilation (KC) languages find a growing number of practical uses, including in Constraint Programming (CP) and in Machine Learning (ML). In most applications, one natural question is how to explain the decisions made by models represented by a KC language. This paper shows that for many of the best known KC languages, well-known classes of explanations can be computed in polynomial time. These classes include deterministic decomposable negation normal form (d-DNNF), and so any KC language that is strictly less succinct than d-DNNF. Furthermore, the paper also investigates the conditions under which polynomial time computation of explanations can be extended to KC languages more succinct than d-DNNF.
翻訳日:2021-07-09 12:03:42 公開日:2021-07-08
# (参考訳) パズルゲームにおけるレベル障害の統計的モデリング [全文訳有]

Statistical Modelling of Level Difficulty in Puzzle Games ( http://arxiv.org/abs/2107.03305v2 )

ライセンス: CC BY 4.0
Jeppe Theiss Kristensen, Arturo Valdivia, Paolo Burelli(参考訳) レベルの難易度を正確にモデル化することはプレイヤー体験の操作の基本的な要素であり、難易度はコンテンツ設計と適応のために最も重要かつ一般的に使用される信号の1つである。 コンプリート可能なエリアやレベルのような中間的なマイルストーンを特徴とするゲームでは、難易度はしばしば完了確率や完了率によって定義されるが、この操作性は領域内のプレイヤーの振る舞いを記述しないという点で制限される。 本研究では,古典的成功確率を超えたパズルゲームにおけるレベル難易度モデルについて定式化する。 パラメトリック統計モデルを用いてゲームレベルで実行されるアクションの分布を記述することで、より豊かな難易度記述子を作成する。 このモデルは、ゲームlily's gardenから収集したデータセットに触覚ゲームを用いて適応評価し、その評価結果から、ほとんどのレベルにおいて難易度を記述・説明することが可能であることが判明した。

Successful and accurate modelling of level difficulty is a fundamental component of the operationalisation of player experience as difficulty is one of the most important and commonly used signals for content design and adaptation. In games that feature intermediate milestones, such as completable areas or levels, difficulty is often defined by the probability of completion or completion rate; however, this operationalisation is limited in that it does not describe the behaviour of the player within the area. In this research work, we formalise a model of level difficulty for puzzle games that goes beyond the classical probability of success. We accomplish this by describing the distribution of actions performed within a game level using a parametric statistical model thus creating a richer descriptor of difficulty. The model is fitted and evaluated on a dataset collected from the game Lily's Garden by Tactile Games, and the results of the evaluation show that the it is able to describe and explain difficulty in a vast majority of the levels.
翻訳日:2021-07-09 11:41:36 公開日:2021-07-08
# (参考訳) 細胞タイプのヒストグラム : 自動骨髄細胞診のための深層学習 [全文訳有]

Histogram of Cell Types: Deep Learning for Automated Bone Marrow Cytology ( http://arxiv.org/abs/2107.02293v2 )

ライセンス: CC BY 4.0
Rohollah Moosavi Tayebi, Youqing Mu, Taher Dehkharghanian, Catherine Ross, Monalisa Sur, Ronan Foley, Hamid R. Tizhoosh, and Clinton JV Campbell(参考訳) 骨髄細胞診は血液学的診断に必要であり、血液学の臨床的決定に影響を及ぼす。 しかし、骨髄細胞診は退屈で、経験豊富な参照センターに限られ、高いサーバ間変動を伴う。 これは遅れたり誤った診断につながる可能性があり、革新的な支援技術の必要性が残る。 人工骨髄細胞診のためのエンド・ツー・エンドのディープラーニング技術を開発した。 骨髄吸引デジタル全スライド画像から始まり,細胞診に適した部位を迅速かつ自動的に検出し,その後,各領域の全ての骨髄細胞を同定,分類する。 この集合細胞形態情報は、骨髄細胞のクラス分布を定量化し、細胞学的「患者指紋」として機能する、HCT(Histogram of Cell Types)と呼ばれる新しい表現で捉えられる。 このアプローチは、領域検出(0.97精度、0.99ROC AUC)と細胞検出と細胞分類(0.75mAP、0.78F1スコア、ログ平均ミスレート0.31)において高い精度を達成する。 HCTは、血液病理診断のワークフローに革命をもたらす可能性があり、よりコスト効率が高く、正確な診断をもたらし、正確な医療を行うための扉を開く。

Bone marrow cytology is required to make a hematological diagnosis, influencing critical clinical decision points in hematology. However, bone marrow cytology is tedious, limited to experienced reference centers and associated with high inter-observer variability. This may lead to a delayed or incorrect diagnosis, leaving an unmet need for innovative supporting technologies. We have developed the first ever end-to-end deep learning-based technology for automated bone marrow cytology. Starting with a bone marrow aspirate digital whole slide image, our technology rapidly and automatically detects suitable regions for cytology, and subsequently identifies and classifies all bone marrow cells in each region. This collective cytomorphological information is captured in a novel representation called Histogram of Cell Types (HCT) quantifying bone marrow cell class probability distribution and acting as a cytological "patient fingerprint". The approach achieves high accuracy in region detection (0.97 accuracy and 0.99 ROC AUC), and cell detection and cell classification (0.75 mAP, 0.78 F1-score, Log-average miss rate of 0.31). HCT has potential to revolutionize hematopathology diagnostic workflows, leading to more cost-effective, accurate diagnosis and opening the door to precision medicine.
翻訳日:2021-07-09 11:26:51 公開日:2021-07-08
# (参考訳) 二階情報の効率的な行列フリー近似と刈り取りと最適化への応用 [全文訳有]

Efficient Matrix-Free Approximations of Second-Order Information, with Applications to Pruning and Optimization ( http://arxiv.org/abs/2107.03356v2 )

ライセンス: CC BY 4.0
Elias Frantar, Eldar Kurtic, Dan Alistarh(参考訳) 損失関数の局所曲率情報を効率的に近似することは、ディープニューラルネットワークの最適化と圧縮の鍵となるツールである。 しかし、既存の2次情報を近似する手法の多くは計算コストやストレージコストが高く、実用性を制限できる。 本研究では,経験的フィッシャー行列によるヘッシアンの古典的な近似のように,ヘッシアンをランク1の行列の和として近似できる場合の逆ヘッシアンベクトル積(ihvps)を推定するための行列フリーな線形時間アプローチについて検討する。 M-FACと呼ばれるフレームワークの一部として、2つの新しいアルゴリズムを提案する: 最初のアルゴリズムはネットワーク圧縮に最適化され、逆 Hessian の任意の要素に対して$O(dm^2)$プリ計算、$O(dm)$計算、$O(dm)$クエリコスト$O(m)$で階数1の行列の和として与えられる場合、次元$d$で IHVPを計算できる。 第2のアルゴリズムは最適化設定を目標とし,最適化ステップのスライディングウィンドウ上で推定される逆ヘシアンと,事前条件付きSGDに必要な勾配方向との間の積の計算を行う。 IHVPの計算に$O(dm + m^2)$と$O(dm + m^3)$を、スライディングウィンドウから勾配を追加したり取り除いたりするためのアルゴリズムを与える。 これら2つのアルゴリズムは、既存の二階法に比べて計算オーバーヘッドの少ないネットワークプルーニングと最適化に最先端の結果をもたらす。 実装は[10]と[18]で利用可能です。

Efficiently approximating local curvature information of the loss function is a key tool for optimization and compression of deep neural networks. Yet, most existing methods to approximate second-order information have high computational or storage costs, which can limit their practicality. In this work, we investigate matrix-free, linear-time approaches for estimating Inverse-Hessian Vector Products (IHVPs) for the case when the Hessian can be approximated as a sum of rank-one matrices, as in the classic approximation of the Hessian by the empirical Fisher matrix. We propose two new algorithms as part of a framework called M-FAC: the first algorithm is tailored towards network compression and can compute the IHVP for dimension $d$, if the Hessian is given as a sum of $m$ rank-one matrices, using $O(dm^2)$ precomputation, $O(dm)$ cost for computing the IHVP, and query cost $O(m)$ for any single element of the inverse Hessian. The second algorithm targets an optimization setting, where we wish to compute the product between the inverse Hessian, estimated over a sliding window of optimization steps, and a given gradient direction, as required for preconditioned SGD. We give an algorithm with cost $O(dm + m^2)$ for computing the IHVP and $O(dm + m^3)$ for adding or removing any gradient from the sliding window. These two algorithms yield state-of-the-art results for network pruning and optimization with lower computational overhead relative to existing second-order methods. Implementations are available at [10] and [18].
翻訳日:2021-07-09 11:04:34 公開日:2021-07-08
# IWSLT 2021オフラインタスクにおけるNiuTransエンドツーエンド音声翻訳システム

The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task ( http://arxiv.org/abs/2107.02444v2 )

ライセンス: Link先を確認
Chen Xu, Xiaoqian Liu, Xiaowen Liu, Laohu Wang, Canan Huang, Tong Xiao, Jingbo Zhu(参考訳) 本稿では、英語音声からドイツ語テキストへの翻訳を中間転写なしで直接行うIWSLT 2021オフラインタスクに対して、NiuTransのエンドツーエンド音声翻訳システムを提案する。 我々は、トランスフォーマーベースのモデルアーキテクチャを使用し、コンフォーメータ、相対位置エンコーディング、スタック化された音響およびテキストエンコーディングにより強化する。 トレーニングデータを増やすために、英語の書き起こしはドイツ語の翻訳に翻訳される。 最後に,異なるデータセットでトレーニングされた複数のモデルからの予測を統合するためにアンサンブル復号を用いる。 これらの手法を組み合わせることで, MuST-C En-De テストセット上で 33.84 BLEU 点が得られる。

This paper describes the submission of the NiuTrans end-to-end speech translation system for the IWSLT 2021 offline task, which translates from the English audio to German text directly without intermediate transcription. We use the Transformer-based model architecture and enhance it by Conformer, relative position encoding, and stacked acoustic and textual encoding. To augment the training data, the English transcriptions are translated to German translations. Finally, we employ ensemble decoding to integrate the predictions from several models trained with the different datasets. Combining these techniques, we achieve 33.84 BLEU points on the MuST-C En-De test set, which shows the enormous potential of the end-to-end model.
翻訳日:2021-07-09 10:27:54 公開日:2021-07-08
# atariゲームにおける分岐要因の推定

Estimates for the Branching Factors of Atari Games ( http://arxiv.org/abs/2107.02385v2 )

ライセンス: Link先を確認
Mark J. Nelson(参考訳) ゲームの分岐係数は、与えられた状態から到達可能な新しい状態の平均数である。 ボードゲームにおけるAI研究において広く使われている指標であるが、ビデオゲームで計算や議論されることは少ない。 本稿では,アーケード学習環境(ALE)で実施されている103のAtari 2600ゲームの分岐係数を推定する。 ゲームによっては、ALEはゲームプレイのフレームごとに3から18のアクションを公開する。 本稿では、各ゲームで到達可能な最初の100万個の異なる状態の列挙に基づいて、平均分岐係数が通常より低く、ほとんどのゲームにおいて1よりわずかに多いことを示す。 本稿では,分岐要因の報告に加えて,ALEの異なる状態を構成するものを明らかにすることを目的とする。

The branching factor of a game is the average number of new states reachable from a given state. It is a widely used metric in AI research on board games, but less often computed or discussed for videogames. This paper provides estimates for the branching factors of 103 Atari 2600 games, as implemented in the Arcade Learning Environment (ALE). Depending on the game, ALE exposes between 3 and 18 available actions per frame of gameplay, which is an upper bound on branching factor. This paper shows, based on an enumeration of the first 1 million distinct states reachable in each game, that the average branching factor is usually much lower, in many games barely above 1. In addition to reporting the branching factors, this paper aims to clarify what constitutes a distinct state in ALE.
翻訳日:2021-07-09 10:27:41 公開日:2021-07-08
# 野生の被験者における標準化データを用いたマルチモーダル影響分析

Multi-modal Affect Analysis using standardized data within subjects in the Wild ( http://arxiv.org/abs/2107.03009v2 )

ライセンス: Link先を確認
Sachihiro Youoku, Takahisa Yamamoto, Junya Saito, Akiyoshi Uchida, Xiaoyu Mi, Ziqiang Shi, Liu Liu, Zhongling Liu, Osafumi Nakayama, Kentaro Murase(参考訳) 人間の感情認識は、人間とコンピュータの相互作用において重要な要素である。 しかし,Wildデータを用いた手法の開発は,実用化には不十分である。 本稿では,愛着行動分析in-the-wild(abaw)202 1コンテストに提出した表情(exp)とヴァレンス・覚醒計算に着目した感情認識法を提案する。 ビデオから表情を注釈すると、すべての人に共通する特徴だけでなく、個人の時系列の相対的な変化からも判断できると考えた。 そこで,各フレームの共通特徴を学習した後,各ビデオの共通特徴と標準化特徴を組み合わせた時系列データを用いた表情推定モデルと価覚モデルを構築した。 さらに、画像特徴、AU、ヘッドポーズ、ガゼといったマルチモーダルデータを用いて上記の特徴を学習した。 評価セットでは,顔表情スコアが0.546。 これらの検証結果から,提案フレームワークは推定精度とロバスト性を効果的に向上できることがわかった。

Human affective recognition is an important factor in human-computer interaction. However, the method development with in-the-wild data is not yet accurate enough for practical usage. In this paper, we introduce the affective recognition method focusing on facial expression (EXP) and valence-arousal calculation that was submitted to the Affective Behavior Analysis in-the-wild (ABAW) 2021 Contest. When annotating facial expressions from a video, we thought that it would be judged not only from the features common to all people, but also from the relative changes in the time series of individuals. Therefore, after learning the common features for each frame, we constructed a facial expression estimation model and valence-arousal model using time-series data after combining the common features and the standardized features for each video. Furthermore, the above features were learned using multi-modal data such as image features, AU, Head pose, and Gaze. In the validation set, our model achieved a facial expression score of 0.546. These verification results reveal that our proposed framework can improve estimation accuracy and robustness effectively.
翻訳日:2021-07-09 10:27:28 公開日:2021-07-08
# 表情認識のためのスクイーズと励磁を用いた学習視覚トランスフォーマ

Learning Vision Transformer with Squeeze and Excitation for Facial Expression Recognition ( http://arxiv.org/abs/2107.03107v2 )

ライセンス: Link先を確認
Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma, Renaud Seguier(参考訳) 過去数十年間、表情の様々なデータベースがアクセスできるようになったため、顔表情認識(FER)タスクは大きな関心を集めている。 利用可能なデータベースの複数のソースは、顔認識タスクのいくつかの課題を提起した。 これらの課題は通常、畳み込みニューラルネットワーク(CNN)アーキテクチャによって対処される。 CNNモデルとは異なる、注意機構に基づくトランスフォーマーモデルが最近提示され、ビジョンタスクに対処している。 トランスフォーマーの大きな問題の1つは、トレーニングに大規模なデータを必要とすることだが、ferデータベースのほとんどは、他のビジョンアプリケーションに比べて制限されている。 そこで本稿では,ferタスクのためのSqueeze and Excitation(SE)ブロックと共同で視覚変換器の学習を提案する。 提案手法は、CK+, JAFFE,RAF-DB, SFEWなど、利用可能なさまざまなFERデータベース上で評価される。 実験により,本モデルはCK+およびSFEWの最先端手法より優れ,JSFFEとRAF-DBの競争結果が得られた。

As various databases of facial expressions have been made accessible over the last few decades, the Facial Expression Recognition (FER) task has gotten a lot of interest. The multiple sources of the available databases raised several challenges for facial recognition task. These challenges are usually addressed by Convolution Neural Network (CNN) architectures. Different from CNN models, a Transformer model based on attention mechanism has been presented recently to address vision tasks. One of the major issue with Transformers is the need of a large data for training, while most FER databases are limited compared to other vision applications. Therefore, we propose in this paper to learn a vision Transformer jointly with a Squeeze and Excitation (SE) block for FER task. The proposed method is evaluated on different publicly available FER databases including CK+, JAFFE,RAF-DB and SFEW. Experiments demonstrate that our model outperforms state-of-the-art methods on CK+ and SFEW and achieves competitive results on JAFFE and RAF-DB.
翻訳日:2021-07-09 10:27:10 公開日:2021-07-08
# Pairwise Deep Architectureの改良によるアクションユニット認識

Action Units Recognition Using Improved Pairwise Deep Architecture ( http://arxiv.org/abs/2107.03143v2 )

ライセンス: Link先を確認
Junya Saito, Xiaoyu Mi, Akiyoshi Uchida, Sachihiro Youoku, Takahisa Yamamoto, Kentaro Murase, Osafumi Nakayama(参考訳) 顔面行動単位(AUs)は顔の筋活動の集合を表し、様々なAUの組み合わせは幅広い感情を表現することができる。 au認識は、マーケティング、医療、教育など、多くのアプリケーションでよく使われている。 多くの研究が認識精度を向上させるために様々な方法を開発したが、au認識には依然として大きな課題である。 ABAW(Affective Behavior Analysis in-the-wild) 2020 コンペティションにおいて,各AUの擬似強度を導出し,予測強度に変換するために,両極深度アーキテクチャを用いた新しい自動行動ユニット (AUs) 認識手法を提案した。 今年、私たちは、顔に手を当てたり、顔の向きを大きくしたりといった一時的な顔の閉塞によるAU認識エラーを減らす新しい手法を去年のフレームワークに導入しました。 今年のコンペティションの検証データセットで0.65のスコアを得た。

Facial Action Units (AUs) represent a set of facial muscular activities and various combinations of AUs can represent a wide range of emotions. AU recognition is often used in many applications, including marketing, healthcare, education, and so forth. Although a lot of studies have developed various methods to improve recognition accuracy, it still remains a major challenge for AU recognition. In the Affective Behavior Analysis in-the-wild (ABAW) 2020 competition, we proposed a new automatic Action Units (AUs) recognition method using a pairwise deep architecture to derive the Pseudo-Intensities of each AU and then convert them into predicted intensities. This year, we introduced a new technique to last year's framework to further reduce AU recognition errors due to temporary face occlusion such as hands on face or large face orientation. We obtained a score of 0.65 in the validation data set for this year's competition.
翻訳日:2021-07-09 10:26:55 公開日:2021-07-08
# DTGAN: Tabular GAN の個人差分訓練

DTGAN: Differential Private Training for Tabular GANs ( http://arxiv.org/abs/2107.02521v2 )

ライセンス: Link先を確認
Aditya Kunar, Robert Birke, Zilong Zhao, Lydia Chen(参考訳) Tabular Generative Adversarial Network (TGAN)は先日,最も広く使用されているデータフォーマットである表データの合成の必要性に対処するために登場した。 合成表データは、プライバシー規則に従う利点を提供するが、トレーニング中に実際のデータのプロパティを補間するため、推論攻撃によるプライバシー漏洩のリスクは依然として残っている。 differential private (dp) トレーニングアルゴリズムは、プライバシリークを防ぐために統計ノイズを注入することにより、機械学習モデルのトレーニングのための理論的保証を提供する。 しかし、TGANにDPを適用する際の課題は、最も最適なフレームワーク(PATE/DP-SGD)とニューラルネットワーク(Generator/Discrimin ator)を判断し、データユーティリティが所定のプライバシー保証の下で十分に維持されているようにノイズを注入することである。 本稿では,DTGAN_GとDTGAN_Dの2つの変種を組み合わせた新しい条件付きWasserstein表型GANであるDTGANを提案する。 高品質な表データ合成に必要な複雑な損失関数(分類と情報損失)を持つ生成器のトレーニングに関連するプライバシ解析を導出する。 さらに,DPが提案する理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。 その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。 したがって、(i)dtgan_dは、厳格なプライバシー予算の平均精度スコアであるepsilon = 1の点で、4mlモデルにおける最高データユーティリティを最大18%維持することができ、(ii)dpは、メンバーシップアタックの成功確率を50%に制限することにより、推論攻撃に対するプライバシ損失を効果的に防止できる。

Tabular generative adversarial networks (TGAN) have recently emerged to cater to the need of synthesizing tabular data -- the most widely used data format. While synthetic tabular data offers the advantage of complying with privacy regulations, there still exists a risk of privacy leakage via inference attacks due to interpolating the properties of real data during training. Differential private (DP) training algorithms provide theoretical guarantees for training machine learning models by injecting statistical noise to prevent privacy leaks. However, the challenges of applying DP on TGAN are to determine the most optimal framework (i.e., PATE/DP-SGD) and neural network (i.e., Generator/Discrimina tor)to inject noise such that the data utility is well maintained under a given privacy guarantee. In this paper, we propose DTGAN, a novel conditional Wasserstein tabular GAN that comes in two variants DTGAN_G and DTGAN_D, for providing a detailed comparison of tabular GANs trained using DP-SGD for the generator vs discriminator, respectively. We elicit the privacy analysis associated with training the generator with complex loss functions (i.e., classification and information losses) needed for high quality tabular data synthesis. Additionally, we rigorously evaluate the theoretical privacy guarantees offered by DP empirically against membership and attribute inference attacks. Our results on 3 datasets show that the DP-SGD framework is superior to PATE and that a DP discriminator is more optimal for training convergence. Thus, we find (i) DTGAN_D is capable of maintaining the highest data utility across 4 ML models by up to 18% in terms of the average precision score for a strict privacy budget, epsilon = 1, as compared to the prior studies and (ii) DP effectively prevents privacy loss against inference attacks by restricting the success probability of membership attacks to be close to 50%.
翻訳日:2021-07-09 10:26:39 公開日:2021-07-08
# ワードピースとコンバータを用いたCTC-CRFに基づくエンドツーエンド音声認識の改良

Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces and Conformers ( http://arxiv.org/abs/2107.03007v2 )

ライセンス: Link先を確認
Huahuan Zheng, Wenjie Peng, Zhijian Ou and Jinsong Zhang(参考訳) 音声認識システムは過去数十年で大幅に改善され、現在のシステムは主としてハイブリッドベースとエンドツーエンドベースである。 最近提案されたCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承している。 本稿では,CTC-CRFに基づくASR技術をさらに進歩させ,モデリングユニットとニューラルアーキテクチャを探索する。 具体的には,最近開発されたワードピースモデリングユニットとコンバータニューラルネットワークをCTC-CRFに適用する手法について検討する。 実験は2つの英語データセット(Switchboard、Librispeech)とCommonVoiceのドイツのデータセットで実施されている。 実験結果から, (i) コンフォーマーは認識性能を著しく向上させることができることが示唆された。 (ii) ワードピースベースのシステムは, グラファイム・音素対応の低いターゲット言語向け電話システムに比べて, わずかに劣る(例)。 英語) 2つのシステムは、そのような対応の度合いがターゲット言語(例えば、)に対して高い場合、等しく強い性能を発揮できる。 ドイツ語)

Automatic speech recognition systems have been largely improved in the past few decades and current systems are mainly hybrid-based and end-to-end-based. The recently proposed CTC-CRF framework inherits the data-efficiency of the hybrid approach and the simplicity of the end-to-end approach. In this paper, we further advance CTC-CRF based ASR technique with explorations on modeling units and neural architectures. Specifically, we investigate techniques to enable the recently developed wordpiece modeling units and Conformer neural networks to be succesfully applied in CTC-CRFs. Experiments are conducted on two English datasets (Switchboard, Librispeech) and a German dataset from CommonVoice. Experimental results suggest that (i) Conformer can improve the recognition performance significantly; (ii) Wordpiece-based systems perform slightly worse compared with phone-based systems for the target language with a low degree of grapheme-phoneme correspondence (e.g. English), while the two systems can perform equally strong when such degree of correspondence is high for the target language (e.g. German).
翻訳日:2021-07-09 10:26:02 公開日:2021-07-08
# 「確かですか?」 「:複数の店舗に対する製品比較のスケールアップからの予備的洞察

"Are you sure?": Preliminary Insights from Scaling Product Comparisons to Multiple Shops ( http://arxiv.org/abs/2107.03256v2 )

ライセンス: Link先を確認
Patrick John Chia and Bingqing Yu and Jacopo Tagliabue(参考訳) 大手eコマースプレーヤーは新しいタイプのレコメンデーションとして比較テーブルを導入した。 しかし、既存のトレーニング/分類データなしで大規模に比較を構築することは、特にロングテールの店舗の運用上の制約の中で、オープンな課題である。 我々は,マルチショップシナリオにスケールするように設計された比較パイプラインを構築するための予備的な結果を示す: 設計選択を説明し,複数の店舗で広範なベンチマークを実行してストレステストを行う。 最後に、プロパティの選択に関する小さなユーザー調査を行い、潜在的な改善について議論し、対処すべき質問を強調することで締めくくります。

Large eCommerce players introduced comparison tables as a new type of recommendations. However, building comparisons at scale without pre-existing training/taxonomy data remains an open challenge, especially within the operational constraints of shops in the long tail. We present preliminary results from building a comparison pipeline designed to scale in a multi-shop scenario: we describe our design choices and run extensive benchmarks on multiple shops to stress-test it. Finally, we run a small user study on property selection and conclude by discussing potential improvements and highlighting the questions that remain to be addressed.
翻訳日:2021-07-09 10:25:38 公開日:2021-07-08
# 自然景観統計に基づく色付き点雲とメッシュの非参照品質評価

No-Reference Quality Assessment for Colored Point Cloud and Mesh Based on Natural Scene Statistics ( http://arxiv.org/abs/2107.02041v2 )

ライセンス: Link先を確認
Zicheng Zhang, Wei sun, Wei Sun, Xiongkuo Min, Tao Wang, Wei Lu, and Guangtao Zhai(参考訳) コンピュータグラフィックスアプリケーションにおけるユーザ体験の質の向上と処理システムの最適化のために,マルチメディア分野において3D品質評価(3D-QA)が重要な課題となっている。 ポイントクラウドとメッシュは3Dモデルの最も広く使われている2つの電子表現フォーマットであり、その品質は単純化や圧縮といった操作に非常に敏感である。 そこで, ポイントクラウド品質評価 (PCQA) とメッシュ品質評価 (MQA) に関する多くの研究が, 損失操作による視覚的品質劣化を測定するために行われている。 しかし、これまでの研究の大部分はフルリファレンス(fr)メトリクスを使用しており、参照3dモデルが利用できない場合、3dモデルの正確な品質レベルを予測できない可能性がある。 さらに、カラー特徴を考慮した3D-QA測定値の制限を行い、アプリケーションの有効性と範囲を著しく制限する。 多くの品質評価研究において、自然シーン統計(NSS)は、自然シーンの歪みを統計的パラメータに定量化する優れた能力を示している。 そこで本研究では,nssを用いた3dモデルのための無基準品質評価指標を提案する。 本稿では,3dモデルから直接,色と幾何学の側面から品質を認識できる特徴を抽出する。 そして、異なる分布モデルを用いて統計パラメータを推定し、3次元モデルの特徴を記述する。 本手法は主に,カラーポイントクラウド品質評価データベース (SJTU-PCQA) とカラーメッシュ品質評価データベース (CMDM) で検証されている。 実験の結果,提案手法は最先端のNR 3D-QA測定値よりも優れており,最先端のFR 3D-QA測定値との差が許容できることがわかった。

To improve the viewer's quality of experience and optimize processing systems in computer graphics applications, the 3D quality assessment (3D-QA) has become an important task in the multimedia area. Point cloud and mesh are the two most widely used electronic representation formats of 3D models, the quality of which is quite sensitive to operations like simplification and compression. Therefore, many studies concerning point cloud quality assessment (PCQA) and mesh quality assessment (MQA) have been carried out to measure the visual quality degradations caused by lossy operations. However, a large part of previous studies utilizes full-reference (FR) metrics, which means they may fail to predict the accurate quality level of 3D models when the reference 3D model is not available. Furthermore, limited numbers of 3D-QA metrics are carried out to take color features into consideration, which significantly restricts the effectiveness and scope of application. In many quality assessment studies, natural scene statistics (NSS) have shown a good ability to quantify the distortion of natural scenes to statistical parameters. Therefore, we propose an NSS-based no-reference quality assessment metric for colored 3D models. In this paper, quality-aware features are extracted from the aspects of color and geometry directly from the 3D models. Then the statistic parameters are estimated using different distribution models to describe the characteristic of the 3D models. Our method is mainly validated on the colored point cloud quality assessment database (SJTU-PCQA) and the colored mesh quality assessment database (CMDM). The experimental results show that the proposed method outperforms all the state-of-art NR 3D-QA metrics and obtains an acceptable gap with the state-of-art FR 3D-QA metrics.
翻訳日:2021-07-09 10:25:29 公開日:2021-07-08
# 多変量関数群スパース回帰--関数予測子選択

Multivariate functional group sparse regression: functional predictor selection ( http://arxiv.org/abs/2107.02146v2 )

ライセンス: Link先を確認
Ali Mahzarnia and Jun Song(参考訳) 本論文では,高次元多変量関数データ設定におけるスカラー・オン・ファンクション回帰問題において,関数予測器の選択と滑らかな関数係数の同時推定法を提案する。 特に、無限次元の一般ヒルベルト空間の下で関数群スパース回帰の2つの方法を開発する。 無限次元ヒルベルト空間におけるアルゴリズムの収束と推定と選択(オラクルの性質)の一貫性を示す。 シミュレーション研究は, 関数係数の選択と推定の両方における手法の有効性を示す。 機能的磁気共鳴イメージング(fMRI)への応用は、ADHDとIQに関連する人間の脳の領域を明らかにする。

In this paper, we propose methods for functional predictor selection and the estimation of smooth functional coefficients simultaneously in a scalar-on-function regression problem under high-dimensional multivariate functional data setting. In particular, we develop two methods for functional group-sparse regression under a generic Hilbert space of infinite dimension. We show the convergence of algorithms and the consistency of the estimation and the selection (oracle property) under infinite-dimensional Hilbert spaces. Simulation studies show the effectiveness of the methods in both the selection and the estimation of functional coefficients. The applications to the functional magnetic resonance imaging (fMRI) reveal the regions of the human brain related to ADHD and IQ.
翻訳日:2021-07-09 10:24:59 公開日:2021-07-08