このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210622となっている論文です。

PDF登録状況(公開日: 20210622)

TitleAuthorsAbstract論文公表日・翻訳日
# 反応拡散パターンの微分プログラミング

Differentiable Programming of Reaction-Diffusion Patterns ( http://arxiv.org/abs/2107.06862v1 )

ライセンス: Link先を確認
Alexander Mordvintsev, Ettore Randazzo, Eyvind Niklasson(参考訳) 反応拡散(RD)システムは、自然界における多くのパターン形成プロセスを管理する計算フレームワークを提供する。 現在のrdシステム設計プラクティスは、試行錯誤パラメータ検索に波及する。 2次元平面上で実例に基づくテクスチャ合成を行うために,RDシステムパラメータを学習するための微分可能な最適化手法を提案する。 我々は、RDシステムをニューラルセルオートマタの変種として表現し、タスク固有の微分可微分損失関数を使用する。 本手法により生成されたRDシステムは, 頑健で, 非自明な「ライフライク」な挙動を示す。

Reaction-Diffusion (RD) systems provide a computational framework that governs many pattern formation processes in nature. Current RD system design practices boil down to trial-and-error parameter search. We propose a differentiable optimization method for learning the RD system parameters to perform example-based texture synthesis on a 2D plane. We do this by representing the RD system as a variant of Neural Cellular Automata and using task-specific differentiable loss functions. RD systems generated by our method exhibit robust, non-trivial 'life-like' behavior.
翻訳日:2021-07-18 12:20:23 公開日:2021-06-22
# ヘイトスピーチ検出におけるパースペクティブスコアの統計的分析

Statistical Analysis of Perspective Scores on Hate Speech Detection ( http://arxiv.org/abs/2107.02024v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Dana Alsagheer, Weidong Shi, Lan Ni, Yan Huang(参考訳) 近年,ソーシャルメディアにおける攻撃的言語の増加により,ヘイトスピーチの検出がホットな話題となっている。 最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータでテストする場合のみ効率的であることが証明されている。 その結果、モデルアーキテクチャは現在の結果を改善する第2の役割を果たす。 このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。 そのため、偏見のある判断を避けるために、高レベルの機能を使う必要があります。 本稿では,ヘイトスピーチ検出におけるパースペクティブスコアとその影響を統計的に分析する。 異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。 最終的には、ヘイトスピーチデータセットのパースペクティブスコアを過剰にサンプリングすることで、他のヘイトスピーチデータセットでテストする場合の一般化性能が大幅に向上することが証明される。

Hate speech detection has become a hot topic in recent years due to the exponential growth of offensive language in social media. It has proven that, state-of-the-art hate speech classifiers are efficient only when tested on the data with the same feature distribution as training data. As a consequence, model architecture plays the second role to improve the current results. In such a diverse data distribution relying on low level features is the main cause of deficiency due to natural bias in data. That's why we need to use high level features to avoid a biased judgement. In this paper, we statistically analyze the Perspective Scores and their impact on hate speech detection. We show that, different hate speech datasets are very similar when it comes to extract their Perspective Scores. Eventually, we prove that, over-sampling the Perspective Scores of a hate speech dataset can significantly improve the generalization performance when it comes to be tested on other hate speech datasets.
翻訳日:2021-07-11 11:32:31 公開日:2021-06-22
# (参考訳) メタニューラルネットワークを用いたマルチモーダル創発的フェイクニュース検出 [全文訳有]

Multimodal Emergent Fake News Detection via Meta Neural Process Networks ( http://arxiv.org/abs/2106.13711v1 )

ライセンス: CC BY 4.0
Yaqing Wang, Fenglong Ma, Haoyu Wang, Kishlay Jha and Jing Gao(参考訳) Fake Newsは前例のないスピードで旅行し、全世界のオーディエンスにリーチし、ソーシャルメディアプラットフォームを通じてユーザーやコミュニティに大きなリスクを冒す。 ディープラーニングベースのモデルでは、関心のあるイベントに関する大量のラベル付きデータでトレーニングした場合、優れたパフォーマンスを示す一方で、モデルのパフォーマンスはドメインシフトによって他のイベントで低下する傾向がある。 したがって、大規模なラベル付きデータセットの取得が難しい、創発的なイベントにおける偽ニュース検出のための既存の検出アプローチでは、重大な課題が生まれている。 さらに、新たな創発的なイベントからの知識を追加するには、スクラッチから新しいモデルを構築したり、モデルを微調整し続ける必要がある。 これらの課題に対処するために,我々はmetafendというエンドツーエンドの偽ニュース検出フレームワークを提案する。 具体的には、メタラーニングとニューラルプロセスの手法を統合し、これらのアプローチの利点を享受する。 特に,ラベル埋め込みモジュールとハード・アテンション・メカニズムを提案し,カテゴリ情報の処理と無関係ポストのトリミングにより有効性を高める。 twitterとweiboから収集したマルチメディアデータセットに関する広範な実験が行われている。 実験結果から,提案するメタフェンドモデルでは,never-seenイベントのフェイクニュースを効果的に検出し,最先端手法に勝ることを示す。

Fake news travels at unprecedented speeds, reaches global audiences and puts users and communities at great risk via social media platforms. Deep learning based models show good performance when trained on large amounts of labeled data on events of interest, whereas the performance of models tends to degrade on other events due to domain shift. Therefore, significant challenges are posed for existing detection approaches to detect fake news on emergent events, where large-scale labeled datasets are difficult to obtain. Moreover, adding the knowledge from newly emergent events requires to build a new model from scratch or continue to fine-tune the model, which can be challenging, expensive, and unrealistic for real-world settings. In order to address those challenges, we propose an end-to-end fake news detection framework named MetaFEND, which is able to learn quickly to detect fake news on emergent events with a few verified posts. Specifically, the proposed model integrates meta-learning and neural process methods together to enjoy the benefits of these approaches. In particular, a label embedding module and a hard attention mechanism are proposed to enhance the effectiveness by handling categorical information and trimming irrelevant posts. Extensive experiments are conducted on multimedia datasets collected from Twitter and Weibo. The experimental results show our proposed MetaFEND model can detect fake news on never-seen events effectively and outperform the state-of-the-art methods.
翻訳日:2021-07-04 21:25:25 公開日:2021-06-22
# Bayesian Neural Networks: Essentials

Bayesian Neural Networks: Essentials ( http://arxiv.org/abs/2106.13594v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) ベイズニューラルネットワークは、重みとアクティベーションに対する不確かさを捉える確率的層を利用し、ベイズ推論を用いてトレーニングされる。 これらの確率層は決定論的カウンター部分の代替として設計されているため、ベイジアンニューラルネットワークは、確率的ディープラーニングをサポートするために従来のディープニューラルネットワークを拡張する直接的な自然な方法を提供する。 しかし、その複雑さからベイズ型ニューラルネットワークを理解し、設計し、訓練するのは非自明である。 本稿では、双対性(深部ニューラルネットワーク、確率モデル)、近似ベイズ推定、ベイズ先行、ベイズ後部学習、深部変分学習など、ベイズニューラルネットワークの本質について論じる。 イラストにはTensorFlow Probability APIとコード例を使用します。 ベイズ型ニューラルネットワークの主な問題は、ディープニューラルネットワークのアーキテクチャが、多くの連続するレイヤの不確実性を考慮するために非常に冗長で費用がかかることである。 ハイブリッドベイズニューラルネットワーク(hybrid bayesian neural networks, ハイブリッドベイズニューラルネットワーク)は、ネットワーク内の確率的層をほとんど使用せず、実用的なソリューションを提供する。

Bayesian neural networks utilize probabilistic layers that capture uncertainty over weights and activations, and are trained using Bayesian inference. Since these probabilistic layers are designed to be drop-in replacement of their deterministic counter parts, Bayesian neural networks provide a direct and natural way to extend conventional deep neural networks to support probabilistic deep learning. However, it is nontrivial to understand, design and train Bayesian neural networks due to their complexities. We discuss the essentials of Bayesian neural networks including duality (deep neural networks, probabilistic models), approximate Bayesian inference, Bayesian priors, Bayesian posteriors, and deep variational learning. We use TensorFlow Probability APIs and code examples for illustration. The main problem with Bayesian neural networks is that the architecture of deep neural networks makes it quite redundant, and costly, to account for uncertainty for a large number of successive layers. Hybrid Bayesian neural networks, which use few probabilistic layers judicially positioned in the networks, provide a practical solution.
翻訳日:2021-07-04 19:47:29 公開日:2021-06-22
# ポートレート内在的分解とリライトの連成学習

Joint Learning of Portrait Intrinsic Decomposition and Relighting ( http://arxiv.org/abs/2106.15305v1 )

ライセンス: Link先を確認
Mona Zehni, Shaona Ghosh, Krishna Sridhar, Sethu Raman(参考訳) 逆レンダリングは、イメージを固有のコンポーネントに分解する問題である。 アルベド、ノーマル、ライティング。 単一画像からこの不正な問題を解くために、シェーディングから形状の最先端の手法は、主に合成または実際のデータセット上のすべてのコンポーネントの教師付きトレーニングに頼っている。 本稿では, (1) 分解作業の完全な監督の必要性を低減し, 2) 再点灯作業を考慮した新しい自己監督訓練パラダイムを提案する。 マルチライト画像(異なる照明下での同一シーンのイメージ)の相違を利用した新たな自己監督的損失項を導入する。 このアプローチはマルチリットデータセットに適用できる。 1) 合成データと実データの組み合わせを訓練し, 2) 限られた監督条件で実データセットを訓練する。 学習パラダイムが内在的な分解とリライトの両方に有効であることを事例として示し,限定的な監督設定において,自己監督的損失条件を伴わずに両タスクにおいてモデルがいかに苦しむかを実証する。 sfsnet、celeba、photofaceデータセットに関する包括的な実験結果を提供し、野生画像に対する我々のアプローチの性能を検証する。

Inverse rendering is the problem of decomposing an image into its intrinsic components, i.e. albedo, normal and lighting. To solve this ill-posed problem from single image, state-of-the-art methods in shape from shading mostly resort to supervised training on all the components on either synthetic or real datasets. Here, we propose a new self-supervised training paradigm that 1) reduces the need for full supervision on the decomposition task and 2) takes into account the relighting task. We introduce new self-supervised loss terms that leverage the consistencies between multi-lit images (images of the same scene under different illuminations). Our approach is applicable to multi-lit datasets. We apply our training approach in two settings: 1) train on a mixture of synthetic and real data, 2) train on real datasets with limited supervision. We show-case the effectiveness of our training paradigm on both intrinsic decomposition and relighting and demonstrate how the model struggles in both tasks without the self-supervised loss terms in limited supervision settings. We provide results of comprehensive experiments on SfSNet, CelebA and Photoface datasets and verify the performance of our approach on images in the wild.
翻訳日:2021-07-04 19:47:10 公開日:2021-06-22
# serial-emd:シリアライズに基づく多次元信号の高速経験モード分解法

Serial-EMD: Fast Empirical Mode Decomposition Method for Multi-dimensional Signals Based on Serialization ( http://arxiv.org/abs/2106.15319v1 )

ライセンス: Link先を確認
Jin Zhang, Fan Feng, Pere Marti-Puig, Cesar F. Caiafa, Zhe Sun, Feng Duan, Jordi Sol\'e-Casals(参考訳) 経験的モード分解(emd)は、ロボティクス、セキュリティ、バイオメディカルエンジニアリングといった様々な分野における適応的、スケールベースの信号分析のための顕著なツールとして開発された。 データ量の劇的な増加は、リアルタイム信号解析の能力により高い要求をもたらすため、既存のEMDとその変種がデータ次元の成長と信号解析の速度をトレードオフすることは困難である。 高速に多次元信号を分解するために,多次元あるいは多次元の信号を1次元信号に結合し,様々な一次元EMDアルゴリズムを用いて分解する信号シリアライズ手法(シリアルEMD)を提案する。 提案手法の有効性を検証するため, 合成多変量時系列, 各種テクスチャと実世界の顔画像を用いた人工2D画像の検証を行った。 既存のマルチEMDアルゴリズムと比較して分解時間が大幅に短縮される。 さらに,本手法を用いて抽出した固有モード関数(IMF)を用いた顔認識の結果,既存のマルチEMDアルゴリズムよりも高い精度を達成でき,IMFの品質の観点から,本手法の優れた性能を示すことができる。 さらに,既存のEMDアルゴリズム,すなわちエンベロープ計算技術や信号分解手法の開発によって制約されるのではなく,入力信号の構造を変換する新たな視点を提供することができる。 要約すると、シリアルEMD技術は多次元信号解析の競争力が高く、高速な代替手段である。

Empirical mode decomposition (EMD) has developed into a prominent tool for adaptive, scale-based signal analysis in various fields like robotics, security and biomedical engineering. Since the dramatic increase in amount of data puts forward higher requirements for the capability of real-time signal analysis, it is difficult for existing EMD and its variants to trade off the growth of data dimension and the speed of signal analysis. In order to decompose multi-dimensional signals at a faster speed, we present a novel signal-serialization method (serial-EMD), which concatenates multi-variate or multi-dimensional signals into a one-dimensional signal and uses various one-dimensional EMD algorithms to decompose it. To verify the effects of the proposed method, synthetic multi-variate time series, artificial 2D images with various textures and real-world facial images are tested. Compared with existing multi-EMD algorithms, the decomposition time becomes significantly reduced. In addition, the results of facial recognition with Intrinsic Mode Functions (IMFs) extracted using our method can achieve a higher accuracy than those obtained by existing multi-EMD algorithms, which demonstrates the superior performance of our method in terms of the quality of IMFs. Furthermore, this method can provide a new perspective to optimize the existing EMD algorithms, that is, transforming the structure of the input signal rather than being constrained by developing envelope computation techniques or signal decomposition methods. In summary, the study suggests that the serial-EMD technique is a highly competitive and fast alternative for multi-dimensional signal analysis.
翻訳日:2021-07-04 19:46:06 公開日:2021-06-22
# (参考訳) Adder の視点からのリカレントニューラルネットワーク - Carry-lookahead RNN [全文訳有]

Recurrent Neural Network from Adder's Perspective: Carry-lookahead RNN ( http://arxiv.org/abs/2106.12901v1 )

ライセンス: CC BY 4.0
Haowei Jiang, Feiwei Qin, Jin Cao, Yong Peng, Yanli Shao(参考訳) リカレントネットワークアーキテクチャはシーケンスモデリングで広く使われているモデルであるが、そのシリアル依存性は計算の並列化を妨げ、操作効率を損なう。 同じ問題はデジタルエレクトロニクスの初期段階のシリアル加算器でも発生した。 本稿では、リカレントニューラルネットワーク(RNN)とシリアル加算器の類似性について論じる。 carry-lookahead adder にインスパイアされ、RNN に carry-lookahead モジュールを導入し、RNN の並列実行を可能にする。 そこで我々は並列RNN計算法を設計し,最終的にCarry-lookahead RNN (CL-RNN)を提案する。 CL-RNNは並列性とフレキシブル・レセプティブ・フィールドの利点を生かしている。 CL-RNNは,RNNに特化して設計されたシーケンスモデリングタスクにおいて,既存のRNNよりも優れた性能を発揮することを検証した。

The recurrent network architecture is a widely used model in sequence modeling, but its serial dependency hinders the computation parallelization, which makes the operation inefficient. The same problem was encountered in serial adder at the early stage of digital electronics. In this paper, we discuss the similarities between recurrent neural network (RNN) and serial adder. Inspired by carry-lookahead adder, we introduce carry-lookahead module to RNN, which makes it possible for RNN to run in parallel. Then, we design the method of parallel RNN computation, and finally Carry-lookahead RNN (CL-RNN) is proposed. CL-RNN takes advantages in parallelism and flexible receptive field. Through a comprehensive set of tests, we verify that CL-RNN can perform better than existing typical RNNs in sequence modeling tasks which are specially designed for RNNs.
翻訳日:2021-06-26 12:41:25 公開日:2021-06-22
# (参考訳) DP-SGD vs. PATE: モデルの精度に差はないのか? [全文訳有]

DP-SGD vs PATE: Which Has Less Disparate Impact on Model Accuracy? ( http://arxiv.org/abs/2106.12576v1 )

ライセンス: CC BY 4.0
Archit Uniyal, Rakshit Naidu, Sasikanth Kotti, Sahib Singh, Patrik Joslin Kenfack, Fatemehsadat Mireshghallah, Andrew Trask(参考訳) 差分プライバシーの応用、特にDP-SGDアルゴリズムは、人口の異なるサブグループに異なる影響を与えることが示されており、表現不足(マイノリティ)のサブグループに対して、表現不足(マイノリティ)のモデルの有用性が著しく高いことが示されている。 本研究では,差分プライバシーを用いたディープラーニングモデルの学習機構であるPATEと,公平性の観点からDP-SGDを比較した。 PATEにも異なる影響があるが,DP-SGDよりは遥かに深刻ではない。 我々は、公正とプライバシのトレードオフを改善するための有望な方向性について、この観察から洞察を得る。

Recent advances in differentially private deep learning have demonstrated that application of differential privacy, specifically the DP-SGD algorithm, has a disparate impact on different sub-groups in the population, which leads to a significantly high drop-in model utility for sub-populations that are under-represented (minorities), compared to well-represented ones. In this work, we aim to compare PATE, another mechanism for training deep learning models using differential privacy, with DP-SGD in terms of fairness. We show that PATE does have a disparate impact too, however, it is much less severe than DP-SGD. We draw insights from this observation on what might be promising directions in achieving better fairness-privacy trade-offs.
翻訳日:2021-06-26 12:08:31 公開日:2021-06-22
# 長期横断的対人訓練:一括分類課題に対するロバストなメタラーニング手法

Long-term Cross Adversarial Training: A Robust Meta-learning Method for Few-shot Classification Tasks ( http://arxiv.org/abs/2106.12900v1 )

ライセンス: Link先を確認
Fan Liu, Shuyu Zhao, Xuelong Dai, Bin Xiao(参考訳) メタ学習モデルは、わずかなラベル付きデータを使用して、新しいタスクに迅速に適応できる。 しかしながら、少数ショット分類タスクでの優れた一般化は達成されているものの、少数ショット学習におけるメタラーニングモデルの敵対的堅牢性を改善することは依然として困難である。 adversarial query(aq)のようなadversarial training(at)メソッドは、メタラーニングモデルの敵対的ロバストなパフォーマンスを向上させることができるが、atはまだ計算コストの高いトレーニングである。 一方、ATで訓練されたメタ学習モデルは、元のクリーンな画像にかなりの精度を落とします。 本稿では,LCAT(Long-term Cross Adversarial Training)と呼ばれる,敵対的頑健なニューラルネットワークのメタラーニング手法を提案する。 LCATは、メタラーニングモデルパラメーターを、自然なサンプル分布方向と反対のサンプル分布方向に沿って長期にわたって更新し、敵の分類精度とクリーンな数ショット分類精度を改善する。 LCATは対人訓練のため、AQよりも対人訓練の半数しか必要とせず、結果として対人訓練の計算は低くなる。 実験の結果,LCATはメタラーニングモデルのSOTA対逆訓練法よりもクリーンかつ逆数ショットの分類精度が優れていることがわかった。

Meta-learning model can quickly adapt to new tasks using few-shot labeled data. However, despite achieving good generalization on few-shot classification tasks, it is still challenging to improve the adversarial robustness of the meta-learning model in few-shot learning. Although adversarial training (AT) methods such as Adversarial Query (AQ) can improve the adversarially robust performance of meta-learning models, AT is still computationally expensive training. On the other hand, meta-learning models trained with AT will drop significant accuracy on the original clean images. This paper proposed a meta-learning method on the adversarially robust neural network called Long-term Cross Adversarial Training (LCAT). LCAT will update meta-learning model parameters cross along the natural and adversarial sample distribution direction with long-term to improve both adversarial and clean few-shot classification accuracy. Due to cross-adversarial training, LCAT only needs half of the adversarial training epoch than AQ, resulting in a low adversarial training computation. Experiment results show that LCAT achieves superior performance both on the clean and adversarial few-shot classification accuracy than SOTA adversarial training methods for meta-learning models.
翻訳日:2021-06-25 15:12:09 公開日:2021-06-22
# デング予測のためのニューラルネットワーク:体系的レビュー

Neural Networks for Dengue Prediction: A Systematic Review ( http://arxiv.org/abs/2106.12905v1 )

ライセンス: Link先を確認
Kirstin Roster and Francisco A. Rodrigues(参考訳) 治療や普遍ワクチンが不足しているため、デングの早期予測は疾患管理の重要なツールである。 ニューラルネットワークは、公衆衛生の多くの領域に貢献する強力な予測モデルである。 本稿では,デング予測に関連するニューラルネットワークについて概説し,その応用例を文献で概説する。 目標は、将来の作業のためにモデル設計を知らせることである。 PRISMAガイドラインに従って、ニューラルネットワークを用いて人口のデングを予測する研究を体系的に検索する。 本稿では,ニューラルネットワークとコンパレータモデル,モデルアーキテクチャ,ハイパーパラメータの相対的性能と入力特徴の選択を要約する。 19の論文が収録された。 ほとんどの研究では、デング入射履歴と気象入力特徴を用いた浅層ニューラルネットワークを実装している。 予測の地平線は短い傾向がある。 ニューラルネットワークの強みに基づいて、ほとんどの研究は都市や準国家レベルでの粒度観測を用いている。 サポートベクターマシンなどのコンパレータに対するニューラルネットワークのパフォーマンスは、研究コンテキストによって異なる。 これらの研究は、ニューラルネットワークがデングの優れた予測を提供し、候補モデルに含めるべきであることを示唆している。 畳み込み、リカレント、ディープネットワークの使用は、比較的探索されていないが、ソーシャルメディアや携帯電話データといった幅広い入力機能の使用と同様に、さらなる研究のための有望な道を提供する。

Due to a lack of treatments and universal vaccine, early forecasts of Dengue are an important tool for disease control. Neural networks are powerful predictive models that have made contributions to many areas of public health. In this systematic review, we provide an introduction to the neural networks relevant to Dengue forecasting and review their applications in the literature. The objective is to help inform model design for future work. Following the PRISMA guidelines, we conduct a systematic search of studies that use neural networks to forecast Dengue in human populations. We summarize the relative performance of neural networks and comparator models, model architectures and hyper-parameters, as well as choices of input features. Nineteen papers were included. Most studies implement shallow neural networks using historical Dengue incidence and meteorological input features. Prediction horizons tend to be short. Building on the strengths of neural networks, most studies use granular observations at the city or sub-national level. Performance of neural networks relative to comparators such as Support Vector Machines varies across study contexts. The studies suggest that neural networks can provide good predictions of Dengue and should be included in the set of candidate models. The use of convolutional, recurrent, or deep networks is relatively unexplored but offers promising avenues for further research, as does the use of a broader set of input features such as social media or mobile phone data.
翻訳日:2021-06-25 14:53:42 公開日:2021-06-22
# 生物学的に有望な畳み込みネットワークを目指して

Towards Biologically Plausible Convolutional Networks ( http://arxiv.org/abs/2106.13031v1 )

ライセンス: Link先を確認
Roman Pogodin, Yash Mehta, Timothy P. Lillicrap, Peter E. Latham(参考訳) 畳み込みネットワークはディープラーニングにおいてユビキタスである。 パラメータの数を減らし、トレーニング時間を短縮し、精度を向上させるため、特に画像に有用である。 しかし、脳のモデルとして、それらは重みの共有を必要とするため、深刻な問題となる。 したがって、脳内のニューロンは局所的に結合できるが(畳み込みネットワークの特徴の1つ)、畳み込みはできない。 しかし、局所連結だが非畳み込みネットワークは、畳み込みネットワークを著しく過小評価している。 これは、畳み込みネットワークを使って視覚系の活動を説明する研究にとって厄介である。 ここでは、プール内の各ニューロンが同じ入力と同じように反応するようにするため、同じ正規化原理を目標とする重み共有の可能な代替案について検討する。 それを行う最も自然な方法は、同じ画像の複数の翻訳をネットワークに表示することです。 しかし、このアプローチには多くの翻訳が必要であり、パフォーマンスのギャップを取り除かない。 代わりに、ローカルに接続されたネットワークに横接続を追加し、Hebbianの可塑性による学習を可能にすることを提案する。 これにより、ネットワークは時折「軽量共有」の睡眠のようなフェーズに停止する必要がある。 この方法では、ローカルに接続されたネットワークがImageNet上でほぼ畳み込み性能を実現し、ビジュアルストリームのモデルとして畳み込みネットワークをサポートする。

Convolutional networks are ubiquitous in deep learning. They are particularly useful for images, as they reduce the number of parameters, reduce training time, and increase accuracy. However, as a model of the brain they are seriously problematic, since they require weight sharing - something real neurons simply cannot do. Consequently, while neurons in the brain can be locally connected (one of the features of convolutional networks), they cannot be convolutional. Locally connected but non-convolutional networks, however, significantly underperform convolutional ones. This is troublesome for studies that use convolutional networks to explain activity in the visual system. Here we study plausible alternatives to weight sharing that aim at the same regularization principle, which is to make each neuron within a pool react similarly to identical inputs. The most natural way to do that is by showing the network multiple translations of the same image, akin to saccades in animal vision. However, this approach requires many translations, and doesn't remove the performance gap. We propose instead to add lateral connectivity to a locally connected network, and allow learning via Hebbian plasticity. This requires the network to pause occasionally for a sleep-like phase of "weight sharing". This method enables locally connected networks to achieve nearly convolutional performance on ImageNet, thus supporting convolutional networks as a model of the visual stream.
翻訳日:2021-06-25 14:46:59 公開日:2021-06-22
# (参考訳) bitfit: トランスフォーマーに基づくマスク言語モデルのパラメータ効率の簡単な微調整 [全文訳有]

BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models ( http://arxiv.org/abs/2106.10199v2 )

ライセンス: CC BY 4.0
Elad Ben Zaken, Shauli Ravfogel, Yoav Goldberg(参考訳) 我々は,小口径のトレーニングデータを用いて,事前学習したBERTモデルの偏差項(あるいは偏差項のサブセット)のみを微調整することは,モデル全体の微調整と競合する(時として優れている)ことを示す。 大きなデータの場合、バイアスのみの微調整は他のまばらな微調整法と競合する。 ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングトレーニングによって引き起こされる知識を公開することによるものであるという仮説を支持している。

We show that with small-to-medium training data, fine-tuning only the bias terms (or a subset of the bias terms) of pre-trained BERT models is competitive with (and sometimes better than) fine-tuning the entire model. For larger data, bias-only fine-tuning is competitive with other sparse fine-tuning methods. Besides their practical utility, these findings are relevant for the question of understanding the commonly-used process of finetuning: they support the hypothesis that finetuning is mainly about exposing knowledge induced by language-modeling training, rather than learning new task-specific linguistic knowledge.
翻訳日:2021-06-25 09:02:56 公開日:2021-06-22
# (参考訳) 漫画顔生成のための微調整スタイルガン2 [全文訳有]

Fine-Tuning StyleGAN2 For Cartoon Face Generation ( http://arxiv.org/abs/2106.12445v1 )

ライセンス: CC BY 4.0
Jihye Back(参考訳) 最近の研究は、教師なし画像翻訳(I2I)において顕著な成功を収めている。 しかし、データの不均衡により、様々なドメインの学習ジョイント分布は依然として非常に困難である。 既存のモデルは現実的なターゲット画像を生成することができるが、ソース画像の構造を維持するのは難しい。 さらに、複数のドメインの大規模データに対する生成モデルのトレーニングには、多くの時間とコンピュータリソースが必要です。 そこで本稿では,この制約に対処するために,stylegan2事前学習モデルを用いて対象領域の画像を生成する新しい画像から画像への変換手法を提案する。 stylegan2モデルは、不均衡データセットの教師なしi2i変換に適しており、高度に安定し、リアルな画像を生成し、単純な微調整技術を適用すると限られたデータから適切に学習する。 そこで本稿では,ソース画像の構造を保存し,対象領域で現実的な画像を生成する新しい手法を提案する。 コードと結果はhttps://github.com/h appy-jihye/cartoon-s tylegan2で入手できる。

Recent studies have shown remarkable success in the unsupervised image to image (I2I) translation. However, due to the imbalance in the data, learning joint distribution for various domains is still very challenging. Although existing models can generate realistic target images, it's difficult to maintain the structure of the source image. In addition, training a generative model on large data in multiple domains requires a lot of time and computer resources. To address these limitations, we propose a novel image-to-image translation method that generates images of the target domain by finetuning a stylegan2 pretrained model. The stylegan2 model is suitable for unsupervised I2I translation on unbalanced datasets; it is highly stable, produces realistic images, and even learns properly from limited data when applied with simple fine-tuning techniques. Thus, in this paper, we propose new methods to preserve the structure of the source images and generate realistic images in the target domain. The code and results are available at https://github.com/h appy-jihye/Cartoon-S tyleGan2
翻訳日:2021-06-25 03:42:19 公開日:2021-06-22
# (参考訳) スパース符号化のための可読的残差分解ISTAの学習 [全文訳有]

Learned Interpretable Residual Extragradient ISTA for Sparse Coding ( http://arxiv.org/abs/2106.11970v1 )

ライセンス: CC BY 4.0
Lin Kong, Wei Sun, Fanhua Shang, Yuanyuan Liu, Hongying Liu(参考訳) 近年,学習反復収縮しきい値アルゴリズム (LISTA) の研究が注目されている。 多くの実験といくつかの理論は、スパースコーディング問題を解決するためのlistaの高効率を証明している。 しかし、既存のLISTAメソッドはすべてシリアル接続である。 この問題に対処するために, 残留構造と理論的保証を有する, 新規な拡張型LISTA (ELISTA) を提案する。 特に、我々のアルゴリズムはRes-Netの解釈可能性もある程度提供できる。 理論的観点から、我々の手法が線形収束に達することを証明している。 実際に広範な実験結果が本手法の利点を検証した。

Recently, the study on learned iterative shrinkage thresholding algorithm (LISTA) has attracted increasing attentions. A large number of experiments as well as some theories have proved the high efficiency of LISTA for solving sparse coding problems. However, existing LISTA methods are all serial connection. To address this issue, we propose a novel extragradient based LISTA (ELISTA), which has a residual structure and theoretical guarantees. In particular, our algorithm can also provide the interpretability for Res-Net to a certain extent. From a theoretical perspective, we prove that our method attains linear convergence. In practice, extensive empirical results verify the advantages of our method.
翻訳日:2021-06-25 03:35:56 公開日:2021-06-22
# (参考訳) アンサンブル機械学習を用いた糖尿病網膜症検出 [全文訳有]

Diabetic Retinopathy Detection using Ensemble Machine Learning ( http://arxiv.org/abs/2106.12545v1 )

ライセンス: CC BY 4.0
Israa Odeh, Mouhammd Alkasassbeh, Mohammad Alauthman(参考訳) 糖尿病患者では、糖尿病網膜症(DR)が視覚障害の原因となっている。 drは眼の網膜に影響を及ぼす微小血管疾患であり、血管閉塞を引き起こし、網膜組織の主な栄養源を減少させる。 この視覚障害の治療は、DRの重症化が不可逆的な失明をもたらすため、早期に検出されると最も効果的である。 それでもDR識別は、しばしば高価で時間を要する眼科医の専門知識を必要とする。 そのため、識別処理を容易にすることを目的とした自動検出システムが導入され、時間とコスト効率のよい方法でグローバルに利用可能となった。 しかし、この特定の眼疾患に対する信頼性の低いデータセットと医療記録のため、得られた予測は、眼科医が診断システムとしてそれらに頼るのに比較的不満足であった。 そこで我々は、アンサンブルに基づく学習戦略を探求し、よく知られた分類アルゴリズムを1つの高度な診断モデルにマージした。 提案手法は,この領域における他の一般的な分類アルゴリズムの中で最も高い精度を達成した。 4つのサブデータセットが生成され、InfoGainEvalによって選択されたMessidorデータセットのトップ5とトップ10の機能が含まれている。 WrapperSubsetEval.は、InfoGainEvalで70.7%と75.1%の精度を達成した。 それぞれトップ5とオリジナルデータセットです その結果,サブデータセットの性能が著しく低下し,より複雑な分類プロセスがもたらされた。

Diabetic Retinopathy (DR) is among the worlds leading vision loss causes in diabetic patients. DR is a microvascular disease that affects the eye retina, which causes vessel blockage and therefore cuts the main source of nutrition for the retina tissues. Treatment for this visual disorder is most effective when it is detected in its earliest stages, as severe DR can result in irreversible blindness. Nonetheless, DR identification requires the expertise of Ophthalmologists which is often expensive and time-consuming. Therefore, automatic detection systems were introduced aiming to facilitate the identification process, making it available globally in a time and cost-efficient manner. However, due to the limited reliable datasets and medical records for this particular eye disease, the obtained predictions accuracies were relatively unsatisfying for eye specialists to rely on them as diagnostic systems. Thus, we explored an ensemble-based learning strategy, merging a substantial selection of well-known classification algorithms in one sophisticated diagnostic model. The proposed framework achieved the highest accuracy rates among all other common classification algorithms in the area. 4 subdatasets were generated to contain the top 5 and top 10 features of the Messidor dataset, selected by InfoGainEval. and WrapperSubsetEval., accuracies of 70.7% and 75.1% were achieved on the InfoGainEval. top 5 and original dataset respectively. The results imply the impressive performance of the subdataset, which significantly conduces to a less complex classification process
翻訳日:2021-06-25 03:24:56 公開日:2021-06-22
# (参考訳) 人間の説明の多様性と限界について [全文訳有]

On the Diversity and Limits of Human Explanations ( http://arxiv.org/abs/2106.11988v1 )

ライセンス: CC BY 4.0
Chenhao Tan(参考訳) NLPの取り組みは、人間の説明のデータセットを構築することを目的としている。 しかし、説明という用語は幅広い概念を包含しており、それぞれが異なる性質と分岐を持つ。 我々の目標は、多種多様な説明と人的制約の概要を提供し、NLPにおける説明の収集と利用の意義について議論することである。 心理学と認知科学における先行研究に着想を得て,nlpの既存の説明を近位メカニズム,証拠,手続きの3つのカテゴリに分類した。 これら3つのタイプは性質が異なり、その結果の説明に影響を及ぼす。 例えば、手順は心理学における説明とはみなされず、指示から学ぶための豊富な仕事と結びついている。 説明の多様性は、アノテータがオープンな疑問を解釈し答えるのに必要なプロキシ質問によってさらに証明される。 最後に、説明は予測と異なる、しばしば深い理解を必要とするため、人間はいくつかのタスクで有用な説明を提供することができるかどうかに疑問を投げかける。

A growing effort in NLP aims to build datasets of human explanations. However, the term explanation encompasses a broad range of notions, each with different properties and ramifications. Our goal is to provide an overview of diverse types of explanations and human limitations, and discuss implications for collecting and using explanations in NLP. Inspired by prior work in psychology and cognitive sciences, we group existing human explanations in NLP into three categories: proximal mechanism, evidence, and procedure. These three types differ in nature and have implications for the resultant explanations. For instance, procedure is not considered explanations in psychology and connects with a rich body of work on learning from instructions. The diversity of explanations is further evidenced by proxy questions that are needed for annotators to interpret and answer open-ended why questions. Finally, explanations may require different, often deeper, understandings than predictions, which casts doubt on whether humans can provide useful explanations in some tasks.
翻訳日:2021-06-25 03:13:08 公開日:2021-06-22
# (参考訳) P2T:シーン理解のためのピラミッドプール変圧器 [全文訳有]

P2T: Pyramid Pooling Transformer for Scene Understanding ( http://arxiv.org/abs/2106.12011v1 )

ライセンス: CC BY 4.0
Yu-Huan Wu, Yun Liu, Xin Zhan, Ming-Ming Cheng(参考訳) i)マルチヘッド自己認識(MHSA)の計算は計算/空間の複雑さが高い;i)近年のビジョントランスフォーマーネットワークは画像分類(NLPに類似した単純なシナリオ)と下流シーン理解タスク(複雑なシナリオ、リッチな構造とコンテキスト情報)の違いを無視して、画像分類のために過度に調整されている。 この目的のために、ピラミッドプーリングは、その強力なコンテキスト抽象化によって様々な視覚タスクに有効であることが実証されており、その空間的不変性は、構造情報の喪失に対処するのに適している(problem ii)。 そこで本研究では,MHSAにピラミッドプーリングを適用することで,計算資源に対する高い要求を緩和することを提案する。 このように、このプーリングベースのMHSAは上記の2つの問題にうまく対処することができ、下流のシーン理解タスクに柔軟で強力である。 プールベースのMHSAに接続して、P2T(Maraamid Pooling Transformer)と呼ばれる下流タスク指向のトランスネットワークを構築しました。 大規模な実験により、P2Tをバックボーンネットワークに適用すると、従来のCNNやトランスフォーマーベースネットワークと比較して、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、ビジュアルサリエンシ検出といった様々な下流シーン理解タスクにおいてかなり優れていることが示された。 コードはhttps://github.com/y uhuan-wu/p2tでリリースされる。 この技術レポートは引き続き更新される。

This paper jointly resolves two problems in vision transformer: i) the computation of Multi-Head Self-Attention (MHSA) has high computational/space complexity; ii) recent vision transformer networks are overly tuned for image classification, ignoring the difference between image classification (simple scenarios, more similar to NLP) and downstream scene understanding tasks (complicated scenarios, rich structural and contextual information). To this end, we note that pyramid pooling has been demonstrated to be effective in various vision tasks owing to its powerful context abstraction, and its natural property of spatial invariance is suitable to address the loss of structural information (problem ii)). Hence, we propose to adapt pyramid pooling to MHSA for alleviating its high requirement on computational resources (problem i)). In this way, this pooling-based MHSA can well address the above two problems and is thus flexible and powerful for downstream scene understanding tasks. Plugged with our pooling-based MHSA, we build a downstream-task-orie nted transformer network, dubbed Pyramid Pooling Transformer (P2T). Extensive experiments demonstrate that, when applied P2T as the backbone network, it shows substantial superiority in various downstream scene understanding tasks such as semantic segmentation, object detection, instance segmentation, and visual saliency detection, compared to previous CNN- and transformer-based networks. The code will be released at https://github.com/y uhuan-wu/P2T. Note that this technical report will keep updating.
翻訳日:2021-06-25 02:58:01 公開日:2021-06-22
# (参考訳) テスト時間集合予測 [全文訳有]

Test-time Collective Prediction ( http://arxiv.org/abs/2106.12012v1 )

ライセンス: CC BY 4.0
Celestine Mendler-D\"unner, Wenshuo Guo, Stephen Bates, Michael I. Jordan(参考訳) マシンラーニングでは、それぞれが独自のデータを持つ複数のパーティが、将来のテストポイントに関する予測を共同で行なおうとしている。 エージェントは、個々のエージェントよりも優れた予測を行うために、エージェントの完全な集合的な専門知識から恩恵を受けたいと考えているが、データやモデルパラメータをリリースする意思はないかもしれない。 本研究では,外部検証やモデル再トレーニング,データプーリングに頼らずに,各エージェントの事前学習モデルを活用することにより,テスト時に集合的な予測を行う分散機構を検討する。 我々のアプローチは、人間のコンセンサス形成に関する社会科学の文献からインスピレーションを得ている。 この機構を理論的に解析し,大標本極限における逆平均二乗誤差(mse)重み付けに収束することを示した。 集団予測におけるエラーバーを計算するために,単一エージェントの予測に対するメカニズムの感度を評価する分散化Jackknife手法を提案する。 実験により,本手法は入力空間全体で異なる品質のモデルと効果的に結合することを示す。 提案したコンセンサス予測は,従来のモデル平均よりも大幅に向上し,付加的な検証データにアクセス可能な重み付き平均化スキームよりも優れる。

An increasingly common setting in machine learning involves multiple parties, each with their own data, who want to jointly make predictions on future test points. Agents wish to benefit from the collective expertise of the full set of agents to make better predictions than they would individually, but may not be willing to release their data or model parameters. In this work, we explore a decentralized mechanism to make collective predictions at test time, leveraging each agent's pre-trained model without relying on external validation, model retraining, or data pooling. Our approach takes inspiration from the literature in social science on human consensus-making. We analyze our mechanism theoretically, showing that it converges to inverse meansquared-error (MSE) weighting in the large-sample limit. To compute error bars on the collective predictions we propose a decentralized Jackknife procedure that evaluates the sensitivity of our mechanism to a single agent's prediction. Empirically, we demonstrate that our scheme effectively combines models with differing quality across the input space. The proposed consensus prediction achieves significant gains over classical model averaging, and even outperforms weighted averaging schemes that have access to additional validation data.
翻訳日:2021-06-25 02:31:07 公開日:2021-06-22
# (参考訳) nasnet-large-decoder netによるヘッドオーバーコート厚みの自動測定 [全文訳有]

Automatic Head Overcoat Thickness Measure with NASNet-Large-Decoder Net ( http://arxiv.org/abs/2106.12054v1 )

ライセンス: CC0 1.0
Youshan Zhang, Brian D. Davison, Vivien W. Talghader, Zhiyu Chen, Zhiyong Xiao, Gary J. Kunkel(参考訳) 透過電子顕微鏡(TEM)は、材料の微細な特性と膜厚を示す主要なツールの1つである。 しかし、TEM画像からのフィルム厚のマニュアル決定は、特に被写体が非常に薄く、測定精度が極めて高い場合には、時間的だけでなく主観的にもかかわる。 磁気ディスクドライブ産業におけるヘッドオーバーコート(hoc)厚み測定の場合も同様である。 したがって,HOCの厚さを自動的に測定するソフトウェアを開発する必要がある。 本稿では,まず,nasnet-largeをエンコーダとして使用するhoc層セグメンテーション手法を提案し,次にデコーダアーキテクチャを提案する。 セグメンテーションの結果をさらに改善するため,我々はまず,セグメンテーション結果の無関係部分を除去する後処理層を提案する。 分割HOC層の厚さを測定するため, 回帰畳み込みニューラルネットワーク(RCNN)モデルと直交厚さ計算法を提案する。 実験の結果, 平均二乗誤差が低く, 現状の手動測定に優れるモデルに対して, より高いダイススコアが得られた。

Transmission electron microscopy (TEM) is one of the primary tools to show microstructural characterization of materials as well as film thickness. However, manual determination of film thickness from TEM images is time-consuming as well as subjective, especially when the films in question are very thin and the need for measurement precision is very high. Such is the case for head overcoat (HOC) thickness measurements in the magnetic hard disk drive industry. It is therefore necessary to develop software to automatically measure HOC thickness. In this paper, for the first time, we propose a HOC layer segmentation method using NASNet-Large as an encoder and then followed by a decoder architecture, which is one of the most commonly used architectures in deep learning for image segmentation. To further improve segmentation results, we are the first to propose a post-processing layer to remove irrelevant portions in the segmentation result. To measure the thickness of the segmented HOC layer, we propose a regressive convolutional neural network (RCNN) model as well as orthogonal thickness calculation methods. Experimental results demonstrate a higher dice score for our model which has lower mean squared error and outperforms current state-of-the-art manual measurement.
翻訳日:2021-06-25 02:07:04 公開日:2021-06-22
# (参考訳) 否定的レビューにおける肯定バイアスについて [全文訳有]

On Positivity Bias in Negative Reviews ( http://arxiv.org/abs/2106.12056v1 )

ライセンス: CC BY 4.0
Madhusudhan Aithal and Chenhao Tan(参考訳) 先行研究では、人間の表現における否定的な単語よりも肯定的な単語が頻繁に発生することが明らかにされており、これは典型的には肯定的バイアスによるもので、人々が現実の肯定的な見解を報告する傾向にある。 しかし、否定的なレビューで使われる言語はどうだろう? 先行研究と一致して,様々なデータセットを用いて,英語の否定レビューでは否定語よりも肯定的な単語が多い傾向を示した。 本研究は,否定の実用性に関する先行的な知見と一致し,否定は否定的評価において肯定的な語と関連していることを示す。 さらに、否定的なレビューでは、肯定的な言葉を持つ文の大多数は感情分類子に基づいて否定的な意見を表し、ある種の否定を示している。

Prior work has revealed that positive words occur more frequently than negative words in human expressions, which is typically attributed to positivity bias, a tendency for people to report positive views of reality. But what about the language used in negative reviews? Consistent with prior work, we show that English negative reviews tend to contain more positive words than negative words, using a variety of datasets. We reconcile this observation with prior findings on the pragmatics of negation, and show that negations are commonly associated with positive words in negative reviews. Furthermore, in negative reviews, the majority of sentences with positive words express negative opinions based on sentiment classifiers, indicating some form of negation.
翻訳日:2021-06-25 01:58:08 公開日:2021-06-22
# (参考訳) 空間的構造と時間的ランダム化:効率的なトレーニングにrnnのドロップアウトを活用する [全文訳有]

Structured in Space, Randomized in Time: Leveraging Dropout in RNNs for Efficient Training ( http://arxiv.org/abs/2106.12089v1 )

ライセンス: CC BY 4.0
Anup Sarma, Sonali Singh, Huaipan Jiang, Rui Zhang, Mahmut T Kandemir and Chita R Das(参考訳) リカレントニューラルネットワーク(RNN)、特にLong Short-Term Memory(LSTM)は、テキストや音声でシーケンスベースの学習タスクを扱うためのディープラーニングツールとして広く使われている。 このようなLSTMアプリケーションのトレーニングは、時間ステップ毎に繰り返される隠れ状態計算の繰り返しの性質のため、計算集約的である。 Deep Neural Netsのスパーシリティは、トレーニングと推論フェーズの両方において計算時間を短縮する機会として広く見なされているが、LSTM RNNにおける非ReLUアクティベーションの使用は、ニューロンのアクティベーションと勾配値の制限あるいは存在しないようなダイナミックなスパシリティの機会を与える。 そこで本研究では,LSTMのドロップアウト誘起空間を計算量削減の適切な方法として同定する。 ドロップアウトは広く使われている正規化機構であり、トレーニングの反復毎に計算されたニューロン値をランダムに減少させる。 汎用SIMDハードウェアおよびシストリックアレイにおいて,実行時の計算量削減に優れたカラム(ロー)レベルの隠れ状態空間を,同一の物理ニューロン群をバッチ内にドロップアウトすることで,ドロップアウトパターンを構築することを提案する。 PTBデータセットに基づく言語モデリング、IWSLT De-EnデータセットとEn-Viデータセットを用いたOpenNMTベースの機械翻訳、CoNLL-2003共有タスクを用いたエンティティ認識シーケンスラベリングの3つの代表的NLPタスクについて実験を行った。 提案手法は, 目標距離を犠牲にすることなく, 1.23x から 1.64x までの改善を図りながら, ドロップアウトに基づく計算量削減をトレーニング時間を短縮できることを示す。

Recurrent Neural Networks (RNNs), more specifically their Long Short-Term Memory (LSTM) variants, have been widely used as a deep learning tool for tackling sequence-based learning tasks in text and speech. Training of such LSTM applications is computationally intensive due to the recurrent nature of hidden state computation that repeats for each time step. While sparsity in Deep Neural Nets has been widely seen as an opportunity for reducing computation time in both training and inference phases, the usage of non-ReLU activation in LSTM RNNs renders the opportunities for such dynamic sparsity associated with neuron activation and gradient values to be limited or non-existent. In this work, we identify dropout induced sparsity for LSTMs as a suitable mode of computation reduction. Dropout is a widely used regularization mechanism, which randomly drops computed neuron values during each iteration of training. We propose to structure dropout patterns, by dropping out the same set of physical neurons within a batch, resulting in column (row) level hidden state sparsity, which are well amenable to computation reduction at run-time in general-purpose SIMD hardware as well as systolic arrays. We conduct our experiments for three representative NLP tasks: language modelling on the PTB dataset, OpenNMT based machine translation using the IWSLT De-En and En-Vi datasets, and named entity recognition sequence labelling using the CoNLL-2003 shared task. We demonstrate that our proposed approach can be used to translate dropout-based computation reduction into reduced training time, with improvement ranging from 1.23x to 1.64x, without sacrificing the target metric.
翻訳日:2021-06-25 01:44:16 公開日:2021-06-22
# ABCD:複雑な文を単純な文のカバーセットに変換するグラフフレームワーク

ABCD: A Graph Framework to Convert Complex Sentences to a Covering Set of Simple Sentences ( http://arxiv.org/abs/2106.12027v1 )

ライセンス: Link先を確認
Yanjun Gao, Ting-hao (Kenneth) Huang, Rebecca J. Passonneau(参考訳) アトミック節は複雑な文を理解するための基本的なテキスト単位である。 複雑な文内の原子文の識別は、要約、引数マイニング、談話分析、談話解析、質問応答といった応用において重要である。 以前の仕事は、主にパースに依存するルールベースのメソッドに依存している。 本稿では,各複雑な文をソースのテンション付き節から派生した単純な文に分解する新たなタスクを提案し,グラフ編集タスクとしての新たな問題定式化を提案する。 我々のニューラルモデルは、単語の隣接性と文法的依存関係を組み合わせたグラフのアクセプション、ブレーク、コピー、ドロップの各要素を学ぶ。 完全な処理パイプラインは、グラフ構築、グラフ編集、および出力グラフからの文生成のためのモジュールを含む。 我々は、複雑な文の分解を訓練し評価するための新しいデータセットであるDeSSEと、MinWikiSplitのサブセットであるMinWikiを紹介する。 ABCDはMinWikiの2つの解析ベースラインと同等のパフォーマンスを達成している。 複雑な文型のバランスがより均一なDeSSEでは、エンコーダ-デコーダベースラインよりも原子文数の精度が高い。 結果は詳細なエラー解析を含む。

Atomic clauses are fundamental text units for understanding complex sentences. Identifying the atomic sentences within complex sentences is important for applications such as summarization, argument mining, discourse analysis, discourse parsing, and question answering. Previous work mainly relies on rule-based methods dependent on parsing. We propose a new task to decompose each complex sentence into simple sentences derived from the tensed clauses in the source, and a novel problem formulation as a graph edit task. Our neural model learns to Accept, Break, Copy or Drop elements of a graph that combines word adjacency and grammatical dependencies. The full processing pipeline includes modules for graph construction, graph editing, and sentence generation from the output graph. We introduce DeSSE, a new dataset designed to train and evaluate complex sentence decomposition, and MinWiki, a subset of MinWikiSplit. ABCD achieves comparable performance as two parsing baselines on MinWiki. On DeSSE, which has a more even balance of complex sentence types, our model achieves higher accuracy on the number of atomic sentences than an encoder-decoder baseline. Results include a detailed error analysis.
翻訳日:2021-06-24 15:37:20 公開日:2021-06-22
# ニューラルガイド型形状解析器:過分割3次元形状の階層ラベリングのためのモンテカルロ法

The Neurally-Guided Shape Parser: A Monte Carlo Method for Hierarchical Labeling of Over-segmented 3D Shapes ( http://arxiv.org/abs/2106.12026v1 )

ライセンス: Link先を確認
R. Kenny Jones and Rana Hanocka and Daniel Ritchie(参考訳) 多くの学習に基づく3次元形状セマンティックセグメンテーション法は、ラベルを形状原子に割り当てる(例)。 ポイントクラウドやメッシュ内の顔のポイント) エンドツーエンドの方法でトレーニングされたシングルパスアプローチ。 このような手法は優れた性能を発揮するが、大量のラベル付きトレーニングデータを必要とする。 このパラダイムは、(1) 形状を領域に分解し、(2) 意味ラベルをこれらの領域に割り当てる2つの分離可能なサブプロブレムを絡み合わせる。 1) 領域分割は意味的ラベルを必要とせず、教師なしの方法で行うことができ、(2) 原子の代わりに形状領域をラベル付けすることは、より小さな探索空間となり、より少ないラベル付きトレーニングデータで学習できるべきである。 本稿では,この2つ目の主張を,過剰な3次元形状の領域に意味ラベルを割り当てる手法であるNGSP(Neurally-Guided Shape Parser)を提示することによって検討する。 我々はMAP推論によってこの問題を解き、入力形状に条件付けられたラベル付け代入の後方確率をモデル化する。 ニューラルネットワークによるモンテカルロ重要度サンプリング手法を用いて,入力形状が離散領域に分解されることを想定して検索可能な手法を提案する。 生成した3次元形状の階層的セマンティックセマンティックセグメンテーションのタスクにおけるNGSPの評価を行った。 NGSPは、形状原子をラベル付けし、特に低データ状態において、各形状領域の予測を集約することを学ぶベースラインよりも大幅に性能が向上することがわかった。 最後に,NGSPは領域の粒度に対して頑健であり,領域が著しく破損してもセグメンテーション性能を保っていることを示す。

Many learning-based 3D shape semantic segmentation methods assign labels to shape atoms (e.g. points in a point cloud or faces in a mesh) with a single-pass approach trained in an end-to-end fashion. Such methods achieve impressive performance but require large amounts of labeled training data. This paradigm entangles two separable subproblems: (1) decomposing a shape into regions and (2) assigning semantic labels to these regions. We claim that disentangling these subproblems reduces the labeled data burden: (1) region decomposition requires no semantic labels and could be performed in an unsupervised fashion, and (2) labeling shape regions instead of atoms results in a smaller search space and should be learnable with less labeled training data. In this paper, we investigate this second claim by presenting the Neurally-Guided Shape Parser (NGSP), a method that learns how to assign semantic labels to regions of an over-segmented 3D shape. We solve this problem via MAP inference, modeling the posterior probability of a labeling assignment conditioned on an input shape. We employ a Monte Carlo importance sampling approach guided by a neural proposal network, a search-based approach made feasible by assuming the input shape is decomposed into discrete regions. We evaluate NGSP on the task of hierarchical semantic segmentation on manufactured 3D shapes from PartNet. We find that NGSP delivers significant performance improvements over baselines that learn to label shape atoms and then aggregate predictions for each shape region, especially in low-data regimes. Finally, we demonstrate that NGSP is robust to region granularity, as it maintains strong segmentation performance even as the regions undergo significant corruption.
翻訳日:2021-06-24 15:35:21 公開日:2021-06-22
# 組立による一貫性のある予測信頼を目指して

Towards Consistent Predictive Confidence through Fitted Ensembles ( http://arxiv.org/abs/2106.12070v1 )

ライセンス: Link先を確認
Navid Kardan, Ankit Sharma and Kenneth O. Stanley(参考訳) ディープニューラルネットワークは、機械学習アプリケーションにおける最近の成功の多くの背後にある。 しかし、これらのモデルは、アウト・オブ・ディストリビューション(OOD)の例に直面したり、間違った予測を行ったりしながら、過信な決定を下すことができる。 この一貫性のない予測信頼は、独立に訓練された学習モデルのより大きなシステムへの統合を制限する。 本稿では,OODを例として,分類器の性能を現実的に測定する,分離可能な概念学習フレームワークを提案する。 このセットアップでは、クラスセットの分割の異なる部分に分類器のいくつかのインスタンスがトレーニングされる。 その後、これらのモデルの組み合わせの性能を別個のテストセットで評価する。 現在のOOD検出技術とは異なり、このフレームワークは補助的なOODデータセットを必要としない。 さらに,従来の分類タスクの変換バージョンによって過信予測が修正されるような,深層モデルのより一貫した予測信頼度向上のための新たな強力なベースラインを提案する。 フィットしたアンサンブルは、コンポーネント間の矛盾する予測を観察することによって補助的なデータを必要としないOODサンプルを自然に検出することができる。 MNIST、SVHN、CIFAR-10/100、ImageNetの実験では、OODの従来のアンサンブルよりもはるかに優れており、スケール可能である。

Deep neural networks are behind many of the recent successes in machine learning applications. However, these models can produce overconfident decisions while encountering out-of-distribution (OOD) examples or making a wrong prediction. This inconsistent predictive confidence limits the integration of independently-traine d learning models into a larger system. This paper introduces separable concept learning framework to realistically measure the performance of classifiers in presence of OOD examples. In this setup, several instances of a classifier are trained on different parts of a partition of the set of classes. Later, the performance of the combination of these models is evaluated on a separate test set. Unlike current OOD detection techniques, this framework does not require auxiliary OOD datasets and does not separate classification from detection performance. Furthermore, we present a new strong baseline for more consistent predictive confidence in deep models, called fitted ensembles, where overconfident predictions are rectified by transformed versions of the original classification task. Fitted ensembles can naturally detect OOD examples without requiring auxiliary data by observing contradicting predictions among its components. Experiments on MNIST, SVHN, CIFAR-10/100, and ImageNet show fitted ensemble significantly outperform conventional ensembles on OOD examples and are possible to scale.
翻訳日:2021-06-24 15:34:52 公開日:2021-06-22
# 全ては頭の中にある:コモンセンス推論における言語間移動のベースラインとして注意頭を用いる

It's All in the Heads: Using Attention Heads as a Baseline for Cross-Lingual Transfer in Commonsense Reasoning ( http://arxiv.org/abs/2106.12066v1 )

ライセンス: Link先を確認
Alexey Tikhonov, Max Ryabinin(参考訳) コモンセンス推論は自然言語処理の重要な問題の1つだが、ラベル付きデータの相対的不足は英語以外の言語の発展を妨げている。 事前訓練された言語間モデル(英語版)は言語に依存しない強力な表現の源であるが、その固有の推論能力はまだ研究されている。 本研究では,重み付き線形分類器を特徴量として訓練するコモンセンス推論への簡単なアプローチを設計する。 このアプローチを評価するために、標準化パイプライン内の先行作業から複数のデータセットを処理し、サンプル外性能の観点から言語間一般化能力を測定することで、多言語Winograd Schemaコーパスを作成する。 ゼロショット方式で他の言語に適用しても、近年のコモンセンス推論のための教師なしアプローチと競合する。 また,多言語エンコーダにおける普遍的推論能力のエビデンスを提供するため,すべての研究対象言語において,ほとんどが注意ヘッドのごく一部で与えられることを実証した。

Commonsense reasoning is one of the key problems in natural language processing, but the relative scarcity of labeled data holds back the progress for languages other than English. Pretrained cross-lingual models are a source of powerful language-agnostic representations, yet their inherent reasoning capabilities are still actively studied. In this work, we design a simple approach to commonsense reasoning which trains a linear classifier with weights of multi-head attention as features. To evaluate this approach, we create a multilingual Winograd Schema corpus by processing several datasets from prior work within a standardized pipeline and measure cross-lingual generalization ability in terms of out-of-sample performance. The method performs competitively with recent supervised and unsupervised approaches for commonsense reasoning, even when applied to other languages in a zero-shot manner. Also, we demonstrate that most of the performance is given by the same small subset of attention heads for all studied languages, which provides evidence of universal reasoning capabilities in multilingual encoders.
翻訳日:2021-06-24 15:32:56 公開日:2021-06-22
# グラフオートエンコーダの表現力の探索

Exploring the Representational Power of Graph Autoencoder ( http://arxiv.org/abs/2106.12005v1 )

ライセンス: Link先を確認
Maroun Haddad and Mohamed Bouguessa(参考訳) 表現学習は多くのグラフ学習タスクで大きな成功を収めてきたが、これらの埋め込みによって捉えられている構造の背後にある理解はほとんどない。 例えば、三角数、ノードの次数、その他の中心性測度といった位相的特徴が埋め込みに具体的にエンコードされているかどうか疑問である。 さらに,これらの構造が組み込まれている場合,クラスタ化や分類といった下流タスクのパフォーマンス向上のために必要かどうかを問う。 これらの問題に対処するために、教師なしグラフ埋め込みモデルの3つのクラスと7種類のグラフオートエンコーダに関する広範な実証研究を行う。 この結果から,SUMアグリゲーションルールを用いたグラフオートエンコーダの第1層において,モデルが第2次近傍を保存する条件下で,Degree,Local Clustering Score,Interfaceness Centrality,Eigenvect or Centrality,Triangle Countの5つのトポロジ的特徴が具体的に保存されていることがわかった。 上記のモデルの埋め込みにおけるトポロジ的特徴の分布の階層構造を明らかにすることで,これらの特徴の存在のさらなる証拠を補足する。 また、そのような特性を持つモデルが、特定の下流タスク、特にそのタスクに関連のある保存機能において、他のモデルよりも優れていることを示す。 最後に,社会影響予測に関するテストケーススタディを通じて,本研究の適合性を評価する。

While representation learning has yielded a great success on many graph learning tasks, there is little understanding behind the structures that are being captured by these embeddings. For example, we wonder if the topological features, such as the Triangle Count, the Degree of the node and other centrality measures are concretely encoded in the embeddings. Furthermore, we ask if the presence of these structures in the embeddings is necessary for a better performance on the downstream tasks, such as clustering and classification. To address these questions, we conduct an extensive empirical study over three classes of unsupervised graph embedding models and seven different variants of Graph Autoencoders. Our results show that five topological features: the Degree, the Local Clustering Score, the Betweenness Centrality, the Eigenvector Centrality, and Triangle Count are concretely preserved in the first layer of the graph autoencoder that employs the SUM aggregation rule, under the condition that the model preserves the second-order proximity. We supplement further evidence for the presence of these features by revealing a hierarchy in the distribution of the topological features in the embeddings of the aforementioned model. We also show that a model with such properties can outperform other models on certain downstream tasks, especially when the preserved features are relevant to the task at hand. Finally, we evaluate the suitability of our findings through a test case study related to social influence prediction.
翻訳日:2021-06-24 15:32:37 公開日:2021-06-22
# Q-Learning Lagrange Policies for Multi-Action Restless Bandits

Q-Learning Lagrange Policies for Multi-Action Restless Bandits ( http://arxiv.org/abs/2106.12024v1 )

ライセンス: Link先を確認
Jackson A. Killian, Arpita Biswas, Sanket Shah, Milind Tambe(参考訳) RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。 しかし、従来の研究は問題ダイナミクスが知られているオフライン設定のみの研究であった。 我々は、ラグランジアン緩和とQラーニングの組み合わせを用いて、マルチアクションRMABの優れたポリシーをオンラインで学習するための最初のアルゴリズムを設計する。 私たちの最初のアプローチであるMAIQLは、バイナリアクションRMABにおけるWhittleインデックスをマルチアクション設定にQ-ラーニングする方法を拡張しています。 一般化された更新規則と収束証明を導出し、標準仮定の下では、MAIQLは漸近的に最適なマルチアクションRMABポリシーに$t\rightarrow{}\infty$として収束する。 しかし、MAIQLは2つのタイムスケールでのQ関数とインデックスの学習に依存しており、収束が遅く、よく機能するために問題構造を必要とする。 そこで我々は,マルチアクションRMABに対するより一般的なラグランジュポリシーを学習し,Q-ラーニングの変種を通してラグランジュを最小化する2番目のアルゴリズムLPQLを設計する。 高速収束を保証するため、単一時間スケールでの学習を可能にする近似戦略を採用し、その近似の精度とLPQLの戻り値の上限を$t\rightarrow{}\infty$として保証する。 最後に,我々のアプローチは,現実世界の服用データから得られたものを含め,複数の設定でベースラインを常に上回っています。

Multi-action restless multi-armed bandits (RMABs) are a powerful framework for constrained resource allocation in which $N$ independent processes are managed. However, previous work only study the offline setting where problem dynamics are known. We address this restrictive assumption, designing the first algorithms for learning good policies for Multi-action RMABs online using combinations of Lagrangian relaxation and Q-learning. Our first approach, MAIQL, extends a method for Q-learning the Whittle index in binary-action RMABs to the multi-action setting. We derive a generalized update rule and convergence proof and establish that, under standard assumptions, MAIQL converges to the asymptotically optimal multi-action RMAB policy as $t\rightarrow{}\infty$. However, MAIQL relies on learning Q-functions and indexes on two timescales which leads to slow convergence and requires problem structure to perform well. Thus, we design a second algorithm, LPQL, which learns the well-performing and more general Lagrange policy for multi-action RMABs by learning to minimize the Lagrange bound through a variant of Q-learning. To ensure fast convergence, we take an approximation strategy that enables learning on a single timescale, then give a guarantee relating the approximation's precision to an upper bound of LPQL's return as $t\rightarrow{}\infty$. Finally, we show that our approaches always outperform baselines across multiple settings, including one derived from real-world medication adherence data.
翻訳日:2021-06-24 15:32:14 公開日:2021-06-22
# 核と神経バンドの純粋な探索

Pure Exploration in Kernel and Neural Bandits ( http://arxiv.org/abs/2106.12034v1 )

ライセンス: Link先を確認
Yinglun Zhu, Dongruo Zhou, Ruoxi Jiang, Quanquan Gu, Rebecca Willett, Robert Nowak(参考訳) 我々は、特徴表現の次元が腕の数よりもはるかに大きい帯域における純粋な探索について研究する。 次元の呪いを克服するために,各腕の特徴表現を適応的に低次元空間に埋め込み,誘導モデルの誤特定を慎重に扱うことを提案する。 我々のアプローチは、概念的には、低次元の線形バンディットしか扱えない既存の作品や、モデルの誤特定を受動的に処理できる既存の作品とは大きく異なる。 1)報酬関数は、無限次元のケルネルヒルベルト空間に属する可能性があり、(2)報酬関数は非線形であり、ニューラルネットワークで近似することができる。 我々の主な結果は、カーネルや神経表現における機能空間の有効次元のみに依存する、サンプル複雑性の保証を提供する。 合成データと実世界データの両方で広範な実験を行い,本手法の有効性を実証した。

We study pure exploration in bandits, where the dimension of the feature representation can be much larger than the number of arms. To overcome the curse of dimensionality, we propose to adaptively embed the feature representation of each arm into a lower-dimensional space and carefully deal with the induced model misspecifications. Our approach is conceptually very different from existing works that can either only handle low-dimensional linear bandits or passively deal with model misspecifications. We showcase the application of our approach to two pure exploration settings that were previously under-studied: (1) the reward function belongs to a possibly infinite-dimensional Reproducing Kernel Hilbert Space, and (2) the reward function is nonlinear and can be approximated by neural networks. Our main results provide sample complexity guarantees that only depend on the effective dimension of the feature spaces in the kernel or neural representations. Extensive experiments conducted on both synthetic and real-world datasets demonstrate the efficacy of our methods.
翻訳日:2021-06-24 15:30:31 公開日:2021-06-22
# 確率的獲得関数を用いたバッチアクティブ学習のための簡易ベースライン

A Simple Baseline for Batch Active Learning with Stochastic Acquisition Functions ( http://arxiv.org/abs/2106.12059v1 )

ライセンス: Link先を確認
Andreas Kirsch, Sebastian Farquhar, Yarin Gal(参考訳) アクティブラーニングでは、新しいラベルは一般的にバッチで取得される。 しかし、共通取得関数は一度に1回のサンプル獲得ラウンドのみを対象としており、そのスコアをバッチ取得に生かして使用すると、多様性が欠如し、性能が低下する。 一方、最先端のバッチ取得関数は計算にコストがかかる。 本稿では,1サンプル獲得関数をバッチ設定に拡張した新たな確率的獲得関数のクラスを,追加サンプル取得時に1サンプル獲得スコアがどう変化するかを観察し,追加バッチサンプルに対してこの差をモデル化する。 取得スコアに基づいてgibbs分布を用いてプールセットからサンプリングして新たなサンプルを得る。 私たちの獲得関数は他のバッチ取得関数よりも計算コストが大幅に安くなります。

In active learning, new labels are commonly acquired in batches. However, common acquisition functions are only meant for one-sample acquisition rounds at a time, and when their scores are used naively for batch acquisition, they result in batches lacking diversity, which deteriorates performance. On the other hand, state-of-the-art batch acquisition functions are costly to compute. In this paper, we present a novel class of stochastic acquisition functions that extend one-sample acquisition functions to the batch setting by observing how one-sample acquisition scores change as additional samples are acquired and modelling this difference for additional batch samples. We simply acquire new samples by sampling from the pool set using a Gibbs distribution based on the acquisition scores. Our acquisition functions are both vastly cheaper to compute and out-perform other batch acquisition functions.
翻訳日:2021-06-24 15:30:17 公開日:2021-06-22
# データ多様体上のアイデンティティ保存変換の学習

Learning Identity-Preserving Transformations on Data Manifolds ( http://arxiv.org/abs/2106.12096v1 )

ライセンス: Link先を確認
Marissa Connor, Kion Fallah, Christopher Rozell(参考訳) 多くの機械学習技術は、そのモデルにID保存変換を組み込んで、そのパフォーマンスをそれまで見つからなかったデータに一般化する。 これらの変換は通常、適用された入力のアイデンティティ(例えば、回転、変換、フリップ、スケーリング)を維持するために知られている一連の関数から選択される。 しかし、データを調べることで、監視や定義のためにラベル付けできない多くの自然変化が存在する。 多様体仮説によって示唆されるように、これらの自然変分の多くは低次元の非線形多様体上または近くに存在する。 いくつかのテクニックは、多様体上の運動方向を定義する学習されたリー群作用素の集合を通して多様体の変分を表す。 しかし、これらのアプローチは、モデルをトレーニングする際に変換ラベルが必要であり、各特定の演算子を適用するのに多様体のどの領域が適切かを決定する方法が欠けているため、限られている。 本稿では,変換ラベルを必要としない学習戦略を導入し,入力のアイデンティティを保ちながら,各演算子を使用する可能性のある局所領域を学習する手法を提案する。 mnist と fashion mnist の実験では、マルチクラスデータセットでアイデンティティ保存変換を学習するモデルの能力が強調されている。 さらに、CelebAを使って、教師なしの方法で複雑なデータセット上で意味論的意味のある変換を学習するモデルの能力を示す。

Many machine learning techniques incorporate identity-preserving transformations into their models to generalize their performance to previously unseen data. These transformations are typically selected from a set of functions that are known to maintain the identity of an input when applied (e.g., rotation, translation, flipping, and scaling). However, there are many natural variations that cannot be labeled for supervision or defined through examination of the data. As suggested by the manifold hypothesis, many of these natural variations live on or near a low-dimensional, nonlinear manifold. Several techniques represent manifold variations through a set of learned Lie group operators that define directions of motion on the manifold. However theses approaches are limited because they require transformation labels when training their models and they lack a method for determining which regions of the manifold are appropriate for applying each specific operator. We address these limitations by introducing a learning strategy that does not require transformation labels and developing a method that learns the local regions where each operator is likely to be used while preserving the identity of inputs. Experiments on MNIST and Fashion MNIST highlight our model's ability to learn identity-preserving transformations on multi-class datasets. Additionally, we train on CelebA to showcase our model's ability to learn semantically meaningful transformations on complex datasets in an unsupervised manner.
翻訳日:2021-06-24 15:30:04 公開日:2021-06-22
# ユーロPVI:高密度都市部における歩行者車両のインタラクション

Euro-PVI: Pedestrian Vehicle Interactions in Dense Urban Centers ( http://arxiv.org/abs/2106.12442v1 )

ライセンス: Link先を確認
Apratim Bhattacharyya, Daniel Olmeda Reino, Mario Fritz, Bernt Schiele(参考訳) 歩行者および自転車道の正確な予測は、密集した都市環境における信頼性の高い自動運転車の開発に不可欠である。 車両と歩行者、自転車の相互作用は、交通参加者の軌道に大きな影響を与えている。 衝突を避けるために停止または交代する。 最近のデータセットと軌道予測アプローチは自動運転車の開発を後押ししているが、モデル化された車両-ペデストリアン(自転車)インタラクションの量は少ない。 本研究では,歩行者と自転車の軌跡のデータセットであるEuro-PVIを提案する。 特に、我々のデータセットは、既存のデータセットと比較して密集した都市シナリオにおけるより多様で複雑な相互作用に対応しています。 密接な相互作用を伴う将来の軌跡予測の課題に対処するため,都市環境におけるエージェント間の表現的マルチモーダル共有潜在空間を学習する共同推論モデルを構築した。 これにより、将来の軌跡の分布をより良くモデル化するためのJoint-$\beta$-cVAEアプローチが可能になる。 我々は,エゴ車と歩行者(自転車)の相互作用を正確に予測するために捉えることの重要性を示すnuScenesとEuro-PVIデータセット上での成果を達成した。

Accurate prediction of pedestrian and bicyclist paths is integral to the development of reliable autonomous vehicles in dense urban environments. The interactions between vehicle and pedestrian or bicyclist have a significant impact on the trajectories of traffic participants e.g. stopping or turning to avoid collisions. Although recent datasets and trajectory prediction approaches have fostered the development of autonomous vehicles yet the amount of vehicle-pedestrian (bicyclist) interactions modeled are sparse. In this work, we propose Euro-PVI, a dataset of pedestrian and bicyclist trajectories. In particular, our dataset caters more diverse and complex interactions in dense urban scenarios compared to the existing datasets. To address the challenges in predicting future trajectories with dense interactions, we develop a joint inference model that learns an expressive multi-modal shared latent space across agents in the urban scene. This enables our Joint-$\beta$-cVAE approach to better model the distribution of future trajectories. We achieve state of the art results on the nuScenes and Euro-PVI datasets demonstrating the importance of capturing interactions between ego-vehicle and pedestrians (bicyclists) for accurate predictions.
翻訳日:2021-06-24 15:26:20 公開日:2021-06-22
# OCRテキストのミススペル改善のためのシンプルで実践的なアプローチ

A Simple and Practical Approach to Improve Misspellings in OCR Text ( http://arxiv.org/abs/2106.12030v1 )

ライセンス: Link先を確認
Junxia Lin (1), Johannes Ledolter (2) ((1) Georgetown University Medical Center, Georgetown University, (2) Tippie College of Business, University of Iowa)(参考訳) 本論文の焦点は,OCRテキストにおける非単語誤りの同定と訂正である。 このような誤りは、文字の誤挿入、削除、置換、または一つの単語内で隣接する2つの文字の転置の結果である。 あるいは、単語境界の問題の結果で、実行中のエラーと誤分割エラーにつながる可能性がある。 従来のn-gram補正手法は、シングルワードエラーを効果的に処理できる。 しかし、これらは分割とマージエラーを扱う際の制限を示す。 本稿では,2つの誤りを扱える教師なし手法を開発する。 開発した手法は,補正率の大幅な向上につながる。 本チュートリアルでは,単語修正の難しさ,すなわち実行時エラーと分割エラーの問題に対処し,そのような問題に対処する上で考慮すべきことを説明する。 可能なアプローチを概説し、その成功を限定的な研究で評価する。

The focus of our paper is the identification and correction of non-word errors in OCR text. Such errors may be the result of incorrect insertion, deletion, or substitution of a character, or the transposition of two adjacent characters within a single word. Or, it can be the result of word boundary problems that lead to run-on errors and incorrect-split errors. The traditional N-gram correction methods can handle single-word errors effectively. However, they show limitations when dealing with split and merge errors. In this paper, we develop an unsupervised method that can handle both errors. The method we develop leads to a sizable improvement in the correction rates. This tutorial paper addresses very difficult word correction problems - namely incorrect run-on and split errors - and illustrates what needs to be considered when addressing such problems. We outline a possible approach and assess its success on a limited study.
翻訳日:2021-06-24 15:25:24 公開日:2021-06-22
# 発作の任意長映像のモデル化のための深部時空間ネットワークの伝達学習

Transfer Learning of Deep Spatiotemporal Networks to Model Arbitrarily Long Videos of Seizures ( http://arxiv.org/abs/2106.12014v1 )

ライセンス: Link先を確認
Fernando P\'erez-Garc\'ia, Catherine Scott, Rachel Sparks, Beate Diehl and S\'ebastien Ourselin(参考訳) 発作時に起こる症状と徴候である発作性セミロジクスの詳細な分析は、てんかん患者の管理に重要である。 質的視覚分析を用いた層間信頼性は, しばしば, セミロジカルな特徴に乏しい。 そのため、客観的な評価にはビデオ記録された発作の自動的・定量的解析が必要である。 本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせた新しいアーキテクチャであるGESTURESについて述べる。 大規模ヒューマンアクション認識(har)データセットに事前トレーニングされた時空間cnn(stcnn)を使用して,短いスニペットから特徴を抽出する。 0.5 s) であった。 次に、RNNをトレーニングして、特徴のシーケンスから発作レベルの表現を学習します。 68例の発作ビデオのデータセットをキュレートし,両耳間発作 (tcss) (n = 77) に対して発作をfoss (focal onset seizures) (n = 106) とfocal (focal) に分類し,双方向のlong short-term memory (blstm) ユニットを用いて98.9%の精度を得た。 我々は、HARデータセットでトレーニングされたSTCNNとRNNを組み合わせて、任意の長さの発作映像を正確に表現できることを実証した。 GESTURESは、セミオロジのシーケンスをモデル化することで正確な発作分類を提供することができる。

Detailed analysis of seizure semiology, the symptoms and signs which occur during a seizure, is critical for management of epilepsy patients. Inter-rater reliability using qualitative visual analysis is often poor for semiological features. Therefore, automatic and quantitative analysis of video-recorded seizures is needed for objective assessment. We present GESTURES, a novel architecture combining convolutional neural networks (CNNs) and recurrent neural networks (RNNs) to learn deep representations of arbitrarily long videos of epileptic seizures. We use a spatiotemporal CNN (STCNN) pre-trained on large human action recognition (HAR) datasets to extract features from short snippets (approx. 0.5 s) sampled from seizure videos. We then train an RNN to learn seizure-level representations from the sequence of features. We curated a dataset of seizure videos from 68 patients and evaluated GESTURES on its ability to classify seizures into focal onset seizures (FOSs) (N = 106) vs. focal to bilateral tonic-clonic seizures (TCSs) (N = 77), obtaining an accuracy of 98.9% using bidirectional long short-term memory (BLSTM) units. We demonstrate that an STCNN trained on a HAR dataset can be used in combination with an RNN to accurately represent arbitrarily long videos of seizures. GESTURES can provide accurate seizure classification by modeling sequences of semiologies.
翻訳日:2021-06-24 15:24:19 公開日:2021-06-22
# サブスペースクラスタリングにおける行列分解について

On Matrix Factorizations in Subspace Clustering ( http://arxiv.org/abs/2106.12016v1 )

ライセンス: Link先を確認
Reeshad Arian, Keaton Hamm(参考訳) 本稿では,cur分解を用いたサブスペースクラスタリングアルゴリズムについて検討し,これらのアルゴリズムにおける様々なハイパーパラメータが,実世界のベンチマークデータセットであるホプキンス155モーションセグメンテーションデータセットとイェール顔データセットのクラスタリング性能に与える影響について検討する。 これらのデータセットに対する様々なサンプリング手法とオーバーサンプリングパラメータに対して大規模な実験を行い、実用的な応用のためにパラメータ選択のためのガイドラインを提示する。

This article explores subspace clustering algorithms using CUR decompositions, and examines the effect of various hyperparameters in these algorithms on clustering performance on two real-world benchmark datasets, the Hopkins155 motion segmentation dataset and the Yale face dataset. Extensive experiments are done for a variety of sampling methods and oversampling parameters for these datasets, and some guidelines for parameter choices are given for practical applications.
翻訳日:2021-06-24 15:23:53 公開日:2021-06-22
# Team PyKale (xy9) Submission to the EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognition

Team PyKale (xy9) Submission to the EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognition ( http://arxiv.org/abs/2106.12023v1 )

ライセンス: Link先を確認
Xianyuan Liu, Raivo Koot, Shuo Zhou, Tao Lei, Haiping Lu(参考訳) 本報告では,EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognitionの技術的詳細について述べる。 EPIC-Kitchensデータセットは、よりモダリティの高いマルチタスクのため、他のビデオドメイン適応データセットよりも難しい。 まず,課題に参加するために,各モダリティから空間情報をキャプチャするトランスフォーマティブを用いる。 次に,時間的注意モジュールを用いて時間的相互依存度をモデル化する。 第3に,ラベル付きソースとラベルなしターゲットドメインの一般的な特徴を学ぶために,adversarial domain adaptation networkを用いる。 最後に,後期核融合による3ストリームネットワークの性能向上のために,複数のモードを組み込んだ。 我々のネットワークは、最先端のベースラインであるT$A^3$Nと同等の性能を達成し、動詞、名詞、アクションの3つのタスクでトップ1の精度でベースラインを上回ります。 チーム名xy9では,動詞クラスとすべてのトップ5の精度でトップ1の精度で5位にランクインした。

This report describes the technical details of our submission to the EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognition. The EPIC-Kitchens dataset is more difficult than other video domain adaptation datasets due to multi-tasks with more modalities. Firstly, to participate in the challenge, we employ a transformer to capture the spatial information from each modality. Secondly, we employ a temporal attention module to model temporal-wise inter-dependency. Thirdly, we employ the adversarial domain adaptation network to learn the general features between labeled source and unlabeled target domain. Finally, we incorporate multiple modalities to improve the performance by a three-stream network with late fusion. Our network achieves the comparable performance with the state-of-the-art baseline T$A^3$N and outperforms the baseline on top-1 accuracy for verb class and top-5 accuracies for all three tasks which are verb, noun and action. Under the team name xy9, our submission achieved 5th place in terms of top-1 accuracy for verb class and all top-5 accuracies.
翻訳日:2021-06-24 15:23:44 公開日:2021-06-22
# 神経陰影表面のボリュームレンダリング

Volume Rendering of Neural Implicit Surfaces ( http://arxiv.org/abs/2106.12052v1 )

ライセンス: Link先を確認
Lior Yariv, Jiatao Gu, Yoni Kasten, Yaron Lipman(参考訳) ニューラルボリュームレンダリングは、入力画像のスパースセットからシーンの新たなビューを合成する成功により、最近ますます人気が高まっている。 これまでのところ、ニューラルネットワークのボリュームレンダリング技術によって学習された幾何学は、汎用密度関数を用いてモデル化されていた。 さらに、幾何そのものは密度関数の任意のレベルセットを用いて抽出され、ノイズやしばしば低忠実度再構成につながった。 本論文の目的は,神経ボリュームレンダリングにおける幾何学表現と再構成を改善することである。 体積密度を幾何学の関数としてモデル化することで実現する。 これは、体積密度の関数として幾何学をモデル化した以前の仕事とは対照的である。 より詳しくは、体積密度関数を符号付き距離関数(SDF)表現に適用したラプラス累積分布関数(CDF)と定義する。 この単純な密度表現には3つの利点がある: (i) 神経容積レンダリングプロセスで学習された幾何学に有用な帰納的バイアスを与える; (ii) 不透明近似誤差のバウンドを容易にし、正確な観察線をサンプリングする。 正確なサンプリングは、幾何と放射率の正確な結合を提供するために重要であり、かつ、(iii)ボリュームレンダリングにおける形状と外観の効率的な教師なしのアンアンタングルを可能にする。 この新たな密度表現をチャレンジシーンのマルチビューデータセットに適用すると、高品質なジオメトリ再構成が生成され、関連するベースラインを上回った。 また、両者の絡み合いにより、シーン間の形状や外観の切り替えも可能である。

Neural volume rendering became increasingly popular recently due to its success in synthesizing novel views of a scene from a sparse set of input images. So far, the geometry learned by neural volume rendering techniques was modeled using a generic density function. Furthermore, the geometry itself was extracted using an arbitrary level set of the density function leading to a noisy, often low fidelity reconstruction. The goal of this paper is to improve geometry representation and reconstruction in neural volume rendering. We achieve that by modeling the volume density as a function of the geometry. This is in contrast to previous work modeling the geometry as a function of the volume density. In more detail, we define the volume density function as Laplace's cumulative distribution function (CDF) applied to a signed distance function (SDF) representation. This simple density representation has three benefits: (i) it provides a useful inductive bias to the geometry learned in the neural volume rendering process; (ii) it facilitates a bound on the opacity approximation error, leading to an accurate sampling of the viewing ray. Accurate sampling is important to provide a precise coupling of geometry and radiance; and (iii) it allows efficient unsupervised disentanglement of shape and appearance in volume rendering. Applying this new density representation to challenging scene multiview datasets produced high quality geometry reconstructions, outperforming relevant baselines. Furthermore, switching shape and appearance between scenes is possible due to the disentanglement of the two.
翻訳日:2021-06-24 15:23:26 公開日:2021-06-22
# 畳み込みニューラルネットワークの到達可能性解析

Reachability Analysis of Convolutional Neural Networks ( http://arxiv.org/abs/2106.12074v1 )

ライセンス: Link先を確認
Xiaodong Yang, Tomoya Yamaguchi, Hoang-Dung Tran, Bardh Hoxha, Taylor T Johnson, Danil Prokhorov(参考訳) 深層畳み込みニューラルネットワークは、複雑で実用的な問題を扱う効果的な手法として広く利用されている。 しかし、基本的な問題の一つは、彼らの行動を分析するための形式的な方法がないことである。 この課題に対処するために,入力領域が与えられたネットワークの到達可能集合を計算し,到達可能集合を面格子構造で表現する手法を提案する。 到達可能集合の計算に加えて、出力到達可能集合が与えられた入力領域へのバックトラッキングも可能である。 これにより、ネットワークの動作の完全な分析を実現することができる。 さらに、各層に選択された感度ニューロンを考慮し、到達可能な集合の高速な計算を行う高速解析手法も導入された。 CIFAR10データセットのCNNにおいて、正確な画素レベルの到達可能性解析法を評価し、関連する研究と比較する。 CNN CIFAR10データセットとImageNetデータセットのVGG16アーキテクチャを用いて高速解析手法を評価する。

Deep convolutional neural networks have been widely employed as an effective technique to handle complex and practical problems. However, one of the fundamental problems is the lack of formal methods to analyze their behavior. To address this challenge, we propose an approach to compute the exact reachable sets of a network given an input domain, where the reachable set is represented by the face lattice structure. Besides the computation of reachable sets, our approach is also capable of backtracking to the input domain given an output reachable set. Therefore, a full analysis of a network's behavior can be realized. In addition, an approach for fast analysis is also introduced, which conducts fast computation of reachable sets by considering selected sensitive neurons in each layer. The exact pixel-level reachability analysis method is evaluated on a CNN for the CIFAR10 dataset and compared to related works. The fast analysis method is evaluated over a CNN CIFAR10 dataset and VGG16 architecture for the ImageNet dataset.
翻訳日:2021-06-24 15:23:03 公開日:2021-06-22
# MLにおける情報理論量のための実践的統一表記法

A Practical & Unified Notation for Information-Theoreti c Quantities in ML ( http://arxiv.org/abs/2106.12062v1 )

ライセンス: Link先を確認
Andreas Kirsch, Yarin Gal(参考訳) 情報理論は機械学習にとって重要であるが、情報理論量に関する表記はしばしば不透明である。 正しい表記は価値ある直観を伝達し、簡潔に新しいアイデアを表現できる。 本稿では、機械学習ユーザのための表記法を提案し、イベント(アウトカム)とランダム変数の間の情報理論量を含むように拡張する。 この表記法をベイズ能動学習における情報理論獲得関数に適用し、専門家がラベル付けする最も情報に富んだサンプルを選択する。 ラベルの最も情報性の高いサンプルであるemph{given}を選択することで、取得関数をコアセット問題に拡張する際の表記法の価値を示す。

Information theory is of importance to machine learning, but the notation for information-theoreti c quantities is sometimes opaque. The right notation can convey valuable intuitions and concisely express new ideas. We propose such a notation for machine learning users and expand it to include information-theoreti c quantities between events (outcomes) and random variables. We apply this notation to a popular information-theoreti c acquisition function in Bayesian active learning which selects the most informative (unlabelled) samples to be labelled by an expert. We demonstrate the value of our notation when extending the acquisition function to the core-set problem, which consists of selecting the most informative samples \emph{given} the labels.
翻訳日:2021-06-24 15:18:53 公開日:2021-06-22
# ジョブロール型深層ニューラルネットワークを用いたシフト作業者の健康・健康予測

Forecasting Health and Wellbeing for Shift Workers Using Job-role Based Deep Neural Network ( http://arxiv.org/abs/2106.12081v1 )

ライセンス: Link先を確認
Han Yu, Asami Itoh, Ryota Sakamoto, Motomu Shimaoka, Akane Sano(参考訳) 社会に不可欠な貢献者であるシフトワーカーは、健康と幸福のリスクが高い。 これらの問題に対処するため、シフト看護婦や医師からの生理的・行動的ウェアラブルセンサーデータと、その行動アンケートデータと、アラート、幸福、エナジー、健康、ストレスなどの日常生活および健康に関するラベルを収集、分析した。 看護師と医師の反応の類似点と相違点を見出した。 看護婦と医師の自己申告健康と健康ラベルの差異と,そのラベル間の相関から,看護婦と医師の生理的・行動的データをモデル化し,翌日の多次元自己申告健康と健康状態を予測するジョブロール型多タスク・多ラベル深層学習モデルを提案した。 提案モデルは,バイナリ/3クラス分類と回帰予測タスクの評価において,ベースラインモデルや最先端モデルよりも有意に優れた性能を示した。 また、心拍数、睡眠、仕事のシフトに関連する特徴が、労働者の健康と健康の変化に寄与することを発見した。

Shift workers who are essential contributors to our society, face high risks of poor health and wellbeing. To help with their problems, we collected and analyzed physiological and behavioral wearable sensor data from shift working nurses and doctors, as well as their behavioral questionnaire data and their self-reported daily health and wellbeing labels, including alertness, happiness, energy, health, and stress. We found the similarities and differences between the responses of nurses and doctors. According to the differences in self-reported health and wellbeing labels between nurses and doctors, and the correlations among their labels, we proposed a job-role based multitask and multilabel deep learning model, where we modeled physiological and behavioral data for nurses and doctors simultaneously to predict participants' next day's multidimensional self-reported health and wellbeing status. Our model showed significantly better performances than baseline models and previous state-of-the-art models in the evaluations of binary/3-class classification and regression prediction tasks. We also found features related to heart rate, sleep, and work shift contributed to shift workers' health and wellbeing.
翻訳日:2021-06-24 15:18:41 公開日:2021-06-22
# 費用対多目的最適化のためのフェデレーションデータ駆動進化アルゴリズム

A Federated Data-Driven Evolutionary Algorithm for Expensive Multi/Many-objective Optimization ( http://arxiv.org/abs/2106.12086v1 )

ライセンス: Link先を確認
Jinjin Xu, Yaochu Jin, Wenli Du(参考訳) データ駆動最適化は現実世界で多くの成功を収め、進化的最適化の分野で注目を集めている。 既存のアルゴリズムの多くは、最適化に使用されるデータは、常にサーロゲート構築のための中央サーバで利用可能であると仮定している。 しかし、この仮定は、データが分散的に収集され、プライバシーの制限を受ける必要がある場合に、保持されない可能性がある。 本稿では,データ駆動型進化的多目的最適化アルゴリズムを提案する。 そこで我々は,複数のクライアントが協調してラジアル基底関数ネットワークをグローバルサロゲートとして訓練できるように,連合学習を活用してサロゲート構築を行う。 次に, グローバルサロゲートを用いて目的値を近似し, 局所モデルに基づく目標値の不確かさレベルを推定するために, 中央サーバに新たなフェデレーション獲得関数を提案する。 提案アルゴリズムの性能は,2つの最先端サーロゲート支援多目的進化アルゴリズムと比較することにより,多目的・多目的ベンチマーク問題で検証された。

Data-driven optimization has found many successful applications in the real world and received increased attention in the field of evolutionary optimization. Most existing algorithms assume that the data used for optimization is always available on a central server for construction of surrogates. This assumption, however, may fail to hold when the data must be collected in a distributed way and is subject to privacy restrictions. This paper aims to propose a federated data-driven evolutionary multi-/many-objectiv e optimization algorithm. To this end, we leverage federated learning for surrogate construction so that multiple clients collaboratively train a radial-basis-functio n-network as the global surrogate. Then a new federated acquisition function is proposed for the central server to approximate the objective values using the global surrogate and estimate the uncertainty level of the approximated objective values based on the local models. The performance of the proposed algorithm is verified on a series of multi/many-objective benchmark problems by comparing it with two state-of-the-art surrogate-assisted multi-objective evolutionary algorithms.
翻訳日:2021-06-24 15:16:24 公開日:2021-06-22
# BFTrainer: 満たせないスーパーコンピュータノード上のニューラルネットワークの低コストトレーニング

BFTrainer: Low-Cost Training of Neural Networks on Unfillable Supercomputer Nodes ( http://arxiv.org/abs/2106.12091v1 )

ライセンス: Link先を確認
Zhengchun Liu, Rajkumar Kettimuthu, Michael E. Papka, Ian Foster(参考訳) スーパーコンピュータfcfsベースのスケジューリングポリシーは、多くの過渡的アイドルノードを生み出し、大きなジョブの前に小さなジョブを実行するように促すバックフィルスケジューリング手法によって部分的に緩和される。 本稿では,これら不要なリソース,すなわちディープニューラルネットワーク(dnn)トレーニングの新規利用を実現する方法について述べる。 この重要なワークロードは、スーパーコンピュータのスケジュールのノード*時間ホールに本質的に適合するように動的に設定できる、多数の小さなフラグメントとして簡単に構成できる。 本稿では,動的に変化するホールに適合する適切なdnnトレーニングタスクの再スケーリングタスクを決定論的混合整数線形計画法(milp)に基づく資源割当アルゴリズムとして定式化し,このmilp問題を実行時に効率的に解くことができることを示す。 このMILP問題を,管理者やユーザ定義メトリクスの最適化にどのように適用できるかを示す。 提案手法をスーパーコンピュータスケジューラログと異なるDNNトレーニングシナリオを用いて検証し,専用ノード上で同じトレーニングタスクを実行する場合と比較して最大93%の効率性を示す。 そこで本手法では,他のアプリケーションに影響を与えずに,DNNトレーニングに相当量のスーパーコンピュータリソースを割り当てることができる。

Supercomputer FCFS-based scheduling policies result in many transient idle nodes, a phenomenon that is only partially alleviated by backfill scheduling methods that promote small jobs to run before large jobs. Here we describe how to realize a novel use for these otherwise wasted resources, namely, deep neural network (DNN) training. This important workload is easily organized as many small fragments that can be configured dynamically to fit essentially any node*time hole in a supercomputer's schedule. We describe how the task of rescaling suitable DNN training tasks to fit dynamically changing holes can be formulated as a deterministic mixed integer linear programming (MILP)-based resource allocation algorithm, and show that this MILP problem can be solved efficiently at run time. We show further how this MILP problem can be adapted to optimize for administrator- or user-defined metrics. We validate our method with supercomputer scheduler logs and different DNN training scenarios, and demonstrate efficiencies of up to 93% compared with running the same training tasks on dedicated nodes. Our method thus enables substantial supercomputer resources to be allocated to DNN training with no impact on other applications.
翻訳日:2021-06-24 15:12:12 公開日:2021-06-22
# 変動拘束型ディープニューラルネットワークの収束率

The Rate of Convergence of Variation-Constraine d Deep Neural Networks ( http://arxiv.org/abs/2106.12068v1 )

ライセンス: Link先を確認
Gen Li, Yuantao Gu, Jie Ding(参考訳) 多層フィードフォワードネットワークは、幅広い非線形関数を近似するために使われてきた。 重要かつ根本的な問題は、その統計リスクや将来のデータに対する予測誤差を通じてネットワークモデルの学習可能性を理解することである。 私たちの知る限りでは、既存の研究で示されているニューラルネットワークの収束率は、サンプルサイズが$n$で、最大で$n^{-1/4}$である。 本稿では、任意の幅の可変制約付きニューラルネットワークのクラスが、任意に小さい正の定数$\delta$に対してほぼパラメトリックレート$n^{-1/2+\delta}$を実現できることを示す。 平均二乗誤差の下では$n^{-1 + 2\delta}$と等価である。 この速度は数値実験でも観測される。 その結果、滑らかな関数を近似するのに必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性がある。 我々の結果はまた、深層ニューラルネットワークが、ニューロンの数や学習パラメータの急激な増加が、n$を超えるか、あるいはn$を超えると、過度な適合に苦しむことがないという現象の洞察を与える。 また、入力次元、ネットワーク層、係数ノルムなど、他のネットワークパラメータに関する収束率についても検討する。

Multi-layer feedforward networks have been used to approximate a wide range of nonlinear functions. An important and fundamental problem is to understand the learnability of a network model through its statistical risk, or the expected prediction error on future data. To the best of our knowledge, the rate of convergence of neural networks shown by existing works is bounded by at most the order of $n^{-1/4}$ for a sample size of $n$. In this paper, we show that a class of variation-constraine d neural networks, with arbitrary width, can achieve near-parametric rate $n^{-1/2+\delta}$ for an arbitrarily small positive constant $\delta$. It is equivalent to $n^{-1 +2\delta}$ under the mean squared error. This rate is also observed by numerical experiments. The result indicates that the neural function space needed for approximating smooth functions may not be as large as what is often perceived. Our result also provides insight to the phenomena that deep neural networks do not easily suffer from overfitting when the number of neurons and learning parameters rapidly grow with $n$ or even surpass $n$. We also discuss the rate of convergence regarding other network parameters, including the input dimension, network layer, and coefficient norm.
翻訳日:2021-06-24 15:09:34 公開日:2021-06-22
# 回帰最適推定と制御

Regret-optimal Estimation and Control ( http://arxiv.org/abs/2106.12097v1 )

ライセンス: Link先を確認
Gautam Goel, Babak Hassibi(参考訳) 後悔最小化の観点から線形時間変動力学系の推定と制御を考察する。 この領域における多くの先行研究とは異なり、固定パラメトリッククラスから後から選択された最良のポリシーの代わりに、透視的非因果的ポリシーと競合する因果推定器やコントローラを設計する問題に焦点を当てる。 そこで本研究では,ロバスト制御からの演算子理論的手法を用いて,後悔・最適推定器と後悔・最適制御器を状態空間形式で導出し,不規則のエネルギーの観点からアルゴリズムが生み出す後悔の厳密なデータ依存境界を提示できることを示す。 従来のロバストな推定と制御は,最悪の場合のコストを最小化し,最悪の場合の後悔を最小限に抑えることに重点を置いている。 本稿では,非線形力学系に対するモデル予測制御(mpc)と拡張カルマンフィルタ(ekf)の後悔-最適類似性を提案し,後悔-最適アルゴリズムが推定と制御の標準的なアプローチを大幅に上回ることを示す数値実験を行う。

We consider estimation and control in linear time-varying dynamical systems from the perspective of regret minimization. Unlike most prior work in this area, we focus on the problem of designing causal estimators and controllers which compete against a clairvoyant noncausal policy, instead of the best policy selected in hindsight from some fixed parametric class. We show that the regret-optimal estimator and regret-optimal controller can be derived in state-space form using operator-theoretic techniques from robust control and present tight,data-dependent bounds on the regret incurred by our algorithms in terms of the energy of the disturbances. Our results can be viewed as extending traditional robust estimation and control, which focuses on minimizing worst-case cost, to minimizing worst-case regret. We propose regret-optimal analogs of Model-Predictive Control (MPC) and the Extended KalmanFilter (EKF) for systems with nonlinear dynamics and present numerical experiments which show that our regret-optimal algorithms can significantly outperform standard approaches to estimation and control.
翻訳日:2021-06-24 15:09:17 公開日:2021-06-22
# (参考訳) 超解法改善のための一対一アプローチ [全文訳有]

One-to-many Approach for Improving Super-Resolution ( http://arxiv.org/abs/2106.10437v2 )

ライセンス: CC BY 4.0
Sieun Park, Eunho Lee(参考訳) 超解法 (SR) は、複数の可能な解を持つ1対多の課題である。 ただし、この特徴については以前の作品には触れられていない。 1対多のパイプラインでは、ジェネレータは再構成の複数の見積を生成でき、類似したリアルな画像を生成するために罰せられるべきではない。 そこで本研究では,残差密度ブロック (rrdb) 毎に重み付き画素単位のノイズを付加し,様々な画像を生成することを提案する。 コンテントの一貫性が保たれる限り,再構成画像の確率的変動を損なわないよう,コンテンツロスを補正する。 さらに,DIV2K,DIV8Kデータセットには,不適切なガイドラインを提供するアウト・オブ・フォーカス領域が存在することも確認した。 訓練データ中のぼやけた領域を[10]の方法でフィルタリングする。 最後に,識別器を改良して参照画像として低解像度画像と対象画像とを受信し,ジェネレータにフィードバックを与える。 提案手法を用いて,x4知覚SRにおけるESRGANの性能を改善し,x16知覚極端SRにおける最先端LPIPSスコアを達成できた。

Super-resolution (SR) is a one-to-many task with multiple possible solutions. However, previous works were not concerned about this characteristic. For a one-to-many pipeline, the generator should be able to generate multiple estimates of the reconstruction, and not be penalized for generating similar and equally realistic images. To achieve this, we propose adding weighted pixel-wise noise after every Residual-in-Residual Dense Block (RRDB) to enable the generator to generate various images. We modify the strict content loss to not penalize the stochastic variation in reconstructed images as long as it has consistent content. Additionally, we observe that there are out-of-focus regions in the DIV2K, DIV8K datasets that provide unhelpful guidelines. We filter blurry regions in the training data using the method of [10]. Finally, we modify the discriminator to receive the low-resolution image as a reference image along with the target image to provide better feedback to the generator. Using our proposed methods, we were able to improve the performance of ESRGAN in x4 perceptual SR and achieve the state-of-the-art LPIPS score in x16 perceptual extreme SR.
翻訳日:2021-06-24 11:02:47 公開日:2021-06-22
# (参考訳) Place Recognition Survey: ディープラーニングのアプローチに関する最新情報 [全文訳有]

Place recognition survey: An update on deep learning approaches ( http://arxiv.org/abs/2106.10458v2 )

ライセンス: CC BY 4.0
Tiago Barros, Ricardo Pereira, Lu\'is Garrote, Cristiano Premebida, Urbano J. Nunes(参考訳) 自律走行車(AV)は、動的かつ変化する条件で複雑な環境を航行する能力が高まっている。 これらのインテリジェントな車両がそのような状況を克服し、より自律的になるための重要な要素は、認識とローカライゼーションシステムの高度化である。 ローカライゼーションシステムの一部として、場所認識は、場所分類やオブジェクト認識といった他の認識タスク、すなわちディープラーニング(DL)フレームワークの出現によって、近年の進歩の恩恵を受けている。 本稿では,特に深層学習に基づく位置認識における最近の手法と手法について検討する。 この研究の貢献は、位置認識に適用された3D LiDARやRADARなどの最近のセンサーを調査し、様々なDLベースの場所認識作業を、教師なし、教師なし、半教師なし、並列、階層的なカテゴリに分類することである。 まず,読者のコンテキスト化に重要な位置認識概念を導入する。 そして、センサ特性に対処する。 この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。 この調査から得られた教訓には、教師なしエンドツーエンド学習におけるNetVLADの重要性、位置認識における教師なしアプローチの利点、すなわちクロスドメインアプリケーションにおける、あるいはパフォーマンス向上だけでなく、効率向上のために、最近の研究の傾向の増加などが含まれる。

Autonomous Vehicles (AV) are becoming more capable of navigating in complex environments with dynamic and changing conditions. A key component that enables these intelligent vehicles to overcome such conditions and become more autonomous is the sophistication of the perception and localization systems. As part of the localization system, place recognition has benefited from recent developments in other perception tasks such as place categorization or object recognition, namely with the emergence of deep learning (DL) frameworks. This paper surveys recent approaches and methods used in place recognition, particularly those based on deep learning. The contributions of this work are twofold: surveying recent sensors such as 3D LiDARs and RADARs, applied in place recognition; and categorizing the various DL-based place recognition works into supervised, unsupervised, semi-supervised, parallel, and hierarchical categories. First, this survey introduces key place recognition concepts to contextualize the reader. Then, sensor characteristics are addressed. This survey proceeds by elaborating on the various DL-based works, presenting summaries for each framework. Some lessons learned from this survey include: the importance of NetVLAD for supervised end-to-end learning; the advantages of unsupervised approaches in place recognition, namely for cross-domain applications; or the increasing tendency of recent works to seek, not only for higher performance but also for higher efficiency.
翻訳日:2021-06-24 10:41:50 公開日:2021-06-22
# (参考訳) グラフデータベースと知識グラフの時代におけるクエリ [全文訳有]

Querying in the Age of Graph Databases and Knowledge Graphs ( http://arxiv.org/abs/2106.11456v1 )

ライセンス: CC BY 4.0
Marcelo Arenas and Claudio Gutierrez and Juan F. Sequeda(参考訳) グラフは知識を表現する最良の方法になっています。 コンピューティングコミュニティは、デジタル技術によるグラフ管理のサポートを調査し、開発してきた。 グラフデータベースと知識グラフは、このプログラムの最も成功したソリューションである。 このチュートリアルでは、これらの開発の基盤となるデータ管理タスクの概念マップを提供し、グラフのデータモデルやクエリ言語に特に注目する。

Graphs have become the best way we know of representing knowledge. The computing community has investigated and developed the support for managing graphs by means of digital technology. Graph databases and knowledge graphs surface as the most successful solutions to this program. This tutorial will provide a conceptual map of the data management tasks underlying these developments, paying particular attention to data models and query languages for graphs.
翻訳日:2021-06-24 04:56:13 公開日:2021-06-22
# (参考訳) マルチモーダル感情分析のための逐次遅延融合手法 [全文訳有]

Sequential Late Fusion Technique for Multi-modal Sentiment Analysis ( http://arxiv.org/abs/2106.11473v1 )

ライセンス: CC BY 4.0
Debapriya Banerjee, Fotios Lygerakis, Fillia Makedon(参考訳) マルチモーダル感情分析は,よりインタラクティブな体験をユーザに提供する上で重要な役割を果たす。 マルチモーダルデータのそれぞれのモダリティは、異なる視点を提供するか、ユーザの感情状態のユニークな側面を明らかにすることができる。 本研究では,MOSIデータセットからテキスト,音声,視覚的モダリティを抽出し,マルチヘッドアテンションLSTMネットワークを用いた新しい融合手法を提案する。 最後に,分類タスクを行い,その性能評価を行う。

Multi-modal sentiment analysis plays an important role for providing better interactive experiences to users. Each modality in multi-modal data can provide different viewpoints or reveal unique aspects of a user's emotional state. In this work, we use text, audio and visual modalities from MOSI dataset and we propose a novel fusion technique using a multi-head attention LSTM network. Finally, we perform a classification task and evaluate its performance.
翻訳日:2021-06-24 04:36:40 公開日:2021-06-22
# (参考訳) 事前学習型言語モデルの総合的探索 [全文訳有]

A Comprehensive Exploration of Pre-training Language Models ( http://arxiv.org/abs/2106.11483v1 )

ライセンス: CC BY 4.0
Tong Guo(参考訳) 近年、訓練済み言語モデルの開発により、自然言語処理(NLP)タスクが新しい最先端技術に導入されている。 本稿では,様々な事前学習言語モデルの効率性について検討する。 我々は、同じテキスト量と同じトレーニングステップを持つトランスフォーマーベースのモデルのリストを事前訓練する。 実験結果から、BERTの原点における最大の改善は、変換器エンコーダ層のコンテキスト情報を取得するためにRNN層を追加することである。

Recently, the development of pre-trained language models has brought natural language processing (NLP) tasks to the new state-of-the-art. In this paper we explore the efficiency of various pre-trained language models. We pre-train a list of transformer-based models with the same amount of text and the same training steps. The experimental results shows that the most improvement upon the origin BERT is adding the RNN-layer to capture more contextual information for the transformer-encoder layers.
翻訳日:2021-06-24 04:33:12 公開日:2021-06-22
# (参考訳) 条件付き画素合成による衛星画像の時空間超解像 [全文訳有]

Spatial-Temporal Super-Resolution of Satellite Imagery via Conditional Pixel Synthesis ( http://arxiv.org/abs/2106.11485v1 )

ライセンス: CC BY 4.0
Yutong He, Dingjie Wang, Nicholas Lai, William Zhang, Chenlin Meng, Marshall Burke, David B. Lobell, Stefano Ermon(参考訳) 高解像度衛星画像は、世界人口の測定、地域経済の生活、生物多様性など、幅広いタスクに有用であることが証明されている。 残念なことに、高解像度画像は必ずしも収集されず、購入するコストも高いため、下流のタスクを時間と空間の両方で効率的かつ効果的にスケールすることは困難である。 そこで本研究では,高解像度の高解像度画像を生成するために,高解像度の高解像度画像を用いた条件付き画素合成モデルを提案する。 我々は,地表面の条件が急速に変化している地域において,本モデルが写真リアルなサンプルの品質を達成し,重要な下流タスク(オブジェクトカウント)において競合するベースラインを上回ることを示す。

High-resolution satellite imagery has proven useful for a broad range of tasks, including measurement of global human population, local economic livelihoods, and biodiversity, among many others. Unfortunately, high-resolution imagery is both infrequently collected and expensive to purchase, making it hard to efficiently and effectively scale these downstream tasks over both time and space. We propose a new conditional pixel synthesis model that uses abundant, low-cost, low-resolution imagery to generate accurate high-resolution imagery at locations and times in which it is unavailable. We show that our model attains photo-realistic sample quality and outperforms competing baselines on a key downstream task -- object counting -- particularly in geographic locations where conditions on the ground are changing rapidly.
翻訳日:2021-06-24 04:30:13 公開日:2021-06-22
# (参考訳) 集団的議論:双極性議論フレームワークの支持関係を集約する事例 [全文訳有]

Collective Argumentation: The Case of Aggregating Support-Relations of Bipolar Argumentation Frameworks ( http://arxiv.org/abs/2106.11496v1 )

ライセンス: CC BY 4.0
Weiwei Chen (Institute of Logic and Cognition and Department of Philosophy, Sun Yat-sen University)(参考訳) 議論の交換を含む多くの実生活の状況において、個人は、議論間の支持が実際に正当化されていること、すなわち、異なる支持関係を提示する彼らの評価が異なるかもしれない。 このような状況に直面した場合には、支援関係に関する個人の議論的見解を集団的見解に集約したいと考える。 本稿では,バイポーラ議論の枠組みの下では,個人は議論の集合と議論間の攻撃の集合を備えるが,おそらく異なる支援関係を持つと仮定する。 社会的選択理論における方法論を用いて,両極性議論フレームワークの意味的性質を,支援関係の集約中に集約規則によって保持できるか分析する。

In many real-life situations that involve exchanges of arguments, individuals may differ on their assessment of which supports between the arguments are in fact justified, i.e., they put forward different support-relations. When confronted with such situations, we may wish to aggregate individuals' argumentation views on support-relations into a collective view, which is acceptable to the group. In this paper, we assume that under bipolar argumentation frameworks, individuals are equipped with a set of arguments and a set of attacks between arguments, but with possibly different support-relations. Using the methodology in social choice theory, we analyze what semantic properties of bipolar argumentation frameworks can be preserved by aggregation rules during the aggregation of support-relations.
翻訳日:2021-06-24 04:05:03 公開日:2021-06-22
# (参考訳) De Re のアップデート [全文訳有]

De Re Updates ( http://arxiv.org/abs/2106.11497v1 )

ライセンス: CC BY 4.0
Michael Cohen (Stanford University), Wen Tang (Peking University), Yanjing Wang (Peking University)(参考訳) 本稿では,de dictoとde re knowledgeの区別だけでなく,de dictoとde re updatesの区別を捉えた,軽量かつ強力な動的認識論理を提案する。 論理は、Wang と Seligman (Proc) の作業に続いて動的論理から借用された代入演算子によって拡張された認識言語のダイナマイズされたバージョンに基づいている。 2018年)。 我々は,ダイナミックスと代入の相互作用を扱う新しい還元公理に基づいて,公開発表論理とイベントモデルに基づくdelの対応者に対する完全な公理化を求める。

In this paper, we propose a lightweight yet powerful dynamic epistemic logic that captures not only the distinction between de dicto and de re knowledge but also the distinction between de dicto and de re updates. The logic is based on the dynamified version of an epistemic language extended with the assignment operator borrowed from dynamic logic, following the work of Wang and Seligman (Proc. AiML 2018). We obtain complete axiomatizations for the counterparts of public announcement logic and event-model-based DEL based on new reduction axioms taking care of the interactions between dynamics and assignments.
翻訳日:2021-06-24 03:46:01 公開日:2021-06-22
# (参考訳) 対話型信念モデルにおけるプレイヤーはモデルそのもののメタ・サテライトか? [全文訳有]

Are the Players in an Interactive Belief Model Meta-certain of the Model Itself? ( http://arxiv.org/abs/2106.11500v1 )

ライセンス: CC BY 4.0
Satoshi Fukuda (Department of Decision Sciences and IGIER, Bocconi University)(参考訳) インタラクティブな信念モデルでは、プレイヤーはモデル自体の「一般的にメタ確実」なのだろうか? 本稿では,このような暗黙の「共通メタ認定」仮定を定式化する。 この目的のために、この論文はプレイヤーの信念の目的をイベントから基礎となる状態に定義された関数へと拡張する。 次に、プレイヤーの信念生成マップを定義し、プレイヤーがその状態において各イベントを信じるかどうかを各状態と関連付ける。 この論文は、その意味を定式化している:「プレイヤーは自身の信念生成マップを(メタ)確認している」または「プレイヤーは(メタ)信念生成マップのプロファイル(すなわちモデル)を認定している」。 論文は、プレイヤーが自身の信念生成マップを(メタ-)確認していることと、その信念が内省的であることを示している。 プレイヤーは、通常、ある状態において、あるプレイヤーが信じる任意のイベントに対して、プレイヤーがそのイベントを信じる状態において共通の信念である場合(メタ-)である。 そこで本稿では,ゲーム理論的な解概念の認識論的特徴付けに「共通メタ認定」の仮定が必要かどうかを問う。 それぞれのプレイヤーが論理的かつ(メタ)に自身の戦略と信念生成マップを確認したならば、各プレイヤーは自身の合理性を正しく信じます。 その結果、合理性のみに対する共通の信念は、厳格に支配された行動の反復的排除を生き残る行動につながる。

In an interactive belief model, are the players "commonly meta-certain" of the model itself? This paper formalizes such implicit "common meta-certainty" assumption. To that end, the paper expands the objects of players' beliefs from events to functions defined on the underlying states. Then, the paper defines a player's belief-generating map: it associates, with each state, whether a player believes each event at that state. The paper formalizes what it means by: "a player is (meta-)certain of her own belief-generating map" or "the players are (meta-)certain of the profile of belief-generating maps (i.e., the model)." The paper shows: a player is (meta-)certain of her own belief-generating map if and only if her beliefs are introspective. The players are commonly (meta-)certain of the model if and only if, for any event which some player i believes at some state, it is common belief at the state that player i believes the event. This paper then asks whether the "common meta-certainty" assumption is needed for an epistemic characterization of game-theoretic solution concepts. The paper shows: if each player is logical and (meta-)certain of her own strategy and belief-generating map, then each player correctly believes her own rationality. Consequently, common belief in rationality alone leads to actions that survive iterated elimination of strictly dominated actions.
翻訳日:2021-06-24 03:05:58 公開日:2021-06-22
# (参考訳) 確率からの知識 [全文訳有]

Knowledge from Probability ( http://arxiv.org/abs/2106.11501v1 )

ライセンス: CC BY 4.0
Jeremy Goodman, Bernhard Salow(参考訳) 我々は、帰納的知識と信念の確率論的分析を行い、その未来に関する知識、自然の法則、そして不正確な測定値の値に関する予測を探索する。 この分析は、比較正規性とそれらの関係の確率的還元の関係で定式化された知識と信念の理論を組み合わせる。 それは、非常に可能性の高い命題だけが信じられていると予測し、多くの広く保持されている信条改正の原則は失敗する。

We give a probabilistic analysis of inductive knowledge and belief and explore its predictions concerning knowledge about the future, about laws of nature, and about the values of inexactly measured quantities. The analysis combines a theory of knowledge and belief formulated in terms of relations of comparative normality with a probabilistic reduction of those relations. It predicts that only highly probable propositions are believed, and that many widely held principles of belief-revision fail.
翻訳日:2021-06-24 02:39:43 公開日:2021-06-22
# (参考訳) ゲーム理論モデルによるモラルおよび他のエージェント(拡張抽象) [全文訳有]

Game-Theoretic Models of Moral and Other-Regarding Agents (extended abstract) ( http://arxiv.org/abs/2106.11503v1 )

ライセンス: CC BY 4.0
Gabriel Istrate (West University of Timisoara, Romania)(参考訳) 我々は、最近経済学の文献で提案された、非ナッシュ的、道徳的に動機づけられた行動コースのクラスである有限正規形式ゲームにおけるカンティアン均衡について検討する。 計算の難易度、高い調整コスト、一般的な正規形式ゲームへの問題拡張など、そのような平衡性に関する問題をいくつか取り上げる。 プログラム平衡の概念に基づくそのような一般化を与え、実際に関連する一般化は存在し得ないことを指摘する。 これに対処するため、我々は、カント均衡の特別な場合である一般的な、直感的で、計算可能な、その他の無視可能な平衡と、純粋に自己防衛的行動とカント的行動とを補間する行動のコースのクラスを提案する。

We investigate Kantian equilibria in finite normal form games, a class of non-Nashian, morally motivated courses of action that was recently proposed in the economics literature. We highlight a number of problems with such equilibria, including computational intractability, a high price of miscoordination, and problematic extension to general normal form games. We give such a generalization based on concept of program equilibria, and point out that that a practically relevant generalization may not exist. To remedy this we propose some general, intuitive, computationally tractable, other-regarding equilibria that are special cases Kantian equilibria, as well as a class of courses of action that interpolates between purely self-regarding and Kantian behavior.
翻訳日:2021-06-24 02:17:42 公開日:2021-06-22
# (参考訳) 計画の仕方を知る [全文訳有]

Knowing How to Plan ( http://arxiv.org/abs/2106.11504v1 )

ライセンス: CC BY 4.0
Yanjun Li (Nankai University), Yanjing Wang (Peking University)(参考訳) 近年,様々な計画的ノウハウ論理が研究されている。 本稿では,このような論理を用いて,モデルチェックによるノウハウベースの計画を行う。 特に、know-how式を目標とする高次の疫学計画を扱うことができ、例えば、敵がpを将来偽造する方法を知らないようにpを確実にする計画を見つけることができる。 有限エピステミック遷移系上でのモデルチェック問題に対するPTIMEアルゴリズムを提案し、完全リコールの仮定の下で論理を公理化する。

Various planning-based know-how logics have been studied in the recent literature. In this paper, we use such a logic to do know-how-based planning via model checking. In particular, we can handle the higher-order epistemic planning involving know-how formulas as the goal, e.g., find a plan to make sure p such that the adversary does not know how to make p false in the future. We give a PTIME algorithm for the model checking problem over finite epistemic transition systems and axiomatize the logic under the assumption of perfect recall.
翻訳日:2021-06-24 01:59:32 公開日:2021-06-22
# (参考訳) Momentumized Gradientsによるステップサイズ適応による最適化と一般化

Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization ( http://arxiv.org/abs/2106.11514v1 )

ライセンス: CC BY 4.0
Yizhou Wang, Yue Kang, Can Qin, Yi Xu, Huan Wang, Yulun Zhang, Yun Fu(参考訳) 適応勾配法、例えば『textsc{Adam}』は機械学習において大きな成功を収めた。 過去の2乗勾配の走行平均の平方根による勾配のスケーリングは、現代のディープニューラルネットワークの迅速な訓練を実現することができる。 それにもかかわらず、それらは確率勾配降下(\textsc{SGD})よりも悪くなることが観察され、訓練の初期段階では局所的なミニマに閉じ込められる傾向にある。 興味深いことに、プレコンディショナー項の勾配を \textsc{Adam} の運動量化バージョンに置き換えることで、この問題をうまく解決できる。 直感的には、運動量を持つ勾配はより正確な方向情報を含んでいるため、その第2モーメント推定は生の勾配よりもスケーリングに適する。 そこで我々は、より高速にトレーニングし、より一般化するという目標に到達した新しいオプティマイザとして、 \textsc{AdaMomentum}を提案する。 さらに,最適化と一般化の改善を裏付ける理論を開発し,凸設定と非凸設定の両方において収束保証を提供する。 様々なモデルやタスクに対する広範囲な実験により、 \textsc{AdaMomentum} は視覚タスクにおける \textsc{SGD} に匹敵する性能を示し、言語処理を含む他のタスクにおける最先端の結果を一貫して達成している。

Adaptive gradient methods, such as \textsc{Adam}, have achieved tremendous success in machine learning. Scaling gradients by square roots of the running averages of squared past gradients, such methods are able to attain rapid training of modern deep neural networks. Nevertheless, they are observed to generalize worse than stochastic gradient descent (\textsc{SGD}) and tend to be trapped in local minima at an early stage during training. Intriguingly, we discover that substituting the gradient in the preconditioner term with the momentumized version in \textsc{Adam} can well solve the issues. The intuition is that gradient with momentum contains more accurate directional information and therefore its second moment estimation is a better choice for scaling than raw gradient's. Thereby we propose \textsc{AdaMomentum} as a new optimizer reaching the goal of training faster while generalizing better. We further develop a theory to back up the improvement in optimization and generalization and provide convergence guarantee under both convex and nonconvex settings. Extensive experiments on various models and tasks demonstrate that \textsc{AdaMomentum} exhibits comparable performance to \textsc{SGD} on vision tasks, and achieves state-of-the-art results consistently on other tasks including language processing.
翻訳日:2021-06-24 01:35:39 公開日:2021-06-22
# (参考訳) SA-LOAM:ループクロージャ付きセマンティック支援LiDARSLAM [全文訳有]

SA-LOAM: Semantic-aided LiDAR SLAM with Loop Closure ( http://arxiv.org/abs/2106.11516v1 )

ライセンス: CC BY 4.0
Lin Li, Xin Kong, Xiangrui Zhao, Wanlong Li, Feng Wen, Hongbo Zhang and Yong Liu(参考訳) LiDARベースのSLAMシステムは、他のシステムよりも正確で安定しているが、ループクロージャ検出はまだ未解決である。 ポイントクラウドのための3dセマンティクスセグメンテーションの開発により、セマンティクス情報は便利かつ着実に得られ、高レベルの知性とslamへの導電性に欠かせない。 本稿では, LOAM(SA-LOAM)と名づけられたループクロージャを用いた新規なセマンティック支援LiDAR SLAMを提案する。 具体的には,semanticly matching,downsamplin g,plane constraintsを含むsemantic-assisted icpを提案し,ループクロージャ検出モジュールに意味グラフに基づく位置認識手法を統合する。 セマンティクスの利点は、局所化の精度を改善し、ループの閉鎖を効果的に検出し、大規模シーンにおいてもグローバルな一貫したセマンティクスマップを構築することである。 KITTIとFord Campusデータセットの大規模な実験により、我々のシステムはベースライン性能を著しく改善し、データの発見を一般化し、最先端の手法と比較して競合的な結果が得られることを示した。

LiDAR-based SLAM system is admittedly more accurate and stable than others, while its loop closure detection is still an open issue. With the development of 3D semantic segmentation for point cloud, semantic information can be obtained conveniently and steadily, essential for high-level intelligence and conductive to SLAM. In this paper, we present a novel semantic-aided LiDAR SLAM with loop closure based on LOAM, named SA-LOAM, which leverages semantics in odometry as well as loop closure detection. Specifically, we propose a semantic-assisted ICP, including semantically matching, downsampling and plane constraint, and integrates a semantic graph-based place recognition method in our loop closure detection module. Benefitting from semantics, we can improve the localization accuracy, detect loop closures effectively, and construct a global consistent semantic map even in large-scale scenes. Extensive experiments on KITTI and Ford Campus dataset show that our system significantly improves baseline performance, has generalization ability to unseen data and achieves competitive results compared with state-of-the-art methods.
翻訳日:2021-06-24 01:28:16 公開日:2021-06-22
# (参考訳) 質問応答のためのRAGアーキテクチャ(DPRレトリバーを含む)の微調整 [全文訳有]

Fine-tune the Entire RAG Architecture (including DPR retriever) for Question-Answering ( http://arxiv.org/abs/2106.11517v1 )

ライセンス: CC BY-SA 4.0
Shamane Siriwardhana, Rivindu Weerasekera, Elliott Wen, Suranga Nanayakkara(参考訳) 本稿では,レトリーバル拡張生成(RAG)アーキテクチャ全体をエンドツーエンドで微調整する方法を説明する。 私たちは、この目的を達成するために対処する必要がある主なエンジニアリング上の課題を強調しました。 また、問合せ処理において、エンドツーエンドのRAGアーキテクチャが元のRAGアーキテクチャより優れているかを比較する。 我々はHuggingFace Transformersライブラリで実装をオープンソース化しました。

In this paper, we illustrate how to fine-tune the entire Retrieval Augment Generation (RAG) architecture in an end-to-end manner. We highlighted the main engineering challenges that needed to be addressed to achieve this objective. We also compare how end-to-end RAG architecture outperforms the original RAG architecture for the task of question answering. We have open-sourced our implementation in the HuggingFace Transformers library.
翻訳日:2021-06-24 01:11:17 公開日:2021-06-22
# (参考訳) bartscore: 生成テキストをテキスト生成として評価する [全文訳有]

BARTScore: Evaluating Generated Text as Text Generation ( http://arxiv.org/abs/2106.11520v1 )

ライセンス: CC0 1.0
Weizhe Yuan and Graham Neubig and Pengfei Liu(参考訳) 機械翻訳、要約、ダイアログなどの幅広いNLPアプリケーションには、テキスト生成が含まれる。 これらのアプリケーションの大きな課題のひとつは、このような生成されたテキストが実際に流動的、正確、有効かどうかを評価する方法である。 本研究では,テキスト生成問題として生成したテキストの評価を,事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化する。 一般的な考え方は、生成したテキストを参照出力またはソーステキストに変換するように訓練されたモデルは、生成したテキストが良い場合により高いスコアを得る。 我々は、エンコーダ-デコーダベースの事前訓練モデルであるBARTを用いて、このアイデアを運用し、異なる視点(例えば、異なる視点からテキストを評価するために、教師なしの方法で柔軟に適用できる多くの変種を持つメトリクスBARTScoreを提案する。 情報、流布、または事実) BARTScoreは概念的にはシンプルで、経験的に有効です。 既存のトップスコアの指標を22のテスト設定中16で上回り、16のデータセット(例えば、機械翻訳、テキスト要約)と7つの異なる視点(例えば、情報性、事実性)の評価をカバーできる。 BARTScoreの計算コードはhttps://github.com/n eulab/BARTScoreで利用可能で、http://explainaboard .nlpedia.ai/ Leaderboard/task-mev al/でメタ評価のためのインタラクティブなリーダーボードをExplainaBoardプラットフォームでリリースしました。

A wide variety of NLP applications, such as machine translation, summarization, and dialog, involve text generation. One major challenge for these applications is how to evaluate whether such generated texts are actually fluent, accurate, or effective. In this work, we conceptualize the evaluation of generated text as a text generation problem, modeled using pre-trained sequence-to-sequence models. The general idea is that models trained to convert the generated text to/from a reference output or the source text will achieve higher scores when the generated text is better. We operationalize this idea using BART, an encoder-decoder based pre-trained model, and propose a metric BARTScore with a number of variants that can be flexibly applied in an unsupervised fashion to evaluation of text from different perspectives (e.g. informativeness, fluency, or factuality). BARTScore is conceptually simple and empirically effective. It can outperform existing top-scoring metrics in 16 of 22 test settings, covering evaluation of 16 datasets (e.g., machine translation, text summarization) and 7 different perspectives (e.g., informativeness, factuality). Code to calculate BARTScore is available at https://github.com/n eulab/BARTScore, and we have released an interactive leaderboard for meta-evaluation at http://explainaboard .nlpedia.ai/leaderbo ard/task-meval/ on the ExplainaBoard platform, which allows us to interactively understand the strengths, weaknesses, and complementarity of each metric.
翻訳日:2021-06-24 01:07:00 公開日:2021-06-22
# (参考訳) カプセル間のグラフルーティング [全文訳有]

Graph Routing between Capsules ( http://arxiv.org/abs/2106.11531v1 )

ライセンス: CC BY 4.0
Yang Li, Wei Zhao, Erik Cambria, Suhang Wang, Steffen Eger(参考訳) カプセルネットワークにおけるルーティング手法は、しばしば連続した層内のカプセルの階層的関係を学習するが、同じ層内のカプセル間の関係は研究されず、この関係はテキストデータにおける意味的理解の重要な要素である。 そこで本稿では,グラフルーティングを用いた新しいカプセルネットワークを導入し,各レイヤのカプセルをグラフのノードとして扱うことにより,両者の関係を学習する。 カプセル層から3つの異なる距離で隣接度と次数行列を得るための戦略について検討し,これらのカプセル間のグラフルーティング機構を提案する。 提案手法を5つのテキスト分類データセットで検証し,ボトムアップルーティングとトップダウンアテンションを組み合わせたアプローチが最善であることを示す。 このようなアプローチはデータセット間の一般化能力を示している。 最先端のルーティング手法と比較すると、5つのデータセットの精度がそれぞれ0.082, 0.39, 0.07, 1.01, 0.02であった。

Routing methods in capsule networks often learn a hierarchical relationship for capsules in successive layers, but the intra-relation between capsules in the same layer is less studied, while this intra-relation is a key factor for the semantic understanding in text data. Therefore, in this paper, we introduce a new capsule network with graph routing to learn both relationships, where capsules in each layer are treated as the nodes of a graph. We investigate strategies to yield adjacency and degree matrix with three different distances from a layer of capsules, and propose the graph routing mechanism between those capsules. We validate our approach on five text classification datasets, and our findings suggest that the approach combining bottom-up routing and top-down attention performs the best. Such an approach demonstrates generalization capability across datasets. Compared to the state-of-the-art routing methods, the improvements in accuracy in the five datasets we used were 0.82, 0.39, 0.07, 1.01, and 0.02, respectively.
翻訳日:2021-06-24 00:48:23 公開日:2021-06-22
# (参考訳) メッセージパッシング・ジェネレーティブ・ディバイザ・ネットワークを用いたパーティクルクラウド生成 [全文訳有]

Particle Cloud Generation with Message Passing Generative Adversarial Networks ( http://arxiv.org/abs/2106.11535v1 )

ライセンス: CC BY 4.0
Raghav Kansal, Javier Duarte, Hao Su, Breno Orzari, Thiago Tomei, Maurizio Pierini, Mary Touranakou, Jean-Roch Vlimant, Dimitrios Gunopulos(参考訳) 高エネルギー物理学 (HEP) では、ジェットはCERN大型ハドロン衝突型加速器 (LHC) のような粒子衝突でユビキタスに発生する相関粒子の集合体である。 generative adversarial networks(gans)のような機械学習に基づく生成モデルは、lhcジェットシミュレーションを著しく加速する可能性がある。 しかし、運動量空間における粒子の集合として自然な表現を持つジェットにもかかわらず、a.a。 粒子雲は、我々の知る限り、そのようなデータセットに適用される生成モデルは存在しない。 我々は、新しいparticle cloud dataset(jetnet)を導入し、particle cloudとpoint cloudの類似性により、既存のpoint cloud gansに適用する。 その結果,(1)高レベル・低レベル特徴分布間の1-wasserstein距離,(2)新しく開発されたfr\'{e}chet粒子ネット距離,(3)カバレッジおよび(4)最小マッチング距離メトリクスを用いて評価した。 既存のganは物理応用に不適当であることが判明したので、我々は、既存のすべてのメトリックで既存のpoint cloud ganよりも優れ、hepでの使用を約束する新しいメッセージパッシングgan(mpgan)を開発しました。 我々は,JetNetを機械学習コミュニティのための新しいポイントクラウド型データセットとして提案し,MPGANを将来の生成モデルの改善のためのベンチマークとして設定する。

In high energy physics (HEP), jets are collections of correlated particles produced ubiquitously in particle collisions such as those at the CERN Large Hadron Collider (LHC). Machine-learning-bas ed generative models, such as generative adversarial networks (GANs), have the potential to significantly accelerate LHC jet simulations. However, despite jets having a natural representation as a set of particles in momentum-space, a.k.a. a particle cloud, to our knowledge there exist no generative models applied to such a dataset. We introduce a new particle cloud dataset (JetNet), and, due to similarities between particle and point clouds, apply to it existing point cloud GANs. Results are evaluated using (1) the 1-Wasserstein distance between high- and low-level feature distributions, (2) a newly developed Fr\'{e}chet ParticleNet Distance, and (3) the coverage and (4) minimum matching distance metrics. Existing GANs are found to be inadequate for physics applications, hence we develop a new message passing GAN (MPGAN), which outperforms existing point cloud GANs on virtually every metric and shows promise for use in HEP. We propose JetNet as a novel point-cloud-style dataset for the machine learning community to experiment with, and set MPGAN as a benchmark to improve upon for future generative models.
翻訳日:2021-06-24 00:36:18 公開日:2021-06-22
# (参考訳) docformer: ドキュメント理解のためのエンドツーエンドトランスフォーマー [全文訳有]

DocFormer: End-to-End Transformer for Document Understanding ( http://arxiv.org/abs/2106.11539v1 )

ライセンス: CC BY 4.0
Srikar Appalaraju and Bhavan Jasani and Bhargava Urala Kota and Yusheng Xie and R. Manmatha(参考訳) DocFormer - Visual Document Understanding (VDU)タスクのためのマルチモーダルトランスフォーマーベースのアーキテクチャ。 VDUは、文書を様々な形式(形式、領収書など)で理解することを目的とした、困難な問題である。 レイアウトも さらに、docformerはマルチモーダルインタラクションを奨励する注意深く設計されたタスクを使用して、教師なしの方法で事前トレーニングされる。 DocFormerはテキスト、視覚、空間的特徴を使い、新しいマルチモーダルな自己認識層を使ってそれらを組み合わせている。 DocFormerはまた、学習された空間埋め込みを共有しており、モデルがテキストとビジュアルトークンの相関を容易にし、その逆も容易にできる。 docformerは、強いベースラインを持つ4つの異なるデータセットで評価される。 docformerは最先端の成果を全て達成し、時にはモデルのサイズが4倍になる(no.0では)。 パラメータの値)。

We present DocFormer -- a multi-modal transformer based architecture for the task of Visual Document Understanding (VDU). VDU is a challenging problem which aims to understand documents in their varied formats (forms, receipts etc.) and layouts. In addition, DocFormer is pre-trained in an unsupervised fashion using carefully designed tasks which encourage multi-modal interaction. DocFormer uses text, vision and spatial features and combines them using a novel multi-modal self-attention layer. DocFormer also shares learned spatial embeddings across modalities which makes it easy for the model to correlate text to visual tokens and vice versa. DocFormer is evaluated on 4 different datasets each with strong baselines. DocFormer achieves state-of-the-art results on all of them, sometimes beating models 4x its size (in no. of parameters).
翻訳日:2021-06-24 00:19:14 公開日:2021-06-22
# (参考訳) シーケンシャルデータの効率的なセグメンテーションのためのsgmoid-based regularizationによるカーネルクラスタリング [全文訳有]

Kernel Clustering with Sigmoid-based Regularization for Efficient Segmentation of Sequential Data ( http://arxiv.org/abs/2106.11541v1 )

ライセンス: CC BY 4.0
Tung Doan and Atsuhiro Takasu(参考訳) カーネルセグメンテーションは、データシーケンスを非線形で複雑な構造を持つ複数の非重複セグメントに分割することを目的としている。 一般に、組合せ制約を伴う離散最適化問題として定式化される。 この問題を最適に解く一般的なアルゴリズムは、二次計算とメモリ要件を持つ動的プログラミング(dp)である。 実際にはシーケンスが長すぎることを考えると、このアルゴリズムは実践的なアプローチではない。 最適セグメンテーションを近似するために多くのヒューリスティックアルゴリズムが提案されているが、それらの解の品質は保証されていない。 本稿では,上記の問題を緩和するために,異なるアプローチをとる。 まず, 組合せ制約を円滑に近似する新しいsigmoidベースの正則化を提案する。 バランスの取れたカーネルクラスタリングの目的と組み合わせることで、最適なセグメンテーションを得るために勾配に基づくアルゴリズムを活用できるsgmoid-based regularization (kcsr) を用いた微分可能なカーネルクラスタリングを定式化する。 第二に,提案モデルの確率的変種を開発する。 時間と空間の複雑さがはるかに低い確率勾配降下アルゴリズムを用いて最適化することにより、2番目のモデルが過大なデータ列のセグメンテーションを行うことができる。 最後に、複数のデータ列を同時にセグメント化するために、Sigmoid-based regularization を少し修正し、提案モデルの拡張版を導入する。 様々な種類のデータ列について広範な実験を行い,既存の手法と比較した。 実験結果は,提案モデルの利点を検証した。 matlabのソースコードはgithubから入手できます。

Kernel segmentation aims at partitioning a data sequence into several non-overlapping segments that may have nonlinear and complex structures. In general, it is formulated as a discrete optimization problem with combinatorial constraints. A popular algorithm for optimally solving this problem is dynamic programming (DP), which has quadratic computation and memory requirements. Given that sequences in practice are too long, this algorithm is not a practical approach. Although many heuristic algorithms have been proposed to approximate the optimal segmentation, they have no guarantee on the quality of their solutions. In this paper, we take a differentiable approach to alleviate the aforementioned issues. First, we introduce a novel sigmoid-based regularization to smoothly approximate the combinatorial constraints. Combining it with objective of the balanced kernel clustering, we formulate a differentiable model termed Kernel clustering with sigmoid-based regularization (KCSR), where the gradient-based algorithm can be exploited to obtain the optimal segmentation. Second, we develop a stochastic variant of the proposed model. By using the stochastic gradient descent algorithm, which has much lower time and space complexities, for optimization, the second model can perform segmentation on overlong data sequences. Finally, for simultaneously segmenting multiple data sequences, we slightly modify the sigmoid-based regularization to further introduce an extended variant of the proposed model. Through extensive experiments on various types of data sequences performances of our models are evaluated and compared with those of the existing methods. The experimental results validate advantages of the proposed models. Our Matlab source code is available on github.
翻訳日:2021-06-23 23:52:37 公開日:2021-06-22
# (参考訳) ニューラルネットワーク学習のための適応学習速度と運動量 [全文訳有]

Adaptive Learning Rate and Momentum for Training Deep Neural Networks ( http://arxiv.org/abs/2106.11548v1 )

ライセンス: CC BY 4.0
Zhiyong Hao, Yixuan Jiang, Huihua Yu and Hsiao-Dong Chiang(参考訳) ディープラーニングの最近の進歩は、トレーニングアルゴリズムの品質と効率に大きく依存している。 本稿では,非線形共役勾配(cg)フレームワークを動機とする高速トレーニング手法を提案する。 擬似線探索法(CGQ)を用いた共役勾配法を提案する。 一方、二次線探索は、現在の損失状況に応じてステップサイズを決定する。 一方、運動量係数は共役勾配パラメータ(polak-ribiere など)を計算する際に動的に更新される。 強い凸条件下での手法の収束を保証するための理論的結果を開発した。 また,画像分類データセットにおける実験により,本手法は他の局所解法よりも収束が早く,より一般化能力(テストセット精度)が向上することを示した。 本手法の主な利点は,学習速度や運動量などの過度パラメータの面倒な手チューニングを避けることである。

Recent progress on deep learning relies heavily on the quality and efficiency of training algorithms. In this paper, we develop a fast training method motivated by the nonlinear Conjugate Gradient (CG) framework. We propose the Conjugate Gradient with Quadratic line-search (CGQ) method. On the one hand, a quadratic line-search determines the step size according to current loss landscape. On the other hand, the momentum factor is dynamically updated in computing the conjugate gradient parameter (like Polak-Ribiere). Theoretical results to ensure the convergence of our method in strong convex settings is developed. And experiments in image classification datasets show that our method yields faster convergence than other local solvers and has better generalization capability (test set accuracy). One major advantage of the paper method is that tedious hand tuning of hyperparameters like the learning rate and momentum is avoided.
翻訳日:2021-06-23 23:26:30 公開日:2021-06-22
# (参考訳) 差分認識モデルを用いた学習型実測光場画像圧縮 [全文訳有]

Learning-Based Practical Light Field Image Compression Using A Disparity-Aware Model ( http://arxiv.org/abs/2106.11558v1 )

ライセンス: CC BY 4.0
Mohana Singh and Renu M. Rameshan(参考訳) 光分野技術は研究コミュニティの注目を集め、多くの応用が期待されている。 商用のレンズカメラのレンズレットアレイは、光線の空間情報と角情報の両方を単一の露光で捉えるのに役立つ。 光フィールドデータの高次元性により、その優れた機能を実現する一方で、その広範な採用を妨げる。 そのため、光電界画像の効率的な圧縮が求められている。 既存のソリューションは通常、いくつかの異なるモジュールで構成されており、いくつかは光フィールドデータの特定の構造と品質のために設計されていないかもしれない。 これによりコーデックの複雑さが増し、非実用的なデコーディングランタイムが発生する。 並列デコーディングが可能な4次元光フィールド画像の圧縮のための,学習に基づく分散支援モデルを提案する。 モデルはエンドツーエンドのトレーニングが可能で、手動でモジュールを調整する必要がなく、レートと歪みの同時学習が可能である。 格差支援アプローチは、再構成された光場の構造的整合性を保証する。 PSNRとMS-SSIMの指標で比較すると,性能が向上している。 また、ランタイムのエンコーディングとデコードにも顕著な利益がある。 ソースコードはhttps://moha23.githu b.io/LFDAAEで入手できる。

Light field technology has increasingly attracted the attention of the research community with its many possible applications. The lenslet array in commercial plenoptic cameras helps capture both the spatial and angular information of light rays in a single exposure. While the resulting high dimensionality of light field data enables its superior capabilities, it also impedes its extensive adoption. Hence, there is a compelling need for efficient compression of light field images. Existing solutions are commonly composed of several separate modules, some of which may not have been designed for the specific structure and quality of light field data. This increases the complexity of the codec and results in impractical decoding runtimes. We propose a new learning-based, disparity-aided model for compression of 4D light field images capable of parallel decoding. The model is end-to-end trainable, eliminating the need for hand-tuning separate modules and allowing joint learning of rate and distortion. The disparity-aided approach ensures the structural integrity of the reconstructed light fields. Comparisons with the state of the art show encouraging performance in terms of PSNR and MS-SSIM metrics. Also, there is a notable gain in the encoding and decoding runtimes. Source code is available at https://moha23.githu b.io/LFDAAE.
翻訳日:2021-06-23 23:07:43 公開日:2021-06-22
# (参考訳) 順序回帰におけるユニバーサルドメイン適応 [全文訳有]

Universal Domain Adaptation in Ordinal Regression ( http://arxiv.org/abs/2106.11576v1 )

ライセンス: CC BY 4.0
Chidlovskii Boris, Assem Sadek, Christian Wolf(参考訳) 順序回帰 (or) における普遍的領域適応 (uda) の問題に対処し, ラベルが独立ではなく自然な順序に従う分類問題を解こうとする。 本稿では, クラスタリングの仮定に基づいて, OR 設定のアンダーパフォーマンスに基づいて, 分類のために開発された UDA 技術について述べる。 本稿では,OR分類器と注文学習の補助的タスクを補完する手法を提案する。これは,共通インスタンスとプライベートインスタンスを区別し,クラスラベルをランキングによるプライベートターゲットイメージに拡張する役割を兼ね備えている。 逆領域判別と組み合わせることで、我々のモデルは閉集合、部分集合および開集合の構成に対処することができる。 本手法は,3つの顔年齢推定データセット上で評価し,ベースライン法を上回っていることを示す。

We address the problem of universal domain adaptation (UDA) in ordinal regression (OR), which attempts to solve classification problems in which labels are not independent, but follow a natural order. We show that the UDA techniques developed for classification and based on the clustering assumption, under-perform in OR settings. We propose a method that complements the OR classifier with an auxiliary task of order learning, which plays the double role of discriminating between common and private instances, and expanding class labels to the private target images via ranking. Combined with adversarial domain discrimination, our model is able to address the closed set, partial and open set configurations. We evaluate our method on three face age estimation datasets, and show that it outperforms the baseline methods.
翻訳日:2021-06-23 22:57:12 公開日:2021-06-22
# (参考訳) 期待制約付き凸確率最適化のための乗算器の確率線型化近似法 [全文訳有]

A stochastic linearized proximal method of multipliers for convex stochastic optimization with expectation constraints ( http://arxiv.org/abs/2106.11577v1 )

ライセンス: CC BY 4.0
Liwei Zhang and Yule Zhang and Jia Wu and Xiantao Xiao(参考訳) 本稿では、凸期待関数を不等式凸期待関数の集合で最小化する問題を考察する。 この凸確率最適化問題を解くために,計算可能な確率近似型アルゴリズム,すなわち乗算器の確率線形化近似法を提案する。 このアルゴリズムは、確率近似と従来の乗算器の近似手法のハイブリッドと見なすことができる。 穏やかな条件下では、アルゴリズムのパラメータが適切に選択された場合、このアルゴリズムは目的の削減と制約違反の両方に対して$o(k^{-1/2})$の期待収束率を示し、ここで$k$は反復数を表す。 さらに、高い確率で、アルゴリズムは、$O(\log(K)K^{-1/2})$制約違反境界と$O(\log^{3/2}(K)K^{-1/2})$客観的境界を持つことを示す。 予備的な数値計算の結果は,提案アルゴリズムの性能を示すものである。

This paper considers the problem of minimizing a convex expectation function with a set of inequality convex expectation constraints. We present a computable stochastic approximation type algorithm, namely the stochastic linearized proximal method of multipliers, to solve this convex stochastic optimization problem. This algorithm can be roughly viewed as a hybrid of stochastic approximation and the traditional proximal method of multipliers. Under mild conditions, we show that this algorithm exhibits $O(K^{-1/2})$ expected convergence rates for both objective reduction and constraint violation if parameters in the algorithm are properly chosen, where $K$ denotes the number of iterations. Moreover, we show that, with high probability, the algorithm has $O(\log(K)K^{-1/2})$ constraint violation bound and $O(\log^{3/2}(K)K^{-1/2})$ objective bound. Some preliminary numerical results demonstrate the performance of the proposed algorithm.
翻訳日:2021-06-23 22:40:42 公開日:2021-06-22
# (参考訳) グラフ畳み込みネットワークのための垂直的フェデレーション学習フレームワーク [全文訳有]

A Vertical Federated Learning Framework for Graph Convolutional Network ( http://arxiv.org/abs/2106.11593v1 )

ライセンス: CC0 1.0
Xiang Ni, Xiaolong Xu, Lingjuan Lyu, Changhua Meng, Weiqiang Wang(参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフデータにおける実世界の様々な問題において顕著な成功を収めている。 しかし、ほとんどの業界では、データは孤立した島として存在し、データのプライバシーとセキュリティもまた重要な問題である。 本稿では,プライバシ保護ノード分類タスクのためのフェデレーションGCN学習パラダイムであるFedVGCNを提案する。 具体的には,計算グラフデータを2つの部分に分割する。 トレーニングプロセスの各イテレーションにおいて、両者は同型暗号化の下で中間結果を互いに転送する。 ベンチマークデータを用いて実験を行い,グラフサージにおけるFedVGCNの有効性を実証した。

Recently, Graph Neural Network (GNN) has achieved remarkable success in various real-world problems on graph data. However in most industries, data exists in the form of isolated islands and the data privacy and security is also an important issue. In this paper, we propose FedVGCN, a federated GCN learning paradigm for privacy-preserving node classification task under data vertically partitioned setting, which can be generalized to existing GCN models. Specifically, we split the computation graph data into two parts. For each iteration of the training process, the two parties transfer intermediate results to each other under homomorphic encryption. We conduct experiments on benchmark data and the results demonstrate the effectiveness of FedVGCN in the case of GraphSage.
翻訳日:2021-06-23 21:59:28 公開日:2021-06-22
# (参考訳) ストロークレベル分解によるゼロショット漢字認識 [全文訳有]

Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition ( http://arxiv.org/abs/2106.11613v1 )

ライセンス: CC BY 4.0
Jingye Chen, Bin Li, Xiangyang Xue(参考訳) 中国語の文字認識は幅広い応用のために研究の関心を集めている。 長年研究されてきたが、この分野のいくつかの問題がまだ完全に解決されていない。 ゼロショット問題。 従来の文字ベースおよびラジカルベースの手法は、テストセット内のいくつかの文字やラジカルがデータハングリー条件下でのトレーニングセットに現れないため、ゼロショット問題に根本的な対処を行っていない。 文字のストローク順序が学習される前に、人間が知覚できない文字の書き方を知ることを一般化できるという事実に触発されて、各文字を最も基本的な漢字単位であるストローク列に分解するストロークベースの手法を提案する。 しかし,ストローク列と漢字の間には,一対一の関係があると考えられる。 この課題に対処するために、予測ストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。 手書き文字,印刷芸術文字,シーン文字について提案手法を評価した。 実験の結果,提案手法は文字ゼロショットタスクとラジカルゼロショットタスクの両方において既存手法よりも優れていた。 さらに,提案手法は,文字をストロークに分解可能な他の言語にも容易に一般化することができる。

Chinese character recognition has attracted much research interest due to its wide applications. Although it has been studied for many years, some issues in this field have not been completely resolved yet, e.g. the zero-shot problem. Previous character-based and radical-based methods have not fundamentally addressed the zero-shot problem since some characters or radicals in test sets may not appear in training sets under a data-hungry condition. Inspired by the fact that humans can generalize to know how to write characters unseen before if they have learned stroke orders of some characters, we propose a stroke-based method by decomposing each character into a sequence of strokes, which are the most basic units of Chinese characters. However, we observe that there is a one-to-many relationship between stroke sequences and Chinese characters. To tackle this challenge, we employ a matching-based strategy to transform the predicted stroke sequence to a specific character. We evaluate the proposed method on handwritten characters, printed artistic characters, and scene characters. The experimental results validate that the proposed method outperforms existing methods on both character zero-shot and radical zero-shot tasks. Moreover, the proposed method can be easily generalized to other languages whose characters can be decomposed into strokes.
翻訳日:2021-06-23 21:49:20 公開日:2021-06-22
# (参考訳) 合成コード生成の逆ロバスト性について [全文訳有]

On Adversarial Robustness of Synthetic Code Generation ( http://arxiv.org/abs/2106.11629v1 )

ライセンス: CC BY 4.0
Mrinal Anand, Pratik Kayal and Mayank Singh(参考訳) 自然言語記述からの自動コード合成は難しい課題である。 ドメイン固有言語(DSL)のためのコード生成システムの開発において,近年のシーケンシャル・ツー・シークエンス・ディープ・ラーニング技術が大きな進歩をみせている。 本稿では、dslベースの生成モデルである \textsc{algolisp} を特に実験し、逆行例の異なるクラスを通して重要なデータセットバイアスの存在を示す。 また、既存のすべての \textsc{algolisp} dslベースのコード生成ベースラインを上回るトランスフォーマティブベースのモデルの2つの変種も実験しています。 現在の最先端システムと一致して、我々の提案したモデルも、対戦条件下では性能が劣る。 そこで本研究では,バイアス軽減のためのデータセット拡張手法を提案し,ロバストな実験を用いてその効果を示す。

Automatic code synthesis from natural language descriptions is a challenging task. We witness massive progress in developing code generation systems for domain-specific languages (DSLs) employing sequence-to-sequence deep learning techniques in the recent past. In this paper, we specifically experiment with \textsc{AlgoLisp} DSL-based generative models and showcase the existence of significant dataset bias through different classes of adversarial examples. We also experiment with two variants of Transformer-based models that outperform all existing \textsc{AlgoLisp} DSL-based code generation baselines. Consistent with the current state-of-the-art systems, our proposed models, too, achieve poor performance under adversarial settings. Therefore, we propose several dataset augmentation techniques to reduce bias and showcase their efficacy using robust experimentation.
翻訳日:2021-06-23 21:38:55 公開日:2021-06-22
# (参考訳) 回帰不連続設計における不均一処理効果

Heterogeneous Treatment Effects in Regression Discontinuity Designs ( http://arxiv.org/abs/2106.11640v1 )

ライセンス: CC BY 4.0
\'Agoston Reguly(参考訳) 本稿では,古典回帰不連続性(RD)設計における処理効果の不均一性を明らかにするための教師付き機械学習アルゴリズムを提案する。 Athey and Imbens (2016) を拡張して, 木の各葉が, 処理前共変量の値に基づいて条件付き処理(共通のカットオフ規則で指定される)のRD推定値を含む, 正直な 'regression discontinuity tree''' を構築するための基準を開発する。 どの変量体が治療効果の多様性を捉えているかは定かでないが、推論を無効にすることなくそれらを発見することがアルゴリズムの課題である。 モンテカルロシミュレーションを用いて,Pop-Eleches と Urquiola (2013) によってコンパイルされたデータセットに適用し,ルーマニアのより良い中等教育に通うことによる様々な異種性の源を明らかにする。

The paper proposes a supervised machine learning algorithm to uncover treatment effect heterogeneity in classical regression discontinuity (RD) designs. Extending Athey and Imbens (2016), I develop a criterion for building an honest ``regression discontinuity tree'', where each leaf of the tree contains the RD estimate of a treatment (assigned by a common cutoff rule) conditional on the values of some pre-treatment covariates. It is a priori unknown which covariates are relevant for capturing treatment effect heterogeneity, and it is the task of the algorithm to discover them, without invalidating inference. I study the performance of the method through Monte Carlo simulations and apply it to the data set compiled by Pop-Eleches and Urquiola (2013) to uncover various sources of heterogeneity in the impact of attending a better secondary school in Romania.
翻訳日:2021-06-23 21:25:45 公開日:2021-06-22
# (参考訳) トレーニングされたモデルを与える: ソースデータなしのドメイン適応セマンティックセグメンテーション [全文訳有]

Give Me Your Trained Model: Domain Adaptive Semantic Segmentation without Source Data ( http://arxiv.org/abs/2106.11653v1 )

ライセンス: CC BY 4.0
Yuxi Wang, Jian Liang, Zhaoxiang Zhang(参考訳) 特定の状況(ソース)から収集されたかなりのピクセルレベルのアノテーションに適合した、トレーニングされたセマンティックセグメンテーションモデルは、非常によく機能するが、大きなドメインシフトのために新しい状況(ターゲット)で失敗する。 ドメイン間ギャップを軽減するため、従来のクロスドメインセマンティクスセグメンテーション手法は、常に分散アライメント中のソースデータとターゲットデータの共存を前提としている。 しかし、実際のシナリオにおけるソースデータへのアクセスは、プライバシーの問題を引き起こし、知的財産を侵害する可能性がある。 本稿では,対象領域に訓練されたソースモデルのみを提供する,興味深く挑戦的なクロスドメイン意味セグメンテーションタスクに着目し,さらに,ソースデータ無しでドメイン適応意味セグメンテーションと呼ばれる統一フレームワークを提案する(das$^3$略)。 具体的には、das$^3$は3つのスキーム、すなわち特徴のアライメント、自己学習、情報伝達からなる。 まず,ネットワーク出力の局所的エントロピー損失を主に開発し,提供されたソースモデルによる対象特徴と未認識のソース特徴を暗黙的に整合させる。 第2に,バニラ自己学習における正の擬似ラベルに加えて,まずフィールドに負の擬似ラベルを導入し,対象領域における表現学習を強化するための双方向自己学習戦略を開発する。 最後に、情報伝達スキームは、擬似半教師付き学習により、対象領域内のドメイン内不一致をさらに低減する。 合成から現実へのおよび都市横断運転データセットの広範な結果は、ソースデータへのアクセスを必要とするメソッドと同等であっても、das$^3$が最先端のパフォーマンスをもたらす。

Benefited from considerable pixel-level annotations collected from a specific situation (source), the trained semantic segmentation model performs quite well, but fails in a new situation (target) due to the large domain shift. To mitigate the domain gap, previous cross-domain semantic segmentation methods always assume the co-existence of source data and target data during distribution alignment. However, the access to source data in the real scenario may raise privacy concerns and violate intellectual property. To tackle this problem, we focus on an interesting and challenging cross-domain semantic segmentation task where only the trained source model is provided to the target domain, and further propose a unified framework called Domain Adaptive Semantic Segmentation without Source data (DAS$^3$ for short). Specifically, DAS$^3$ consists of three schemes, i.e., feature alignment, self-training, and information propagation. First, we mainly develop a focal entropic loss on the network outputs to implicitly align the target features with unseen source features via the provided source model. Second, besides positive pseudo labels in vanilla self-training, we first introduce negative pseudo labels to the field and develop a bi-directional self-training strategy to enhance the representation learning in the target domain. Finally, the information propagation scheme further reduces the intra-domain discrepancy within the target domain via pseudo semi-supervised learning. Extensive results on synthesis-to-real and cross-city driving datasets validate DAS$^3$ yields state-of-the-art performance, even on par with methods that need access to source data.
翻訳日:2021-06-23 21:24:31 公開日:2021-06-22
# (参考訳) 微分可能なニューラルアーキテクチャ探索における制約付き最適化について [全文訳有]

On Constrained Optimization in Differentiable Neural Architecture Search ( http://arxiv.org/abs/2106.11655v1 )

ライセンス: CC BY 4.0
Kaitlin Maile, Erwan Lecarpentier, Herv\'e Luga, Dennis G. Wilson(参考訳) 微分可能なアーキテクチャ探索(DARTS)は、微分可能な緩和に基づく最近提案されたニューラルアーキテクチャ探索(NAS)手法である。 その成功により、DARTSフレームワークの一部を分析し改善する多くのバリエーションが最近提案されている。 制約付き二段階最適化として問題を考えることで,アーキテクチャの重み付け競争,スケジューリングの更新,離散化への規則化の3つの改善を提案する。 まず,エッジ内のコンファクト競合を防止し,エッジ間の公正な比較を可能にした,アーキテクチャ重み付けの活性化に関する新たなアプローチを提案する。 次に,ミニバッチごとのネットワーク情報に基づく動的スケジュールを提案する。 最後に、早期離散化を促進するために、離散化に近接する2つの正規化と乗算器の交互方向法(ADMM)アルゴリズムを検討する。 その結果,この新たな活性化方式により最終アーキテクチャサイズが小さくなり,検索結果の信頼性が向上すると同時に,nasの最先端性能と同等の性能が維持できることがわかった。

Differentiable Architecture Search (DARTS) is a recently proposed neural architecture search (NAS) method based on a differentiable relaxation. Due to its success, numerous variants analyzing and improving parts of the DARTS framework have recently been proposed. By considering the problem as a constrained bilevel optimization, we propose and analyze three improvements to architectural weight competition, update scheduling, and regularization towards discretization. First, we introduce a new approach to the activation of architecture weights, which prevents confounding competition within an edge and allows for fair comparison across edges to aid in discretization. Next, we propose a dynamic schedule based on per-minibatch network information to make architecture updates more informed. Finally, we consider two regularizations, based on proximity to discretization and the Alternating Directions Method of Multipliers (ADMM) algorithm, to promote early discretization. Our results show that this new activation scheme reduces final architecture size and the regularizations improve reliability in search results while maintaining comparable performance to state-of-the-art in NAS, especially when used with our new dynamic informed schedule.
翻訳日:2021-06-23 21:10:41 公開日:2021-06-22
# (参考訳) 複数撮影による騒音センサ計測からの学習力学系 [全文訳有]

Learning Dynamical Systems from Noisy Sensor Measurements using Multiple Shooting ( http://arxiv.org/abs/2106.11712v1 )

ライセンス: CC BY 4.0
Armand Jordana, Justin Carpentier, Ludovic Righetti(参考訳) 力学系のモデリングは複雑な物理現象を捉え理解する上で重要な役割を果たしている。 物理モデルが解析公式によって十分に正確でない場合、ニューラルネットワークのような一般的な関数近似器を使用して、センサー測定から直接システムダイナミクスをキャプチャすることができる。 今のところ、これらのニューラルネットワークのパラメータを学習する現在の手法は、多くの動的システムの固有の不安定性に非常に敏感であり、非常に長いシーケンスの研究を妨げている。 本研究では,間接的に観測される動的システムの潜在表現を学習するために,多重撮影に基づく汎用的かつスケーラブルな手法を提案する。 生画像から直接観察されたシステム上での最先端の性能を実現する。 さらに,本手法は雑音測定に頑健であり,カオス力学系などの複雑な力学系を扱えることを示す。

Modeling dynamical systems plays a crucial role in capturing and understanding complex physical phenomena. When physical models are not sufficiently accurate or hardly describable by analytical formulas, one can use generic function approximators such as neural networks to capture the system dynamics directly from sensor measurements. As for now, current methods to learn the parameters of these neural networks are highly sensitive to the inherent instability of most dynamical systems of interest, which in turn prevents the study of very long sequences. In this work, we introduce a generic and scalable method based on multiple shooting to learn latent representations of indirectly observed dynamical systems. We achieve state-of-the-art performances on systems observed directly from raw images. Further, we demonstrate that our method is robust to noisy measurements and can handle complex dynamical systems, such as chaotic ones.
翻訳日:2021-06-23 20:59:11 公開日:2021-06-22
# (参考訳) MIMIR:イギリスのバイオバンク体MRIの自動解析のための深部回帰 [全文訳有]

MIMIR: Deep Regression for Automated Analysis of UK Biobank Body MRI ( http://arxiv.org/abs/2106.11731v1 )

ライセンス: CC BY 4.0
Taro Langner, Andr\'es Mart\'inez Mora, Robin Strand, H{\aa}kan Ahlstr\"om, and Joel Kullberg(参考訳) UK Biobank(UKB)は50万人以上のボランティアを大規模に調査し、遺伝学、ライフスタイル、血液生化学などの健康関連情報を収集している。 医療画像はさらに10万人の被験者を対象とし、70,000回のフォローアップセッションを行い、臓器、筋肉、体組成の測定を可能にした。 最大170,000枚のMR画像を取り付けることで、様々な手法が大規模画像解析に関わっている。 本研究は,英国ネック・トゥ・クニー・ボディMRIから対象メタデータの包括的プロファイルを自動的に予測する実験的な推論エンジンを提案する。 クロスバリデーションでは, 年齢, 身長, 体重, 性別などのベースライン特性を正確に推定するとともに, DXA, 臓器体積, グリップ強度, 脈拍数, および2型糖尿病状態(AUC: 0.866。 提案システムは、時間内に何千もの被験者を自動的に分析し、個別の信頼区間を提供する。 基礎となる手法は、MRIデータの2次元表現に基づく画像に基づく平均分散回帰のための畳み込みニューラルネットワークに基づいている。 この研究は、イギリスのバイオバンク画像データの公開直後に72の異なる測定値の高速かつ完全に自動化された推定値を取得することができる研究者に、提案システムを無償で提供することを目的としている。

UK Biobank (UKB) is conducting a large-scale study of more than half a million volunteers, collecting health-related information on genetics, lifestyle, blood biochemistry, and more. Medical imaging furthermore targets 100,000 subjects, with 70,000 follow-up sessions, enabling measurements of organs, muscle, and body composition. With up to 170,000 mounting MR images, various methodologies are accordingly engaged in large-scale image analysis. This work presents an experimental inference engine that can automatically predict a comprehensive profile of subject metadata from UKB neck-to-knee body MRI. In cross-validation, it accurately inferred baseline characteristics such as age, height, weight, and sex, but also emulated measurements of body composition by DXA, organ volumes, and abstract properties like grip strength, pulse rate, and type 2 diabetic status (AUC: 0.866). The proposed system can automatically analyze thousands of subjects within hours and provide individual confidence intervals. The underlying methodology is based on convolutional neural networks for image-based mean-variance regression on two-dimensional representations of the MRI data. This work aims to make the proposed system available for free to researchers, who can use it to obtain fast and fully-automated estimates of 72 different measurements immediately upon release of new UK Biobank image data.
翻訳日:2021-06-23 20:44:36 公開日:2021-06-22
# (参考訳) リレーショナルmdpのためのリフトモデルチェック

Lifted Model Checking for Relational MDPs ( http://arxiv.org/abs/2106.11735v1 )

ライセンス: CC BY 4.0
Wen-Chi Yang, Jean-Fran\c{c}ois Raskin and Luc De Raedt(参考訳) 確率的および非決定論的振る舞いを持つシステムの挙動を検証するためのモデル検査が開発されている。 このようなシステムに関する保証を提供するために使用される。 ほとんどのモデル検査手法は命題モデルにフォーカスするが、様々な確率的計画と強化フレームワークはリレーショナルドメイン、例えばSTRIPSプランニングやリレーショナルマルコフ決定プロセスを扱う。 リレーショナルセッティングで命題モデルチェックを使用することで、よく知られた状態の爆発問題と難解性につながるモデルを構築する必要がある。 pCTL-REBELはリレーショナルMDP上でのpCTL特性を検証するためのモデルチェック手法である。 これはrelational bellman updateオペレータであるrebelを拡張し、モデルベースリレーショナル強化学習のための値反復アプローチを、リレーショナルモデルチェックへと拡張する。 PCTL-REBELは持ち上げられるため、モデルがグラウンディングするのではなく、抽象的関係レベルで対称性と理由を利用する。 理論的には、pCTLモデルチェック手法は、状態が有界なサイズであるような無限の領域であっても、リレーショナルMDPに対して決定可能であることを示す。 実際に我々は,アルゴリズムとリレーショナルモデル検査の実装に貢献し,リレーショナルモデル検査手法のスケーラビリティを向上することを示す。

Model checking has been developed for verifying the behaviour of systems with stochastic and non-deterministic behavior. It is used to provide guarantees about such systems. While most model checking methods focus on propositional models, various probabilistic planning and reinforcement frameworks deal with relational domains, for instance, STRIPS planning and relational Markov Decision Processes. Using propositional model checking in relational settings requires one to ground the model, which leads to the well known state explosion problem and intractability. We present pCTL-REBEL, a lifted model checking approach for verifying pCTL properties on relational MDPs. It extends REBEL, the relational Bellman update operator, which is a lifted value iteration approach for model-based relational reinforcement learning, toward relational model-checking. PCTL-REBEL is lifted, which means that rather than grounding, the model exploits symmetries and reasons at an abstract relational level. Theoretically, we show that the pCTL model checking approach is decidable for relational MDPs even for possibly infinite domains provided that the states have a bounded size. Practically, we contribute algorithms and an implementation of lifted relational model checking, and we show that the lifted approach improves the scalability of the model checking approach.
翻訳日:2021-06-23 20:36:39 公開日:2021-06-22
# (参考訳) コミュニケーションの要素によって制御されるexemplars-guided empathetic response generation [全文訳有]

Exemplars-guided Empathetic Response Generation Controlled by the Elements of Human Communication ( http://arxiv.org/abs/2106.11791v1 )

ライセンス: CC BY 4.0
Navonil Majumder, Deepanway Ghosal, Devamanyu Hazarika, Alexander Gelbukh, Rada Mihalcea, Soujanya Poria(参考訳) 共感応答生成のための既存の方法の大部分は、共感応答を生成するためにコンテキストの感情に依存する。 しかし、共感は適切な感情で応答を生成する以上のものです。 また、他のインターロケータの状況と微妙な理解と個人的な共鳴の表現もしばしば含む。 残念ながら、このような品質は定量化が難しく、データセットには関連するアノテーションがない。 この問題に対処するために,本論文では,インターロケータへの共感を伝達する細かなスタイリスティックな特性に関する生成モデルを,例に依拠するアプローチを提案する。 この目的のために,我々は,訓練セットから関連する模範的応答を抽出するために,密閉通路探索を用いる。 人間のコミュニケーションの3つの要素 - 感情的存在、解釈、探索、感情は、共感への世代を導くために合成ラベルを使って追加される。 人的評価は、人間のコミュニケーションのこれらの要素によって拡張される。 これらの手法は, 自動評価と人的評価の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。 実装はhttps://github.com/d eclare-lab/exemplary -empathyで利用可能である。

The majority of existing methods for empathetic response generation rely on the emotion of the context to generate empathetic responses. However, empathy is much more than generating responses with an appropriate emotion. It also often entails subtle expressions of understanding and personal resonance with the situation of the other interlocutor. Unfortunately, such qualities are difficult to quantify and the datasets lack the relevant annotations. To address this issue, in this paper we propose an approach that relies on exemplars to cue the generative model on fine stylistic properties that signal empathy to the interlocutor. To this end, we employ dense passage retrieval to extract relevant exemplary responses from the training set. Three elements of human communication -- emotional presence, interpretation, and exploration, and sentiment are additionally introduced using synthetic labels to guide the generation towards empathy. The human evaluation is also extended by these elements of human communication. We empirically show that these approaches yield significant improvements in empathetic response quality in terms of both automated and human-evaluated metrics. The implementation is available at https://github.com/d eclare-lab/exemplary -empathy.
翻訳日:2021-06-23 20:35:28 公開日:2021-06-22
# (参考訳) ユーザプロファイルとポストパターンを用いたソーシャルネットワークサイト間のユーザ識別 [全文訳有]

User Identification across Social Networking Sites using User Profiles and Posting Patterns ( http://arxiv.org/abs/2106.11815v1 )

ライセンス: CC BY 4.0
Prashant Solanki, Kwan Hui Lim and Aaron Harwood(参考訳) オンラインソーシャルネットワーキングサイト(OSN)やモバイルデバイスの普及に伴い、人々は、家族や友人と連絡を取り、情報ソースとして利用するために、さまざまなOSNに依存している。 例えば、Flickrを使って家族や友人とホリデー写真を共有したり、Twitterで自分の考えに関する短いメッセージを投稿したり、さまざまな目的で複数のOSNを利用することができる。 複数のOSN間で同じユーザを識別することは重要なタスクであり、異なるOSN間のユーザの使用パターンを理解したり、ユーザが新しいOSNに登録するときのレコメンデーションや、その他の有用なアプリケーションを理解することができる。 この問題に対処するために,多層パーセプトロンに基づくアルゴリズムを提案する。例えば, (i) ユーザプロファイル(名前,位置情報,記述), (ii) ユーザ生成コンテンツの時間分布, (iii) ユーザ名, 実名, 記述に基づく埋め込みなどである。 ユーザのTwitterとFlickrのデータセットとその投稿活動を用いて、これらの機能が2つのOSN間でのユーザ識別のパフォーマンスに与える影響を実証的に調査し、異なる機能に基づいて私たちの主な発見について議論する。

With the prevalence of online social networking sites (OSNs) and mobile devices, people are increasingly reliant on a variety of OSNs for keeping in touch with family and friends, and using it as a source of information. For example, a user might utilise multiple OSNs for different purposes, such as using Flickr to share holiday pictures with family and friends, and Twitter to post short messages about their thoughts. Identifying the same user across multiple OSNs is an important task as this allows us to understand the usage patterns of users among different OSNs, make recommendations when a user registers for a new OSN, and various other useful applications. To address this problem, we proposed an algorithm based on the multilayer perceptron using various types of features, namely: (i) user profile, such as name, location, description; (ii) temporal distribution of user generated content; and (iii) embedding based on user name, real name and description. Using a Twitter and Flickr dataset of users and their posting activities, we perform an empirical study on how these features affect the performance of user identification across the two OSNs and discuss our main findings based on the different features.
翻訳日:2021-06-23 20:14:41 公開日:2021-06-22
# (参考訳) opcodeシークエンスに基づくマルウェア検出のためのデータ拡張 [全文訳有]

Data Augmentation for Opcode Sequence Based Malware Detection ( http://arxiv.org/abs/2106.11821v1 )

ライセンス: CC BY 4.0
Niall McLaughlin, Jesus Martinez del Rincon(参考訳) データ拡張はディープラーニングの多くの領域でうまく使われ、モデルのパフォーマンスが大幅に向上している。 通常、データ拡張はトレーニングセットの明らかな多様性を高めるために、データの現実的なバリエーションをシミュレートする。 しかし、ディープラーニング手法がすでに技術パフォーマンスの状態を達成しているOpcodeベースのマルウェア分析では、データ拡張の適用方法がすぐには明らかではない。 本稿では,固定変換を用いた基本手法からデータに適応する手法に移行することで,データ拡張の異なる手法について検討する。 本稿では,ネットワーク内のオプコード埋め込み層とそれに対応するオプコード埋め込み行列を用いて,トレーニング中に適応的データ拡張を行う新しいデータ拡張手法を提案する。 我々の知る限りでは、オプコードシーケンスに基づくマルウェア分類に適用される様々な拡張手法を体系的に研究する最初の論文である。

Data augmentation has been successfully used in many areas of deep-learning to significantly improve model performance. Typically data augmentation simulates realistic variations in data in order to increase the apparent diversity of the training-set. However, for opcode-based malware analysis, where deep learning methods are already achieving state of the art performance, it is not immediately clear how to apply data augmentation. In this paper we study different methods of data augmentation starting with basic methods using fixed transformations and moving to methods that adapt to the data. We propose a novel data augmentation method based on using an opcode embedding layer within the network and its corresponding opcode embedding matrix to perform adaptive data augmentation during training. To the best of our knowledge this is the first paper to carry out a systematic study of different augmentation methods applied to opcode sequence based malware classification.
翻訳日:2021-06-23 19:58:28 公開日:2021-06-22
# (参考訳) NumbaによるOPFythonの高速化 [全文訳有]

Speeding Up OPFython with Numba ( http://arxiv.org/abs/2106.11828v1 )

ライセンス: CC BY 4.0
Gustavo H. de Rosa, Jo\~ao Paulo Papa(参考訳) Optimum-Path Forest (OPF)として知られるグラフインスパイアされた分類器は、様々なタスクでロジスティック回帰、サポートベクトルマシンに匹敵する最先端のアルゴリズムであることが証明されている。 最近では、よりフレンドリーなフレームワークとより高速なプロトタイピング環境を提供するために、pythonベースのバージョンが提案されている。 それでもpythonベースのアルゴリズムは、cベースのアルゴリズムよりも遅く、大量のデータに直面するとパフォーマンスに影響を及ぼす。 そこで本稿では,numpyに基づく計算を高速化し,アルゴリズム全体の性能向上を試みるnumbaパッケージを用いた,単純かつ高効率な高速化を提案する。 実験結果から,提案手法はPythonベースのOPFよりも優れた結果が得られ,距離測定計算が高速化された。

A graph-inspired classifier, known as Optimum-Path Forest (OPF), has proven to be a state-of-the-art algorithm comparable to Logistic Regressors, Support Vector Machines in a wide variety of tasks. Recently, its Python-based version, denoted as OPFython, has been proposed to provide a more friendly framework and a faster prototyping environment. Nevertheless, Python-based algorithms are slower than their counterpart C-based algorithms, impacting their performance when confronted with large amounts of data. Therefore, this paper proposed a simple yet highly efficient speed up using the Numba package, which accelerates Numpy-based calculations and attempts to increase the algorithm's overall performance. Experimental results showed that the proposed approach achieved better results than the na\"ive Python-based OPF and speeded up its distance measurement calculation.
翻訳日:2021-06-23 19:45:47 公開日:2021-06-22
# (参考訳) 遠隔患者モニタリングにおける異常ユーザ行動の検出 [全文訳有]

Detecting Anomalous User Behavior in Remote Patient Monitoring ( http://arxiv.org/abs/2106.11844v1 )

ライセンス: CC BY 4.0
Deepti Gupta, Maanak Gupta, Smriti Bhatt, and Ali Saman Tosun(参考訳) ウェアラブルおよび非ウェアラブル型医療物のインターネット(IoMT)を用いた遠隔患者モニタリング(RPM)サービスの成長は、診断の質を改善し、さまざまな医療条件のタイムリーな治療を容易にすることを約束する。 同時に、iomtデバイスの増殖は、個人情報の盗難、データ漏洩、侵害された医療機器などの破滅的な結果をもたらす悪質な活動の可能性を増大させ、人間の生命を危険にさらす。 IoMTデバイスは、日々の健康モニタリングとともに、個人的および日々のソーシャル活動を含むユーザー行動パターンを反映する膨大な量のデータを生成する。 この文脈では、予期せぬユーザ行動、障害センサー、悪意のある/妥協されたデバイスからの異常値など、様々な理由で異常が発生する可能性がある。 この問題に対処するためには、異常を特定し緩和するためのスマートヘルスケアインフラを確保するためのフレームワークを開発する必要がある。 本稿では,IoMTとスマートホームデバイスを用いたRPMの異常検出モデルを提案する。 スマートホームとスマートヘルスデバイスの両方からなるRPMのコンテキストにおいて,正常なユーザ動作を解析し,異常なユーザ動作を特定するHMMに基づく異常検出を提案する。 我々は、複数のIoMTデバイスとホームセンサを備えたテストベッドを設計し、データを収集し、HMMモデルを用いてネットワークおよびユーザ行動データを用いてトレーニングする。 提案したHMMに基づく異常検出モデルは,RPMの文脈における異常の同定において98%以上の精度を達成した。

The growth in Remote Patient Monitoring (RPM) services using wearable and non-wearable Internet of Medical Things (IoMT) promises to improve the quality of diagnosis and facilitate timely treatment for a gamut of medical conditions. At the same time, the proliferation of IoMT devices increases the potential for malicious activities that can lead to catastrophic results including theft of personal information, data breach, and compromised medical devices, putting human lives at risk. IoMT devices generate tremendous amount of data that reflect user behavior patterns including both personal and day-to-day social activities along with daily routine health monitoring. In this context, there are possibilities of anomalies generated due to various reasons including unexpected user behavior, faulty sensor, or abnormal values from malicious/compromise d devices. To address this problem, there is an imminent need to develop a framework for securing the smart health care infrastructure to identify and mitigate anomalies. In this paper, we present an anomaly detection model for RPM utilizing IoMT and smart home devices. We propose Hidden Markov Model (HMM) based anomaly detection that analyzes normal user behavior in the context of RPM comprising both smart home and smart health devices, and identifies anomalous user behavior. We design a testbed with multiple IoMT devices and home sensors to collect data and use the HMM model to train using network and user behavioral data. Proposed HMM based anomaly detection model achieved over 98% accuracy in identifying the anomalies in the context of RPM.
翻訳日:2021-06-23 19:38:10 公開日:2021-06-22
# (参考訳) 自己教師付き学習 [全文訳有]

Credal Self-Supervised Learning ( http://arxiv.org/abs/2106.11853v1 )

ライセンス: CC BY 4.0
Julian Lienen, Eyke H\"ullermeier(参考訳) 自己学習は半教師付き学習に効果的なアプローチである。 鍵となるアイデアは、学習者自身が現在の仮説に基づいてラベルのないインスタンスに対して反復的に"pseudo-supervision&q uot;を生成することである。 整合性正規化と組み合わせて、擬似ラベルはコンピュータビジョンなど、様々な領域で有望な性能を示している。 擬ラベルの仮説的性質を説明するために、これらは一般に確率分布の形で提供される。 それでも、確率分布でさえ過度なインフォメーションのレベルを表しており、学習者が根底的な条件付き確率を正確に知っていることを示唆している。 そこで本手法では, 学習者は, クレダル集合, すなわち (候補) 確率分布の集合の形で, インスタンスにラベルを付けることができる。 この表現力の増大により、学習者はより柔軟で忠実な方法で不確実性と知識の欠如を表現することができる。 弱ラベル付きデータから学習するために,我々は近年,いわゆるスーパーセット学習の領域で提案されている手法を活用する。 本手法を最先端の自己超越アプローチと比較し, 高い不確実性を考慮した低ラベルシナリオにおいて, 優れた性能と競争力を示す。

Self-training is an effective approach to semi-supervised learning. The key idea is to let the learner itself iteratively generate "pseudo-supervision&q uot; for unlabeled instances based on its current hypothesis. In combination with consistency regularization, pseudo-labeling has shown promising performance in various domains, for example in computer vision. To account for the hypothetical nature of the pseudo-labels, these are commonly provided in the form of probability distributions. Still, one may argue that even a probability distribution represents an excessive level of informedness, as it suggests that the learner precisely knows the ground-truth conditional probabilities. In our approach, we therefore allow the learner to label instances in the form of credal sets, that is, sets of (candidate) probability distributions. Thanks to this increased expressiveness, the learner is able to represent uncertainty and a lack of knowledge in a more flexible and more faithful manner. To learn from weakly labeled data of that kind, we leverage methods that have recently been proposed in the realm of so-called superset learning. In an exhaustive empirical evaluation, we compare our methodology to state-of-the-art self-supervision approaches, showing competitive to superior performance especially in low-label scenarios incorporating a high degree of uncertainty.
翻訳日:2021-06-23 19:23:20 公開日:2021-06-22
# (参考訳) MEAL: Manifold Embedding-based Active Learning [全文訳有]

MEAL: Manifold Embedding-based Active Learning ( http://arxiv.org/abs/2106.11858v1 )

ライセンス: CC BY-SA 4.0
Deepthi Sreenivasaiah, Thomas Wollmann(参考訳) 画像分割は自動運転において一般的かつ挑戦的なタスクである。 トレーニングデータに十分なピクセルレベルのアノテーションが利用できることはハードルです。 アクティブな学習は、ラベル付けのための最も有望なサンプルを提案することで、少量のデータから学ぶのに役立つ。 本研究では,各獲得ステップにおいて,有望な画像領域を提案するアクティブ学習のためのプールベースの新しい手法を提案する。 この問題は、一様多様体近似に基づく埋め込みとエントロピーを不確実性尺度としてモデル化し、情報度をモデル化することで探索・探索の枠組みに組み込まれている。 提案手法をcamvidとcityscapesに応用し,最先端手法との定量的比較を行った。 その結果,我々のアクティブラーニング手法は他の手法に比べてcamvidの性能が向上したが,都市景観では性能向上は無視できることがわかった。

Image segmentation is a common and challenging task in autonomous driving. Availability of sufficient pixel-level annotations for the training data is a hurdle. Active learning helps learning from small amounts of data by suggesting the most promising samples for labeling. In this work, we propose a new pool-based method for active learning, which proposes promising image regions, in each acquisition step. The problem is framed in an exploration-exploita tion framework by combining an embedding based on Uniform Manifold Approximation to model representativeness with entropy as uncertainty measure to model informativeness. We applied our proposed method to the challenging autonomous driving data sets CamVid and Cityscapes and performed a quantitative comparison with state-of-the-art methods. We find that our active learning method achieves better performance on CamVid compared to other methods, while on Cityscapes, the performance lift was negligible.
翻訳日:2021-06-23 19:00:20 公開日:2021-06-22
# (参考訳) 分類器誘導生成逆インプテーションネットワークによる多臓器不全予測 [全文訳有]

Multiple Organ Failure Prediction with Classifier-Guided Generative Adversarial Imputation Networks ( http://arxiv.org/abs/2106.11878v1 )

ライセンス: CC BY 4.0
Xinlu Zhang, Yun Zhao, Rachael Callcut, Linda Petzold(参考訳) 多臓器不全 (MOF) は集中治療室 (ICU) 患者の死亡率が高い重篤な症候群である。 早期かつ正確な検出は、臨床医にとってタイムリーな意思決定に不可欠である。 機械学習モデルを電子健康記録(EHR)に適用する上で重要な課題は、欠落した値の広範性である。 既存の計算手法の多くは、データ前処理フェーズに関わっており、下流予測のデータと結果の関係を捉えていない。 本稿では,このギャップを埋めるために,観測データとラベル情報の両方を組み込むことにより,MOF予測のための分類器誘導逆数計算ネットワーク(Classifier-GAIN)を提案する。 特に、分類器は、ジェネレータ(インプタ)から入力された値を受け取り、タスクの結果を予測し、共同トレーニングによりジェネレータに追加の監視信号を提供する。 分類器ガイドジェネレータは、トレーニング中にラベル認識の欠落を示唆し、推論時の分類器の性能を向上させる。 我々は、我々のアプローチが、欠落したデータシナリオと評価指標の範囲で、古典的および最先端の神経ベースラインを一貫して上回ることを示す広範な実験を行う。

Multiple organ failure (MOF) is a severe syndrome with a high mortality rate among Intensive Care Unit (ICU) patients. Early and precise detection is critical for clinicians to make timely decisions. An essential challenge in applying machine learning models to electronic health records (EHRs) is the pervasiveness of missing values. Most existing imputation methods are involved in the data preprocessing phase, failing to capture the relationship between data and outcome for downstream predictions. In this paper, we propose classifier-guided generative adversarial imputation networks Classifier-GAIN) for MOF prediction to bridge this gap, by incorporating both observed data and label information. Specifically, the classifier takes imputed values from the generator(imputer) to predict task outcomes and provides additional supervision signals to the generator by joint training. The classifier-guide generator imputes missing values with label-awareness during training, improving the classifier's performance during inference. We conduct extensive experiments showing that our approach consistently outperforms classical and state-of-art neural baselines across a range of missing data scenarios and evaluation metrics.
翻訳日:2021-06-23 18:44:56 公開日:2021-06-22
# (参考訳) 任意遅延に対する非同期確率最適化ロバスト [全文訳有]

Asynchronous Stochastic Optimization Robust to Arbitrary Delays ( http://arxiv.org/abs/2106.11879v1 )

ライセンス: CC BY 4.0
Alon Cohen, Amit Daniely, Yoel Drori, Tomer Koren, Mariano Schain(参考訳) 遅延勾配による確率的最適化を考えると、ステップ$t$ の各段階で、アルゴリズムは、任意の遅延$d_t$ に対して、ステップ$t - d_t$ から古い確率的勾配を使用して更新する。 この設定は、中央サーバがワーカマシンによって計算された勾配更新を受け取る非同期分散最適化を抽象化する。 これらのマシンは、時間とともに大きく変化する計算と通信の負荷を経験できる。 一般的な非凸スムーズな最適化設定では、$O( \sigma^2/\epsilon^4 + \tau/\epsilon^2 )$ steps for find a $\epsilon$-stationar y point $x$, where $\tau$ is the \emph{average} delay $\smash{\frac{1}{T}\sum_{t=1}^T d_t}$および$\sigma^2$は確率勾配の分散である。 これは従来の研究よりも改善され、確率勾配が同じ速度を達成するが、特に異種分散システムにおける平均遅延よりもかなり大きい 'emph{maximal} delay $\max_{t} d_t$ についても同様であることを示した。 本実験は遅延分布が歪んだり重みを付けたりした場合のアルゴリズムの有効性と頑健性を示す。

We consider stochastic optimization with delayed gradients where, at each time step $t$, the algorithm makes an update using a stale stochastic gradient from step $t - d_t$ for some arbitrary delay $d_t$. This setting abstracts asynchronous distributed optimization where a central server receives gradient updates computed by worker machines. These machines can experience computation and communication loads that might vary significantly over time. In the general non-convex smooth optimization setting, we give a simple and efficient algorithm that requires $O( \sigma^2/\epsilon^4 + \tau/\epsilon^2 )$ steps for finding an $\epsilon$-stationar y point $x$, where $\tau$ is the \emph{average} delay $\smash{\frac{1}{T}\sum_{t=1}^T d_t}$ and $\sigma^2$ is the variance of the stochastic gradients. This improves over previous work, which showed that stochastic gradient decent achieves the same rate but with respect to the \emph{maximal} delay $\max_{t} d_t$, that can be significantly larger than the average delay especially in heterogeneous distributed systems. Our experiments demonstrate the efficacy and robustness of our algorithm in cases where the delay distribution is skewed or heavy-tailed.
翻訳日:2021-06-23 18:24:03 公開日:2021-06-22
# (参考訳) 可視化:物理インフォームドデータ拡張によるデータ駆動型地震インバージョン [全文訳有]

Making Invisible Visible: Data-Driven Seismic Inversion with Physics-Informed Data Augmentation ( http://arxiv.org/abs/2106.11892v1 )

ライセンス: CC BY 4.0
Yuxin Yang (1 and 2), Xitong Zhang (1 and 3), Qiang Guan (2), Youzuo Lin (1) ((1) Earth and Environmental Sciences Division, Los Alamos National Laboratory, (2) Department of Computer Science, Kent State University, (3) Department of Computational Mathematics, Science and Engineering, Michigan State University)(参考訳) ディープラーニングとデータ駆動アプローチは、科学的領域において大きな可能性を示しています。 データ駆動技術の約束は、大量の高品質なトレーニングデータセットが利用可能であることに依存している。 高価な物理実験、機器、シミュレーションを通じてデータを取得するコストが高いため、近年、科学応用のためのデータ拡張技術が科学データを得るための新しい方向として登場した。 しかし、コンピュータビジョンに由来する既存のデータ拡張技術は、私たちが関心を持つドメイン問題には役に立たない物理的に受け入れられないデータサンプルを生み出します。 本稿では,畳み込みニューラルネットワークを用いた新しい物理情報拡張手法を提案する。 特に、生成モデルは、合成データの質を改善するために、異なる物理知識(制御方程式、観測可能な知覚、物理現象など)を利用する。 本研究では,データ拡張手法の有効性を検証するために,co$_2$リークデータを用いた地中地震波フルウェーブフォームインバージョン法を適用した。 我々の関心は、極小のco$_2$リークを伴う地下速度モデルに逆戻りすることである。 本手法の有効性を総合的な数値テストを用いて検証する。 比較と解析により,物理インフォームドデータ拡張技術を用いて,データ駆動型地震イメージングを著しく向上させることができることを示す。 特に,本手法で得られた拡張学習セットを用いた場合,画像品質は,一般大規模漏洩テストシナリオでは15%向上し,小型リークでは17%向上した。

Deep learning and data-driven approaches have shown great potential in scientific domains. The promise of data-driven techniques relies on the availability of a large volume of high-quality training datasets. Due to the high cost of obtaining data through expensive physical experiments, instruments, and simulations, data augmentation techniques for scientific applications have emerged as a new direction for obtaining scientific data recently. However, existing data augmentation techniques originating from computer vision, yield physically unacceptable data samples that are not helpful for the domain problems that we are interested in. In this paper, we develop new physics-informed data augmentation techniques based on convolutional neural networks. Specifically, our generative models leverage different physics knowledge (such as governing equations, observable perception, and physics phenomena) to improve the quality of the synthetic data. To validate the effectiveness of our data augmentation techniques, we apply them to solve a subsurface seismic full-waveform inversion using simulated CO$_2$ leakage data. Our interest is to invert for subsurface velocity models associated with very small CO$_2$ leakage. We validate the performance of our methods using comprehensive numerical tests. Via comparison and analysis, we show that data-driven seismic imaging can be significantly enhanced by using our physics-informed data augmentation techniques. Particularly, the imaging quality has been improved by 15% in test scenarios of general-sized leakage and 17% in small-sized leakage when using an augmented training set obtained with our techniques.
翻訳日:2021-06-23 17:56:09 公開日:2021-06-22
# (参考訳) PALMAR:ポイントクラウド技術における適応型多人数活動認識を目指して [全文訳有]

PALMAR: Towards Adaptive Multi-inhabitant Activity Recognition in Point-Cloud Technology ( http://arxiv.org/abs/2106.11902v1 )

ライセンス: CC BY-SA 4.0
Mohammad Arif Ul Alam, Md Mahmudur Rahman, Jared Q Widberg(参考訳) ディープニューラルネットワークとコンピュータビジョンに基づくヒューマンアクティビティ認識の進歩により、ポイントクラウドデータ技術(LiDAR、mmWave)の利用は、プライバシー保護の性質から多くの関心を集めている。 精度の高いPCD技術の実現を前提として,効率的な信号処理と新しい機械学習技術を用いた多人数行動認識システムPALMARを開発し,適応型多人数追跡・HARシステムの開発に向けた個人追跡を行う。 より具体的には、voxelized feature representation-based real-time pcd fine-tuning method, (ii) efficient clustering (dbscan and birch), adaptive order hidden markov model based multi-person tracking and cross-over ambiguity reduction technique, (iii) novel adaptive deep learning-based domain adapt technique to improve the accuracy of har in presence of data scarcity and diversity (device, location and population diversity)を提案する。 We experimentally evaluate our framework and systems using (i) a real-time PCD collected by three devices (3D LiDAR and 79 GHz mmWave) from 6 participants, (ii) one publicly available 3D LiDAR activity data (28 participants) and (iii) an embedded hardware prototype system which provided promising HAR performances in multi-inhabitants (96%) scenario with a 63% improvement of multi-person tracking than state-of-art framework without losing significant system performances in the edge computing device.

With the advancement of deep neural networks and computer vision-based Human Activity Recognition, employment of Point-Cloud Data technologies (LiDAR, mmWave) has seen a lot interests due to its privacy preserving nature. Given the high promise of accurate PCD technologies, we develop, PALMAR, a multiple-inhabitant activity recognition system by employing efficient signal processing and novel machine learning techniques to track individual person towards developing an adaptive multi-inhabitant tracking and HAR system. More specifically, we propose (i) a voxelized feature representation-based real-time PCD fine-tuning method, (ii) efficient clustering (DBSCAN and BIRCH), Adaptive Order Hidden Markov Model based multi-person tracking and crossover ambiguity reduction techniques and (iii) novel adaptive deep learning-based domain adaptation technique to improve the accuracy of HAR in presence of data scarcity and diversity (device, location and population diversity). We experimentally evaluate our framework and systems using (i) a real-time PCD collected by three devices (3D LiDAR and 79 GHz mmWave) from 6 participants, (ii) one publicly available 3D LiDAR activity data (28 participants) and (iii) an embedded hardware prototype system which provided promising HAR performances in multi-inhabitants (96%) scenario with a 63% improvement of multi-person tracking than state-of-art framework without losing significant system performances in the edge computing device.
翻訳日:2021-06-23 17:35:36 公開日:2021-06-22
# (参考訳) 教師なし領域適応のための分離解離の強化 [全文訳有]

Enhanced Separable Disentanglement for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.11915v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) ドメイン適応は、既存のラベル付きドメインから新しいドメインに知識を移す際のドメインギャップを軽減することを目的としています。 しかし、既存のアンタングルメントに基づく手法は、ドメイン不変性とドメイン固有の特徴の分離を完全には考慮していない。 復元された特徴は訓練中も十分に使われていない。 本稿では,新しい拡張分離性不等角化(esd)モデルを提案する。 まず、ドメイン不変およびドメイン特有な特徴を蒸留するために、アンタングルを用いる。 次に,領域不変性とドメイン固有特徴との間の汚染を最小限に抑えるために,特徴分離強化プロセスを適用する。 最後に,本モデルでは,トレーニング期間中にさらに絡み合うような完全特徴ベクトルを再構成する。 3つのベンチマークデータセットによる広範な実験は、最先端のメソッド、特にクロスドメインタスクの挑戦よりも優れている。

Domain adaptation aims to mitigate the domain gap when transferring knowledge from an existing labeled domain to a new domain. However, existing disentanglement-base d methods do not fully consider separation between domain-invariant and domain-specific features, which means the domain-invariant features are not discriminative. The reconstructed features are also not sufficiently used during training. In this paper, we propose a novel enhanced separable disentanglement (ESD) model. We first employ a disentangler to distill domain-invariant and domain-specific features. Then, we apply feature separation enhancement processes to minimize contamination between domain-invariant and domain-specific features. Finally, our model reconstructs complete feature vectors, which are used for further disentanglement during the training phase. Extensive experiments from three benchmark datasets outperform state-of-the-art methods, especially on challenging cross-domain tasks.
翻訳日:2021-06-23 17:16:37 公開日:2021-06-22
# (参考訳) 深部物体検出におけるラベリングコスト削減に向けて [全文訳有]

Towards Reducing Labeling Cost in Deep Object Detection ( http://arxiv.org/abs/2106.11921v1 )

ライセンス: CC BY 4.0
Ismail Elezi, Zhiding Yu, Anima Anandkumar, Laura Leal-Taixe, Jose M. Alvarez(参考訳) ディープニューラルネットワークは、オブジェクト検出において非常に高い精度に達したが、その成功は大量のラベル付きデータに基づいている。 ラベルへの依存を減らすため、検出器の信頼性に基づいた様々なアクティブラーニング戦略が提案されている。 しかし、これらのメソッドは最もパフォーマンスの高いクラスに偏りがあり、テストセット内のデータの適切な代表でない取得データセットに繋がる可能性がある。 本研究では,検知器の不確実性と頑健性の両方を考慮し,ネットワークがすべてのクラスで正確に動作することを保証する,アクティブラーニングのための統一フレームワークを提案する。 さらに, モデルの性能をさらに高めつつ, 潜在的分布ドリフトを抑制することにより, 非常に自信のある予測を疑似ラベル付けすることができる。 実験により,本手法はpascal voc07+12およびms-cocoの幅広いアクティブラーニング手法を包括的に上回り,7.7%の相対的改善,最大82%のラベリングコスト削減を実現した。

Deep neural networks have reached very high accuracy on object detection but their success hinges on large amounts of labeled data. To reduce the dependency on labels, various active-learning strategies have been proposed, typically based on the confidence of the detector. However, these methods are biased towards best-performing classes and can lead to acquired datasets that are not good representatives of the data in the testing set. In this work, we propose a unified framework for active learning, that considers both the uncertainty and the robustness of the detector, ensuring that the network performs accurately in all classes. Furthermore, our method is able to pseudo-label the very confident predictions, suppressing a potential distribution drift while further boosting the performance of the model. Experiments show that our method comprehensively outperforms a wide range of active-learning methods on PASCAL VOC07+12 and MS-COCO, having up to a 7.7% relative improvement, or up to 82% reduction in labeling cost.
翻訳日:2021-06-23 17:06:10 公開日:2021-06-22
# (参考訳) 熱源系の温度場再構成のための物理インフォームド深可逆回帰モデル [全文訳有]

Physics-Informed Deep Reversible Regression Model for Temperature Field Reconstruction of Heat-Source Systems ( http://arxiv.org/abs/2106.11929v1 )

ライセンス: CC0 1.0
Zhiqiang Gong and Weien Zhou and Jun Zhang and Wei Peng and Wen Yao(参考訳) 工学系における熱源成分の寿命における温度モニタリングは、熱源の通常の作業や長時間の作業時間を保証するために必須となる。 しかし、主に補間推定を用いる従来の方法は、正確な推定のために大量の温度テンソルを必要とする。 そこで本研究では, 温度場再構成のための新しい物理インフォームド深層サーロゲートモデルを開発した。 まず,熱源系の温度場再構築タスクを定義する。 そこで本研究では,提案課題に対する深い代理モデルマッピングを開発する。 最後に, 熱伝達の物理的性質を考慮し, 4つの異なる損失を提案し, ジョイントがこれらの損失について深いサロゲートモデルを学ぶ。 代表的な2次元熱源システムを用いて, 温度場再構成のための物理式深部サーロゲートモデルの有効性と効率を実証する実験を行った。

Temperature monitoring during the life time of heat-source components in engineering systems becomes essential to ensure the normal work and even the long working life of the heat sources. However, prior methods, which mainly use the interpolate estimation, require large amounts of temperature tensors for an accurate estimation. To solve this problem, this work develops a novel physics-informed deep surrogate models for temperature field reconstruction. First, we defines the temperature field reconstruction task of heat-source systems. Then, this work develops the deep surrogate model mapping for the proposed task. Finally, considering the physical properties of heat transfer, this work proposes four different losses and joint learns the deep surrogate model with these losses. Experimental studies have conducted over typical two-dimensional heat-source systems to demonstrate the effectiveness and efficiency of the proposed physics-informed deep surrogate models for temperature field reconstruction.
翻訳日:2021-06-23 16:51:51 公開日:2021-06-22
# (参考訳) スパーシスタントモデルの発見 [全文訳有]

Sparsistent Model Discovery ( http://arxiv.org/abs/2106.11936v1 )

ライセンス: CC BY 4.0
Georges Tod and Gert-Jan Both and Remy Kusters(参考訳) 非常に限られた観測から時空間データセットの下の偏微分方程式を発見することは、多くの科学分野において最重要となる。 しかし、スパース回帰に基づくモデル発見アルゴリズムが実際に基盤となる物理プロセスを回復できるかどうかを知ることは、まだ未解決の問題である。 我々は、Lassoベースのモデル発見アルゴリズムの性能の貧弱さを、その潜在的な変数選択の不整合に遡る:つまり、真のモデルがライブラリに存在するとしても、それは選択されないかもしれない。 まず、ラッソの不表現性条件(IRC)を再考することにより、この現象がいつ起こるかを知ることができる。 次に、適応的なLassoは、LassoよりもIRCを検証する可能性が高く、安定性の選択とエラー制御を備えたディープラーニングモデル発見フレームワークに統合することを提案する。 実験結果から, ノイズレベルの高いサンプルから, 単一のハイパーパラメータセットで複数の非線形・カオス正準pdesを回収できることがわかった。

Discovering the partial differential equations underlying a spatio-temporal datasets from very limited observations is of paramount interest in many scientific fields. However, it remains an open question to know when model discovery algorithms based on sparse regression can actually recover the underlying physical processes. We trace back the poor of performance of Lasso based model discovery algorithms to its potential variable selection inconsistency: meaning that even if the true model is present in the library, it might not be selected. By first revisiting the irrepresentability condition (IRC) of the Lasso, we gain some insights of when this might occur. We then show that the adaptive Lasso will have more chances of verifying the IRC than the Lasso and propose to integrate it within a deep learning model discovery framework with stability selection and error control. Experimental results show we can recover several nonlinear and chaotic canonical PDEs with a single set of hyperparameters from a very limited number of samples at high noise levels.
翻訳日:2021-06-23 16:33:07 公開日:2021-06-22
# (参考訳) ロバスト回帰を再考:加速と予測率の改善

Robust Regression Revisited: Acceleration and Improved Estimation Rates ( http://arxiv.org/abs/2106.11938v1 )

ライセンス: CC BY 4.0
Arun Jambulapati, Jerry Li, Tselil Schramm, Kevin Tian(参考訳) 本研究では, 一般線形モデル (glm) を近似的に最適化することを目的とした, 強い汚染モデルの下での統計回帰問題に対する高速アルゴリズムについて検討した。 この系統の研究の以前の成果はプラサードらの強靭な勾配降下フレームワークに基づいていた。 al., バイアス勾配クエリを用いた一階述語法, あるいはダイアコニコラスのSeverフレームワークなど。 al. – 定常点ファインダを呼び出す反復的外乱除去法。 本稿では,実行時や推定保証を改良した頑健な回帰問題に対するほぼ線形時間アルゴリズムを提案する。 滑らかな GLM の一般の場合(例) 対物回帰(ロジスティック回帰)はプラサード等の頑健な勾配降下フレームワークを示す。 アル アルゴリズムは、リプシッツglmのモローエンベロープ(例えば)を最適化するために拡張される。 文学におけるいくつかのオープンな質問に答えるベクトルマシンのサポート。 頑健な線形回帰をよく研究する場合には,従来のニア線形時間アルゴリズムよりも高い推定率を得る方法を提案する。 興味深いことに,本手法は,Bakshi と Prasad の2乗和アルゴリズム(sum-of-squares algorithm)の文脈で導入された同定可能性証明から始まる。 我々はこれらの証明をSeverフレームワーク内で再解釈し、より少ない分布仮定の下で劇的に高速でよりサンプル効率の高いアルゴリズムを得る。

We study fast algorithms for statistical regression problems under the strong contamination model, where the goal is to approximately optimize a generalized linear model (GLM) given adversarially corrupted samples. Prior works in this line of research were based on the robust gradient descent framework of Prasad et. al., a first-order method using biased gradient queries, or the Sever framework of Diakonikolas et. al., an iterative outlier-removal method calling a stationary point finder. We present nearly-linear time algorithms for robust regression problems with improved runtime or estimation guarantees compared to the state-of-the-art. For the general case of smooth GLMs (e.g. logistic regression), we show that the robust gradient descent framework of Prasad et. al. can be accelerated, and show our algorithm extends to optimizing the Moreau envelopes of Lipschitz GLMs (e.g. support vector machines), answering several open questions in the literature. For the well-studied case of robust linear regression, we present an alternative approach obtaining improved estimation rates over prior nearly-linear time algorithms. Interestingly, our method starts with an identifiability proof introduced in the context of the sum-of-squares algorithm of Bakshi and Prasad, which achieved optimal error rates while requiring large polynomial runtime and sample complexity. We reinterpret their proof within the Sever framework and obtain a dramatically faster and more sample-efficient algorithm under fewer distributional assumptions.
翻訳日:2021-06-23 16:30:05 公開日:2021-06-22
# (参考訳) rootpainter3d: インタラクティブ・マシン・ラーニングによる放射線治療の迅速かつ正確な構築 [全文訳有]

RootPainter3D: Interactive-machine- learning enables rapid and accurate contouring for radiotherapy ( http://arxiv.org/abs/2106.11942v1 )

ライセンス: CC BY 4.0
Abraham George Smith, Jens Petersen, Cynthia Terrones-Campos, Anne Kiil Berthelsen, Nora Jarrett Forbes, Sune Darkner, Lena Specht, and Ivan Richter Vogelius(参考訳) 臓器・リスクコントーリングは依然として放射線治療のボトルネックであり、多くの深層学習法は臨床データで評価すると約束された結果に届かない。 本研究では,対話型機械学習手法による臓器・リスク調整作業の精度と省時間性について検討する。 我々はこの手法をeclipse contouringソフトウェアと比較し、手動記述と強い一致を示し、diceスコアは0.95である。 修正注釈を使って作成されたアノテーションは、より多くの画像に注釈を付ければ作成する時間も少なくなるため、手作業の方法に比べてかなりの時間節約が可能で、手作業で923枚の画像が区切られた後、平均で2分2秒かかるハートは、手作業で区切られた場合の7分1秒に比較して、平均的に区切られている。 本実験は,非計算機科学者がディープラーニングモデルを訓練することで,日常的な臨床ワークフローの一部として自身の興味のある構造を分割できる,高速でアクセス可能な方法を提供することを実証する。 ソースコードは \href{https://github.com/A be404/RootPainter3D}{this HTTPS URL} で入手できる。

Organ-at-risk contouring is still a bottleneck in radiotherapy, with many deep learning methods falling short of promised results when evaluated on clinical data. We investigate the accuracy and time-savings resulting from the use of an interactive-machine- learning method for an organ-at-risk contouring task. We compare the method to the Eclipse contouring software and find strong agreement with manual delineations, with a dice score of 0.95. The annotations created using corrective-annotatio n also take less time to create as more images are annotated, resulting in substantial time savings compared to manual methods, with hearts that take 2 minutes and 2 seconds to delineate on average, after 923 images have been delineated, compared to 7 minutes and 1 seconds when delineating manually. Our experiment demonstrates that interactive-machine- learning with corrective-annotatio n provides a fast and accessible way for non computer-scientists to train deep-learning models to segment their own structures of interest as part of routine clinical workflows. Source code is available at \href{https://github.com/A be404/RootPainter3D}{this HTTPS URL}.
翻訳日:2021-06-23 16:28:55 公開日:2021-06-22
# (参考訳) グループワイドヘテロスケダスティック性を用いたランクワン行列推定 [全文訳有]

Rank-one matrix estimation with groupwise heteroskedasticity ( http://arxiv.org/abs/2106.11950v1 )

ライセンス: CC BY 4.0
Joshua K. Behne and Galen Reeves(参考訳) 本研究では,異なるノイズレベル下で行列の異なるブロックが観測されるガウス観測からランク1行列を推定する問題について検討する。 この問題はクラスタリングやコミュニティ検出のアプリケーションによって動機付けられており、潜伏変数は一定の数の既知のグループ(例えば、ユーザとアイテム)に分割でき、行列のブロックは異なる種類のペアワイズ相互作用(例えば、ユーザとイテム、アイテムとイテムの相互作用)に対応する。 ブロック数を固定し変数数が無限になる傾向がある設定では、行列と潜在変数の両方の推定において最小平均二乗誤差に対する漸近的に厳密な公式が証明される。 これらの式は、問題の弱い回復閾値を記述し、ノイズ分散の特定のスケーリングに関する不変性を明らかにする。 また、近似メッセージパッシングアルゴリズムと勾配降下アルゴリズムを導出し、これらのアルゴリズムが特定の状況における情報理論的限界を達成することを実証的に示す。

We study the problem of estimating a rank-one matrix from Gaussian observations where different blocks of the matrix are observed under different noise levels. This problem is motivated by applications in clustering and community detection where latent variables can be partitioned into a fixed number of known groups (e.g., users and items) and the blocks of the matrix correspond to different types of pairwise interactions (e.g., user-user, user-item, or item-item interactions). In the setting where the number of blocks is fixed while the number of variables tends to infinity, we prove asymptotically exact formulas for the minimum mean-squared error in estimating both the matrix and the latent variables. These formulas describe the weak recovery thresholds for the problem and reveal invariance properties with respect to certain scalings of the noise variance. We also derive an approximate message passing algorithm and a gradient descent algorithm and show empirically that these algorithms achieve the information-theoreti c limits in certain regimes.
翻訳日:2021-06-23 16:08:49 公開日:2021-06-22
# LV-BERT:BERTの爆発層

LV-BERT: Exploiting Layer Variety for BERT ( http://arxiv.org/abs/2106.11740v1 )

ライセンス: Link先を確認
Weihao Yu, Zihang Jiang, Fei Chen, Qibin Hou and Jiashi Feng(参考訳) 現代の事前学習言語モデルは、主に自己注意層とフィードフォワード層をインターリーブ順序で積み重ねたバックボーン上に構築されている。 本稿では,このステレオタイプ層パターン以外にも,レイヤタイプセットとレイヤオーダーという2つの側面から,レイヤの多様性を活用することで,事前学習モデルの改善を目指す。 具体的には, 初期自己付着層とフィードフォワード層に加えて, 事前学習モデルに有益であることが実験的に判明した層型集合に畳み込みを導入する。 さらに、もともとのインターリーブド・オーダーを超えて、より強力なアーキテクチャを見つけるために、より多くのレイヤオーダを探索する。 しかし、導入されたレイヤーの多様性は数十億以上の候補からなる大きなアーキテクチャ空間に繋がるが、単一の候補モデルをスクラッチからトレーニングするには膨大な計算コストが必要であり、大量の候補モデルを直接トレーニングすることで、そのような空間を検索するのは手頃ではない。 この問題を解決するために,まず,すべての候補モデルの重みを継承可能なスーパーネットを事前学習し,事前学習精度を導いた進化的アルゴリズムを適用して最適なアーキテクチャを求める。 実験の結果,提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れていた。 例えば、LV-BERT-smallはGLUEテストセットで78.8で、強いベースラインELECTRA-smallよりも1.8高い。

Modern pre-trained language models are mostly built upon backbones stacking self-attention and feed-forward layers in an interleaved order. In this paper, beyond this stereotyped layer pattern, we aim to improve pre-trained models by exploiting layer variety from two aspects: the layer type set and the layer order. Specifically, besides the original self-attention and feed-forward layers, we introduce convolution into the layer type set, which is experimentally found beneficial to pre-trained models. Furthermore, beyond the original interleaved order, we explore more layer orders to discover more powerful architectures. However, the introduced layer variety leads to a large architecture space of more than billions of candidates, while training a single candidate model from scratch already requires huge computation cost, making it not affordable to search such a space by directly training large amounts of candidate models. To solve this problem, we first pre-train a supernet from which the weights of all candidate models can be inherited, and then adopt an evolutionary algorithm guided by pre-training accuracy to find the optimal architecture. Extensive experiments show that LV-BERT model obtained by our method outperforms BERT and its variants on various downstream tasks. For example, LV-BERT-small achieves 78.8 on the GLUE testing set, 1.8 higher than the strong baseline ELECTRA-small.
翻訳日:2021-06-23 15:17:32 公開日:2021-06-22
# 動的グラフ予測のための連続深度ニューラルモデル

Continuous-Depth Neural Models for Dynamic Graph Prediction ( http://arxiv.org/abs/2106.11581v1 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Clayton M. Rabideau, Junyoung Park, Atsushi Yamashita, Hajime Asama, Jinkyoo Park(参考訳) 本稿では,連続深度グラフニューラルネットワーク(GNN)の枠組みを紹介する。 神経グラフ微分方程式 (neural gdes) は、gnn 層の連続体によって入出力関係が決定される gnn に対応するものとして形式化され、離散位相構造と微分方程式が混合される。 提案フレームワークは静的GNNモデルと互換性があり,ハイブリッド力学系理論により動的および確率的設定に拡張されている。 ここでは、Neural GDEは基礎となる動的幾何を利用してパフォーマンスを改善し、さらに不規則にサンプリングされたデータに適応する機能を導入する。 その結果, 遺伝的規制ネットワークにおけるトラヒック予測や予測など, アプリケーション間における提案モデルの有効性が実証された。

We introduce the framework of continuous-depth graph neural networks (GNNs). Neural graph differential equations (Neural GDEs) are formalized as the counterpart to GNNs where the input-output relationship is determined by a continuum of GNN layers, blending discrete topological structures and differential equations. The proposed framework is shown to be compatible with static GNN models and is extended to dynamic and stochastic settings through hybrid dynamical system theory. Here, Neural GDEs improve performance by exploiting the underlying dynamics geometry, further introducing the ability to accommodate irregularly sampled data. Results prove the effectiveness of the proposed models across applications, such as traffic forecasting or prediction in genetic regulatory networks.
翻訳日:2021-06-23 15:16:47 公開日:2021-06-22
# 境界効果による部分的・完全整合設定のアルゴリズム的考察

Algorithmic Recourse in Partially and Fully Confounded Settings Through Bounding Counterfactual Effects ( http://arxiv.org/abs/2106.11849v1 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Nikita Agarwal, Jakob Zeitler, Afsaneh Mastouri, Bernhard Sch\"olkopf(参考訳) algorithmic recourseは、個人にアクション可能なレコメンデーションを提供し、自動化された意思決定システムからより好ましい結果を得る。 物理的な世界で行われる介入を推論することを含むので、リアクションは基本的に因果問題である。 既設の手法では,隠れた共起や付加雑音などのモデル仮定の仮定の下で,データから学習した因果モデルを用いてリコース動作の効果を計算する。 バルケ・アンド・パール(1994)のセミナルな研究に基づいて、これらの仮定を緩和し、観測不能な共役と任意の構造方程式を許容する離散確率変数に対する別のアプローチを提案する。 提案手法は因果グラフの仕様と連結構造のみが必要であり、帰納行動の期待反事実効果を限定する。 下限が一定の閾値を超えている場合、すなわち、決定境界の反対側では、期待通りに再帰が保証される。

Algorithmic recourse aims to provide actionable recommendations to individuals to obtain a more favourable outcome from an automated decision-making system. As it involves reasoning about interventions performed in the physical world, recourse is fundamentally a causal problem. Existing methods compute the effect of recourse actions using a causal model learnt from data under the assumption of no hidden confounding and modelling assumptions such as additive noise. Building on the seminal work of Balke and Pearl (1994), we propose an alternative approach for discrete random variables which relaxes these assumptions and allows for unobserved confounding and arbitrary structural equations. The proposed approach only requires specification of the causal graph and confounding structure and bounds the expected counterfactual effect of recourse actions. If the lower bound is above a certain threshold, i.e., on the other side of the decision boundary, recourse is guaranteed in expectation.
翻訳日:2021-06-23 15:16:35 公開日:2021-06-22
# 最近の深層半教師あり学習手法と関連研究

Recent Deep Semi-supervised Learning Approaches and Related Works ( http://arxiv.org/abs/2106.11528v1 )

ライセンス: Link先を確認
Gyeongho Kim(参考訳) 本研究の著者は,最近の半教師付き学習手法とその関連研究の概要を述べる。 様々なアプリケーションにおけるニューラルネットワークの顕著な成功にもかかわらず、大量のラベル付きデータを必要とするなど、恐ろしい制約はほとんど存在しない。 したがって、学習手法である半教師付き学習は、少ないラベルと大量のラベルのないデータが、モデル(例えばディープニューラルネットワーク)のトレーニングに利用されることの重要性が増している。 半教師付き学習の重要な前提として,多様体的仮定,クラスター的仮定,連続性仮定を基礎として,最近の半教師付き学習アプローチを概観する。 特に,半教師付き学習環境におけるディープニューラルネットワークの利用方法については,主に議論されている。 さらに、既存の作品は、まず基礎となる考えに基づいて分類し、説明し、上記の考えを統一する全体論的なアプローチを詳述する。

The author of this work proposes an overview of the recent semi-supervised learning approaches and related works. Despite the remarkable success of neural networks in various applications, there exist few formidable constraints including the need for a large amount of labeled data. Therefore, semi-supervised learning, which is a learning scheme in which the scarce labels and a larger amount of unlabeled data are utilized to train models (e.g., deep neural networks) is getting more important. Based on the key assumptions of semi-supervised learning, which are the manifold assumption, cluster assumption, and continuity assumption, the work reviews the recent semi-supervised learning approaches. In particular, the methods in regard to using deep neural networks in a semi-supervised learning setting are primarily discussed. In addition, the existing works are first classified based on the underlying idea and explained, and then the holistic approaches that unify the aforementioned ideas are detailed.
翻訳日:2021-06-23 15:15:49 公開日:2021-06-22
# SeqNetVLAD vs PointNetVLAD:日々の場所認識のための画像シーケンス対3次元点雲

SeqNetVLAD vs PointNetVLAD: Image Sequence vs 3D Point Clouds for Day-Night Place Recognition ( http://arxiv.org/abs/2106.11481v1 )

ライセンス: Link先を確認
Sourav Garg and Michael Milford(参考訳) 位置認識は移動ロボットのローカライゼーションとナビゲーションにとって重要な機能である。 画像ベースまたは視覚的位置認識(VPR)は、シーンの外観やカメラ視点が再訪時に大きく変化するため、難しい問題である。 近年,`sequential representations' ;'に基づくvpr手法が従来のシーケンススコア集計や単一画像ベース手法と比較して有望な結果を示している。 これらの取り組みと並行して、3Dポイントクラウドベースの位置認識も、ディープラーニングベースのポイントクラウド処理の進歩に続いて検討されている。 明示的な3d構造に基づく位置表現は、本質的にシーン構造を学習できるrgb画像のシーケンスに基づいて、暗黙の`spatial''表現よりも常に優れている。 この拡張抽象法では,これら2種類の手法を,場所を表す類似の ``metric span''' を考慮して比較する。 3dポイントクラウドベースメソッド(pointnetvlad)と画像シーケンスベースメソッド(seqnetなど)を比較し、その画像シーケンスベース手法のアプローチを示し、所定のメトリックスパンに対してポイントクラウドベースメソッドが達成するパフォーマンスを超越する可能性も示します。 これらの性能の変化は、入力センサーのデータ豊かさと、移動ロボットのデータ蓄積戦略の違いに起因する可能性がある。 appleとappleの完全な比較は、これら2つの異なるモダリティでは実現できないかもしれないが、提示された比較は、自動運転や拡張現実(ar)といったいくつかのアプリケーションに関連する、空間表現に関するより深い質問に答える方向への一歩を踏み出した。 ソースコードはhttps://github.com/o ravus/seqnet.com/。

Place Recognition is a crucial capability for mobile robot localization and navigation. Image-based or Visual Place Recognition (VPR) is a challenging problem as scene appearance and camera viewpoint can change significantly when places are revisited. Recent VPR methods based on ``sequential representations' ;' have shown promising results as compared to traditional sequence score aggregation or single image based techniques. In parallel to these endeavors, 3D point clouds based place recognition is also being explored following the advances in deep learning based point cloud processing. However, a key question remains: is an explicit 3D structure based place representation always superior to an implicit ``spatial'' representation based on sequence of RGB images which can inherently learn scene structure. In this extended abstract, we attempt to compare these two types of methods by considering a similar ``metric span'' to represent places. We compare a 3D point cloud based method (PointNetVLAD) with image sequence based methods (SeqNet and others) and showcase that image sequence based techniques approach, and can even surpass, the performance achieved by point cloud based methods for a given metric span. These performance variations can be attributed to differences in data richness of input sensors as well as data accumulation strategies for a mobile robot. While a perfect apple-to-apple comparison may not be feasible for these two different modalities, the presented comparison takes a step in the direction of answering deeper questions regarding spatial representations, relevant to several applications like Autonomous Driving and Augmented/Virtual Reality. Source code available publicly https://github.com/o ravus/seqNet.
翻訳日:2021-06-23 15:15:35 公開日:2021-06-22
# 言語モデルは一般化可能なコモンセンス推論を実行するか?

Do Language Models Perform Generalizable Commonsense Inference? ( http://arxiv.org/abs/2106.11533v1 )

ライセンス: Link先を確認
Peifeng Wang, Filip Ilievski, Muhao Chen, Xiang Ren(参考訳) 事前学習言語モデル(LM)がコモンセンス知識を符号化する証拠に触発された最近の研究は、コモンセンス知識グラフ(CKG)を自動生成するためにLMを適用している。 しかし、複数のckg、未知の関係、そして新しい実体への一般化に関する理解が欠如している。 本稿では, lmsの知識容量, 伝達性, 誘導性の観点から, 一般化可能なコモンセンス推論を行う能力を分析する。 1) LMは複数のCKGによって定義された異なるスキーマに適応できるが、新しい関係に一般化するための知識の再利用に失敗する。 2) lmsは未発見の被験者によく一般化するが,新規な対象にはあまり適応しない。 今後の研究は, LMからのコモンセンスマイニングの伝達性の向上と誘導について検討する。

Inspired by evidence that pretrained language models (LMs) encode commonsense knowledge, recent work has applied LMs to automatically populate commonsense knowledge graphs (CKGs). However, there is a lack of understanding on their generalization to multiple CKGs, unseen relations, and novel entities. This paper analyzes the ability of LMs to perform generalizable commonsense inference, in terms of knowledge capacity, transferability, and induction. Our experiments with these three aspects show that: (1) LMs can adapt to different schemas defined by multiple CKGs but fail to reuse the knowledge to generalize to new relations. (2) Adapted LMs generalize well to unseen subjects, but less so on novel objects. Future work should investigate how to improve the transferability and induction of commonsense mining from LMs.
翻訳日:2021-06-23 15:14:46 公開日:2021-06-22
# 会話依存を解決するための学習:会話質問回答のための一貫性学習フレームワーク

Learn to Resolve Conversational Dependency: A Consistency Training Framework for Conversational Question Answering ( http://arxiv.org/abs/2106.11575v1 )

ライセンス: Link先を確認
Gangwoo Kim, Hyunjae Kim, Jungsoo Park, Jaewoo Kang(参考訳) 会話質問応答(CQA)の主な課題の1つは、アナフォラやエリプシスのような会話依存を解決することである。 しかしながら、既存のアプローチでは依存関係の解決方法に関するQAモデルを明示的に訓練していないため、これらのモデルは人間の対話を理解するのに限られている。 本稿では,会話の文脈を理解する上でQAモデルの能力を高めるための新しいフレームワークであるExCorD (Explicit Guide onsolving Conversational Dependency)を提案する。 ExCorDはまず、会話履歴なしで理解できる自己完結した質問を生成し、その後、一貫性に基づく正規化器を用いて、元の質問と自己完結した質問のペアでQAモデルを訓練する。 実験では,既存のアプローチの限界に対処しながら,QuACでは1.2F1,CANARDでは5.2F1,QAモデルでは1.2F1に改善した。

One of the main challenges in conversational question answering (CQA) is to resolve the conversational dependency, such as anaphora and ellipsis. However, existing approaches do not explicitly train QA models on how to resolve the dependency, and thus these models are limited in understanding human dialogues. In this paper, we propose a novel framework, ExCorD (Explicit guidance on how to resolve Conversational Dependency) to enhance the abilities of QA models in comprehending conversational context. ExCorD first generates self-contained questions that can be understood without the conversation history, then trains a QA model with the pairs of original and self-contained questions using a consistency-based regularizer. In our experiments, we demonstrate that ExCorD significantly improves the QA models' performance by up to 1.2 F1 on QuAC, and 5.2 F1 on CANARD, while addressing the limitations of the existing approaches.
翻訳日:2021-06-23 15:14:32 公開日:2021-06-22
# マルチラベル画像分類のための多層意味表現ネットワーク

Multi-layered Semantic Representation Network for Multi-label Image Classification ( http://arxiv.org/abs/2106.11596v1 )

ライセンス: Link先を確認
Xiwen Qu, Hao Che, Jun Huang, Linchuan Xu, Xiao Zheng(参考訳) マルチラベル画像分類(MLIC)は,複数のラベルを画像に割り当てることを目的とした基本的で実践的な課題である。 近年、ラベルのセマンティクスを発見し、画像の意味表現を学ぶためにラベル相関をモデル化するディープ畳み込みニューラルネットワーク(CNN)に基づく多くのアプローチが提案されている。 本稿では,ラベル相関のモデル化と意味表現の学習の両方を改善し,この研究の方向性を述べる。 一方,各ラベルの局所的な意味論に加えて,複数のラベルが共有するグローバル意味論をさらに探究する。 一方、既存のアプローチは主にCNNの最後の畳み込み層で意味表現を学習する。 しかし、cnnの異なるレイヤーの画像表現は、異なるレベルや特徴のスケールをキャプチャし、異なる識別能力を有することが指摘されている。 そこで,複数の畳み込み層で意味表現を学ぶことを提案する。 そこで本稿では,ラベル相関をモデル化し,ラベルの局所的意味論とグローバル的意味論を両立する多層意味表現ネットワーク(MSRN)を設計し,複数の階層で学習する意味表現をアテンション機構によりガイドする。 VOC 2007、COCO、NUS-WIDE、Apparelを含む4つのベンチマークデータセットに対する大規模な実験は、提案されているMSRNの最先端モデルに対する競合性能を示している。

Multi-label image classification (MLIC) is a fundamental and practical task, which aims to assign multiple possible labels to an image. In recent years, many deep convolutional neural network (CNN) based approaches have been proposed which model label correlations to discover semantics of labels and learn semantic representations of images. This paper advances this research direction by improving both the modeling of label correlations and the learning of semantic representations. On the one hand, besides the local semantics of each label, we propose to further explore global semantics shared by multiple labels. On the other hand, existing approaches mainly learn the semantic representations at the last convolutional layer of a CNN. But it has been noted that the image representations of different layers of CNN capture different levels or scales of features and have different discriminative abilities. We thus propose to learn semantic representations at multiple convolutional layers. To this end, this paper designs a Multi-layered Semantic Representation Network (MSRN) which discovers both local and global semantics of labels through modeling label correlations and utilizes the label semantics to guide the semantic representations learning at multiple layers through an attention mechanism. Extensive experiments on four benchmark datasets including VOC 2007, COCO, NUS-WIDE, and Apparel show a competitive performance of the proposed MSRN against state-of-the-art models.
翻訳日:2021-06-23 15:14:12 公開日:2021-06-22
# データストリームを分類するクラスタリングベースのフレームワーク

A Clustering-based Framework for Classifying Data Streams ( http://arxiv.org/abs/2106.11823v1 )

ライセンス: Link先を確認
Xuyang Yan, Abdollah Homaifar, Mrinmoy Sarkar, Abenezer Girma, and Edward Tunstel(参考訳) データストリームの非定常性は、従来の機械学習技術に強く挑戦する。 データストリームを扱う従来の機械学習技術を拡張するためにいくつかのソリューションが提案されているが、これらのアプローチは初期ラベルセットを必要とするか、特別な設計パラメータに依存する。 クラス間の重複とデータストリームのラベル付けは、データストリームを分類する上で他の大きな課題となる。 本稿では,初期ラベルセットを使わずに非定常データストリームを処理するクラスタリングベースのデータストリーム分類フレームワークを提案する。 密度に基づくストリームクラスタリング手法を用いて動的しきい値で新しい概念をキャプチャし、データストリームから新しい概念を継続的に学習するための効果的なアクティブラベルクエリ戦略を導入する。 各クラスタのサブクラスタ構造は、クラス間の重複を処理するために探索される。 実験結果と定量的比較実験により,提案手法は既存手法よりも統計的に優れた性能,あるいは同等な性能を示すことが示された。

The non-stationary nature of data streams strongly challenges traditional machine learning techniques. Although some solutions have been proposed to extend traditional machine learning techniques for handling data streams, these approaches either require an initial label set or rely on specialized design parameters. The overlap among classes and the labeling of data streams constitute other major challenges for classifying data streams. In this paper, we proposed a clustering-based data stream classification framework to handle non-stationary data streams without utilizing an initial label set. A density-based stream clustering procedure is used to capture novel concepts with a dynamic threshold and an effective active label querying strategy is introduced to continuously learn the new concepts from the data streams. The sub-cluster structure of each cluster is explored to handle the overlap among classes. Experimental results and quantitative comparison studies reveal that the proposed method provides statistically better or comparable performance than the existing methods.
翻訳日:2021-06-23 15:13:47 公開日:2021-06-22
# グラフニューラルネットワークにおける説明の自動評価に向けて

Towards Automated Evaluation of Explanations in Graph Neural Networks ( http://arxiv.org/abs/2106.11864v1 )

ライセンス: Link先を確認
Vanya BK, Balaji Ganesan, Aniket Saxena, Devbrat Sharma, Arvind Agarwal(参考訳) 分かりやすい言葉でAIアプリケーションのエンドユーザにグラフニューラルネットワークの予測を説明することは、未解決の問題である。 特に,ユーザが説明を消費する方法に近い方法で,説明を自動的に評価する手法が十分に開発されていない。 近年のアプリケーション動向と実世界の問題における経験をもとに,GNN説明のための自動評価手法を提案する。

Explaining Graph Neural Networks predictions to end users of AI applications in easily understandable terms remains an unsolved problem. In particular, we do not have well developed methods for automatically evaluating explanations, in ways that are closer to how users consume those explanations. Based on recent application trends and our own experiences in real world problems, we propose automatic evaluation approaches for GNN Explanations.
翻訳日:2021-06-23 15:13:34 公開日:2021-06-22
# KaggleDBQA: テキストからSQLへのパーサの現実的な評価

KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers ( http://arxiv.org/abs/2106.11455v1 )

ライセンス: Link先を確認
Chia-Hsuan Lee, Oleksandr Polozov, Matthew Richardson(参考訳) データベース質問応答の目標は、さまざまなアプリケーションドメインにおける実際のリレーショナルデータベースの自然言語クエリを可能にすることである。 最近、SpiderやWikiSQLといった大規模データセットは、テキストからSQLへのパースのための新しいモデリング技術を促進し、ゼロショットの一般化を改善した。 本研究では,これらの技術が実用的展開を妨げている課題について検討する。 まず、ドメイン固有のデータ型、オリジナルのフォーマット、制約のない質問を含む、実際のwebデータベースの新しいクロスドメイン評価データセットであるkaggledbqaを提案する。 次に,テキストからSQLへのパーサの評価タスクの選択を実生活環境に適用する。 最後に、暗黙のドメイン知識の自然発生源であるデータベースドキュメントにより、ドメイン内評価タスクを増強します。 KaggleDBQAは、最先端のゼロショットパーサに挑戦するが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その精度が13.2%以上向上し、パフォーマンスが2倍になることを示す。

The goal of database question answering is to enable natural language querying of real-life relational databases in diverse application domains. Recently, large-scale datasets such as Spider and WikiSQL facilitated novel modeling techniques for text-to-SQL parsing, improving zero-shot generalization to unseen databases. In this work, we examine the challenges that still prevent these techniques from practical deployment. First, we present KaggleDBQA, a new cross-domain evaluation dataset of real Web databases, with domain-specific data types, original formatting, and unrestricted questions. Second, we re-examine the choice of evaluation tasks for text-to-SQL parsers as applied in real-life settings. Finally, we augment our in-domain evaluation task with database documentation, a naturally occurring source of implicit domain knowledge. We show that KaggleDBQA presents a challenge to state-of-the-art zero-shot parsers but a more realistic evaluation setting and creative use of associated database documentation boosts their accuracy by over 13.2%, doubling their performance.
翻訳日:2021-06-23 15:13:29 公開日:2021-06-22
# Repulsive Deep Ensembles are Bayesian

Repulsive Deep Ensembles are Bayesian ( http://arxiv.org/abs/2106.11642v1 )

ライセンス: Link先を確認
Francesco D'Angelo, Vincent Fortuin(参考訳) 深層アンサンブルは最近、概念の単純さと効率性によって、ディープラーニングコミュニティで人気を集めている。 しかし、勾配降下で独立に訓練されたアンサンブルメンバー間の機能的多様性を維持することは困難である。 これは、単一のモデルのパフォーマンスに収束するアンサンブルパフォーマンスの飽和など、より多くのアンサンブルメンバーを追加する際の病理につながる可能性がある。 さらに、これは予測の品質に影響を及ぼすだけでなく、アンサンブルの不確実性の推定にも影響を及ぼし、アウト・オブ・ディストリビューション・データの性能も向上する。 この制限は、異なるアンサンブルメンバーを同じ機能に崩壊させることによって克服できると仮定する。 この目的のために, ディープアンサンブルの更新規則において, カーネル化反発項を導入する。 この単純な修正は、メンバー間の多様性を強制し維持するだけでなく、さらに重要なことは、最大後の推論を適切なベイズ推論に変換することである。 すなわち,提案する反発型アンサンブルのトレーニングダイナミクスは,真後方のkl分岐のwasserstein勾配流に従うことを示した。 重みと関数空間における反発項を研究し,その性能を合成および実世界の予測タスクにおける標準アンサンブルおよびベイズ基準と比較した。

Deep ensembles have recently gained popularity in the deep learning community for their conceptual simplicity and efficiency. However, maintaining functional diversity between ensemble members that are independently trained with gradient descent is challenging. This can lead to pathologies when adding more ensemble members, such as a saturation of the ensemble performance, which converges to the performance of a single model. Moreover, this does not only affect the quality of its predictions, but even more so the uncertainty estimates of the ensemble, and thus its performance on out-of-distribution data. We hypothesize that this limitation can be overcome by discouraging different ensemble members from collapsing to the same function. To this end, we introduce a kernelized repulsive term in the update rule of the deep ensembles. We show that this simple modification not only enforces and maintains diversity among the members but, even more importantly, transforms the maximum a posteriori inference into proper Bayesian inference. Namely, we show that the training dynamics of our proposed repulsive ensembles follow a Wasserstein gradient flow of the KL divergence with the true posterior. We study repulsive terms in weight and function space and empirically compare their performance to standard ensembles and Bayesian baselines on synthetic and real-world prediction tasks.
翻訳日:2021-06-23 15:13:10 公開日:2021-06-22
# 保守的探索のための統一フレームワーク

A Unified Framework for Conservative Exploration ( http://arxiv.org/abs/2106.11692v1 )

ライセンス: Link先を確認
Yunchang Yang, Tianhao Wu, Han Zhong, Evrard Garcelon, Matteo Pirotta, Alessandro Lazaric, Liwei Wang, Simon S. Du(参考訳) 我々は, エージェントに最低限の基準方針の遂行を依頼される保守的制約を条件として, 盗賊と強化学習(RL)について検討する。 この設定は、デジタルマーケティング、ヘルスケア、生産、金融など、現実世界の領域に特に関係している。 マルチアームバンディットでは, 線形バンディットとタブ状RL, 特殊アルゴリズム, 理論的解析が提案されている。 本稿では,保守的バンディットとrlの統一的な枠組みについて述べる。本手法の中核となる手法は,ベースライン・ポリシーの運用から得られる必要な予算と十分な予算を計算することである。 下限に対して、我々のフレームワークは、非保存的な設定で下限を保守的な設定で新しい下限に変換するブラックボックス還元を与える。 我々は,保守的多腕バンディットに対する既存の下限を強化し,保守的線形バンディット,表型rl,低ランクmdpに対する新しい下限を得る。 上界に対して、我々のフレームワークは、ある非保守的な上信頼結合(UCB)アルゴリズムを、単純な解析で保守的なアルゴリズムに変換する。 多武装の包帯、線形包帯、および表状のRLの場合、我々の新しい上界は、非常に単純な分析で既存のものと一致または一致する。 また,保守的低位MDPに対する新たな上限も得られる。

We study bandits and reinforcement learning (RL) subject to a conservative constraint where the agent is asked to perform at least as well as a given baseline policy. This setting is particular relevant in real-world domains including digital marketing, healthcare, production, finance, etc. For multi-armed bandits, linear bandits and tabular RL, specialized algorithms and theoretical analyses were proposed in previous work. In this paper, we present a unified framework for conservative bandits and RL, in which our core technique is to calculate the necessary and sufficient budget obtained from running the baseline policy. For lower bounds, our framework gives a black-box reduction that turns a certain lower bound in the nonconservative setting into a new lower bound in the conservative setting. We strengthen the existing lower bound for conservative multi-armed bandits and obtain new lower bounds for conservative linear bandits, tabular RL and low-rank MDP. For upper bounds, our framework turns a certain nonconservative upper-confidence-bou nd (UCB) algorithm into a conservative algorithm with a simple analysis. For multi-armed bandits, linear bandits and tabular RL, our new upper bounds tighten or match existing ones with significantly simpler analyses. We also obtain a new upper bound for conservative low-rank MDP.
翻訳日:2021-06-23 15:12:52 公開日:2021-06-22
# プールセット分布シフトとノイズデータによるアクティブラーニング

Active Learning under Pool Set Distribution Shift and Noisy Data ( http://arxiv.org/abs/2106.11719v1 )

ライセンス: Link先を確認
Andreas Kirsch, Tom Rainforth, Yarin Gal(参考訳) よりラベル効率のよいディープラーニングには、アクティブラーニングが不可欠です。 ベイズアクティブラーニングは、モデルパラメータの不確かさを減少させるボールドに焦点を当てている。 しかし,BALDは,タスクに関係のないディストリビューションデータやジャンクデータに悩まされることが示される。 本稿では,プールセットの分布変化に対処するため, 予測予測情報ゲイン(EPIG)*について検討する。 EPIGは、プールセットの分布と異なるかもしれないテストデータ分布からサンプリングされた未ラベル*評価セット*上の*予測*の不確実性を減らす。 ベイズ型ニューラルネットワークのための新しいエピグバルド獲得関数は、テストデータ分布の密度が低い分散領域を含む、あらゆる場所でモデルの不確実性を低減するサンプルを選択する代わりに、テストデータ分布の性能を改善するためにサンプルを選択する。 本手法は,最先端のベイズアクティブラーニング手法を高次元データセット上で上回り,現状のベイズアクティブラーニング手法が失敗した場合の分散型ジャンクデータを回避する。

Active Learning is essential for more label-efficient deep learning. Bayesian Active Learning has focused on BALD, which reduces model parameter uncertainty. However, we show that BALD gets stuck on out-of-distribution or junk data that is not relevant for the task. We examine a novel *Expected Predictive Information Gain (EPIG)* to deal with distribution shifts of the pool set. EPIG reduces the uncertainty of *predictions* on an unlabelled *evaluation set* sampled from the test data distribution whose distribution might be different to the pool set distribution. Based on this, our new EPIG-BALD acquisition function for Bayesian Neural Networks selects samples to improve the performance on the test data distribution instead of selecting samples that reduce model uncertainty everywhere, including for out-of-distribution regions with low density in the test data distribution. Our method outperforms state-of-the-art Bayesian active learning methods on high-dimensional datasets and avoids out-of-distribution junk data in cases where current state-of-the-art methods fail.
翻訳日:2021-06-23 15:12:31 公開日:2021-06-22
# グラフ表現学習のための深い潜在空間モデル

A Deep Latent Space Model for Graph Representation Learning ( http://arxiv.org/abs/2106.11721v1 )

ライセンス: Link先を確認
Hanxuan Yang, Qingchao Kong, Wenji Mao(参考訳) グラフ表現学習は関係データモデリングの基本的な問題であり、多くの下流アプリケーションに恩恵をもたらす。 従来のベイズベースのグラフモデルと近年のディープラーニングベースのGNNは、実行不可能または解釈不可能に悩まされているため、非指向グラフのモデルの組み合わせは弱点を克服するために提案されている。 本稿では,実世界のグラフの大部分を有向グラフ(非有向グラフが特殊な場合である)として,従来の潜在変数ベース生成モデルをディープラーニングフレームワークに組み込むために,有向グラフのための深潜時空間モデル(DLSM)を提案する。 提案モデルは,階層的変動型オートエンコーダアーキテクチャによって階層的に接続されるグラフ畳み込みネットワーク(GCN)と確率デコーダからなる。 ノードランダム因子を用いた次数不均一性を特にモデル化することにより、我々のモデルはコミュニティ構造と次数不均一性の両方においてより良い解釈性を有する。 高速推論のために、確率的勾配変分ベイズ(sgvb)は従来のmcmc法よりもずっとスケーラブルな非イテレーティブ認識モデルを用いて採用されている。 実世界のデータセットを用いた実験により,提案モデルは,解釈可能なノード埋め込みを学習しながら,リンク予測とコミュニティ検出タスクの両方における最先端のパフォーマンスを実現する。 ソースコードはhttps://github.com/u pperr/DLSMで入手できる。

Graph representation learning is a fundamental problem for modeling relational data and benefits a number of downstream applications. Traditional Bayesian-based graph models and recent deep learning based GNN either suffer from impracticability or lack interpretability, thus combined models for undirected graphs have been proposed to overcome the weaknesses. As a large portion of real-world graphs are directed graphs (of which undirected graphs are special cases), in this paper, we propose a Deep Latent Space Model (DLSM) for directed graphs to incorporate the traditional latent variable based generative model into deep learning frameworks. Our proposed model consists of a graph convolutional network (GCN) encoder and a stochastic decoder, which are layer-wise connected by a hierarchical variational auto-encoder architecture. By specifically modeling the degree heterogeneity using node random factors, our model possesses better interpretability in both community structure and degree heterogeneity. For fast inference, the stochastic gradient variational Bayes (SGVB) is adopted using a non-iterative recognition model, which is much more scalable than traditional MCMC-based methods. The experiments on real-world datasets show that the proposed model achieves the state-of-the-art performances on both link prediction and community detection tasks while learning interpretable node embeddings. The source code is available at https://github.com/u pperr/DLSM.
翻訳日:2021-06-23 15:12:11 公開日:2021-06-22
# 金融サービスアプリケーションのための動的顧客埋め込み

Dynamic Customer Embeddings for Financial Service Applications ( http://arxiv.org/abs/2106.11880v1 )

ライセンス: Link先を確認
Nima Chitsazan, Samuel Sharpe, Dwipam Katariya, Qianyu Cheng, Karthik Rajasethupathy(参考訳) 金融サービス(FS)企業が劇的な技術主導の変革を経験したため、新しいデータストリームが利用可能になったことで、より包括的な顧客理解の機会が得られます。 我々は、顧客のデジタル活動と幅広い金融状況を活用するフレームワークであるdynamic customer embeddeds(dce)を提案し、fs業界における顧客の密接な表現を学習する。 本手法では,モバイルやWebのデジタルセッションにおける顧客行動やページビュー,セッション自体のシークエンシング,ログイン時の共通財務状況のスナップショットなどについて検討する。 1)次のデジタルセッションにおける顧客の意図,2)セッション後のコールセンタコールの確率,3)デジタルセッションが不正である確率の3つの予測問題において,実世界のデータを用いた顧客の埋め込みを検証した。 DCEは3つの下流問題で性能向上を示した。

As financial services (FS) companies have experienced drastic technology driven changes, the availability of new data streams provides the opportunity for more comprehensive customer understanding. We propose Dynamic Customer Embeddings (DCE), a framework that leverages customers' digital activity and a wide range of financial context to learn dense representations of customers in the FS industry. Our method examines customer actions and pageviews within a mobile or web digital session, the sequencing of the sessions themselves, and snapshots of common financial features across our organization at the time of login. We test our customer embeddings using real world data in three prediction problems: 1) the intent of a customer in their next digital session, 2) the probability of a customer calling the call centers after a session, and 3) the probability of a digital session to be fraudulent. DCE showed performance lift in all three downstream problems.
翻訳日:2021-06-23 15:11:30 公開日:2021-06-22
# ベイズ最適化による局所政策探索

Local policy search with Bayesian optimization ( http://arxiv.org/abs/2106.11899v1 )

ライセンス: Link先を確認
Sarah M\"uller, Alexander von Rohr, Sebastian Trimpe(参考訳) 強化学習(Reinforcement Learning, RL)は、環境との相互作用によって最適な政策を見つけることを目的とする。 したがって、複雑な振る舞いを学ぶには膨大な数のサンプルが必要です。 それにもかかわらず、体系的に推論し、積極的に情報的サンプルを選択する代わりに、局所探索のためのポリシー勾配はランダムな摂動から得られることが多い。 これらのランダムなサンプルは高い分散推定をもたらし、したがってサンプルの複雑さの点で最適である。 有益サンプルを積極的に選択することはベイズ最適化の核心であり、過去のサンプルから有益サンプルを推論するために目的の確率的サロゲートを構成する。 本稿では,両世界への参加を提案する。 対象関数とその勾配の確率モデルを用いたアルゴリズムを開発した。 このモデルに基づいて、アルゴリズムは勾配推定を改善するためにノイズの多いゼロ階のオラクルを問う場所を決定する。 得られたアルゴリズムは,既存のブラックボックスアルゴリズムと比較した,新しいタイプのポリシー探索手法である。 比較の結果, 試料の複雑さが向上し, 分散が減少した。 さらに、人気のあるRLベンチマークにおけるアクティブサンプリングの利点を強調した。

Reinforcement learning (RL) aims to find an optimal policy by interaction with an environment. Consequently, learning complex behavior requires a vast number of samples, which can be prohibitive in practice. Nevertheless, instead of systematically reasoning and actively choosing informative samples, policy gradients for local search are often obtained from random perturbations. These random samples yield high variance estimates and hence are sub-optimal in terms of sample complexity. Actively selecting informative samples is at the core of Bayesian optimization, which constructs a probabilistic surrogate of the objective from past samples to reason about informative subsequent ones. In this paper, we propose to join both worlds. We develop an algorithm utilizing a probabilistic model of the objective function and its gradient. Based on the model, the algorithm decides where to query a noisy zeroth-order oracle to improve the gradient estimates. The resulting algorithm is a novel type of policy search method, which we compare to existing black-box algorithms. The comparison reveals improved sample complexity and reduced variance in extensive empirical evaluations on synthetic objectives. Further, we highlight the benefits of active sampling on popular RL benchmarks.
翻訳日:2021-06-23 15:11:17 公開日:2021-06-22
# 共変量シフト下における平均ベイズ模型の危険度

Dangers of Bayesian Model Averaging under Covariate Shift ( http://arxiv.org/abs/2106.11905v1 )

ライセンス: Link先を確認
Pavel Izmailov, Patrick Nicholson, Sanae Lotfi, Andrew Gordon Wilson(参考訳) ニューラルネットワークの近似ベイズ推論は、標準的なトレーニングに代わるロバストな方法と考えられており、しばしば分散データの優れたパフォーマンスを提供する。 しかし、フルバッチハミルトニアンモンテカルロによる高忠実度近似推論を持つベイズニューラルネットワーク(BNN)は、古典的推定を下回ったとしても、共変量シフトの下での一般化が不十分である。 この驚くべき結果を説明し、特に入力特徴の線形依存性が後方収縮の欠如を引き起こす場合において、ベイズモデル平均が実際どのように共変シフト下で問題となるかを示す。 さらに、同じ問題が多くの近似推論手順や古典的な最大 a-posteriori (map) トレーニングに影響を与えない理由を示す。 最後に,多くの共変量シフト源に対するBNNのロバスト性を改善する新しい先行手法を提案する。

Approximate Bayesian inference for neural networks is considered a robust alternative to standard training, often providing good performance on out-of-distribution data. However, Bayesian neural networks (BNNs) with high-fidelity approximate inference via full-batch Hamiltonian Monte Carlo achieve poor generalization under covariate shift, even underperforming classical estimation. We explain this surprising result, showing how a Bayesian model average can in fact be problematic under covariate shift, particularly in cases where linear dependencies in the input features cause a lack of posterior contraction. We additionally show why the same issue does not affect many approximate inference procedures, or classical maximum a-posteriori (MAP) training. Finally, we propose novel priors that improve the robustness of BNNs to many sources of covariate shift.
翻訳日:2021-06-23 15:11:00 公開日:2021-06-22
# トレーニングやラベルのない差別化可能なアーキテクチャ検索--pruning perspective

Differentiable Architecture Search Without Training Nor Labels: A Pruning Perspective ( http://arxiv.org/abs/2106.11542v1 )

ライセンス: Link先を確認
Miao Zhang, Steven Su, Shirui Pan, Xiaojun Chang, Wei Huang, Gholamreza Haffari(参考訳) 重みの共有と継続的な緩和を活用して、双レベル最適化パラダイムを通じて、勾配の老化によってスーパーネットの重みとアーキテクチャパラメータを交互に最適化することを可能にし、その単純さと効率性から、DARTSはニューラルアーキテクチャサーチ(NAS)の主流となる。 しかし、近年の研究では、dartの最適化が進むにつれて、検索されたアーキテクチャのパフォーマンスがわずかに向上していることが判明した。 さらに、いくつかのコンカレントな研究により、NASはラベルなしでより競争力のあるアーキテクチャを見出すことができた。 上記の観察から、dartの監視信号はアーキテクチャ最適化の貧弱な指標であり、基礎的な疑問を喚起する。 監視信号を使用して双方向最適化を実行する代わりに、 \textit{can can find high-quality architectures \textbf{with without any training or labels}}? 初期化問題におけるネットワークプルーニングとしてNASをカスタマイズし,肯定的な回答を提供する。 初期化時のネットワークプラニングにおける最近の技術を活用して,nasにおける候補操作の重要性を,トレーニングやラベルなしで評価するfreeflow proxyを設計し,それに従って,自由ニューラルネットワーク探索(\textbf{freenas})と呼ばれる新しいフレームワークを提案した。 トレーニングやラベルがなければ,提案したFreeFlowプロキシによるFreeNASは,ほとんどのNASベースラインを上回ります。 さらに、我々のフレームワークは非常に効率的で、NAS-Bench-201 と DARTS の検索空間用の単一のGPU上で、それぞれ \textbf{3.6s} と \textbf{79s} のみがアーキテクチャ検索を完了する。 私たちは、初期化時の刈り取りの観点から、NASを解決するためのさらなる試みを期待しています。

With leveraging the weight-sharing and continuous relaxation to enable gradient-descent to alternately optimize the supernet weights and the architecture parameters through a bi-level optimization paradigm, \textit{Differentiable ARchiTecture Search} (DARTS) has become the mainstream method in Neural Architecture Search (NAS) due to its simplicity and efficiency. However, more recent works found that the performance of the searched architecture barely increases with the optimization proceeding in DARTS. In addition, several concurrent works show that the NAS could find more competitive architectures without labels. The above observations reveal that the supervision signal in DARTS may be a poor indicator for architecture optimization, inspiring a foundational question: instead of using the supervision signal to perform bi-level optimization, \textit{can we find high-quality architectures \textbf{without any training nor labels}}? We provide an affirmative answer by customizing the NAS as a network pruning at initialization problem. By leveraging recent techniques on the network pruning at initialization, we designed a FreeFlow proxy to score the importance of candidate operations in NAS without any training nor labels, and proposed a novel framework called \textit{training and label free neural architecture search} (\textbf{FreeNAS}) accordingly. We show that, without any training nor labels, FreeNAS with the proposed FreeFlow proxy can outperform most NAS baselines. More importantly, our framework is extremely efficient, which completes the architecture search within only \textbf{3.6s} and \textbf{79s} on a single GPU for the NAS-Bench-201 and DARTS search space, respectively. We hope our work inspires more attempts in solving NAS from the perspective of pruning at initialization.
翻訳日:2021-06-23 15:10:02 公開日:2021-06-22
# SSUL:経験的学習のための未知ラベルを用いたセマンティックセグメンテーション

SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning ( http://arxiv.org/abs/2106.11562v1 )

ライセンス: Link先を確認
Sungmin Cha. Beomyoung Kim, Youngjoon Yoo and Taesup Moon(参考訳) 我々は,ciss(class-incremen tal semantic segmentation)問題を考える。 最近提案されたアルゴリズムでは、知識蒸留法(KD)の変種を利用してこの問題に対処しているが、それらは大惨事の原因となるCISSにおける重要な課題、すなわちバックグラウンドクラスのセマンティックドリフトとマルチラベル予測の問題に部分的に対処しているだけである。 これらの課題に対処するために,セマンティックセマンティックセマンティックセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・ウィズ・メモリ(SSUL-M)と呼ばれる新しい手法を提案する。 具体的には,(1)将来のクラス(ヘルプ可塑性)の学習を支援するために,背景クラス内で未知のクラスをモデル化すること,(2)2つのクロスエントロピー損失を伴う冷凍バックボーンネットワークと過去の分類器と,(2)破滅的な忘れ(ヘルプ安定性)を克服するために擬似ラベル化すること,(3)CISSにおいて初めて,小さなメモリを活用して可塑性と安定性の両方を改善すること,の3つの主な貢献を行う。 その結果,本手法は,最新の標準ベンチマークデータセットのベースラインよりも性能が大幅に向上したことを示す。 さらに, 包括的, 広範囲にわたるアブレーション分析によるコントリビューションを正当化し, CISS問題の特徴を分類のための標準クラス増分学習と比較した。

We consider a class-incremental semantic segmentation (CISS) problem. While some recently proposed algorithms utilized variants of knowledge distillation (KD) technique to tackle the problem, they only partially addressed the key additional challenges in CISS that causes the catastrophic forgetting; i.e., the semantic drift of the background class and multi-label prediction issue. To better address these challenges, we propose a new method, dubbed as SSUL-M (Semantic Segmentation with Unknown Label with Memory), by carefully combining several techniques tailored for semantic segmentation. More specifically, we make three main contributions; (1) modeling unknown class within the background class to help learning future classes (help plasticity), (2) freezing backbone network and past classifiers with binary cross-entropy loss and pseudo-labeling to overcome catastrophic forgetting (help stability), and (3) utilizing tiny exemplar memory for the first time in CISS to improve both plasticity and stability. As a result, we show our method achieves significantly better performance than the recent state-of-the-art baselines on the standard benchmark datasets. Furthermore, we justify our contributions with thorough and extensive ablation analyses and discuss different natures of the CISS problem compared to the standard class-incremental learning for classification.
翻訳日:2021-06-23 15:09:26 公開日:2021-06-22
# グレイボックスおよびブラックボックス攻撃に対する効果的な対向防御のための自己教師付き反復的文脈平滑化

Self-Supervised Iterative Contextual Smoothing for Efficient Adversarial Defense against Gray- and Black-Box Attack ( http://arxiv.org/abs/2106.11644v1 )

ライセンス: Link先を確認
Sungmin Cha, Naeun Ko, Youngjoon Yoo and Taesup Moon(参考訳) 本稿では,グレーボックス攻撃とブラックボックス攻撃に対する新しい効果的な入力変換に基づく対角防御手法を提案する。 まず, 極めて単純な反復的ガウス平滑化により, 対向雑音を効果的に洗い出し, 極めて高い精度が得られることを示す。 本研究は, 対向雑音を緩和しつつ, 文脈適応的手法でガウス・スムース画像から元の識別特徴を再構築することを目的として, SSICS(Self-Supervise d Contextual Smoothing)を提案する。 ImageNetの実験から、当社のSSICSは、グレーボックスとブラックボックスの攻撃に対して、高い標準精度と非常に競争力のある堅牢な精度を達成する。 注目すべき点は、我々の防衛は計算に高価な敵の訓練を伴わないが、入力変換によってその堅牢な精度にアプローチできるということだ。

We propose a novel and effective input transformation based adversarial defense method against gray- and black-box attack, which is computationally efficient and does not require any adversarial training or retraining of a classification model. We first show that a very simple iterative Gaussian smoothing can effectively wash out adversarial noise and achieve substantially high robust accuracy. Based on the observation, we propose Self-Supervised Iterative Contextual Smoothing (SSICS), which aims to reconstruct the original discriminative features from the Gaussian-smoothed image in context-adaptive manner, while still smoothing out the adversarial noise. From the experiments on ImageNet, we show that our SSICS achieves both high standard accuracy and very competitive robust accuracy for the gray- and black-box attacks; e.g., transfer-based PGD-attack and score-based attack. A note-worthy point to stress is that our defense is free of computationally expensive adversarial training, yet, can approach its robust accuracy via input transformation.
翻訳日:2021-06-23 15:08:58 公開日:2021-06-22
# 事前シフト適応のためのヒッチハイカーガイド

The Hitchhiker's Guide to Prior-Shift Adaptation ( http://arxiv.org/abs/2106.11695v1 )

ライセンス: Link先を確認
Tomas Sipka, Milan Sulc, Jiri Matas(参考訳) 多くのコンピュータビジョン分類タスクでは、テスト時のクラス事前はトレーニングセットの前のものとしばしば異なる。 このような事前シフトの場合、分類器は最適な性能を維持するために対応するように適応しなければならない。 本稿では,確率的分類器を新しい事前に適応させる手法と,ラベルのないテストセット上での新しい事前推定方法について分析する。 本稿では,混乱行列に基づく事前推定手法の既知の問題に対処する新しい手法を提案する。 細粒度画像分類データセットに関する実験は,先行シフト推定と分類器適応のベストプラクティスに関する洞察を与え,提案手法が先行適応において最先端の結果を得ることを示す。 自然にバランスの取れない2つのタスクにベストプラクティスを適用し、Webcrawledイメージと植物種分類から学習することで、それぞれ1.1%と3.4%の認識精度が向上した。

In many computer vision classification tasks, class priors at test time often differ from priors on the training set. In the case of such prior shift, classifiers must be adapted correspondingly to maintain close to optimal performance. This paper analyzes methods for adaptation of probabilistic classifiers to new priors and for estimating new priors on an unlabeled test set. We propose a novel method to address a known issue of prior estimation methods based on confusion matrices, where inconsistent estimates of decision probabilities and confusion matrices lead to negative values in the estimated priors. Experiments on fine-grained image classification datasets provide insight into the best practice of prior shift estimation and classifier adaptation and show that the proposed method achieves state-of-the-art results in prior adaptation. Applying the best practice to two tasks with naturally imbalanced priors, learning from web-crawled images and plant species classification, increased the recognition accuracy by 1.1% and 3.4% respectively.
翻訳日:2021-06-23 15:08:37 公開日:2021-06-22
# クラス増分学習におけるクロスタスク機能の重要性について

On the importance of cross-task features for class-incremental learning ( http://arxiv.org/abs/2106.11930v1 )

ライセンス: Link先を確認
Albin Soutif--Cormerais, Marc Masana, Joost Van de Weijer, Bart{\l}omiej Twardowski(参考訳) クラスインクリメンタル・ラーニングでは、限られたリソースを持つエージェントは分類タスクのシーケンスを学習し、それまでのタスクからデータにアクセスできないという制約により、成長を続ける分類問題を形成する必要がある。 task-idが推論時に使用可能なtask-incremental learningとの主な違いは、学習者がタスク間の識別を行う必要があることだ。 一緒に見ていないクラスを区別することです この問題に取り組むためのアプローチは数多くあり、ほとんどが不要サイズの外部メモリ(バッファ)を使用している。 本稿では,クロスタスク機能の学習を省略し,クラスilにおける基本リプレイ戦略の性能に与える影響について検討する。 また,授業インクリメンタル・ラーニングのための新しい学習尺度を定義し,低パフォーマンスの主要な原因ではないことを確かめる。 実験結果から,クラス増分学習のための将来のアルゴリズムは,忘れてはならないだけでなく,クロスタスク機能の品質向上も目指すべきであることがわかった。 これは、タスク当たりのクラス数が小さい場合に特に重要です。

In class-incremental learning, an agent with limited resources needs to learn a sequence of classification tasks, forming an ever growing classification problem, with the constraint of not being able to access data from previous tasks. The main difference with task-incremental learning, where a task-ID is available at inference time, is that the learner also needs to perform cross-task discrimination, i.e. distinguish between classes that have not been seen together. Approaches to tackle this problem are numerous and mostly make use of an external memory (buffer) of non-negligible size. In this paper, we ablate the learning of cross-task features and study its influence on the performance of basic replay strategies used for class-IL. We also define a new forgetting measure for class-incremental learning, and see that forgetting is not the principal cause of low performance. Our experimental results show that future algorithms for class-incremental learning should not only prevent forgetting, but also aim to improve the quality of the cross-task features. This is especially important when the number of classes per task is small.
翻訳日:2021-06-23 15:08:22 公開日:2021-06-22
# クエリーとしてインスタンスを追跡する

Tracking Instances as Queries ( http://arxiv.org/abs/2106.11963v1 )

ライセンス: Link先を確認
Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Ying Shan, Bin Feng, Wenyu Liu(参考訳) 最近、クエリベースのディープネットワークは、エンドツーエンドパイプラインと、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションなど、いくつかの基本的なコンピュータビジョンタスクにおける競合結果のために多くの注目を集めている。 しかし、エレガントなアーキテクチャと強力なパフォーマンスを備えたクエリベースのビデオインスタンスセグメンテーション(VIS)フレームワークの確立方法はまだ解決されていない。 本稿では、QueryInstのインスタンスとクエリの固有の一対一対応をフル活用した統合クエリベースのVISフレームワークである、textbf{QueryTrack}(クエリとしてのインスタンスの追跡)を提案する。 提案手法は,YouTube-VIS-2019 / 2021データセット上で52.7 / 52.3 APを取得し,CVPR 2021 \textbf{ with a single online end-to-end model, single scale testing \& modest amount of training data} で2位を獲得した。 また、VISコミュニティのリファレンスとして、YouTube-VIS-2021データセット上でQueryTrack-ResNet-50 ベースライン結果を提供する。

Recently, query based deep networks catch lots of attention owing to their end-to-end pipeline and competitive results on several fundamental computer vision tasks, such as object detection, semantic segmentation, and instance segmentation. However, how to establish a query based video instance segmentation (VIS) framework with elegant architecture and strong performance remains to be settled. In this paper, we present \textbf{QueryTrack} (i.e., tracking instances as queries), a unified query based VIS framework fully leveraging the intrinsic one-to-one correspondence between instances and queries in QueryInst. The proposed method obtains 52.7 / 52.3 AP on YouTube-VIS-2019 / 2021 datasets, which wins the 2-nd place in the YouTube-VIS Challenge at CVPR 2021 \textbf{with a single online end-to-end model, single scale testing \& modest amount of training data}. We also provide QueryTrack-ResNet-50 baseline results on YouTube-VIS-2021 dataset as references for the VIS community.
翻訳日:2021-06-23 15:07:36 公開日:2021-06-22
# 論理関係からより直接的なマッピングを持つ論理ニューラルネットワーク構造

A Logical Neural Network Structure With More Direct Mapping From Logical Relations ( http://arxiv.org/abs/2106.11463v1 )

ライセンス: Link先を確認
Gang Wang(参考訳) 論理関係は人間の活動に広く存在する。 人間は、様々な条件に従って判断と決定を行うためにそれらを使い、それらは \emph{if-then} 規則の形で具現化される。 重要な認知知能として、特に医療診断のようなリスクの高い領域において、自動的に判断と判断を行うために、論理関係をコンピュータシステムに正しく表現し保存することが必須である。 しかしながら、現在の数値ANN(Artificial Neural Network)モデルは、画像認識のような知覚知能に長けているが、論理表現のような認知知能に長けておらず、ANNのさらなる応用を妨げている。 これを解決するために、研究者は論理的ANNモデルを設計し、論理的関係を表現、保存しようとした。 この研究領域にはいくつかの進歩があるが、近年の研究では、これらの論理的ANNモデルの構造が論理的関係と直接的にマッピングされないため、対応する論理的関係はネットワーク構造から読み出せない。 そこで本論文では,ニューラルネットワークの構造によって論理関係をより明確に表現し,それから論理関係を読み出すために,新しい論理ニューロンの設計と論理表現の要求のリンクを用いて,新しい論理anモデルを提案する。 近年の論理的ANNモデルと比較すると、この論理的ANNモデルは、より直接的なマッピング手法を用いて論理的関係をより明確化し、ネットワーク構造の接続パターンに従って論理的関係を読み取ることができる。 さらに、より少ないニューロンが使用される。

Logical relations widely exist in human activities. Human use them for making judgement and decision according to various conditions, which are embodied in the form of \emph{if-then} rules. As an important kind of cognitive intelligence, it is prerequisite of representing and storing logical relations rightly into computer systems so as to make automatic judgement and decision, especially for high-risk domains like medical diagnosis. However, current numeric ANN (Artificial Neural Network) models are good at perceptual intelligence such as image recognition while they are not good at cognitive intelligence such as logical representation, blocking the further application of ANN. To solve it, researchers have tried to design logical ANN models to represent and store logical relations. Although there are some advances in this research area, recent works still have disadvantages because the structures of these logical ANN models still don't map more directly with logical relations which will cause the corresponding logical relations cannot be read out from their network structures. Therefore, in order to represent logical relations more clearly by the neural network structure and to read out logical relations from it, this paper proposes a novel logical ANN model by designing the new logical neurons and links in demand of logical representation. Compared with the recent works on logical ANN models, this logical ANN model has more clear corresponding with logical relations using the more direct mapping method herein, thus logical relations can be read out following the connection patterns of the network structure. Additionally, less neurons are used.
翻訳日:2021-06-23 15:06:46 公開日:2021-06-22
# 低ランクMDPによる強化学習とリッチな観察

Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations ( http://arxiv.org/abs/2106.11519v1 )

ライセンス: Link先を確認
Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari and Karthik Sridharan(参考訳) 近年,リッチな観測空間に関する問題において,RL(Reinforcement Learning)の有効性向上が進んでいる。 しかし、これらすべての研究は真の MDP の最適値関数に関する強い実現可能性の仮定を共有している。 このような実現可能性の仮定は、実際は保つには強すぎることが多い。 本研究では, 観測空間の豊富な非依存 rl のより現実的な設定と, ほぼ最適に近いポリシーを含まない固定型ポリシー $\pi$ について考察する。 我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。 具体的には、我々のアルゴリズムは、$\widetilde{O}\left((H^{4d} K^{3d} \log |\Pi|)/\epsilon^2\right)$で、$H$はエピソードの長さ、$K$はアクションの数、$\epsilon>0$はサブ最適である。 また、この非依存的な設定に対してほぼ一致する下界を提供し、さらに仮定することなく、階数への指数的依存が避けられないことを示す。

There have been many recent advances on provably efficient Reinforcement Learning (RL) in problems with rich observation spaces. However, all these works share a strong realizability assumption about the optimal value function of the true MDP. Such realizability assumptions are often too strong to hold in practice. In this work, we consider the more realistic setting of agnostic RL with rich observation spaces and a fixed class of policies $\Pi$ that may not contain any near-optimal policy. We provide an algorithm for this setting whose error is bounded in terms of the rank $d$ of the underlying MDP. Specifically, our algorithm enjoys a sample complexity bound of $\widetilde{O}\left((H^{4d} K^{3d} \log |\Pi|)/\epsilon^2\right)$ where $H$ is the length of episodes, $K$ is the number of actions and $\epsilon>0$ is the desired sub-optimality. We also provide a nearly matching lower bound for this agnostic setting that shows that the exponential dependence on rank is unavoidable, without further assumptions.
翻訳日:2021-06-23 15:06:19 公開日:2021-06-22
# PHY層通信のための強化学習

Reinforcement learning for PHY layer communications ( http://arxiv.org/abs/2106.11595v1 )

ライセンス: Link先を確認
Philippe Mary (IETR), Visa Koivunen, Christophe Moy (IETR)(参考訳) 本章では,無線通信の物理層を最適化するためにrlを適用する際の包括的例を示す。 第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。 マルコフ決定プロセス (MDP) は、部分的に観測可能なマルコフ決定プロセス (POMDP) であり、またRLのための非常に重要で広く使われているアルゴリズムである。 Q-learningとSARSAアルゴリズム。 深層強化学習(DRL)のパラダイムも導入し,マルチアーム・バンディット(MAB)フレームワークの導入で終了する。 第9.3節は、RLの基本概念が通信システムにどのように使われているかを説明するためのおもちゃの例に焦点を当てている。 本章の9.2節と同様の表記法を用いて,簡易なシステムモデルを用いた文献から抽出した応用について述べる。 第9.3節では、RL問題のモデリングにも焦点をあてている。 行動と国家の空間と報酬の 選択方法です この章は第9.4節でRLの動向を予見し、第9.5節で芸術のより広い状態のレビューで終わる。

In this chapter, we will give comprehensive examples of applying RL in optimizing the physical layer of wireless communications by defining different class of problems and the possible solutions to handle them. In Section 9.2, we present all the basic theory needed to address a RL problem, i.e. Markov decision process (MDP), Partially observable Markov decision process (POMDP), but also two very important and widely used algorithms for RL, i.e. the Q-learning and SARSA algorithms. We also introduce the deep reinforcement learning (DRL) paradigm and the section ends with an introduction to the multi-armed bandits (MAB) framework. Section 9.3 focuses on some toy examples to illustrate how the basic concepts of RL are employed in communication systems. We present applications extracted from literature with simplified system models using similar notation as in Section 9.2 of this Chapter. In Section 9.3, we also focus on modeling RL problems, i.e. how action and state spaces and rewards are chosen. The Chapter is concluded in Section 9.4 with a prospective thought on RL trends and it ends with a review of a broader state of the art in Section 9.5.
翻訳日:2021-06-23 15:05:58 公開日:2021-06-22
# mmd-mix:協調型マルチエージェント強化学習のための最大平均偏差値関数分解法

MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2106.11652v1 )

ライセンス: Link先を確認
Zhiwei Xu, Dapeng Li, Yunpeng Bai, Guoliang Fan(参考訳) 現実の世界では、多くのタスクは、複数のエージェントがローカルな観察条件下で互いに協力する必要がある。 このような問題を解決するために,分散訓練による多エージェント強化学習法が多数提案されている。 これは大域的な合同 Q-値 $Q_\text{jt}$ を個々の Q-値 $Q_a$ に分解して個人の行動を導く。 VDN(Value-Decomposit ion Networks)とQMIX。 しかし、これらの基準はしばしば状況のランダム性を無視している。 本研究では,分布強化学習と値分解を組み合わせたmmd-mixを提案する。 また,データサンプリング効率を向上させるために,MDD-MIXにランダム性を明示的に導入するロバストなRLアルゴリズムであるREM(Random Ensemble Mixture)に着想を得た。 実験の結果,MDD-MIXはStarCraft Multi-Agent Challenge (SMAC)環境において,以前のベースラインよりも優れていた。

In the real world, many tasks require multiple agents to cooperate with each other under the condition of local observations. To solve such problems, many multi-agent reinforcement learning methods based on Centralized Training with Decentralized Execution have been proposed. One representative class of work is value decomposition, which decomposes the global joint Q-value $Q_\text{jt}$ into individual Q-values $Q_a$ to guide individuals' behaviors, e.g. VDN (Value-Decomposition Networks) and QMIX. However, these baselines often ignore the randomness in the situation. We propose MMD-MIX, a method that combines distributional reinforcement learning and value decomposition to alleviate the above weaknesses. Besides, to improve data sampling efficiency, we were inspired by REM (Random Ensemble Mixture) which is a robust RL algorithm to explicitly introduce randomness into the MMD-MIX. The experiments demonstrate that MMD-MIX outperforms prior baselines in the StarCraft Multi-Agent Challenge (SMAC) environment.
翻訳日:2021-06-23 15:05:37 公開日:2021-06-22
# 未知のニューラルダイナミクスモデル学習のための分布勾配マッチング

Distributional Gradient Matching for Learning Uncertain Neural Dynamics Models ( http://arxiv.org/abs/2106.11609v1 )

ライセンス: Link先を確認
Lenart Treven, Philippe Wenk, Florian D\"orfler, Andreas Krause(参考訳) 一般の微分方程式やニューラルODEは、連続時間系同定において重要な手法である。 多くの決定論的学習アルゴリズムは随伴法による数値的統合に基づいて設計されているが、アクティブラーニング、強化学習の探索、ロバスト制御、フィルタリングといった下流タスクの多くは予測の不確実性の正確な推定を必要とする。 本研究では,数値積分ボトルネックを回避し,認識的不確かさを推定する新しい手法を提案する。 ODEパラメータの不確かさをモデル化する代わりに、状態空間における不確かさを直接モデル化する。 分布勾配マッチング (distributional gradient matching, dgm) アルゴリズムは, スムースモデルとダイナミクスモデルを共同で学習し, ワッサースタイン損失を最小化する。 数値積分に基づく従来の近似推論手法と比較して,我々の手法は訓練がより速く,これまで見られなかった軌道の予測がより高速であり,ニューラルODEの文脈では,はるかに正確である。

Differential equations in general and neural ODEs in particular are an essential technique in continuous-time system identification. While many deterministic learning algorithms have been designed based on numerical integration via the adjoint method, many downstream tasks such as active learning, exploration in reinforcement learning, robust control, or filtering require accurate estimates of predictive uncertainties. In this work, we propose a novel approach towards estimating epistemically uncertain neural ODEs, avoiding the numerical integration bottleneck. Instead of modeling uncertainty in the ODE parameters, we directly model uncertainties in the state space. Our algorithm - distributional gradient matching (DGM) - jointly trains a smoother and a dynamics model and matches their gradients via minimizing a Wasserstein loss. Our experiments show that, compared to traditional approximate inference methods based on numerical integration, our approach is faster to train, faster at predicting previously unseen trajectories, and in the context of neural ODEs, significantly more accurate.
翻訳日:2021-06-23 15:05:00 公開日:2021-06-22
# 線形関数近似を用いた強化学習のための一様PAC境界

Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2106.11612v1 )

ライセンス: Link先を確認
Jiafan He and Dongruo Zhou and Quanquan Gu(参考訳) 線形関数近似による強化学習(rl)について検討した。 この問題に対する既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たず、最適ポリシーへの収束を保証できない。 本稿では,既存のアルゴリズムの限界を克服するために,高確率で最適方針への一様パック収束を享受するフルートと呼ばれる新しいアルゴリズムを提案する。 この一様PAC保証は,PACと高確率後悔境界の両方を直接的に示唆し,線形関数近似を持つ既存のアルゴリズムよりも優れたアルゴリズムを実現するため,文献中では最強の強化学習保証となる。 アルゴリズムの核となるのは,新しいミニマックス値関数推定器と,過去の観測からトレーニングサンプルを選択するマルチレベル分割スキームである。 これらの技術はどちらも新しく、独立した関心事である。

We study reinforcement learning (RL) with linear function approximation. Existing algorithms for this problem only have high-probability regret and/or Probably Approximately Correct (PAC) sample complexity guarantees, which cannot guarantee the convergence to the optimal policy. In this paper, in order to overcome the limitation of existing algorithms, we propose a new algorithm called FLUTE, which enjoys uniform-PAC convergence to the optimal policy with high probability. The uniform-PAC guarantee is the strongest possible guarantee for reinforcement learning in the literature, which can directly imply both PAC and high probability regret bounds, making our algorithm superior to all existing algorithms with linear function approximation. At the core of our algorithm is a novel minimax value function estimator and a multi-level partition scheme to select the training samples from historical observations. Both of these techniques are new and of independent interest.
翻訳日:2021-06-23 15:04:42 公開日:2021-06-22
# 性犯罪におけるリスク評価のための機械学習

Machine learning for risk assessment in gender-based crime ( http://arxiv.org/abs/2106.11847v1 )

ライセンス: Link先を確認
\'Angel Gonz\'alez-Prieto, Antonio Br\'u, Juan Carlos Nu\~no, Jos\'e Luis Gonz\'alez-\'Alvarez(参考訳) 男女関係に基づく犯罪は、現代社会における最も関係深い犯罪の1つである。 世界中の政府は、この脅威を根本的に排除するために、多くの経済的、人的資源を投入してきた。 これらの努力にもかかわらず、性暴力の被害者が再び攻撃されるリスクを正確に予測することは、依然として非常に難しい問題である。 正確で公平で迅速な予測を発行する新しい方法の開発により、警察は再犯を防ぐための最も適切な措置を選択できる。 本研究では,性暴力行為者の再犯リスクを正確に予測するモデルを作成するために機械学習(ML)技術を適用することを提案する。 本研究の貢献の意義は次の3つある: (i) 提案するml法は, 従来の統計手法に基づくリスクアセスメントアルゴリズムを上回り, (ii) 性暴力を4万件以上報告した公式の特定目的データベースを用いて実施され, (iii) モデルが供給する効果的な警察保護と, 投資した資源の過負荷を評価するための2つの新しい品質対策が提案されている。 さらに,従来のモデルからMLベースモデルへのスムーズな移行を実現するため,統計的予測手法とML手法を組み合わせたハイブリッドモデルを提案する。 このハイブリッドな性質により、警察システムの効率と、取られた保護策の積極的さを最適にバランスさせる意思決定プロセスが可能になる。

Gender-based crime is one of the most concerning scourges of contemporary society. Governments worldwide have invested lots of economic and human resources to radically eliminate this threat. Despite these efforts, providing accurate predictions of the risk that a victim of gender violence has of being attacked again is still a very hard open problem. The development of new methods for issuing accurate, fair and quick predictions would allow police forces to select the most appropriate measures to prevent recidivism. In this work, we propose to apply Machine Learning (ML) techniques to create models that accurately predict the recidivism risk of a gender-violence offender. The relevance of the contribution of this work is threefold: (i) the proposed ML method outperforms the preexisting risk assessment algorithm based on classical statistical techniques, (ii) the study has been conducted through an official specific-purpose database with more than 40,000 reports of gender violence, and (iii) two new quality measures are proposed for assessing the effective police protection that a model supplies and the overload in the invested resources that it generates. Additionally, we propose a hybrid model that combines the statistical prediction methods with the ML method, permitting authorities to implement a smooth transition from the preexisting model to the ML-based model. This hybrid nature enables a decision-making process to optimally balance between the efficiency of the police system and aggressiveness of the protection measures taken.
翻訳日:2021-06-23 15:04:28 公開日:2021-06-22
# 低ランクマルコフ決定過程における効率的な表現学習

Provably Efficient Representation Learning in Low-rank Markov Decision Processes ( http://arxiv.org/abs/2106.11935v1 )

ライセンス: Link先を確認
Weitong Zhang and Jiafan He and Dongruo Zhou and Amy Zhang and Quanquan Gu(参考訳) 深層強化学習(DRL)の成功は、基礎となる探索・搾取作業に適した表現を学習する能力に起因している。 しかし、線形関数近似を持つ既存の証明可能な強化学習アルゴリズムは、しばしば特徴表現が知られ固定されていると仮定される。 表現学習がRLの効率をどのように向上するかを理解するために,遷移カーネルを双線形形式で表現できる低ランクマルコフ決定過程(MDP)のクラスに対する表現学習について検討する。 本稿では,表現を同時に学習し,探索を行うReLEXアルゴリズムを提案する。 我々はReLEXが常に表現学習のない最先端のアルゴリズムよりも悪く、もし表現の関数クラスが状態-作用空間全体にわたってある穏やかな「被覆」特性を享受しているなら、標本効率の点で厳格に優れていることを示す。

The success of deep reinforcement learning (DRL) is due to the power of learning a representation that is suitable for the underlying exploration and exploitation task. However, existing provable reinforcement learning algorithms with linear function approximation often assume the feature representation is known and fixed. In order to understand how representation learning can improve the efficiency of RL, we study representation learning for a class of low-rank Markov Decision Processes (MDPs) where the transition kernel can be represented in a bilinear form. We propose a provably efficient algorithm called ReLEX that can simultaneously learn the representation and perform exploration. We show that ReLEX always performs no worse than a state-of-the-art algorithm without representation learning, and will be strictly better in terms of sample efficiency if the function class of representations enjoys a certain mild "coverage'' property over the whole state-action space.
翻訳日:2021-06-23 15:04:03 公開日:2021-06-22
# 線形関数近似を用いた変数認識オフポリティ評価

Variance-Aware Off-Policy Evaluation with Linear Function Approximation ( http://arxiv.org/abs/2106.11960v1 )

ライセンス: Link先を確認
Yifei Min and Tianhao Wang and Dongruo Zhou and Quanquan Gu(参考訳) 本研究では,行動ポリシーによって収集されたオフラインデータに基づいて,目標政策の価値関数を推定することを目的とした線形関数近似を用いた強化学習におけるオフ・ポリシー評価(op)問題について検討する。 我々は,OPEのサンプル効率を向上させるために,値関数の分散情報を組み込むことを提案する。 より具体的には、時間不均一なエピソドックス線形マルコフ決定過程(mdps)に対して、値関数の分散を推定してベルマン残差をq-イテレーションで重み付けするアルゴリズムva-opeを提案する。 このアルゴリズムは,最もよく知られた結果よりも厳密な誤差を実現する。 また,行動方針と対象政策の分布変化を詳細に評価する。 大規模な数値実験は我々の理論を裏付ける。

We study the off-policy evaluation (OPE) problem in reinforcement learning with linear function approximation, which aims to estimate the value function of a target policy based on the offline data collected by a behavior policy. We propose to incorporate the variance information of the value function to improve the sample efficiency of OPE. More specifically, for time-inhomogeneous episodic linear Markov decision processes (MDPs), we propose an algorithm, VA-OPE, which uses the estimated variance of the value function to reweight the Bellman residual in Fitted Q-Iteration. We show that our algorithm achieves a tighter error bound than the best-known result. We also provide a fine-grained characterization of the distribution shift between the behavior policy and the target policy. Extensive numerical experiments corroborate our theory.
翻訳日:2021-06-23 15:03:46 公開日:2021-06-22
# SENT:ネガティブトレーニングによる文レベル距離関係抽出

SENT: Sentence-level Distant Relation Extraction via Negative Training ( http://arxiv.org/abs/2106.11566v1 )

ライセンス: Link先を確認
Ruotian Ma, Tao Gui, Linyang Li, Qi Zhang, Yaqian Zhou and Xuanjing Huang(参考訳) 関係抽出のための遠隔監視は、バッグ内の各文に均一なバッグラベルを提供し、正確な関係型を必要とする下流アプリケーションには正確な文ラベルが重要である。 文レベルのトレーニングにバッグラベルを直接使用すると、多くのノイズが発生し、パフォーマンスが著しく低下する。 本稿では,‘インスタンスはこれらの補完ラベルに属さない’という補ラベルを用いてモデルを訓練する負のトレーニング(nt)の利用を提案する。 真のラベルを補完ラベルとして選択する確率は低いため、NTはノイズの少ない情報を提供する。 さらに、ntで訓練されたモデルは、トレーニングデータからノイズデータを分離することができる。 NTに基づいて,遠隔関係抽出のための文レベルフレームワークであるSENTを提案する。 ノイズデータをフィルタしてクリーンなデータセットを構築するだけでなく、ノイズデータを有用なトレーニングデータに変換する再ラベル処理を実行することで、モデルのパフォーマンスをさらに向上させる。 実験結果から,提案手法の文レベル評価とデノイズ効果について,従来手法よりも有意な改善が得られた。

Distant supervision for relation extraction provides uniform bag labels for each sentence inside the bag, while accurate sentence labels are important for downstream applications that need the exact relation type. Directly using bag labels for sentence-level training will introduce much noise, thus severely degrading performance. In this work, we propose the use of negative training (NT), in which a model is trained using complementary labels regarding that ``the instance does not belong to these complementary labels". Since the probability of selecting a true label as a complementary label is low, NT provides less noisy information. Furthermore, the model trained with NT is able to separate the noisy data from the training data. Based on NT, we propose a sentence-level framework, SENT, for distant relation extraction. SENT not only filters the noisy data to construct a cleaner dataset, but also performs a re-labeling process to transform the noisy data into useful training data, thus further benefiting the model's performance. Experimental results show the significant improvement of the proposed method over previous methods on sentence-level evaluation and de-noise effect.
翻訳日:2021-06-23 15:01:39 公開日:2021-06-22
# 誤り認識によるopenstreetmapの対話的意味解析

Error-Aware Interactive Semantic Parsing of OpenStreetMap ( http://arxiv.org/abs/2106.11739v1 )

ライセンス: Link先を確認
Michael Staniek and Stefan Riezler(参考訳) openstreetmap(osm)のような実際のデータベースに対する地理的クエリの意味解析では、ユニークな正しい答えは必ずしも存在しない。 その代わり、真理はユーザの目に横たわり、あいまいさを解消し、ミスのパースを修正できるインタラクティブなセットアップに入る必要があるかもしれません。 本研究は,明示的な誤り検出を行う対話的意味解析へのアプローチを提示し,曖昧さや誤りの疑いのある原因を特定し,それをユーザと通信する明確化問題を生成する。 実験の結果、エントロピーに基づく不確実性検出とビーム探索の組み合わせと、明確化質問、初期解析、ユーザ回答のマルチソーストレーニングを組み合わせることで、osm意味解析のために既にnlmapsデータセット上で90.26%で実行されているパーサー上の1.2%のf1スコアが改善されることがわかった。

In semantic parsing of geographical queries against real-world databases such as OpenStreetMap (OSM), unique correct answers do not necessarily exist. Instead, the truth might be lying in the eye of the user, who needs to enter an interactive setup where ambiguities can be resolved and parsing mistakes can be corrected. Our work presents an approach to interactive semantic parsing where an explicit error detection is performed, and a clarification question is generated that pinpoints the suspected source of ambiguity or error and communicates it to the human user. Our experimental results show that a combination of entropy-based uncertainty detection and beam search, together with multi-source training on clarification question, initial parse, and user answer, results in improvements of 1.2% F1 score on a parser that already performs at 90.26% on the NLMaps dataset for OSM semantic parsing.
翻訳日:2021-06-23 15:01:23 公開日:2021-06-22
# 半構造化知識管理を用いたエンドツーエンドタスク指向対話モデリング

End-to-End Task-Oriented Dialog Modeling with Semi-Structured Knowledge Management ( http://arxiv.org/abs/2106.11796v1 )

ライセンス: Link先を確認
Silin Gao, Ryuichi Takanobu, Minlie Huang(参考訳) 現在のタスク指向対話(TOD)システムは主に構造化知識を管理する。 データベースとテーブル) 目標指向の会話をガイドする。 しかし、それらは非構造化知識(例えば、)も含むダイアログを扱うのに不足している。 レビューと文書)。 本稿では,構造化知識と非構造化知識の融合に基づくTODモデリングの課題を定式化する。 この課題に対処するため,構造化コンテンツと非構造化コンテンツの両方で知識を管理するための信念状態を拡張する半構造化知識管理システムSeKnowを提案する。 さらに,予測されていないシーケンス・ツー・シーケンスモデルと事前学習された言語モデルに基づいて,SeKnowの2つの実装を紹介する。 どちらの実装も、構造化知識と非構造化知識に基づくダイアログモデリングを協調的に最適化するためにエンドツーエンド方式を使用している。 我々はMultiWOZ 2.1データセットの修正版について実験を行い、ダイアログは半構造化知識を含むように処理される。 実験結果から,SeKnowは既存のTODシステムやパイプライン知識管理手法による拡張と比較して,エンド・ツー・エンド・ダイアログと中間知識管理の両方で高い性能を示した。

Current task-oriented dialog (TOD) systems mostly manage structured knowledge (e.g. databases and tables) to guide the goal-oriented conversations. However, they fall short of handling dialogs which also involve unstructured knowledge (e.g. reviews and documents). In this paper, we formulate a task of modeling TOD grounded on a fusion of structured and unstructured knowledge. To address this task, we propose a TOD system with semi-structured knowledge management, SeKnow, which extends the belief state to manage knowledge with both structured and unstructured contents. Furthermore, we introduce two implementations of SeKnow based on a non-pretrained sequence-to-sequence model and a pretrained language model, respectively. Both implementations use the end-to-end manner to jointly optimize dialog modeling grounded on structured and unstructured knowledge. We conduct experiments on the modified version of MultiWOZ 2.1 dataset, where dialogs are processed to involve semi-structured knowledge. Experimental results show that SeKnow has strong performances in both end-to-end dialog and intermediate knowledge management, compared to existing TOD systems and their extensions with pipeline knowledge management schemes.
翻訳日:2021-06-23 15:01:05 公開日:2021-06-22
# 用語一貫性のための機械翻訳の評価について

On the Evaluation of Machine Translation for Terminology Consistency ( http://arxiv.org/abs/2106.11891v1 )

ライセンス: Link先を確認
Md Mahfuz ibn Alam, Antonios Anastasopoulos, Laurent Besacier, James Cross, Matthias Gall\'e, Philipp Koehn, Vassilina Nikoulina(参考訳) 神経機械翻訳(NMT)システムがプロの翻訳者パイプラインの重要な部分となるにつれ、NMTと用語の組み合わせに焦点が当てられている。 多くのシナリオ、特にドメイン適応の場合において、MT出力は用語によって提供される制約に従うことを期待する。 本稿では、ドメイン用語に関して、mt出力の一貫性を測定するためのメトリクスを提案する。 我々は,5言語以上にわたるcovid-19ドメインの研究を行い,用語を対象とした人格評価を行った。 https://github.com/m ahfuzibnalam/termino logy_evaluation。

As neural machine translation (NMT) systems become an important part of professional translator pipelines, a growing body of work focuses on combining NMT with terminologies. In many scenarios and particularly in cases of domain adaptation, one expects the MT output to adhere to the constraints provided by a terminology. In this work, we propose metrics to measure the consistency of MT output with regards to a domain terminology. We perform studies on the COVID-19 domain over 5 languages, also performing terminology-targeted human evaluation. We open-source the code for computing all proposed metrics: https://github.com/m ahfuzibnalam/termino logy_evaluation
翻訳日:2021-06-23 15:00:47 公開日:2021-06-22
# 曲率マップを用いた歩行解析:シミュレーションによる研究

Gait analysis with curvature maps: A simulation study ( http://arxiv.org/abs/2106.11466v1 )

ライセンス: Link先を確認
Khac Chinh Tran, Marc Daniel and Jean Meunier(参考訳) 歩行分析は、神経学的および筋骨格障害の検出と患者の世界的健康を評価するための臨床研究の重要な側面である。 本稿では,深度カメラによって提供される体表面から関連する曲率情報を抽出することに焦点を当てる。 この3Dメッシュは, 前段で利用可能であると仮定し, 2つの単純な擬似異常歩行を用いた非対称異常点の評価に曲率マップが有用であることを示した。 この研究は、医療従事者のための曲率に基づく歩行分析システムの今後の発展の土台となった。

Gait analysis is an important aspect of clinical investigation for detecting neurological and musculoskeletal disorders and assessing the global health of a patient. In this paper we propose to focus our attention on extracting relevant curvature information from the body surface provided by a depth camera. We assumed that the 3D mesh was made available in a previous step and demonstrated how curvature maps could be useful to assess asymmetric anomalies with two simple simulated abnormal gaits compared with a normal one. This research set the grounds for the future development of a curvature-based gait analysis system for healthcare professionals.
翻訳日:2021-06-23 14:59:32 公開日:2021-06-22
# 離散熱マップに基づくマルチモーダル軌道予測

Multimodal trajectory forecasting based on discrete heat map ( http://arxiv.org/abs/2106.11467v1 )

ライセンス: Link先を確認
Jingni Yuan, Jianyun Xu, Yushi Zhu(参考訳) argoverse motion forecasting competitionでは,トラヒックシーンにおける興味のある対象の確率的将来の軌道分布を予測することが課題である。 ベクトル化レーンマップと2sターゲットの履歴軌跡を入力として使用する。 そして、モデルが目標毎に確率で予測された軌跡6を出力する。

In Argoverse motion forecasting competition, the task is to predict the probabilistic future trajectory distribution for the interested targets in the traffic scene. We use vectorized lane map and 2 s targets' history trajectories as input. Then the model outputs 6 forecasted trajectories with probability for each target.
翻訳日:2021-06-23 14:59:21 公開日:2021-06-22
# 画像分類の強化のための代替補助課題

An Alternative Auxiliary Task for Enhancing Image Classification ( http://arxiv.org/abs/2106.11478v1 )

ライセンス: Link先を確認
Chen Liu(参考訳) 画像再構成は、画像分類において最も重要な補助課題である。 本稿では,「入力画像のフーリエ変換を推定」を潜在的に代替的なタスクとして検討し,これが主課題の性能をさらに向上させるか,あるいは画像再構成であまりカバーされない新しい制約を導入することを期待する。 cifar-10データセット上で5つの一般的な分類アーキテクチャを実験した結果,提案手法により分類精度が向上した。 さらに,提案する補助タスクが,高速勾配符号法を用いて発生する敵攻撃に対する分類器の抵抗性を高める可能性が示唆された。

Image reconstruction is likely the most predominant auxiliary task for image classification. In this paper, we investigate ``estimating the Fourier Transform of the input image" as a potential alternative auxiliary task, in the hope that it may further boost the performances on the primary task or introduce novel constraints not well covered by image reconstruction. We experimented with five popular classification architectures on the CIFAR-10 dataset, and the empirical results indicated that our proposed auxiliary task generally improves the classification accuracy. More notably, the results showed that in certain cases our proposed auxiliary task may enhance the classifiers' resistance to adversarial attacks generated using the fast gradient sign method.
翻訳日:2021-06-23 14:59:16 公開日:2021-06-22
# マルチラベル意味論に基づく壁紙テクスチャ生成とスタイル伝達

Wallpaper Texture Generation and Style Transfer Based on Multi-label Semantics ( http://arxiv.org/abs/2106.11482v1 )

ライセンス: Link先を確認
Ying Gao, Xiaohan Feng, Tiange Zhang, Eric Rigall, Huiyu Zhou, Lin Qi, Junyu Dong(参考訳) テクスチャには豊富な画像情報が含まれており、コンピュータグラフィックスやコンピュータビジョンなど様々な分野で広く使われている。 機械学習の開発により、テクスチャの合成と生成が大幅に改善された。 日常生活における非常に一般的な要素として、壁紙には多くのテクスチャ情報が含まれており、単純な単一ラベルで注釈をつけることは困難である。 さらに、壁紙デザイナーは様々なスタイルの壁紙を作るのにかなりの時間を費やす。 本稿では,マルチラベルセマンティクスを用いて壁紙テクスチャ画像を記述することを提案する。 これらのラベルと生成的対向ネットワークに基づいて,壁紙テクスチャ生成とスタイル伝達のための枠組みを提案する。 この枠組みでは、知覚モデルを用いて、生成ネットワークが生成する壁紙が十分に現実的で、所定の知覚記述によって指定された属性を有するか否かを判断し、これらの多段意味属性を条件変数として処理して壁紙画像を生成する。 生成された壁紙画像は、cycleganを使用して、有名なアーティストスタイルに変換できる。 最後に、美的評価方法を用いて、生成した壁紙画像を定量的に測定する。 提案手法は,人間の美観に適合した壁紙テクスチャを生成でき,芸術的特徴を有することを示す。

Textures contain a wealth of image information and are widely used in various fields such as computer graphics and computer vision. With the development of machine learning, the texture synthesis and generation have been greatly improved. As a very common element in everyday life, wallpapers contain a wealth of texture information, making it difficult to annotate with a simple single label. Moreover, wallpaper designers spend significant time to create different styles of wallpaper. For this purpose, this paper proposes to describe wallpaper texture images by using multi-label semantics. Based on these labels and generative adversarial networks, we present a framework for perception driven wallpaper texture generation and style transfer. In this framework, a perceptual model is trained to recognize whether the wallpapers produced by the generator network are sufficiently realistic and have the attribute designated by given perceptual description; these multi-label semantic attributes are treated as condition variables to generate wallpaper images. The generated wallpaper images can be converted to those with well-known artist styles using CycleGAN. Finally, using the aesthetic evaluation method, the generated wallpaper images are quantitatively measured. The experimental results demonstrate that the proposed method can generate wallpaper textures conforming to human aesthetics and have artistic characteristics.
翻訳日:2021-06-23 14:59:06 公開日:2021-06-22
# Few-Shot分類のための初期特徴再構成による教師なし埋め込み適応

Unsupervised Embedding Adaptation via Early-Stage Feature Reconstruction for Few-Shot Classification ( http://arxiv.org/abs/2106.11486v1 )

ライセンス: Link先を確認
Dong Hoon Lee, Sae-Young Chung(参考訳) 下流少数ショット分類タスクに対する教師なし組込み適応を提案する。 深層ニューラルネットワークが記憶前の一般化を学習する発見に基づいて、一般化可能な特徴を見つけるための特徴再構成と次元駆動型早期停止を備えた新しい適応スキームであるEarly-Stage Feature Reconstruction(ESFR) を開発した。 ESFRの導入は、最近提案されたトランスダクティブメソッドを含む、すべての標準設定におけるベースラインメソッドのパフォーマンスを一貫して改善する。 トランスダクティブ法と併用したesfrは、mini-imagenet、tiered-imagenet、cubでの最先端性能をさらに達成し、特に1ショット設定での以前のベストパフォーマンス法よりも1.2%~2.0%精度が向上した。

We propose unsupervised embedding adaptation for the downstream few-shot classification task. Based on findings that deep neural networks learn to generalize before memorizing, we develop Early-Stage Feature Reconstruction (ESFR) -- a novel adaptation scheme with feature reconstruction and dimensionality-drive n early stopping that finds generalizable features. Incorporating ESFR consistently improves the performance of baseline methods on all standard settings, including the recently proposed transductive method. ESFR used in conjunction with the transductive method further achieves state-of-the-art performance on mini-ImageNet, tiered-ImageNet, and CUB; especially with 1.2%~2.0% improvements in accuracy over the previous best performing method on 1-shot setting.
翻訳日:2021-06-23 14:58:46 公開日:2021-06-22
# Deep3DPose:RGB画像を用いた身体のリアルタイム再構築

Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies from Single RGB Images ( http://arxiv.org/abs/2106.11536v1 )

ライセンス: Link先を確認
Liguo Jiang, Miaopeng Li, Jianjie Zhang, Congyi Wang, Juntao Ye, Xinguo Liu, Jinxiang Chai(参考訳) 本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。 提案手法の鍵となる考え方は,前景分割マスク,2次元関節位置,セマンティックボディーパーティション,3次元部分配向,uv座標(uvマップ)の5つの出力を同時に予測する,単一画像を用いた新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。 マルチタスクネットワークアーキテクチャは、レコンストラクションのための視覚的なヒントを生成するだけでなく、個々の予測をより正確にする。 さらに、cnnレグレッサは、正確なキネマティックポーズ再構成と全身形状モデリングのための最適化ベースアルゴリズムと組み合わされる。 リアルタイムの再構成は、特に野生画像の場合、これまで見たことのない正確な適合性に達する。 リアルタイムの3Dポーズと人体再構築システムの成果を,様々な挑戦的な映像で紹介する。 本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構成を行う。

We introduce an approach that accurately reconstructs 3D human poses and detailed 3D full-body geometric models from single images in realtime. The key idea of our approach is a novel end-to-end multi-task deep learning framework that uses single images to predict five outputs simultaneously: foreground segmentation mask, 2D joints positions, semantic body partitions, 3D part orientations and uv coordinates (uv map). The multi-task network architecture not only generates more visual cues for reconstruction, but also makes each individual prediction more accurate. The CNN regressor is further combined with an optimization based algorithm for accurate kinematic pose reconstruction and full-body shape modeling. We show that the realtime reconstruction reaches accurate fitting that has not been seen before, especially for wild images. We demonstrate the results of our realtime 3D pose and human body reconstruction system on various challenging in-the-wild videos. We show the system advances the frontier of 3D human body and pose reconstruction from single images by quantitative evaluations and comparisons with state-of-the-art methods.
翻訳日:2021-06-23 14:58:31 公開日:2021-06-22
# CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning Approach

Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning Approach ( http://arxiv.org/abs/2106.11549v1 )

ライセンス: Link先を確認
Hyolim Kang, Jinwoo Kim, Kyungmin Kim, Taehyun Kim, Seon Joo Kim(参考訳) ジェネリックイベント境界検出(GEBD)は、人間の知覚に対応する「一般的な」イベント境界を検出することを目的とした、新しく導入されたタスクである。 本稿では,GEBDに対処する新しいコントラスト学習手法を提案する。 直感的には、ビデオスニペットの特徴的類似性はイベントバウンダリ付近で大きく異なるが、ビデオの残りの部分では相対的に同じである。 本モデルでは,情報ボトルネックとしての役割を担う中間表現として,時間的自己相似性行列(tsm)を用いる。 私たちのモデルでは、与えられたベースラインと比較して大きなパフォーマンス向上を達成しました。 私たちのコードはhttps://github.com/h ello-jinwoo/loveu-cv pr2021で利用可能です。

Generic Event Boundary Detection (GEBD) is a newly introduced task that aims to detect "general" event boundaries that correspond to natural human perception. In this paper, we introduce a novel contrastive learning based approach to deal with the GEBD. Our intuition is that the feature similarity of the video snippet would significantly vary near the event boundaries, while remaining relatively the same in the remaining part of the video. In our model, Temporal Self-similarity Matrix (TSM) is utilized as an intermediate representation which takes on a role as an information bottleneck. With our model, we achieved significant performance boost compared to the given baselines. Our code is available at https://github.com/h ello-jinwoo/LOVEU-CV PR2021.
翻訳日:2021-06-23 14:58:12 公開日:2021-06-22
# PSOとFCMを用いたニューラルネットワークとANFISによる皮膚検出のための新しい色空間の構築

Creating A New Color Space utilizing PSO and FCM to Perform Skin Detection by using Neural Network and ANFIS ( http://arxiv.org/abs/2106.11563v1 )

ライセンス: Link先を確認
Kobra Nazaria, Samaneh Mazaheri and Bahram Sadeghi Bigham(参考訳) 皮膚の色検出はコンピュータビジョンに関連する様々なアプリケーションにおいて必須のステップである。 これらのアプリケーションには、顔検出、映画や写真のポルノ画像の検索、民族性の発見、年齢、診断などが含まれる。 したがって、適切な皮膚検出方法を提案することは、いくつかの問題を解決することができる。 本研究では、まず、FCMとPSOアルゴリズムを用いて新しい色空間を作成する。 そして, 線形および非線形モードを用いた新しい色空間において, 皮膚分類を行った。 さらに、ANFISとニューラルネットワークを使用して、RGBおよびLAB色空間で実施されている。 RBG色空間における皮膚検出はマハラノビス距離とユークリッド距離アルゴリズムを用いて行われている。 比較すると、この方法は同一データベース上の最も正確な方法よりも18.38%高い精度を持つ。 さらに、この手法は、CompAQデータセットのテストにおいて、90.05%のエラー率(1-EER)とプラーテパンデータセットのテストにおいて92.93%の精度を達成した。

Skin color detection is an essential required step in various applications related to computer vision. These applications will include face detection, finding pornographic images in movies and photos, finding ethnicity, age, diagnosis, and so on. Therefore, proposing a proper skin detection method can provide solution to several problems. In this study, first a new color space is created using FCM and PSO algorithms. Then, skin classification has been performed in the new color space utilizing linear and nonlinear modes. Additionally, it has been done in RGB and LAB color spaces by using ANFIS and neural network. Skin detection in RBG color space has been performed using Mahalanobis distance and Euclidean distance algorithms. In comparison, this method has 18.38% higher accuracy than the most accurate method on the same database. Additionally, this method has achieved 90.05% in equal error rate (1-EER) in testing COMPAQ dataset and 92.93% accuracy in testing Pratheepan dataset, which compared to the previous method on COMPAQ database, 1-EER has increased by %0.87.
翻訳日:2021-06-23 14:58:01 公開日:2021-06-22
# 透明画像における深層学習手法のパッチレベル分類の比較:畳み込みニューラルネットワークから視覚変換器へ

A Comparison for Patch-level Classification of Deep Learning Methods on Transparent Images: from Convolutional Neural Networks to Visual Transformers ( http://arxiv.org/abs/2106.11582v1 )

ライセンス: Link先を確認
Hechen Yang, Chen Li, Peng Zhao, Ao Chen, Xin Zhao and Marcin Grzegorzek(参考訳) 近年,コンピュータビジョンの領域における透明画像の解析がホットスポットになりつつある。 本稿では,透過的な画像の解析が困難である問題に対して,異なるディープラーニングの分類性能を比較した。 透明な画像を8 * 8 と 224 * 224 の224ピクセルに同じ比率で分割し、2つの異なるピクセルのパッチを前景と背景に分割します。 また,4種類の畳み込みニューラルネットワークと新しいvitネットワークモデルを用いて,前景と背景分類実験を比較した。 ViTは8×8ピクセルのパッチの分類では最悪だが、224×224の分類ではほとんどの畳み込みニューラルネットワークを上回っている。

Nowadays, analysis of transparent images in the field of computer vision has gradually become a hot spot. In this paper, we compare the classification performance of different deep learning for the problem that transparent images are difficult to analyze. We crop the transparent images into 8 * 8 and 224 * 224 pixels patches in the same proportion, and then divide the two different pixels patches into foreground and background according to groundtruch. We also use 4 types of convolutional neural networks and a novel ViT network model to compare the foreground and background classification experiments. We conclude that ViT performs the worst in classifying 8 * 8 pixels patches, but it outperforms most convolutional neural networks in classifying 224 * 224.
翻訳日:2021-06-23 14:57:45 公開日:2021-06-22
# ロバストマルチビューマルチHuman 3次元ポーズ推定と追跡のための部分認識計測

Part-Aware Measurement for Robust Multi-View Multi-Human 3D Pose Estimation and Tracking ( http://arxiv.org/abs/2106.11589v1 )

ライセンス: Link先を確認
Hau Chu, Jia-Hong Lee, Yao-Chih Lee, Ching-Hsien Hsu, Jia-Da Li, Chu-Song Chen(参考訳) 本稿では,マルチビューのキャリブレーションに基づくマルチヒューマン3次元ポーズ推定とトラッキング手法を提案する。 主な課題は、複数の人間のポーズ推定が騒がしい場合でも、横断的視点と時間的対応を正しく見つけることである。 複数のビューから3Dのポーズを構成する以前のソリューションと比較して、我々のアプローチは時間的一貫性を利用して、以前構築された3Dのスケルトンと推定された2Dのポーズに一致させる。 したがって、クロスビューとタイムアソシエーションは同時に行われる。 性能は誤対応とノイズ予測に苦しむため,より優れた対応と3次元再構成を実現するための2つの戦略を考案する。 具体的には,2d-3d関係のパートアウェア計測と,再構成時に2d異常に対処可能なフィルタを提案する。 提案手法は,Campus 96.8% と Shelf 97.4% の2つのベンチマークにおいて,最先端の手法と比較して効率的かつ効果的である。 さらに, キャンパス評価フレームの長さを, より困難にするために拡張し, 提案手法も良好な結果を得ることができた。

This paper introduces an approach for multi-human 3D pose estimation and tracking based on calibrated multi-view. The main challenge lies in finding the cross-view and temporal correspondences correctly even when several human pose estimations are noisy. Compare to previous solutions that construct 3D poses from multiple views, our approach takes advantage of temporal consistency to match the 2D poses estimated with previously constructed 3D skeletons in every view. Therefore cross-view and temporal associations are accomplished simultaneously. Since the performance suffers from mistaken association and noisy predictions, we design two strategies for aiming better correspondences and 3D reconstruction. Specifically, we propose a part-aware measurement for 2D-3D association and a filter that can cope with 2D outliers during reconstruction. Our approach is efficient and effective comparing to state-of-the-art methods; it achieves competitive results on two benchmarks: 96.8% on Campus and 97.4% on Shelf. Moreover, we extends the length of Campus evaluation frames to be more challenging and our proposal also reach well-performed result.
翻訳日:2021-06-23 14:57:32 公開日:2021-06-22
# 迷彩物体検出のための信頼度認識学習

Confidence-Aware Learning for Camouflaged Object Detection ( http://arxiv.org/abs/2106.11641v1 )

ライセンス: Link先を確認
Jiawei Liu and Jing Zhang and Nick Barnes(参考訳) 信頼を意識した学習は、ネットワークが過度に信頼されるのを防ぐ効果的なソリューションとして証明されている。 本稿では, 動的監視を用いて, 現在の予測に対するモデル認識を表す, 正確なカモフラージュマップと有意義な「信頼」の両方を生成する。 camouflaageオブジェクト検出ネットワークは、camouflage予測を生成するように設計されている。 そして、入力画像と結合し、信頼度推定ネットワークにフィードして1チャンネル信頼度マップを生成し、その信頼度推定ネットワークの動的監視を、地上の真偽カモフラージュマップとのカモフラージュ予測の一致を表す形で生成する。 得られた信頼度マップでは、信頼度マップを用いた信頼度学習を導入し、損失関数のハード/ロー信頼画素により注意を払う。 我々は,信頼度推定ネットワークを訓練すると,地上の真偽カモフラージュマップに頼らずに,予測の画素単位の精度を評価することができると主張している。 4つのカモフラージュ物体検出テストデータセットの広範な結果は、カモフラージュ予測を説明する際に提案モデルが優れた性能を示す。

Confidence-aware learning is proven as an effective solution to prevent networks becoming overconfident. We present a confidence-aware camouflaged object detection framework using dynamic supervision to produce both accurate camouflage map and meaningful "confidence" representing model awareness about the current prediction. A camouflaged object detection network is designed to produce our camouflage prediction. Then, we concatenate it with the input image and feed it to the confidence estimation network to produce an one channel confidence map.We generate dynamic supervision for the confidence estimation network, representing the agreement of camouflage prediction with the ground truth camouflage map. With the produced confidence map, we introduce confidence-aware learning with the confidence map as guidance to pay more attention to the hard/low-confidence pixels in the loss function. We claim that, once trained, our confidence estimation network can evaluate pixel-wise accuracy of the prediction without relying on the ground truth camouflage map. Extensive results on four camouflaged object detection testing datasets illustrate the superior performance of the proposed model in explaining the camouflage prediction.
翻訳日:2021-06-23 14:57:13 公開日:2021-06-22
# RGB2Hands:モノクロRGBビデオからの3Dハンドインタラクションのリアルタイム追跡

RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video ( http://arxiv.org/abs/2106.11725v1 )

ライセンス: Link先を確認
Jiayi Wang, Franziska Mueller, Florian Bernard, Suzanne Sorli, Oleksandr Sotnychenko, Neng Qian, Miguel A. Otaduy, Dan Casas and Christian Theobalt(参考訳) インタラクションにおける両手の3Dポーズと幾何学の追跡と再構築は、AR/VR、ロボティクス、手話認識など、いくつかの人間とコンピュータのインタラクションアプリケーションに高い関連性を持つ難しい問題である。 既存の作業は、単純な追跡設定(例えば、1つの手または2つの空間的に分離された手のみを考える)に限られるか、奥行きカメラのようなよりユビキタスでないセンサーに依存している。 対照的に,本研究では,接近操作を明示的に考慮した1台のrgbカメラから,骨格のポーズと手の3次元表面形状をリアルタイムに捉えた最初の手法を提案する。 RGBデータに固有の奥行きの曖昧さに対処するため,新たに提案された手指内相対深度と手指間距離マップとともに,分割,3次元手指モデルへの密マッチング,2次元キーポイント位置など,複数の相補的な情報を回帰するマルチタスクCNNを提案する。 これらの予測は、両手の3Dハンドモデルのポーズと形状パラメータを推定するために、生成モデルフィッティングフレームワークで使用される。 rgb双方向トラッキングと3次元再構築パイプラインの個別成分を広範囲なアブレーション実験により実験的に検証した。 さらに,本手法は従来は見つからなかったRGBの双方向追跡性能を提供し,従来のRGB方式よりも定量的かつ定性的に優れていることを示す。 さらに,本手法は,深度に基づくリアルタイム手法のオンパーも行う。

Tracking and reconstructing the 3D pose and geometry of two hands in interaction is a challenging problem that has a high relevance for several human-computer interaction applications, including AR/VR, robotics, or sign language recognition. Existing works are either limited to simpler tracking settings (e.g., considering only a single hand or two spatially separated hands), or rely on less ubiquitous sensors, such as depth cameras. In contrast, in this work we present the first real-time method for motion capture of skeletal pose and 3D surface geometry of hands from a single RGB camera that explicitly considers close interactions. In order to address the inherent depth ambiguities in RGB data, we propose a novel multi-task CNN that regresses multiple complementary pieces of information, including segmentation, dense matchings to a 3D hand model, and 2D keypoint positions, together with newly proposed intra-hand relative depth and inter-hand distance maps. These predictions are subsequently used in a generative model fitting framework in order to estimate pose and shape parameters of a 3D hand model for both hands. We experimentally verify the individual components of our RGB two-hand tracking and 3D reconstruction pipeline through an extensive ablation study. Moreover, we demonstrate that our approach offers previously unseen two-hand tracking performance from RGB, and quantitatively and qualitatively outperforms existing RGB-based methods that were not explicitly designed for two-hand interactions. Moreover, our method even performs on-par with depth-based real-time methods.
翻訳日:2021-06-23 14:56:56 公開日:2021-06-22
# マルチタスク文書レイアウト解析のための領域提案アーキテクチャの評価

Evaluation of a Region Proposal Architecture for Multi-task Document Layout Analysis ( http://arxiv.org/abs/2106.11797v1 )

ライセンス: Link先を確認
Lorenzo Quir\'os and Enrique Vidal(参考訳) 手書き文書のレイアウトを自動的に認識することは,それらの文書から情報を抽出するための重要なステップである。 最も一般的なアプリケーションは、自動テキスト認識やキーワードスポッティングなどの下流アプリケーションへのフィードであるが、レイアウトの認識はドキュメント内の要素間の関係を確立するのにも役立ち、抽出可能な情報を豊かにすることができる。 現代の文書レイアウト分析システムのほとんどは、文書レイアウト問題の1つの部分、すなわちベースライン検出や領域分割のみに対処するように設計されている。 対照的に,Mask-RCNNアーキテクチャの有効性を評価し,ベースライン検出と領域分割の問題を統合的に解決する。 2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。 分析されたアーキテクチャは、3つのデータセットすべてにおいて最先端の技術を上回る有望な結果をもたらす。

Automatically recognizing the layout of handwritten documents is an important step towards useful extraction of information from those documents. The most common application is to feed downstream applications such as automatic text recognition and keyword spotting; however, the recognition of the layout also helps to establish relationships between elements in the document which allows to enrich the information that can be extracted. Most of the modern document layout analysis systems are designed to address only one part of the document layout problem, namely: baseline detection or region segmentation. In contrast, we evaluate the effectiveness of the Mask-RCNN architecture to address the problem of baseline detection and region segmentation in an integrated manner. We present experimental results on two handwritten text datasets and one handwritten music dataset. The analyzed architecture yields promising results, outperforming state-of-the-art techniques in all three datasets.
翻訳日:2021-06-23 14:56:10 公開日:2021-06-22
# 自動運転車のためのクローズドループMLベースの計画ベンチマークnuPlan

nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles ( http://arxiv.org/abs/2106.11810v1 )

ライセンス: Link先を確認
Holger Caesar, Juraj Kabzan, Kok Seang Tan, Whye Kit Fong, Eric Wolff, Alex Lang, Luke Fletcher, Oscar Beijbom, Sammy Omari(参考訳) 本研究では、自動運転のための世界初のクローズループMLベースの計画ベンチマークを提案する。 MLベースのモーションプランナは増え続けているが、確立されたデータセットとメトリクスの欠如により、この分野の進歩は制限されている。 既存の自動運転車の動き予測のベンチマークでは、長期的な計画ではなく、短期的な動き予測に焦点を当てている。 この結果、L2ベースのメトリクスを用いたオープンループ評価は、長期計画の適正な評価には適していない。 本ベンチマークでは,大規模運転データセット,軽量クローズドループシミュレータ,モーションプランニング特有のメトリクスを導入することで,これらの制限を克服する。 我々は、米国とアジアの4都市(ボストン、ピッツバーグ、ラスベガス、シンガポール)の運転データ1500hの高品質なデータセットを提供しています。 リアクティブエージェントを備えたクローズドループシミュレーションフレームワークを提供し、一般的な計画メトリクスとシナリオ固有の計画メトリクスの両方を提供する。 NeurIPS 2021でデータセットをリリースし、2022年初めからベンチマークの課題を整理する予定です。

In this work, we propose the world's first closed-loop ML-based planning benchmark for autonomous driving. While there is a growing body of ML-based motion planners, the lack of established datasets and metrics has limited the progress in this area. Existing benchmarks for autonomous vehicle motion prediction have focused on short-term motion forecasting, rather than long-term planning. This has led previous works to use open-loop evaluation with L2-based metrics, which are not suitable for fairly evaluating long-term planning. Our benchmark overcomes these limitations by introducing a large-scale driving dataset, lightweight closed-loop simulator, and motion-planning-spec ific metrics. We provide a high-quality dataset with 1500h of human driving data from 4 cities across the US and Asia with widely varying traffic patterns (Boston, Pittsburgh, Las Vegas and Singapore). We will provide a closed-loop simulation framework with reactive agents and provide a large set of both general and scenario-specific planning metrics. We plan to release the dataset at NeurIPS 2021 and organize benchmark challenges starting in early 2022.
翻訳日:2021-06-23 14:55:58 公開日:2021-06-22
# ゼロショットスケッチに基づく画像検索のためのドメインスムーシングネットワーク

Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2106.11841v1 )

ライセンス: Link先を確認
Zhipeng Wang, Hao Wang, Jiexi Yan, Aming Wu, Cheng Deng(参考訳) Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR)は、ゼロショットシナリオ下で自然画像を取得するためのクエリとして抽象スケッチを使用する、新しいクロスモーダル検索タスクである。 既存の手法の多くは、ZS-SBIRを従来の分類問題とみなし、クロスエントロピーやトリプレットに基づく損失を用いて、スケッチと自然画像の間の領域ギャップの問題やスケッチにおける大規模なクラス内多様性を無視する。 そこで我々は,ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。 具体的には,拡張したサンプルとの相関関係をマイニングすることで,領域間ギャップを平滑化するための一般化表現を学習するために,クロスモーダルコントラスト法を提案する。 さらに,sketchドメインのクラス内多様性を低減すべく,sketch機能を備えたカテゴリ固有のメモリバンクも検討した。 大規模な実験により、我々のアプローチはSketchyとTU-Berlinの両方のデータセットにおいて最先端の手法よりも優れていることが示された。 ソースコードはhttps://github.com/h aowang1992/dsnで公開しています。

Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) is a novel cross-modal retrieval task, where abstract sketches are used as queries to retrieve natural images under zero-shot scenario. Most existing methods regard ZS-SBIR as a traditional classification problem and employ a cross-entropy or triplet-based loss to achieve retrieval, which neglect the problems of the domain gap between sketches and natural images and the large intra-class diversity in sketches. Toward this end, we propose a novel Domain-Smoothing Network (DSN) for ZS-SBIR. Specifically, a cross-modal contrastive method is proposed to learn generalized representations to smooth the domain gap by mining relations with additional augmented samples. Furthermore, a category-specific memory bank with sketch features is explored to reduce intra-class diversity in the sketch domain. Extensive experiments demonstrate that our approach notably outperforms the state-of-the-art methods in both Sketchy and TU-Berlin datasets. Our source code is publicly available at https://github.com/h aowang1992/DSN.
翻訳日:2021-06-23 14:55:07 公開日:2021-06-22
# HybVIO:リアルタイムビジュアル慣性オドメトリーの限界を押し上げる

HybVIO: Pushing the Limits of Real-time Visual-inertial Odometry ( http://arxiv.org/abs/2106.11857v1 )

ライセンス: Link先を確認
Otto Seiskari, Pekka Rantalankila, Juho Kannala, Jerry Ylilammi, Esa Rahtu, Arno Solin(参考訳) 本稿では,フィルタに基づく視覚慣性オドメトリ(vio)と最適化に基づくスラムを組み合わせた新しいハイブリッド手法であるhybvioを提案する。 提案手法のコアは高度に堅牢で独立なVIOであり,IMUバイアスモデリングの改善,外乱除去,静止度検出,特徴トラック選択など,組込みハードウェア上での動作に適応できる。 長期の一貫性は疎結合のSLAMモジュールで達成される。 アカデミックなベンチマークでは、私たちのソリューションはすべてのカテゴリ、特にリアルタイムのユースケースにおいて優れたパフォーマンスをもたらします。 また,vehicular trackingにおけるvioの有効性を,カスタムデータセットを用いて実証し,現行の vislam 代替製品と比較して良好な性能を示す。

We present HybVIO, a novel hybrid approach for combining filtering-based visual-inertial odometry (VIO) with optimization-based SLAM. The core of our method is highly robust, independent VIO with improved IMU bias modeling, outlier rejection, stationarity detection, and feature track selection, which is adjustable to run on embedded hardware. Long-term consistency is achieved with a loosely-coupled SLAM module. In academic benchmarks, our solution yields excellent performance in all categories, especially in the real-time use case, where we outperform the current state-of-the-art. We also demonstrate the feasibility of VIO for vehicular tracking on consumer-grade hardware using a custom dataset, and show good performance in comparison to current commercial VISLAM alternatives.
翻訳日:2021-06-23 14:54:49 公開日:2021-06-22
# 不連続・同一性保存型顔編集用潜在変圧器

A Latent Transformer for Disentangled and Identity-Preserving Face Editing ( http://arxiv.org/abs/2106.11895v1 )

ライセンス: Link先を確認
Xu Yao, Alasdair Newson, Yann Gousseau, Pierre Hellier(参考訳) 高品質な顔画像編集は、映画のポストプロダクション業界では難しい問題であり、高度な制御とアイデンティティの保存を必要とする。 この問題に取り組もうとする以前の研究は、顔の属性の絡み合いと人物のアイデンティティの喪失に苦しむ可能性がある。 さらに、多くのアルゴリズムは特定のタスクに限定される。 これらの制約に対処するために,StyleGANジェネレータの潜時空間を介して顔属性を編集し,専用潜時変換ネットワークをトレーニングし,損失関数に明示的な乱れとアイデンティティ保存項を組み込むことを提案する。 さらに、ビデオに顔編集を一般化するためのパイプラインも導入する。 本モデルでは,実画像や動画の難解な場合であっても,不連続性,制御性,アイデンティティを保った顔属性編集を実現する。 画像と映像のデータセットを広範囲に実験し,視覚品質と定量的評価において,我々のモデルが他の最先端手法よりも優れていることを示す。

High quality facial image editing is a challenging problem in the movie post-production industry, requiring a high degree of control and identity preservation. Previous works that attempt to tackle this problem may suffer from the entanglement of facial attributes and the loss of the person's identity. Furthermore, many algorithms are limited to a certain task. To tackle these limitations, we propose to edit facial attributes via the latent space of a StyleGAN generator, by training a dedicated latent transformation network and incorporating explicit disentanglement and identity preservation terms in the loss function. We further introduce a pipeline to generalize our face editing to videos. Our model achieves a disentangled, controllable, and identity-preserving facial attribute editing, even in the challenging case of real (i.e., non-synthetic) images and videos. We conduct extensive experiments on image and video datasets and show that our model outperforms other state-of-the-art methods in visual quality and quantitative evaluation.
翻訳日:2021-06-23 14:54:36 公開日:2021-06-22
# 拡散型時系列アライメントのための速度場の流れとしての残留ネットワーク

Residual Networks as Flows of Velocity Fields for Diffeomorphic Time Series Alignment ( http://arxiv.org/abs/2106.11911v1 )

ライセンス: Link先を確認
Hao Huang, Boulbaba Ben Amor, Xichan Lin, Fan Zhu, Yi Fang(参考訳) 非線形(大きな)時間ワーピングは、時系列分析における迷惑の根源である。 本稿では,ペアワイズとジョイント時系列のアライメントを両立させる新しい時間的トランスフォーマーネットワークを提案する。 我々のResNet-TW(Deep Residual Network for Time Warping)は、漸進的な微分写像のフローを構成することでアライメント問題に取り組む。 我々のResidual Network(ResNet)は流速場の滑らかで流動的で正規な流れを構築し、その結果、滑らかで可逆な変換(すなわち、可逆変換)を生成する。 diffeomorphic warping function) の略。 エレガントな大変形2相距離マッピング(lddmm)フレームワークに触発されて、最終的な変換は、残余ネットワークのビルディングブロック以外にない時間依存ベクトル場の流れによって構築されます。 後者は自然に流れ方程式(ode)のオイラー離散化スキーマと見なされる。 トレーニングが終わると、ResNet-TWは目に見えないデータを単一の安価なフォワードパスで調整します。 単変量(UCRアーカイブから84データセット)と多変量時系列(MSR Action-3D, Florence-3D, MSR Daily Activity)での実験を行ったところ、ResNet-TWは協調アライメントと分類において競争力を発揮することがわかった。

Non-linear (large) time warping is a challenging source of nuisance in time-series analysis. In this paper, we propose a novel diffeomorphic temporal transformer network for both pairwise and joint time-series alignment. Our ResNet-TW (Deep Residual Network for Time Warping) tackles the alignment problem by compositing a flow of incremental diffeomorphic mappings. Governed by the flow equation, our Residual Network (ResNet) builds smooth, fluid and regular flows of velocity fields and consequently generates smooth and invertible transformations (i.e. diffeomorphic warping functions). Inspired by the elegant Large Deformation Diffeomorphic Metric Mapping (LDDMM) framework, the final transformation is built by the flow of time-dependent vector fields which are none other than the building blocks of our Residual Network. The latter is naturally viewed as an Eulerian discretization schema of the flow equation (an ODE). Once trained, our ResNet-TW aligns unseen data by a single inexpensive forward pass. As we show in experiments on both univariate (84 datasets from UCR archive) and multivariate time-series (MSR Action-3D, Florence-3D and MSR Daily Activity), ResNet-TW achieves competitive performance in joint alignment and classification.
翻訳日:2021-06-23 14:54:17 公開日:2021-06-22
# タンパク質構造生成のための幾何学的畳み込みVAEG-VAE

G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation ( http://arxiv.org/abs/2106.11920v1 )

ライセンス: Link先を確認
Hao Huang, Boulbaba Ben Amor, Xichan Lin, Fan Zhu, Yi Fang(参考訳) タンパク質の構造を分析することは、その機能を理解する上で重要な要素であり、分子レベルでの生物学における役割である。 さらに、新しいタンパク質を体系的に設計することが大きな工学的課題である。 本研究では,3dタンパク質構造の比較,変形,生成のための共同幾何神経ネットワーク法を提案する。 タンパク質構造を3次元開曲線とみなし,Square Root Velocity Function (SRVF) 表現を採用し,その幾何学的特性とDeep Residual Networks (ResNets) を併用して共同登録と比較を行った。 私たちのResNetsは、より計算効率が良いながら、より大きなタンパク質の変形を処理します。 数学的な枠組みの上に、幾何変分オートエンコーダ(G-VAE)を設計し、トレーニングを完了し、元の未確認構造を低次元(相対)超球面にマッピングする。 プレシェイプ空間の球面構造に動機づけられた我々は自然にvon Mises-Fisher (vMF) 分布を用いて隠れた変数をモデル化する。 新規なタンパク質構造を生成し, 崩壊したタンパク質構造の完成を予測することによって, モデルの有効性を検証した。 実験の結果,本手法はトレーニングデータ内の構造とは異なる,妥当な構造を生成できることが判明した。

Analyzing the structure of proteins is a key part of understanding their functions and thus their role in biology at the molecular level. In addition, design new proteins in a methodical way is a major engineering challenge. In this work, we introduce a joint geometric-neural networks approach for comparing, deforming and generating 3D protein structures. Viewing protein structures as 3D open curves, we adopt the Square Root Velocity Function (SRVF) representation and leverage its suitable geometric properties along with Deep Residual Networks (ResNets) for a joint registration and comparison. Our ResNets handle better large protein deformations while being more computationally efficient. On top of the mathematical framework, we further design a Geometric Variational Auto-Encoder (G-VAE), that once trained, maps original, previously unseen structures, into a low-dimensional (latent) hyper-sphere. Motivated by the spherical structure of the pre-shape space, we naturally adopt the von Mises-Fisher (vMF) distribution to model our hidden variables. We test the effectiveness of our models by generating novel protein structures and predicting completions of corrupted protein structures. Experimental results show that our method is able to generate plausible structures, different from the structures in the training data.
翻訳日:2021-06-23 14:53:53 公開日:2021-06-22
# MetaAvatar:少ない深度画像からアニメーション化された人間のモデルを学ぶ

MetaAvatar: Learning Animatable Clothed Human Models from Few Depth Images ( http://arxiv.org/abs/2106.11944v1 )

ライセンス: Link先を確認
Shaofei Wang, Marko Mihajlovic, Qianli Ma, Andreas Geiger, Siyu Tang(参考訳) 本稿では,単眼深度観測から人間を表現できる汎用的で制御可能なニューラルサイン付き距離場(sdfs)を作成することを目的としている。 ディープラーニングの最近の進歩、特にニューラルネットワークの暗黙的表現は、さまざまなセンサー入力から人間の形状再構成と制御可能なアバター生成を可能にした。 しかし、新しい入力ポーズから現実的な布の変形を生み出すためには、通常、水密なメッシュや密集した全身スキャンが入力として必要となる。 さらに, 多様な体型や布型に対してポーズ依存の布の変形を効果的にモデル化することが困難であったため, 既存の手法では, スクラッチからオブジェクト単位, 衣服単位の最適化を採用しており, 計算コストがかかる。 対照的に、単眼深度画像のみを考慮し、制御可能なニューラルSDFとして表現されたリアルな人間のアバターを迅速に生成できるアプローチを提案する。 神経sdfのパラメータを予測するハイパーネットワークの初期化を,メタラーニングを用いて学習することで実現する。 ハイパーネットワークは人間のポーズに条件付けされ、入力されたポーズに応じて不規則に変形する布張りのニューラルアバターを表す。 一方、様々な体型や布型を効果的に組み込むようにメタ学習されており、スクラッチから訓練されたモデルよりもはるかに速く微調整することができる。 我々のアプローチは入力として完全なメッシュを必要とする最先端のアプローチより優れており、我々のアプローチは入力として深度フレームのみを必要とし、桁違いに高速に実行する。 さらに,我々のメタリーナー付きハイパーネットワークは非常に頑健であり,最大8種類の単眼深度フレームを付与する現実的な動的布変形を持つアバターを最初に生成した。

In this paper, we aim to create generalizable and controllable neural signed distance fields (SDFs) that represent clothed humans from monocular depth observations. Recent advances in deep learning, especially neural implicit representations, have enabled human shape reconstruction and controllable avatar generation from different sensor inputs. However, to generate realistic cloth deformations from novel input poses, watertight meshes or dense full-body scans are usually needed as inputs. Furthermore, due to the difficulty of effectively modeling pose-dependent cloth deformations for diverse body shapes and cloth types, existing approaches resort to per-subject/cloth-ty pe optimization from scratch, which is computationally expensive. In contrast, we propose an approach that can quickly generate realistic clothed human avatars, represented as controllable neural SDFs, given only monocular depth images. We achieve this by using meta-learning to learn an initialization of a hypernetwork that predicts the parameters of neural SDFs. The hypernetwork is conditioned on human poses and represents a clothed neural avatar that deforms non-rigidly according to the input poses. Meanwhile, it is meta-learned to effectively incorporate priors of diverse body shapes and cloth types and thus can be much faster to fine-tune, compared to models trained from scratch. We qualitatively and quantitatively show that our approach outperforms state-of-the-art approaches that require complete meshes as inputs while our approach requires only depth frames as inputs and runs orders of magnitudes faster. Furthermore, we demonstrate that our meta-learned hypernetwork is very robust, being the first to generate avatars with realistic dynamic cloth deformations given as few as 8 monocular depth frames.
翻訳日:2021-06-23 14:53:30 公開日:2021-06-22
# シーン画像からの教師なしオブジェクトレベル表現学習

Unsupervised Object-Level Representation Learning from Scene Images ( http://arxiv.org/abs/2106.11952v1 )

ライセンス: Link先を確認
Jiahao Xie, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy(参考訳) 対照的な自己教師付き学習は、imagenetでの教師付き事前学習のギャップを大きく狭めている。 しかし、その成功はImageNetのオブジェクト中心の先行性、すなわち同じイメージの異なる拡張ビューが同じオブジェクトに対応することに依存している。 このような厳密な制約は、多くのオブジェクトを持つより複雑なシーンイメージに対して事前訓練を行うとすぐに実現不可能になる。 この制限を克服するために,シーンイメージに対する新たな自己教師型学習フレームワークであるObject-level Representation Learning (ORL)を導入する。 我々の重要な洞察は、画像レベルの自己教師付き事前学習を活用して、シーンイメージからオブジェクトレベルの表現学習を実現することである。 COCOの大規模な実験により、ORLはシーンイメージにおける自己教師あり学習の性能を著しく改善し、複数の下流タスクにおける教師ありイメージネットの事前学習を超越している。 さらにorlは、ラベルなしのシーンイメージが利用可能になったときに下流のパフォーマンスを改善し、ラベルなしのデータを野生で活用する可能性を示す。 このアプローチが、シーンデータからより汎用的な教師なし表現学習に関する将来の研究を動機付けることを願っています。 プロジェクトページ: https://www.mmlab-nt u.com/project/orl/

Contrastive self-supervised learning has largely narrowed the gap to supervised pre-training on ImageNet. However, its success highly relies on the object-centric priors of ImageNet, i.e., different augmented views of the same image correspond to the same object. Such a heavily curated constraint becomes immediately infeasible when pre-trained on more complex scene images with many objects. To overcome this limitation, we introduce Object-level Representation Learning (ORL), a new self-supervised learning framework towards scene images. Our key insight is to leverage image-level self-supervised pre-training as the prior to discover object-level semantic correspondence, thus realizing object-level representation learning from scene images. Extensive experiments on COCO show that ORL significantly improves the performance of self-supervised learning on scene images, even surpassing supervised ImageNet pre-training on several downstream tasks. Furthermore, ORL improves the downstream performance when more unlabeled scene images are available, demonstrating its great potential of harnessing unlabeled data in the wild. We hope our approach can motivate future research on more general-purpose unsupervised representation learning from scene data. Project page: https://www.mmlab-nt u.com/project/orl/.
翻訳日:2021-06-23 14:52:59 公開日:2021-06-22
# マルチオブジェクト追跡とセグメンテーションのためのプロトタイプ的クロスアテンションネットワーク

Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation ( http://arxiv.org/abs/2106.11958v1 )

ライセンス: Link先を確認
Lei Ke, Xia Li, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang and Fisher Yu(参考訳) 複数のオブジェクトのトラッキングとセグメンテーションは、与えられたクラスの集合に属するオブジェクトの検出、追跡、およびセグメンテーションを必要とする。 ほとんどのアプローチでは、時間次元のみを利用して関連付けの問題に対処し、セグメンテーションマスク自体の単一のフレーム予測に依存する。 オンラインマルチオブジェクト追跡とセグメンテーションのために,豊富な時空間情報を活用するプロトタイプ横断ネットワーク(PCAN)を提案する。 PCANはまず、時空メモリを一連のプロトタイプに蒸留し、その後、クロスアテンションを使用して過去のフレームから豊富な情報を取得する。 各オブジェクトをセグメント化するために、PCANはプロトタイプの外観モジュールを採用し、コントラストのある前景と背景のプロトタイプの集合を学習し、時間とともに伝播する。 大規模な実験により、PCANはYoutube-VISとBDD100Kの両方のデータセットにおいて、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者よりも優れており、一段階と二段階のセグメンテーションフレームワークに有効であることが示された。 コードはhttp://vis.xyz/pub/p can.comから入手できる。

Multiple object tracking and segmentation requires detecting, tracking, and segmenting objects belonging to a set of given classes. Most approaches only exploit the temporal dimension to address the association problem, while relying on single frame predictions for the segmentation mask itself. We propose Prototypical Cross-Attention Network (PCAN), capable of leveraging rich spatio-temporal information for online multiple object tracking and segmentation. PCAN first distills a space-time memory into a set of prototypes and then employs cross-attention to retrieve rich information from the past frames. To segment each object, PCAN adopts a prototypical appearance module to learn a set of contrastive foreground and background prototypes, which are then propagated over time. Extensive experiments demonstrate that PCAN outperforms current video instance tracking and segmentation competition winners on both Youtube-VIS and BDD100K datasets, and shows efficacy to both one-stage and two-stage segmentation frameworks. Code will be available at http://vis.xyz/pub/p can.
翻訳日:2021-06-23 14:52:39 公開日:2021-06-22
# ヘイトスピーチのナラティブ生成に向けて

Towards Knowledge-Grounded Counter Narrative Generation for Hate Speech ( http://arxiv.org/abs/2106.11783v1 )

ライセンス: Link先を確認
Yi-Ling Chung, Serra Sinem Tekiroglu, Marco Guerini(参考訳) オンライン上の憎しみを、対談と呼ばれるインフォームドテキストによる回答で解決する動きは、最近注目を浴びている。 そのため、ヘイト議論への直接的な介入を促進し、ヘイトコンテンツのさらなる拡散を防止するために、対談を自動生成する研究ラインが出現した。 それでも、現在のニューラルアプローチは汎用的/反復的な応答を生み出し、事実、統計、例といった根拠や最新の証拠を欠いている。 さらに、これらのモデルは可算であるが必ずしも真の議論を作ることはできない。 本稿では,オンラインの憎悪と戦うために,より情報に富むコンテンツを提供する外部知識リポジトリを基盤として,最初の完全知識結合型物語生成パイプラインを提案する。 提案手法と合わせて, ドメイン内およびドメイン間設定において, 適切な, 情報に富むカウンターナラティブを生成できることを示す一連の実験を行った。

Tackling online hatred using informed textual responses - called counter narratives - has been brought under the spotlight recently. Accordingly, a research line has emerged to automatically generate counter narratives in order to facilitate the direct intervention in the hate discussion and to prevent hate content from further spreading. Still, current neural approaches tend to produce generic/repetitive responses and lack grounded and up-to-date evidence such as facts, statistics, or examples. Moreover, these models can create plausible but not necessarily true arguments. In this paper we present the first complete knowledge-bound counter narrative generation pipeline, grounded in an external knowledge repository that can provide more informative content to fight online hatred. Together with our approach, we present a series of experiments that show its feasibility to produce suitable and informative counter narratives in in-domain and cross-domain settings.
翻訳日:2021-06-23 14:51:53 公開日:2021-06-22
# 統合失調症患者における移動センサデータのルーチンクラスタリングによる心理的再発予測

Routine Clustering of Mobile Sensor Data Facilitates Psychotic Relapse Prediction in Schizophrenia Patients ( http://arxiv.org/abs/2106.11487v1 )

ライセンス: Link先を確認
Joanne Zhou, Bishal Lamichhane, Dror Ben-Zeev, Andrew Campbell, Akane Sano(参考訳) 我々は,連続マルチモーダルモバイルセンシングデータから再帰予測タスクへの行動表現を得るクラスタリングモデルの開発を目指している。 特定されたクラスターは、患者の日常生活に関連する行動傾向と、差し迫った再発に関連する非定型行動傾向を表わすことができる。 我々はCrossCheckプロジェクトで得られたモバイルセンシングデータを分析に利用した。 6種類の移動体センシングに基づく連続データ(例) 周囲の光、音/会話、加速など 合計63名の統合失調症患者から得られた各患者を1年間監視し,クラスタリングモデルと再発予測評価を行った。 2つのクラスタリングモデル、Gaussian Mixture Model (GMM) とPartition Around Medoids (PAM) を用いて、モバイルセンシングデータから行動表現を得た。 クラスタリングモデルから得られた特徴は、バランスドランダムフォレストを用いたパーソナライズされたリラプス予測モデルのトレーニングと評価に使用された。 同一年齢の他の患者によるパーソナライズサブセットに基づいて, ある患者に対して最適な特徴を特定することで, パーソナライズを行った。 gmmモデルとpamモデルを用いて同定されたクラスターは,異なる行動パターンを示すことが判明した(sedentary days,active but with low communications daysなど)。 クラスタリングモデルから得られた行動表現の特徴は, 反復周期付近で有意な変化が見られた。 クラスタリングモデルに基づく特徴は, モバイルセンシングデータを特徴付ける他の特徴と合わせて, 退院1患者評価設定において, 再発予測タスクのf2スコアを0.24とした。 得られたf2スコアは、平均f2スコア0.042のランダム分類ベースラインよりも著しく高い。

We aim to develop clustering models to obtain behavioral representations from continuous multimodal mobile sensing data towards relapse prediction tasks. The identified clusters could represent different routine behavioral trends related to daily living of patients as well as atypical behavioral trends associated with impending relapse. We used the mobile sensing data obtained in the CrossCheck project for our analysis. Continuous data from six different mobile sensing-based modalities (e.g. ambient light, sound/conversation, acceleration etc.) obtained from a total of 63 schizophrenia patients, each monitored for up to a year, were used for the clustering models and relapse prediction evaluation. Two clustering models, Gaussian Mixture Model (GMM) and Partition Around Medoids (PAM), were used to obtain behavioral representations from the mobile sensing data. The features obtained from the clustering models were used to train and evaluate a personalized relapse prediction model using Balanced Random Forest. The personalization was done by identifying optimal features for a given patient based on a personalization subset consisting of other patients who are of similar age. The clusters identified using the GMM and PAM models were found to represent different behavioral patterns (such as clusters representing sedentary days, active but with low communications days, etc.). Significant changes near the relapse periods were seen in the obtained behavioral representation features from the clustering models. The clustering model based features, together with other features characterizing the mobile sensing data, resulted in an F2 score of 0.24 for the relapse prediction task in a leave-one-patient-ou t evaluation setting. This obtained F2 score is significantly higher than a random classification baseline with an average F2 score of 0.042.
翻訳日:2021-06-23 14:50:47 公開日:2021-06-22
# CycleGANを用いた高精度非加速度計を用いたPSG運動アーチファクト除去技術

An Accurate Non-accelerometer-ba sed PPG Motion Artifact Removal Technique using CycleGAN ( http://arxiv.org/abs/2106.11512v1 )

ライセンス: Link先を確認
Amir Hosein Afandizadeh Zargari, Seyed Amir Hossein Aqajari, Hadi Khodabandeh, Amir M. Rahmani, and Fadi Kurdahi(参考訳) フォトプレチスモグラフィ(英: photoplethysmography 、ppg)は、心拍変動、血圧、呼吸速度などの健康関連情報を抽出するために医療領域で広く用いられている、複雑で安価な光学技術である。 PPG信号は、ポータブルウェアラブルデバイスを使用して、継続的に、かつリモートで容易に収集できる。 しかし、これらの測定装置は日常生活活動による運動人工物に弱い。 モーションアーティファクトを除去する最も一般的な方法は加速度センサを使用しており、これは2つの制限がある:i)高消費電力とii)ウェアラブルデバイスに加速度センサを統合する必要がある(特定のウェアラブルデバイスでは必須ではない)。 本稿では,低消費電力非加速度センサを用いたPSGモーションアーティファクト除去手法を提案する。 我々は, 周期生成型逆向ネットワークを用いて, ノイズの少ないppg信号から, クリーンなppg信号を再構成する。 この新しい機械学習技術は加速度計などの余分なセンサを使わずに、最新技術と比較して9.5倍のモーションアーティファクト除去を実現する。

A photoplethysmography (PPG) is an uncomplicated and inexpensive optical technique widely used in the healthcare domain to extract valuable health-related information, e.g., heart rate variability, blood pressure, and respiration rate. PPG signals can easily be collected continuously and remotely using portable wearable devices. However, these measuring devices are vulnerable to motion artifacts caused by daily life activities. The most common ways to eliminate motion artifacts use extra accelerometer sensors, which suffer from two limitations: i) high power consumption and ii) the need to integrate an accelerometer sensor in a wearable device (which is not required in certain wearables). This paper proposes a low-power non-accelerometer-ba sed PPG motion artifacts removal method outperforming the accuracy of the existing methods. We use Cycle Generative Adversarial Network to reconstruct clean PPG signals from noisy PPG signals. Our novel machine-learning-bas ed technique achieves 9.5 times improvement in motion artifact removal compared to the state-of-the-art without using extra sensors such as an accelerometer.
翻訳日:2021-06-23 14:50:21 公開日:2021-06-22
# 最小DAG知識を用いた非無視下での妥当性調整の探索

Finding Valid Adjustments under Non-ignorability with Minimal DAG Knowledge ( http://arxiv.org/abs/2106.11560v1 )

ライセンス: Link先を確認
Abhin Shah, Karthikeyan Shanmugam, Kartik Ahuja(参考訳) 観測データからの処理効果推定は因果推論の基本的な問題である。 この問題に対処した思想の流派は2つある。 一方、パール的フレームワークは一般的に、DAG(Directed Acyclic Graphs)という形で構造知識(専門家によって提供される)を仮定し、有効な調整セットを特定するためのバックドア基準のようなグラフィカルな基準を提供する。 一方、潜在的結果(PO)フレームワークは一般に、観測された全ての特徴が一般には証明不可能な無知性(すなわち、隠れた境界を持たない)を満たすと仮定する。 この作業では、これらの2つのフレームワークを橋渡しします。 治療変数の親が1人(専門家によって提供された)しか知らないとしても、幅広い(すべてではないが)バックドア基準をテストするのに十分であることを示す。 重要なことは、観察された特徴の集合全体が無視できない(POフレームワークの一般化)非自明なケースについても、治療変数のすべての親を観察する必要なしにカバーする。 親変数の関数である合成サブサンプリング(または環境)変数が与えられたとき、このサブサンプリング変数を含む不変性テストは、幅広いバックドア基準のクラスをテストすることと等価であることを示す。 我々は,実因果効果推定ベンチマークと同様に,合成データに対するアプローチを示す。

Treatment effect estimation from observational data is a fundamental problem in causal inference. There are two very different schools of thought that have tackled this problem. On the one hand, the Pearlian framework commonly assumes structural knowledge (provided by an expert) in the form of Directed Acyclic Graphs (DAGs) and provides graphical criteria such as the back-door criterion to identify the valid adjustment sets. On the other hand, the potential outcomes (PO) framework commonly assumes that all the observed features satisfy ignorability (i.e., no hidden confounding), which in general is untestable. In this work, we take steps to bridge these two frameworks. We show that even if we know only one parent of the treatment variable (provided by an expert), then quite remarkably it suffices to test a broad class of (but not all) back-door criteria. Importantly, we also cover the non-trivial case where the entire set of observed features is not ignorable (generalizing the PO framework) without requiring all the parents of the treatment variable to be observed. Our key technical idea involves a more general result -- Given a synthetic sub-sampling (or environment) variable that is a function of the parent variable, we show that an invariance test involving this sub-sampling variable is equivalent to testing a broad class of back-door criteria. We demonstrate our approach on synthetic data as well as real causal effect estimation benchmarks.
翻訳日:2021-06-23 14:50:04 公開日:2021-06-22
# 多ラベル分類におけるグラディエントベースラベルバインディング

Gradient-based Label Binning in Multi-label Classification ( http://arxiv.org/abs/2106.11690v1 )

ライセンス: Link先を確認
Michael Rapp, Eneldo Loza Menc\'ia, Johannes F\"urnkranz, Eyke H\"ullermeier(参考訳) 一つの例を複数のクラスラベルに同時に関連付けるマルチラベル分類において、ラベル間の依存関係をモデル化する能力は、サブセット0/1損失などの非分解性評価尺度を効果的に最適化するために重要であると考えられている。 勾配ブースティングフレームワークは、このような損失関数に特別に合わせた学習モデルのためのよく研究された基礎を提供し、最近の研究は、マルチラベル設定で高い予測精度を達成する能力を検証する。 最近の多くのブースティングアプローチで使われる2階微分の利用は、最適化プロセスに組み込むラベルのペアに関する情報のため、非可逆的損失の最小化を導くのに役立つ。 欠点として、ラベルの数が少ない場合でも、高い計算コストが伴う。 本研究では, 線形方程式の系を解くことの必要性という, そのような手法の計算ボトルネックに, 新たな近似手法を推算法に統合することにより対処する。 学習中に計算された微分に基づいてラベルを予め定義されたビンの数に動的にグループ化し,線形系の次元に上限を課す。 既存のルールベースアルゴリズムを用いた実験では,予測性能が著しく低下することなく,学習速度が向上する可能性が示唆された。

In multi-label classification, where a single example may be associated with several class labels at the same time, the ability to model dependencies between labels is considered crucial to effectively optimize non-decomposable evaluation measures, such as the Subset 0/1 loss. The gradient boosting framework provides a well-studied foundation for learning models that are specifically tailored to such a loss function and recent research attests the ability to achieve high predictive accuracy in the multi-label setting. The utilization of second-order derivatives, as used by many recent boosting approaches, helps to guide the minimization of non-decomposable losses, due to the information about pairs of labels it incorporates into the optimization process. On the downside, this comes with high computational costs, even if the number of labels is small. In this work, we address the computational bottleneck of such approach -- the need to solve a system of linear equations -- by integrating a novel approximation technique into the boosting procedure. Based on the derivatives computed during training, we dynamically group the labels into a predefined number of bins to impose an upper bound on the dimensionality of the linear system. Our experiments, using an existing rule-based algorithm, suggest that this may boost the speed of training, without any significant loss in predictive performance.
翻訳日:2021-06-23 14:49:39 公開日:2021-06-22
# FLEA: 信頼できないトレーニングデータから学ぶマルチソース

FLEA: Provably Fair Multisource Learning from Unreliable Training Data ( http://arxiv.org/abs/2106.11732v1 )

ライセンス: Link先を確認
Eugenia Iofinova, Nikola Konstantinov, Christoph H. Lampert(参考訳) 公正な学習は、正確な予測を行うだけでなく、特定のグループを識別しない分類器を構築することを目的としている。 それは急速に成長する機械学習の分野であり、社会への影響は大きい。 しかし、既存のフェアラーニング手法は、トレーニングデータの偶然または悪意のあるアーティファクトに対して脆弱であり、不公平な分類器を知らないうちに生成する可能性がある。 本研究は、複数のソースから利用可能なトレーニングデータが得られ、その一部が真のデータ分布を表すものではないかもしれない、堅牢なマルチソース環境で、信頼性の低いトレーニングデータから公平に学習する問題に対処する。 本研究では,学習システムにおいて,公平性や正確性に悪影響を及ぼす可能性のあるデータソースを識別・抑制できるフィルタリングベースのアルゴリズムであるfleaを提案する。 複数のデータセットに対する多種多様な実験により,本手法の有効性を示す。 さらに、FLEAは、十分なデータがあれば、影響を受けるデータソースのごく一部が半分未満である限り、学習者が信頼できないデータから保護することを正式に証明する。

Fairness-aware learning aims at constructing classifiers that not only make accurate predictions, but do not discriminate against specific groups. It is a fast-growing area of machine learning with far-reaching societal impact. However, existing fair learning methods are vulnerable to accidental or malicious artifacts in the training data, which can cause them to unknowingly produce unfair classifiers. In this work we address the problem of fair learning from unreliable training data in the robust multisource setting, where the available training data comes from multiple sources, a fraction of which might be not representative of the true data distribution. We introduce FLEA, a filtering-based algorithm that allows the learning system to identify and suppress those data sources that would have a negative impact on fairness or accuracy if they were used for training. We show the effectiveness of our approach by a diverse range of experiments on multiple datasets. Additionally we prove formally that, given enough data, FLEA protects the learner against unreliable data as long as the fraction of affected data sources is less than half.
翻訳日:2021-06-23 14:49:18 公開日:2021-06-22
# テンソルネットワークモデルのvc次元における下界と上界

Lower and Upper Bounds on the VC-Dimension of Tensor Network Models ( http://arxiv.org/abs/2106.11827v1 )

ライセンス: Link先を確認
Behnoush Khavari, Guillaume Rabusseau(参考訳) テンソルネットワーク法は、凝縮物質物理学の進歩の重要な要素であり、最近、非常に高次元の物体をコンパクトに表現する能力に対する機械学習コミュニティへの関心を喚起した。 例えば、テンソルネットワーク法は指数関数的に大きな特徴空間(Stoudenmire と Schwab, 2016)で線型モデルを効率的に学習するのに使うことができる。 本研究では,vc次元上の上・下界と,分類・回帰・完備のためのテンソルネットワークモデルの大規模クラスにおける擬次元を導出する。 我々の上界は任意のテンソルネットワーク構造によってパラメータ化された線形モデルに対して成り立ち、一般的なテンソル分解モデル~(CP, Tensor Train, Tensor Ring, Tucker)に対して下界を導出する。 これらの結果は、一般に使用されるテンソル分解モデルのいずれかに基づく線形分類器と同様に、低階行列の分類に適用できる一般化境界の導出に使用される。 結果の系として、[stoudenmire and schwab, 2016]で導入された行列積状態分類器のvc次元を、いわゆる結合次元~(すなわち、結合次元)の関数として定義する。 cirac, garre-rubio, p\'erez-garc\'iaが[cirac et al., 2019]で挙げたオープンな問題に答えている。

Tensor network methods have been a key ingredient of advances in condensed matter physics and have recently sparked interest in the machine learning community for their ability to compactly represent very high-dimensional objects. Tensor network methods can for example be used to efficiently learn linear models in exponentially large feature spaces [Stoudenmire and Schwab, 2016]. In this work, we derive upper and lower bounds on the VC dimension and pseudo-dimension of a large class of tensor network models for classification, regression and completion. Our upper bounds hold for linear models parameterized by arbitrary tensor network structures, and we derive lower bounds for common tensor decomposition models~(CP, Tensor Train, Tensor Ring and Tucker) showing the tightness of our general upper bound. These results are used to derive a generalization bound which can be applied to classification with low rank matrices as well as linear classifiers based on any of the commonly used tensor decomposition models. As a corollary of our results, we obtain a bound on the VC dimension of the matrix product state classifier introduced in [Stoudenmire and Schwab, 2016] as a function of the so-called bond dimension~(i.e. tensor train rank), which answers an open problem listed by Cirac, Garre-Rubio and P\'erez-Garc\'ia in [Cirac et al., 2019].
翻訳日:2021-06-23 14:49:00 公開日:2021-06-22
# 遅延リワードによるオフポリティ強化学習

Off-Policy Reinforcement Learning with Delayed Rewards ( http://arxiv.org/abs/2106.11854v1 )

ライセンス: Link先を確認
Beining Han, Zhizhou Ren, Zuofan Wu, Yuan Zhou, Jian Peng(参考訳) 遅延報酬を用いた深部強化学習(RL)アルゴリズムについて検討した。 多くの現実世界のタスクでは、即時報酬はエージェントがアクションを実行した後すぐにはアクセスできないか、あるいは定義すらできない。 本研究では,まず,報酬の遅れを伴う環境を形式的に定義し,そのような環境の非マルコフ的性質によって生じる課題について議論する。 そこで我々は,理論収束保証とともに遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを提案する。 高次元状態空間を持つ実用的課題に対して、我々はさらに、トレーニング効率と安定性を高めるための近似スキームを自然に導くフレームワークにおいて、q関数のhc分解規則を導入する。 最終的に我々は、既存の作業とそのバリエーションよりもアルゴリズムの優れた性能を示すために、広範な実験を行う。

We study deep reinforcement learning (RL) algorithms with delayed rewards. In many real-world tasks, instant rewards are often not readily accessible or even defined immediately after the agent performs actions. In this work, we first formally define the environment with delayed rewards and discuss the challenges raised due to the non-Markovian nature of such environments. Then, we introduce a general off-policy RL framework with a new Q-function formulation that can handle the delayed rewards with theoretical convergence guarantees. For practical tasks with high dimensional state spaces, we further introduce the HC-decomposition rule of the Q-function in our framework which naturally leads to an approximation scheme that helps boost the training efficiency and stability. We finally conduct extensive experiments to demonstrate the superior performance of our algorithms over the existing work and their variants.
翻訳日:2021-06-23 14:48:33 公開日:2021-06-22
# 分類器性能のH測定に関する一考察

Notes on the H-measure of classifier performance ( http://arxiv.org/abs/2106.11888v1 )

ライセンス: Link先を確認
D. J. Hand and C. Anagnostopoulos(参考訳) H尺度は、相対的な誤分類コストの厳密な値を必要とすることなく、アプリケーションのコンテキストを考慮した分類器のパフォーマンス尺度である。 2009年に導入されて以来、広く採用されている。 本稿では,導入以来ユーザが提起してきた様々な質問に答え,その解釈,重み付け関数の選択,厳密な正当性,一貫性などについて問うとともに,その尺度を他の作業に関連付ける。

The H-measure is a classifier performance measure which takes into account the context of application without requiring a rigid value of relative misclassification costs to be set. Since its introduction in 2009 it has become widely adopted. This paper answers various queries which users have raised since its introduction, including questions about its interpretation, the choice of a weighting function, whether it is strictly proper, and its coherence, and relates the measure to other work.
翻訳日:2021-06-23 14:48:19 公開日:2021-06-22
# 多目的ベイズ最適化によるレイテンシアウェアニューラルアーキテクチャ探索

Latency-Aware Neural Architecture Search with Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2106.11890v1 )

ライセンス: Link先を確認
David Eriksson, Pierce I-Jen Chuang, Sam Daulton, Ahmed Aly, Arun Babu, Akshat Shrivastava, Peng Xia, Shicong Zhao, Ganesh Venkatesh, Maximilian Balandat(参考訳) オンデバイスデプロイメントのための大規模機械学習モデルのアーキテクチャとハイパーパラメータをチューニングする場合、オンデバイスレイテンシとモデルの精度の間の最適なトレードオフを理解することが望ましい。 本研究では,高次元探索空間におけるベイズ最適化の最近の方法論的進歩と多目的ベイズ最適化を活用し,facebookにおける大規模オンデバイス自然言語理解モデルのためのトレードオフを効率的に検討する。

When tuning the architecture and hyperparameters of large machine learning models for on-device deployment, it is desirable to understand the optimal trade-offs between on-device latency and model accuracy. In this work, we leverage recent methodological advances in Bayesian optimization over high-dimensional search spaces and multi-objective Bayesian optimization to efficiently explore these trade-offs for a production-scale on-device natural language understanding model at Facebook.
翻訳日:2021-06-23 14:48:11 公開日:2021-06-22
# 語彙データのための深層学習モデルの再検討

Revisiting Deep Learning Models for Tabular Data ( http://arxiv.org/abs/2106.11959v1 )

ライセンス: Link先を確認
Yury Gorishniy, Ivan Rubachev, Valentin Khrulkov, Artem Babenko(参考訳) 表形式のデータに対する深層学習の必要性は、まだ多くの研究努力によって解決される未解決の問題である。 テーブル型dlに関する最近の文献では、勾配ブースト決定木のような伝統的な「シュロー」モデルよりも優れていると報告されたいくつかの深いアーキテクチャを提案する。 しかし、既存の作業ではベンチマークやチューニングプロトコルが異なることが多いため、提案したモデルがGBDTを普遍的に上回っているかどうかは不明である。 さらに、モデルが互いに比較されないことが多いため、実践者にとって最高の深層モデルを特定するのは難しい。 本稿では,最近,表データ向けに開発されたdlモデルの主要ファミリの徹底的なレビューから始める。 幅広いデータセットで注意深くチューニングし、評価し、2つの重要な発見を明らかにした。 まず、gbdtモデルとdlモデルの選択がデータに依存することを示し、未だに普遍的に優れたソリューションはないことを示す。 第二に、単純なResNetのようなアーキテクチャが驚くほど効果的なベースラインであることを示し、DL文学の洗練されたモデルの大半を上回ります。 最後に,新しい強力なDLベースラインとなる表データに対する Transformer アーキテクチャの簡単な適応を設計し,GBDT が支配するデータセット上での GBDT と DL モデル間のギャップを低減する。

The necessity of deep learning for tabular data is still an unanswered question addressed by a large number of research efforts. The recent literature on tabular DL proposes several deep architectures reported to be superior to traditional "shallow" models like Gradient Boosted Decision Trees. However, since existing works often use different benchmarks and tuning protocols, it is unclear if the proposed models universally outperform GBDT. Moreover, the models are often not compared to each other, therefore, it is challenging to identify the best deep model for practitioners. In this work, we start from a thorough review of the main families of DL models recently developed for tabular data. We carefully tune and evaluate them on a wide range of datasets and reveal two significant findings. First, we show that the choice between GBDT and DL models highly depends on data and there is still no universally superior solution. Second, we demonstrate that a simple ResNet-like architecture is a surprisingly effective baseline, which outperforms most of the sophisticated models from the DL literature. Finally, we design a simple adaptation of the Transformer architecture for tabular data that becomes a new strong DL baseline and reduces the gap between GBDT and DL models on datasets where GBDT dominates.
翻訳日:2021-06-23 14:48:02 公開日:2021-06-22
# VoxelEmbed:Voxel Embeddingベースのディープラーニングによる3次元インスタンスセグメンテーションとトラッキング

VoxelEmbed: 3D Instance Segmentation and Tracking with Voxel Embedding based Deep Learning ( http://arxiv.org/abs/2106.11480v1 )

ライセンス: Link先を確認
Mengyang Zhao, Quan Liu, Aadarsh Jha, Ruining Deng, Tianyuan Yao, Anita Mahadevan-Jansen, Matthew J.Tyska, Bryan A. Millis, Yuankai Huo(参考訳) バイオイメージングの最近の進歩により、科学者は3dボリュームビデオとして生きた細胞の動態を観察できる優れた空間-時間分解能を提供している。 残念なことに、3dバイオメディカルビデオ分析は、市販の3d分析ツールを使って、リソースに敏感な人間のキュレーションを妨げている。 ここで、生物学者は最大強度投影による2次元解析に妥協することで、かなりの量のリッチな3d空間情報を捨てる必要がある。 近年,画素埋め込みによるセルインスタンスのセグメンテーションとトラッキングは,セルダイナミクスを理解するための,適切かつ一般化可能な計算パラダイムを提供する。 本研究では,3次元ビデオシーケンス上で同時セルインスタンス分割と追跡を行うための空間時間ボクセル埋め込み(VoxelEmbed)に基づく学習手法を提案する。 提案するボクセル埋め込みは3次元コンテキスト情報で画素埋め込みを一般化する; (2) 効果的な時空間埋め込みを可能にする単純なマルチストリーム学習手法を示す; (3) 1段階の3Dセルインスタンスのセグメンテーションと重パラメータチューニングなしでの追跡のためのエンドツーエンドフレームワークを補完する; (4) 提案した3D定量化は12GBメモリを持つ1つのGPUによるメモリ効率が高い。 我々は,ISBI Cell Tracking Challengeの4つの3次元データセット(細胞の種類が異なる)に対してVoxelEmbed法を評価した。 提案したVoxelEmbed法は、2つの高密度注釈付きデータセット上で一貫した総合性能(OP)を達成した。 この性能は、セグメンテーションアノテーションを持つデータセットの20.6%と2%の少ない2つのコホートで競合する。 この結果は,VoxelEmbed法が一般化可能かつメモリ効率の良い解であることを示す。

Recent advances in bioimaging have provided scientists a superior high spatial-temporal resolution to observe dynamics of living cells as 3D volumetric videos. Unfortunately, the 3D biomedical video analysis is lagging, impeded by resource insensitive human curation using off-the-shelf 3D analytic tools. Herein, biologists often need to discard a considerable amount of rich 3D spatial information by compromising on 2D analysis via maximum intensity projection. Recently, pixel embedding-based cell instance segmentation and tracking provided a neat and generalizable computing paradigm for understanding cellular dynamics. In this work, we propose a novel spatial-temporal voxel-embedding (VoxelEmbed) based learning method to perform simultaneous cell instance segmenting and tracking on 3D volumetric video sequences. Our contribution is in four-fold: (1) The proposed voxel embedding generalizes the pixel embedding with 3D context information; (2) Present a simple multi-stream learning approach that allows effective spatial-temporal embedding; (3) Accomplished an end-to-end framework for one-stage 3D cell instance segmentation and tracking without heavy parameter tuning; (4) The proposed 3D quantification is memory efficient via a single GPU with 12 GB memory. We evaluate our VoxelEmbed method on four 3D datasets (with different cell types) from the ISBI Cell Tracking Challenge. The proposed VoxelEmbed method achieved consistent superior overall performance (OP) on two densely annotated datasets. The performance is also competitive on two sparsely annotated cohorts with 20.6% and 2% of data-set having segmentation annotations. The results demonstrate that the VoxelEmbed method is a generalizable and memory-efficient solution.
翻訳日:2021-06-23 14:45:27 公開日:2021-06-22
# 物体検出とノード認識を用いた手書き電子回路認識

Hand-Drawn Electrical Circuit Recognition using Object Detection and Node Recognition ( http://arxiv.org/abs/2106.11559v1 )

ライセンス: Link先を確認
Rachala Rohith Reddy and Mahesh Raveendranatha Panicker(参考訳) 近年のニューラルネットワークの発展により、手書き回路からシミュレーション可能な電子回路を自動生成するアルゴリズムが復活した。 しかし、文献におけるほとんどのアプローチは、異なるタイプの電気部品の分類に限られており、これらの手法のいくつかは、スキャンされた画像から回路スキーマを再構築する方法を示しており、これはネットリスト生成のさらなる自動化にとって極めて重要である。 本稿では,物体検出と回路ノード認識に基づく手書き電子回路の自動認識のためのリアルタイムアルゴリズムを提案する。 提案手法では,回路成分の検出にYou Only Look Onceバージョン5 (YOLOv5) を用い,ノード認識のためのHough変換に基づく新しいアプローチを提案する。 YOLOv5オブジェクト検出アルゴリズムを用いて、平均平均精度(mAP0.5)は98.2%である。 提案手法では回路図を80%の精度で再構成することができる。

With the recent developments in neural networks, there has been a resurgence in algorithms for the automatic generation of simulation ready electronic circuits from hand-drawn circuits. However, most of the approaches in literature were confined to classify different types of electrical components and only a few of those methods have shown a way to rebuild the circuit schematic from the scanned image, which is extremely important for further automation of netlist generation. This paper proposes a real-time algorithm for the automatic recognition of hand-drawn electrical circuits based on object detection and circuit node recognition. The proposed approach employs You Only Look Once version 5 (YOLOv5) for detection of circuit components and a novel Hough transform based approach for node recognition. Using YOLOv5 object detection algorithm, a mean average precision (mAP0.5) of 98.2% is achieved in detecting the components. The proposed method is also able to rebuild the circuit schematic with 80% accuracy.
翻訳日:2021-06-23 14:44:57 公開日:2021-06-22
# ヒューマン・アウェア・ロボットナビゲーションに関する調査

A Survey on Human-aware Robot Navigation ( http://arxiv.org/abs/2106.11650v1 )

ライセンス: Link先を確認
Ronja M\"oller, Antonino Furnari, Sebastiano Battiato, Aki H\"arm\"a, Giovanni Maria Farinella(参考訳) インテリジェントなシステムは、ますます私たちの日常生活の一部となりつつあり、それらを含まない世界を想像することが難しいほどシームレスに統合されています。 一方、これらのシステムの物理的表現は、エンボディエージェントやロボットの形で、これまで特定の用途にしか使われておらず、しばしば機能的な役割(例えば、)に限られてきた。 産業、娯楽、軍事の分野では)。 ロボットナビゲーション、人間とロボットの相互作用、そして人間の活動認識に関する研究コミュニティの現在の成長とイノベーションを考えると、これはすぐに変わるかもしれない。 ロボットは次第に入手しやすくなり、一般的に受け入れられるようになった。 しかし,共用ロボットとして機能する社会に適応したロボットの設計は,様々な研究領域を考慮に入れる必要がある。 本稿は,社会に適合するロボットのナビゲーションに関する側面を考察し,関連する研究分野に対する既存ソリューションのサーベイと今後の展望について述べる。

Intelligent systems are increasingly part of our everyday lives and have been integrated seamlessly to the point where it is difficult to imagine a world without them. Physical manifestations of those systems on the other hand, in the form of embodied agents or robots, have so far been used only for specific applications and are often limited to functional roles (e.g. in the industry, entertainment and military fields). Given the current growth and innovation in the research communities concerned with the topics of robot navigation, human-robot-interact ion and human activity recognition, it seems like this might soon change. Robots are increasingly easy to obtain and use and the acceptance of them in general is growing. However, the design of a socially compliant robot that can function as a companion needs to take various areas of research into account. This paper is concerned with the navigation aspect of a socially-compliant robot and provides a survey of existing solutions for the relevant areas of research as well as an outlook on possible future directions.
翻訳日:2021-06-23 14:44:43 公開日:2021-06-22
# オンラインマルチエージェントパス探索の競合分析

A Competitive Analysis of Online Multi-Agent Path Finding ( http://arxiv.org/abs/2106.11454v1 )

ライセンス: Link先を確認
Hang Ma(参考訳) オンラインマルチエージェントパス発見(mapf)について検討し,新たなエージェントが時間とともに常に明らかにされ,すべてのエージェントが所定の目標位置への衝突のないパスを見つけなければならない。 我々はMAPFの既存の複雑性結果をオンラインMAPFに一般化する。 我々は,オンラインMAPFアルゴリズムを,(1)制御可能性(各時間に経路を計画できるエージェントの集合)と(2)合理性(計画する経路の質)に基づいて,異なるカテゴリに分類し,それらの関係について検討する。 我々は,オンラインMAPFアルゴリズムの各カテゴリに対して,一般的に使用される目的関数に関する競合分析を行う。 そこで本研究では,新たに開発したエージェントを順次経路づけするナイーブアルゴリズムが,フロータイムとmakespanに対するエージェント数によって,上下から漸近的に境界付けられた競合比を達成することを示す。 その結果,前述したエージェントの再配置が許可されない場合,新たなエージェントの最適経路を計画するオンラインmapfアルゴリズムは,2次元4-neighborグリッドにおいても,naiveアルゴリズムと同じ漸近的競合比を持つことがわかった。 また、合理的オンラインMAPFアルゴリズムの競合比を一定に低くし、リルーティングを可能にします。 その結果, オンライン環境におけるmapfアルゴリズムの有効性に関する理論的知見が得られた。

We study online Multi-Agent Path Finding (MAPF), where new agents are constantly revealed over time and all agents must find collision-free paths to their given goal locations. We generalize existing complexity results of (offline) MAPF to online MAPF. We classify online MAPF algorithms into different categories based on (1) controllability (the set of agents that they can plan paths for at each time) and (2) rationality (the quality of paths they plan) and study the relationships between them. We perform a competitive analysis for each category of online MAPF algorithms with respect to commonly-used objective functions. We show that a naive algorithm that routes newly-revealed agents one at a time in sequence achieves a competitive ratio that is asymptotically bounded from both below and above by the number of agents with respect to flowtime and makespan. We then show a counter-intuitive result that, if rerouting of previously-revealed agents is not allowed, any rational online MAPF algorithms, including ones that plan optimal paths for all newly-revealed agents, have the same asymptotic competitive ratio as the naive algorithm, even on 2D 4-neighbor grids. We also derive constant lower bounds on the competitive ratio of any rational online MAPF algorithms that allow rerouting. The results thus provide theoretical insights into the effectiveness of using MAPF algorithms in an online setting for the first time.
翻訳日:2021-06-23 14:44:06 公開日:2021-06-22
# MIMO OFDMシステムにおけるモデル順序選択のための機械学習

Machine Learning for Model Order Selection in MIMO OFDM Systems ( http://arxiv.org/abs/2106.11633v1 )

ライセンス: Link先を確認
Brenda Vilas Boas, Wolfgang Zirwas, Martin Haardt(参考訳) MUSICやESPRITといった様々な無線チャネル推定手法は、モデルの順序に関する事前知識に依存している。 したがって、そのようなチャネルを構成するマルチパスコンポーネント(MPC)の数を正確に推定することが重要である。 しかし、多くの散乱器を持つ環境は、密接な空間を持つMPCを生成する。 この雑音に加えてmpcのクラスタリングは、現在知られているアルゴリズムではモデル順序選択タスクを実際に困難にする。 本稿では,MIMO直交周波数分割多重化(OFDM)システムの多次元特性を活用し,ほぼ一貫性のあるシナリオにおける技術手法の状態よりも高い精度でMPC数を決定する機械学習(ML)手法を提案する。 さらに,提案手法は信頼性が向上していることを示す。

A variety of wireless channel estimation methods, e.g., MUSIC and ESPRIT, rely on prior knowledge of the model order. Therefore, it is important to correctly estimate the number of multipath components (MPCs) which compose such channels. However, environments with many scatterers may generate MPCs which are closely spaced. This clustering of MPCs in addition to noise makes the model order selection task difficult in practice to currently known algorithms. In this paper, we exploit the multidimensional characteristics of MIMO orthogonal frequency division multiplexing (OFDM) systems and propose a machine learning (ML) method capable of determining the number of MPCs with a higher accuracy than state of the art methods in almost coherent scenarios. Moreover, our results show that our proposed ML method has an enhanced reliability.
翻訳日:2021-06-23 14:43:04 公開日:2021-06-22
# クロスサイロ連合学習における長期協調の実現--繰り返しゲームの視点から

Enabling Long-Term Cooperation in Cross-Silo Federated Learning: A Repeated Game Perspective ( http://arxiv.org/abs/2106.11814v1 )

ライセンス: Link先を確認
Ning Zhang, Qian Ma, Xu Chen(参考訳) cross-silo federated learning (fl)は、ローカルデータをプライベートに保ちながら、グローバルなモデルを協調的にトレーニングする分散学習アプローチである。 クロスデバイスFLとは異なり、クロスサイロFLのクライアントは通常、時間によって異なるローカルデータセットのために複数のクロスサイロFLプロセスを繰り返し実行し、参加レベルを自己選択することで長期的な利益を最適化する組織または企業である。 flに参加するようクライアントにインセンティブを与える作業はいくつかあったが、クロスサイロflにおけるクライアントの長期的な利己的な参加行動の分析はほとんど未調査のままである。 本稿では,クロスサイロFLにおける異種クライアントの自己参加行動を分析する。 具体的には、ステージゲームが1つのクロスサイロflプロセス(spfl)において、クライアントの長期的な自己参加行動を無限に繰り返したゲームとしてモデル化する。 ステージゲームspflでは,一意なnash平衡(ne)を導出し,各クライアントに対して均衡参加戦略を計算する分散アルゴリズムを提案する。 顧客間の長期的インタラクションについては、モデルトレーニングのためのローカルデータ量を増やしつつ、フリーライダー数を最小限に抑えるクライアントのための協調戦略を導出する。 罰則によって実施されるこのような協調戦略は、無限に繰り返されるゲームのSPNEであり、ステージゲームのNEのフリーライダーである一部のクライアントが(部分的な)コントリビュータになることが示される。 さらに,モデル学習のための局所データ量を最大化しながら,フリーライダーの数を最小化する最適なSPNEを計算するアルゴリズムを提案する。 シミュレーションの結果, 最適SPNEにおける協調戦略は, フリーライダーの数を効果的に削減し, モデルトレーニングのためのローカルデータ量を増やすことができることがわかった。

Cross-silo federated learning (FL) is a distributed learning approach where clients train a global model cooperatively while keeping their local data private. Different from cross-device FL, clients in cross-silo FL are usually organizations or companies which may execute multiple cross-silo FL processes repeatedly due to their time-varying local data sets, and aim to optimize their long-term benefits by selfishly choosing their participation levels. While there has been some work on incentivizing clients to join FL, the analysis of the long-term selfish participation behaviors of clients in cross-silo FL remains largely unexplored. In this paper, we analyze the selfish participation behaviors of heterogeneous clients in cross-silo FL. Specifically, we model the long-term selfish participation behaviors of clients as an infinitely repeated game, with the stage game being a selfish participation game in one cross-silo FL process (SPFL). For the stage game SPFL, we derive the unique Nash equilibrium (NE), and propose a distributed algorithm for each client to calculate its equilibrium participation strategy. For the long-term interactions among clients, we derive a cooperative strategy for clients which minimizes the number of free riders while increasing the amount of local data for model training. We show that enforced by a punishment strategy, such a cooperative strategy is a SPNE of the infinitely repeated game, under which some clients who are free riders at the NE of the stage game choose to be (partial) contributors. We further propose an algorithm to calculate the optimal SPNE which minimizes the number of free riders while maximizing the amount of local data for model training. Simulation results show that our proposed cooperative strategy at the optimal SPNE can effectively reduce the number of free riders and increase the amount of local data for model training.
翻訳日:2021-06-23 14:42:34 公開日:2021-06-22
# 動くターゲットで確率的ポリアックをステップ化する

Stochastic Polyak Stepsize with a Moving Target ( http://arxiv.org/abs/2106.11851v1 )

ライセンス: Link先を確認
Robert M. Gower and Aaron Defazio and Michael Rabbat(参考訳) 本稿では, 過去の損失値を用いて分散を低減する確率勾配法を提案する。 この手法は補間を仮定することなく世界中に収束するPolyak Stepsizeの新しい確率的変種と解釈できる。 提案手法では,各データポイントの損失値を追跡する補助変数を各データポイント毎に導入する。 本稿では,オンラインSGDの特別な変種として解釈できることを示し,グローバル収束理論を提案する。 新しいメソッドはデータポイント毎に単一のスカラーのみを格納し、メモリがボトルネックとなる分散低減のための新しいアプリケーションを開く。

We propose a new stochastic gradient method that uses recorded past loss values to reduce the variance. Our method can be interpreted as a new stochastic variant of the Polyak Stepsize that converges globally without assuming interpolation. Our method introduces auxiliary variables, one for each data point, that track the loss value for each data point. We provide a global convergence theory for our method by showing that it can be interpreted as a special variant of online SGD. The new method only stores a single scalar per data point, opening up new applications for variance reduction where memory is the bottleneck.
翻訳日:2021-06-23 14:42:00 公開日:2021-06-22
# ニューラルネットワークトレーニングにおけるランダム性:ツーリングの影響を特徴づける

Randomness In Neural Network Training: Characterizing The Impact of Tooling ( http://arxiv.org/abs/2106.11872v1 )

ライセンス: Link先を確認
Donglin Zhuang, Xingyao Zhang, Shuaiwen Leon Song, Sara Hooker(参考訳) 機械学習における決定論の探求は、アルゴリズム設計の選択によってもたらされるノイズの影響を特徴づけることに集中している。 この研究では、ツールの選択がディープニューラルネットワークトレーニングにどのようにランダム性をもたらすのかという、あまりよく理解されず研究された疑問に対処する。 我々は、様々な種類のハードウェア、アクセラレーター、最先端のネットワーク、オープンソースのデータセットで大規模な実験を行い、ツールの選択がシステムにおける非決定性レベル、そのような非決定性の影響、そして異なるノイズの源を取り除くコストにどのように寄与するかを特徴付ける。 我々の発見は驚くべきものであり、非決定性がニュアンスに与える影響を示唆している。 top-1の精度のようなトップラインのメトリクスは顕著に影響を受けないが、データ分散の特定の部分でのモデルパフォーマンスはランダム性の導入にずっと敏感である。 我々の結果は、決定論的ツールがAIの安全性にとって重要であることを示唆している。 しかし、決定論を保証するコストは、ニューラルネットワークアーキテクチャとハードウェアタイプの間で劇的に異なり、例えば、非決定論的トレーニングと比較して、広く使われているgpuアクセラレータアーキテクチャのスペクトルに対して、最大746\%$、241\%$、および196\%$である。 本論文で使用されるソースコードは、https://github.com/u syd-fsalab/neuralnet workrandomnessで利用可能である。

The quest for determinism in machine learning has disproportionately focused on characterizing the impact of noise introduced by algorithmic design choices. In this work, we address a less well understood and studied question: how does our choice of tooling introduce randomness to deep neural network training. We conduct large scale experiments across different types of hardware, accelerators, state of art networks, and open-source datasets, to characterize how tooling choices contribute to the level of non-determinism in a system, the impact of said non-determinism, and the cost of eliminating different sources of noise. Our findings are surprising, and suggest that the impact of non-determinism in nuanced. While top-line metrics such as top-1 accuracy are not noticeably impacted, model performance on certain parts of the data distribution is far more sensitive to the introduction of randomness. Our results suggest that deterministic tooling is critical for AI safety. However, we also find that the cost of ensuring determinism varies dramatically between neural network architectures and hardware types, e.g., with overhead up to $746\%$, $241\%$, and $196\%$ on a spectrum of widely used GPU accelerator architectures, relative to non-deterministic training. The source code used in this paper is available at https://github.com/u syd-fsalab/NeuralNet workRandomness.
翻訳日:2021-06-23 14:41:51 公開日:2021-06-22
# reusing combinatorial structure:submodular base polytopes上の高速な反復射影

Reusing Combinatorial Structure: Faster Iterative Projections over Submodular Base Polytopes ( http://arxiv.org/abs/2106.11943v1 )

ライセンス: Link先を確認
Jai Moondra, Hassan Mortagy, Swati Gupta(参考訳) projected newton's method, fista, mirror descent, and its variantsのような最適化アルゴリズムは、ほぼ最適の後悔の限界と収束率を享受するが、各イテレーションにおける「プロジェクション」計算の計算ボトルネック(例えば、$o(t^{1/2})$ regret of online mirror descent)に悩まされている。 一方、条件付き勾配変種は各イテレーションで線形最適化を解くが、結果として準最適レートとなる(例えば、$o(t^{3/4})$ regret of online frank-wolfe)。 実行時v/s収束率のこのトレードオフに動機づけられ、広く普及しているサブモジュラーベースポリトープに対して、近接点の反復射影を考える。 我々は離散的視点と連続的視点の両方を用いて投影の計算を高速化するツールキットを開発した。 後述のFrank-Wolfeアルゴリズムを用いて,この情報を用いて早期終了を可能にする。 基数性に基づく部分モジュラーポリトープの特別な場合、特定のブレグマン射影を$\omega(n/\log(n))$で計算するランタイムを改善する。 理論的には,予備計算実験における実行時の規模削減の順序を示す。

Optimization algorithms such as projected Newton's method, FISTA, mirror descent and its variants enjoy near-optimal regret bounds and convergence rates, but suffer from a computational bottleneck of computing "projections'' in potentially each iteration (e.g., $O(T^{1/2})$ regret of online mirror descent). On the other hand, conditional gradient variants solve a linear optimization in each iteration, but result in suboptimal rates (e.g., $O(T^{3/4})$ regret of online Frank-Wolfe). Motivated by this trade-off in runtime v/s convergence rates, we consider iterative projections of close-by points over widely-prevalent submodular base polytopes $B(f)$. We develop a toolkit to speed up the computation of projections using both discrete and continuous perspectives. We subsequently adapt the away-step Frank-Wolfe algorithm to use this information and enable early termination. For the special case of cardinality based submodular polytopes, we improve the runtime of computing certain Bregman projections by a factor of $\Omega(n/\log(n))$. Our theoretical results show orders of magnitude reduction in runtime in preliminary computational experiments.
翻訳日:2021-06-23 14:41:28 公開日:2021-06-22
# FLRA:フェデレーション学習システムのためのリファレンスアーキテクチャ

FLRA: A Reference Architecture for Federated Learning Systems ( http://arxiv.org/abs/2106.11570v1 )

ライセンス: Link先を確認
Sin Kit Lo, Qinghua Lu, Hye-Young Paik, and Liming Zhu(参考訳) フェデレーション学習(federated learning)は、複数のデバイスでモデルをローカルにトレーニングし、クライアントのローカルデータを共有せずにグローバルモデルを定式化する、新たなマシンラーニングパラダイムである。 連合学習システムは,さまざまな要件と制約を持ったさまざまなコンポーネントやステークホルダを含む,大規模分散システムと見なすことができる。 したがって、連合学習システムの開発には、ソフトウェアシステム設計思考と機械学習知識の両方が必要である。 機械学習の観点からは、フェデレーション学習に多くの努力が払われているが、この領域に関する以前の体系的文献レビューでは、フェデレーション学習のためのソフトウェアアーキテクチャ設計に対する考慮が明確に欠落していることが示されている。 本稿では,フェデレート学習システムのための参照アーキテクチャであるFLRAを提案する。 提案するFLRA参照アーキテクチャは,文献および既存の産業実装に見られる,既存のフェデレーション学習システムパターンの広範なレビューに基づいている。 FLRA参照アーキテクチャは、連合学習アーキテクチャにおける頻繁な設計問題に対処できるアーキテクチャパターンのプールで構成されている。 FLRA参照アーキテクチャは、アーキテクトや開発者の問題解決を支援するための設計ガイドラインとして機能し、さらにカスタマイズすることができる。

Federated learning is an emerging machine learning paradigm that enables multiple devices to train models locally and formulate a global model, without sharing the clients' local data. A federated learning system can be viewed as a large-scale distributed system, involving different components and stakeholders with diverse requirements and constraints. Hence, developing a federated learning system requires both software system design thinking and machine learning knowledge. Although much effort has been put into federated learning from the machine learning perspectives, our previous systematic literature review on the area shows that there is a distinct lack of considerations for software architecture design for federated learning. In this paper, we propose FLRA, a reference architecture for federated learning systems, which provides a template design for federated learning-based solutions. The proposed FLRA reference architecture is based on an extensive review of existing patterns of federated learning systems found in the literature and existing industrial implementation. The FLRA reference architecture consists of a pool of architectural patterns that could address the frequently recurring design problems in federated learning architectures. The FLRA reference architecture can serve as a design guideline to assist architects and developers with practical solutions for their problems, which can be further customised.
翻訳日:2021-06-23 14:40:31 公開日:2021-06-22
# ZeroSpeech 2021の情報検索:Wroclaw大学からの提出

Information Retrieval for ZeroSpeech 2021: The Submission by University of Wroclaw ( http://arxiv.org/abs/2106.11603v1 )

ライセンス: Link先を確認
Jan Chorowski, Grzegorz Ciesielski, Jaros{\l}aw Dzikowski, Adrian {\L}a\'ncucki, Ricard Marxer, Mateusz Opala, Piotr Pusz, Pawe{\l} Rychlikowski, Micha{\l} Stypu{\l}kowski(参考訳) 本稿では,ゼロリソース音声課題2021の課題に対する低リソースアプローチについて述べる。 我々は,CPCから派生し,k-meansアルゴリズムでクラスタリングされたベースラインとして,オーガナイザが提案する音声の教師なし表現に基づいて構築する。 それらの表現を精製する単純な手法はギャップを狭くしたり、高い計算予算を使うソリューションを改善することができる。 その結果、CPCから派生した表現は、まだ訓練言語モデルにはうるさいが、パターンマッチングと検索の単純な形式には十分安定である、という結論に至った。

We present a number of low-resource approaches to the tasks of the Zero Resource Speech Challenge 2021. We build on the unsupervised representations of speech proposed by the organizers as a baseline, derived from CPC and clustered with the k-means algorithm. We demonstrate that simple methods of refining those representations can narrow the gap, or even improve upon the solutions which use a high computational budget. The results lead to the conclusion that the CPC-derived representations are still too noisy for training language models, but stable enough for simpler forms of pattern matching and retrieval.
翻訳日:2021-06-23 14:40:09 公開日:2021-06-22
# 微粒と粗粒の誤情報を分類する : COVID-19インフォデミックの実証的研究

Categorising Fine-to-Coarse Grained Misinformation: An Empirical Study of COVID-19 Infodemic ( http://arxiv.org/abs/2106.11702v1 )

ライセンス: Link先を確認
Ye Jiang, Xingyi Song, Carolina Scarton, Ahmet Aker, Kalina Bontcheva(参考訳) ソーシャルメディア上で新型コロナウイルス(COVID-19)の誤報が広まることで、多くの研究者が注目している。 google scholarによると、covid-19関連の偽情報研究はこれまでに約2万6000件が出版されている。 これらの研究の多くは、(1)新型コロナウイルス関連誤報の特徴を検出し、分析することに焦点を当てている。 しかし、誤報に関連する社会行動の研究は無視されることが多い。 本稿では、社会行動アノテーションを含む微粒な誤情報ツイートデータセット(例)を紹介する。 誤報に対するコメントまたは質問) このデータセットは、社会的行動分析を可能にするだけでなく、証拠ベースまたは非証拠ベースの誤情報分類タスクにも適している。 また,本実験では,実世界の誤情報に適用した場合,誤情報の分類性能が著しく異なる可能性があることを示す。

The spreading COVID-19 misinformation over social media already draws the attention of many researchers. According to Google Scholar, about 26000 COVID-19 related misinformation studies have been published to date. Most of these studies focusing on 1) detect and/or 2) analysing the characteristics of COVID-19 related misinformation. However, the study of the social behaviours related to misinformation is often neglected. In this paper, we introduce a fine-grained annotated misinformation tweets dataset including social behaviours annotation (e.g. comment or question to the misinformation). The dataset not only allows social behaviours analysis but also suitable for both evidence-based or non-evidence-based misinformation classification task. In addition, we introduce leave claim out validation in our experiments and demonstrate the misinformation classification performance could be significantly different when applying to real-world unseen misinformation.
翻訳日:2021-06-23 14:39:58 公開日:2021-06-22
# ワイナー共通情報を用いたデコーダ側情報を用いた深部ステレオ画像圧縮

Deep Stereo Image Compression with Decoder Side Information using Wyner Common Information ( http://arxiv.org/abs/2106.11723v1 )

ライセンス: Link先を確認
Nitish Mital, Ezgi Ozyilkan, Ali Garjani, Deniz Gunduz(参考訳) 本稿では,デコーダの側情報として相関画像が利用できる場合に,画像の圧縮を行う新しいディープニューラルネットワーク(DNN)アーキテクチャを提案する。 この問題は情報理論において分散ソース符号化(DSC)として知られている。 特に、重なり合う視野のため、一般的に互いに高い相関関係を持つ一対のステレオ画像を検討し、ペアの一方の画像を圧縮して送信し、もう一方のイメージはデコーダでのみ利用可能であると仮定する。 提案するアーキテクチャでは、エンコーダは入力画像を潜在空間にマッピングし、潜在表現を量子化し、エントロピー符号化を用いて圧縮する。 デコーダは、入力画像と相関画像との間のワイナーの共通情報を後者から抽出するように訓練される。 受信した潜在表現とローカルに生成された共通情報はデコーダネットワークに渡され、入力画像の再構成が強化される。 共通情報は、受信機における関連情報の簡潔な表現を提供する。 ステレオ画像ペアのKITTIデータセット上で,提案手法の有効性を訓練し,実証する。 この結果から,提案アーキテクチャはデコーダのみの側情報を利用することができ,デコーダ側情報を用いたステレオ画像圧縮において,従来よりも優れた性能を示した。

We present a novel deep neural network (DNN) architecture for compressing an image when a correlated image is available as side information only at the decoder. This problem is known as distributed source coding (DSC) in information theory. In particular, we consider a pair of stereo images, which generally have high correlation with each other due to overlapping fields of view, and assume that one image of the pair is to be compressed and transmitted, while the other image is available only at the decoder. In the proposed architecture, the encoder maps the input image to a latent space, quantizes the latent representation, and compresses it using entropy coding. The decoder is trained to extract the Wyner's common information between the input image and the correlated image from the latter. The received latent representation and the locally generated common information are passed through a decoder network to obtain an enhanced reconstruction of the input image. The common information provides a succinct representation of the relevant information at the receiver. We train and demonstrate the effectiveness of the proposed approach on the KITTI dataset of stereo image pairs. Our results show that the proposed architecture is capable of exploiting the decoder-only side information, and outperforms previous work on stereo image compression with decoder side information.
翻訳日:2021-06-23 14:39:45 公開日:2021-06-22
# ハミルトンニューラルネットワークのためのシンプレクティック学習

Symplectic Learning for Hamiltonian Neural Networks ( http://arxiv.org/abs/2106.11753v1 )

ライセンス: Link先を確認
Marco David and Florian M\'ehats(参考訳) 機械学習手法は自然科学において観測データから物理システムをモデル化し予測するために広く用いられている。 しかし、それらはしばしば理解されていない「ブラックボックス」として使われ、既存の数学的構造や問題の不変性を無視している。 最近、hamiltonian neural networks (hnns)の提案は、ハミルトニアンシステムの性能を改善するために物理的洞察を用いて、統一された"グレーボックス"アプローチへの第一歩を踏み出した。 本稿では, 損失関数の異なるハミルトン系のシンプレクティック構造を利用して, HNNの学習方法を大幅に改善する方法について検討する。 これにより、人工下界からの損失が解放される。 HNNが学習できる正確なハミルトン関数の存在を数学的に保証する。 これにより、hnnsが犯したエラーを証明し、数値的に分析することができます。 最後に,非正規化観測データのみから真ハミルトニアンを得るための新しい訓練後補正を任意の順序まで提示する。

Machine learning methods are widely used in the natural sciences to model and predict physical systems from observation data. Yet, they are often used as poorly understood "black boxes," disregarding existing mathematical structure and invariants of the problem. Recently, the proposal of Hamiltonian Neural Networks (HNNs) took a first step towards a unified "gray box" approach, using physical insight to improve performance for Hamiltonian systems. In this paper, we explore a significantly improved training method for HNNs, exploiting the symplectic structure of Hamiltonian systems with a different loss function. This frees the loss from an artificial lower bound. We mathematically guarantee the existence of an exact Hamiltonian function which the HNN can learn. This allows us to prove and numerically analyze the errors made by HNNs which, in turn, renders them fully explainable. Finally, we present a novel post-training correction to obtain the true Hamiltonian only from discretized observation data, up to an arbitrary order.
翻訳日:2021-06-23 14:39:25 公開日:2021-06-22
# グラフの粗大化:科学計算から機械学習へ

Graph coarsening: From scientific computing to machine learning ( http://arxiv.org/abs/2106.11863v1 )

ライセンス: Link先を確認
Jie Chen, Yousef Saad and Zechen Zhang(参考訳) グラフ粗化やグラフ縮小の一般的な方法は、科学計算において驚くほど有用でユビキタスなツールであり、機械学習にも同様の影響を与え始めている。 この論文の目的は、科学計算でうまく展開された粗粒化手法を広く検討し、機械学習に関連する最近のアプリケーションにおいて、類似した原則がいかにその道筋を見出しているかを確認することである。 科学計算において、粗化は代数的乗法や関連する多レベル不完全LU因子のクラスにおいて中心的な役割を果たす。 機械学習では、グラフ粗化はグラフダウンサンプリングやグラフリダクションなど、様々な名前で呼ばれる。 ほとんどの場合の目標は、元のグラフを、ノードが少ないが、その構造と特性が元のグラフと似ているグラフに置き換えることである。 このように、これらの方法の一般的な戦略は、粗グラフを定義するためにスペクトル特性に依存することである。

The general method of graph coarsening or graph reduction has been a remarkably useful and ubiquitous tool in scientific computing and it is now just starting to have a similar impact in machine learning. The goal of this paper is to take a broad look into coarsening techniques that have been successfully deployed in scientific computing and see how similar principles are finding their way in more recent applications related to machine learning. In scientific computing, coarsening plays a central role in algebraic multigrid methods as well as the related class of multilevel incomplete LU factorizations. In machine learning, graph coarsening goes under various names, e.g., graph downsampling or graph reduction. Its goal in most cases is to replace some original graph by one which has fewer nodes, but whose structure and characteristics are similar to those of the original graph. As will be seen, a common strategy in these methods is to rely on spectral properties to define the coarse graph.
翻訳日:2021-06-23 14:39:09 公開日:2021-06-22
# NetFense: グラフデータのためのニューラルネットワーク上のプライバシ攻撃に対する敵対的な防御

NetFense: Adversarial Defenses against Privacy Attacks on Neural Networks for Graph Data ( http://arxiv.org/abs/2106.11865v1 )

ライセンス: Link先を確認
I-Chung Hsieh, Cheng-Te Li(参考訳) グラフデータに対するノードプライバシ保護とグラフニューラルネットワーク(GNN)攻撃の最近の進歩が注目されている。 目はまだこの2つの重要なタスクをまとめていません。 相手が強力なGNNを使って、ソーシャルネットワークでユーザーのプライベートラベルを推測できることを想像してください。 摂動グラフの効用を維持しながら、このようなプライバシー攻撃に対して逆向きに防御できるのか? 本稿では,gnnベースのプライバシ攻撃に対する敵対的防御という新たな研究課題を提案し,その目標を達成するためのグラフ摂動に基づくアプローチであるnetfenseを提案する。 NetFenseは、グラフデータの無通知性(グラフ構造に制限のある変更)を同時に保持し、ターゲットラベル分類の予測信頼性(すなわちデータユーティリティの保存)を維持し、プライベートラベル分類の予測信頼性(すなわちノードのプライバシーを保護する)を低減する。 NetFenseによる摂動グラフは、ターゲットラベル分類におけるデータユーティリティ(すなわち、モデル不通知性)を効果的に維持でき、プライベートラベル分類(プライバシー保護)の予測信頼性を著しく低下させることができる。 広範な研究は、NetFenseの柔軟性、データの通知不能なローカル地区の保存、高次ノードのプライバシー保護の改善など、いくつかの洞察をもたらしている。

Recent advances in protecting node privacy on graph data and attacking graph neural networks (GNNs) gain much attention. The eye does not bring these two essential tasks together yet. Imagine an adversary can utilize the powerful GNNs to infer users' private labels in a social network. How can we adversarially defend against such privacy attacks while maintaining the utility of perturbed graphs? In this work, we propose a novel research task, adversarial defenses against GNN-based privacy attacks, and present a graph perturbation-based approach, NetFense, to achieve the goal. NetFense can simultaneously keep graph data unnoticeability (i.e., having limited changes on the graph structure), maintain the prediction confidence of targeted label classification (i.e., preserving data utility), and reduce the prediction confidence of private label classification (i.e., protecting the privacy of nodes). Experiments conducted on single- and multiple-target perturbations using three real graph data exhibit that the perturbed graphs by NetFense can effectively maintain data utility (i.e., model unnoticeability) on targeted label classification and significantly decrease the prediction confidence of private label classification (i.e., privacy protection). Extensive studies also bring several insights, such as the flexibility of NetFense, preserving local neighborhoods in data unnoticeability, and better privacy protection for high-degree nodes.
翻訳日:2021-06-23 14:38:54 公開日:2021-06-22
# graceの失敗: 境界的に安全でないニューラルネットワークコントローラの学習

Failing with Grace: Learning Neural Network Controllers that are Boundedly Unsafe ( http://arxiv.org/abs/2106.11881v1 )

ライセンス: Link先を確認
Panagiotis Vlantis and Michael M. Zavlanos(参考訳) 本研究では,任意形状の平面ロボットをコンパクトで障害物を伴わない作業空間で安全に操縦するために,フィードフォワードニューラルネットワーク(nn)コントローラを学習する問題を考える。 安全状態空間の境界に近いデータポイントの密度に強く依存する既存の手法とは異なり、NNコントローラをクローズドループ安全保証で訓練する手法では、実際に満たせないデータに対するそのような仮定を引き上げ、代わりに空間的に制御可能な境界大の優雅な安全違反を許容するアプローチを提案する。 そこで我々は,安全制約をカプセル化する到達可能性解析手法を採用する。 具体的には、クローズドループシステムの前方到達可能な集合を計算効率良く近似するために、ロボットの状態空間を細胞に分割し、訓練された制御法の下で安全な集合から逃れる可能性のある状態を含む細胞を適応的に分割する。 そこで我々はまず,ロボットの足跡の下方および上方への近似を適切に設計し,構成空間を細胞に適応的に分割する。 そして,各セルの前方到達可能集合と実現不可能なロボット構成の集合との重なりを安全違反の尺度として用い,この重なりを訓練過程で罰する損失関数にペナルティ項を導入する。 その結果, 閉ループ系における安全ベクトル場を学習し, 同時に, 閉ループ系の前方到達可能な集合と安全でない状態の集合との重なり合いによって定義される構成空間全体の安全違反に関する数値的な最悪のケース境界を提供することができた。 さらに、計算の複雑さとこれらの境界の厳密さの間のトレードオフを制御できる。 最後に,提案手法の有効性を検証したシミュレーション研究を提案する。

In this work, we consider the problem of learning a feed-forward neural network (NN) controller to safely steer an arbitrarily shaped planar robot in a compact and obstacle-occluded workspace. Unlike existing methods that depend strongly on the density of data points close to the boundary of the safe state space to train NN controllers with closed-loop safety guarantees, we propose an approach that lifts such assumptions on the data that are hard to satisfy in practice and instead allows for graceful safety violations, i.e., of a bounded magnitude that can be spatially controlled. To do so, we employ reachability analysis methods to encapsulate safety constraints in the training process. Specifically, to obtain a computationally efficient over-approximation of the forward reachable set of the closed-loop system, we partition the robot's state space into cells and adaptively subdivide the cells that contain states which may escape the safe set under the trained control law. To do so, we first design appropriate under- and over-approximations of the robot's footprint to adaptively subdivide the configuration space into cells. Then, using the overlap between each cell's forward reachable set and the set of infeasible robot configurations as a measure for safety violations, we introduce penalty terms into the loss function that penalize this overlap in the training process. As a result, our method can learn a safe vector field for the closed-loop system and, at the same time, provide numerical worst-case bounds on safety violation over the whole configuration space, defined by the overlap between the over-approximation of the forward reachable set of the closed-loop system and the set of unsafe states. Moreover, it can control the tradeoff between computational complexity and tightness of these bounds. Finally, we provide a simulation study that verifies the efficacy of the proposed scheme.
翻訳日:2021-06-23 14:38:26 公開日:2021-06-22
# (参考訳) モデルベース手法によるロバスト回帰 [全文訳有]

Robust Regression via Model Based Methods ( http://arxiv.org/abs/2106.10759v2 )

ライセンス: CC BY 4.0
Armin Moharrer, Khashayar Kamran, Edmund Yeh, and Stratis Ioannidis(参考訳) 平均二乗誤差損失は、オートエンコーダ、マルチターゲット回帰、行列分解など、多くのアプリケーションで広く使われている。 微分可能性による計算上の優位性にもかかわらず、外れ値には堅牢ではない。 対照的に、l_pノルムはロバストであることが知られているが、例えば確率的勾配降下(英語版)によって最適化することはできない。 モデルベース最適化 (MBO) [35, 36] にインスパイアされたアルゴリズムを提案し, 非凸対象を凸モデル関数に置き換え, モデル関数の最適化と解の更新を交互に行う。 これを頑健な回帰に適用し、MBOの内部最適化を解くために、OADM(Online Alternating Direction Method of Multipliers) [50] の確率的変種であるSADMを提案する。 SADM は O(log T/T) に収束することを示す。 最後に, (a) 外れ値に対するl_pノルムのロバスト性, (b) 提案するモデルに基づくアルゴリズムの効率を, オートエンコーダの勾配法や多目標回帰法と比較して実験的に示す。

The mean squared error loss is widely used in many applications, including auto-encoders, multi-target regression, and matrix factorization, to name a few. Despite computational advantages due to its differentiability, it is not robust to outliers. In contrast, l_p norms are known to be robust, but cannot be optimized via, e.g., stochastic gradient descent, as they are non-differentiable. We propose an algorithm inspired by so-called model-based optimization (MBO) [35, 36], which replaces a non-convex objective with a convex model function and alternates between optimizing the model function and updating the solution. We apply this to robust regression, proposing SADM, a stochastic variant of the Online Alternating Direction Method of Multipliers (OADM) [50] to solve the inner optimization in MBO. We show that SADM converges with the rate O(log T/T). Finally, we demonstrate experimentally (a) the robustness of l_p norms to outliers and (b) the efficiency of our proposed model-based algorithms in comparison with gradient methods on autoencoders and multi-target regression.
翻訳日:2021-06-23 12:12:56 公開日:2021-06-22
# (参考訳) 軌道推定のための混合密度ネットワークを用いた複数物体追跡 [全文訳有]

Multiple Object Tracking with Mixture Density Networks for Trajectory Estimation ( http://arxiv.org/abs/2106.10950v2 )

ライセンス: CC BY 4.0
Andreu Girbau, Xavier Gir\'o-i-Nieto, Ignasi Rius, Ferran Marqu\'es(参考訳) 複数の物体追跡は、軌道情報で緩和される可能性のあるいくつかの課題に直面している。 物体の後方の位置を知ることは、隠蔽、再識別、アイデンティティスイッチングといった状況の曖昧化と解決に役立つ。 本研究では, 軌道推定が追跡の重要な要因となり得ることを示すとともに, 既存のオブジェクトトラッカに追加可能な汎用モジュールとして, 再帰混合密度ネットワークに基づく軌道推定器trajeを提案する。 複数の軌道仮説を提供するため,本手法ではビーム探索を用いる。 また,同じ推定軌道に依存して,閉塞発生後の軌道の再構築を提案する。 traje を centertrack [63] と tracktor [3] という2つの技術追跡アルゴリズムに統合した。 MOTChallenge 2017テストセットでのそれぞれのパフォーマンスは、MOTAスコアで6.3と0.3ポイント、IDF1で1.8と3.1ポイント向上し、CenterTrack+TrajE構成の新たな状態が設定されている。

Multiple object tracking faces several challenges that may be alleviated with trajectory information. Knowing the posterior locations of an object helps disambiguating and solving situations such as occlusions, re-identification, and identity switching. In this work, we show that trajectory estimation can become a key factor for tracking, and present TrajE, a trajectory estimator based on recurrent mixture density networks, as a generic module that can be added to existing object trackers. To provide several trajectory hypotheses, our method uses beam search. Also, relying on the same estimated trajectory, we propose to reconstruct a track after an occlusion occurs. We integrate TrajE into two state of the art tracking algorithms, CenterTrack [63] and Tracktor [3]. Their respective performances in the MOTChallenge 2017 test set are boosted 6.3 and 0.3 points in MOTA score, and 1.8 and 3.1 in IDF1, setting a new state of the art for the CenterTrack+TrajE configuration
翻訳日:2021-06-23 11:39:00 公開日:2021-06-22
# 残留生成モデルによるオフライン強化学習の促進

Boosting Offline Reinforcement Learning with Residual Generative Modeling ( http://arxiv.org/abs/2106.10411v2 )

ライセンス: Link先を確認
Hua Wei, Deheng Ye, Zhao Liu, Hao Wu, Bo Yuan, Qiang Fu, Wei Yang, Zhenhui Li(参考訳) オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。 現在のオフラインRL研究は、1)生成モデリング、すなわち、固定データを用いたポリシーの近似、2)状態-作用値関数の学習を含む。 多くの研究は、トレーニングデータの分布シフトによって生じる値関数近似におけるブートストラップ誤差を低減し、状態-作用関数の部分に焦点を当てているが、生成モデルにおける誤差伝播の影響は無視されている。 本稿では,生成モデルにおける誤差を解析する。 オフラインRLのポリシー近似誤差を低減するための残差生成モデルであるAQLを提案する。 提案手法は,異なるベンチマークデータセットでより正確なポリシー近似を学習可能であることを示す。 さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。

Offline reinforcement learning (RL) tries to learn the near-optimal policy with recorded offline experience without online exploration. Current offline RL research includes: 1) generative modeling, i.e., approximating a policy using fixed data; and 2) learning the state-action value function. While most research focuses on the state-action function part through reducing the bootstrapping error in value function approximation induced by the distribution shift of training data, the effects of error propagation in generative modeling have been neglected. In this paper, we analyze the error in generative modeling. We propose AQL (action-conditioned Q-learning), a residual generative model to reduce policy approximation error for offline RL. We show that our method can learn more accurate policy approximations in different benchmark datasets. In addition, we show that the proposed offline RL method can learn more competitive AI agents in complex control tasks under the multiplayer online battle arena (MOBA) game Honor of Kings.
翻訳日:2021-06-23 11:20:26 公開日:2021-06-22
# 強化学習とアクティブ推論によるゴール指向計画

Goal-Directed Planning by Reinforcement Learning and Active Inference ( http://arxiv.org/abs/2106.09938v2 )

ライセンス: Link先を確認
Dongqi Han, Kenji Doya and Jun Tani(参考訳) 目標指向行動と習慣行動の違いは何か? ベイズ推論を用いた意思決定の新たな計算フレームワークを提案する。 このモデルは、確率的内部状態${z}$をサンプリングすることで、自己探索と運動行動の生成により環境状態遷移を予測することを学ぶ。 以前の${z}$の分布から得られる習慣行動は、強化学習によって取得される。 目標指向行動は,過去,現在,未来を最適化する能動的推論を用いて,観測されたセンサシーケンスに制約された将来の観測に対する変動自由エネルギーを最小化することにより,${z}$の後方分布から決定される。 本稿では,カメラ観測と連続運動動作を用いたセンサモレータナビゲーションタスクの実験により,提案手法の有効性を実証する。

What is the difference between goal-directed and habitual behavior? We propose a novel computational framework of decision making with Bayesian inference, in which everything is integrated as an entire neural network model. The model learns to predict environmental state transitions by self-exploration and generating motor actions by sampling stochastic internal states ${z}$. Habitual behavior, which is obtained from the prior distribution of ${z}$, is acquired by reinforcement learning. Goal-directed behavior is determined from the posterior distribution of ${z}$ by planning, using active inference which optimizes the past, current and future ${z}$ by minimizing the variational free energy for the desired future observation constrained by the observed sensory sequence. We demonstrate the effectiveness of the proposed framework by experiments in a sensorimotor navigation task with camera observations and continuous motor actions.
翻訳日:2021-06-23 11:20:10 公開日:2021-06-22
# shape prior non-uniform sampling guided real-time stereo 3d object detection

Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object Detection ( http://arxiv.org/abs/2106.10013v3 )

ライセンス: Link先を確認
Aqi Gao, Jiale Cao, Yanwei Pang(参考訳) 擬似LiDARベースの3Dオブジェクト検出器は高い精度で人気を博している。 しかし,これらの手法では深度監視が必要であり,低速化に苦しむ。 これら2つの問題を解決するため、最近発表されたRTS3Dは、深度監督なしでオブジェクトの中間表現のための効率的な4D特徴-一貫性埋め込み(FCE)空間を構築した。 fce空間は、異なるオブジェクト領域の重要性を無視する特徴サンプリングポイント生成のために、オブジェクト領域全体を3次元一様グリッド潜在空間に分割する。 しかし, 内部領域と比較すると, 外側領域は正確な3d検出に重要な役割を担っている。 外側領域からより多くの情報をエンコードするために,外側領域で密サンプリングを行い,内側領域でスパースサンプリングを行う,事前の非一様サンプリング戦略を提案する。 その結果、外部領域からより多くの点をサンプリングし、3次元検出に有用な特徴を抽出する。 さらに,各サンプリング点の特徴識別を強化するために,よりコンテキスト情報を活用し,ノイズを抑える高レベルな意味強化FCEモジュールを提案する。 提案手法の有効性を示すため,KITTIデータセットの実験を行った。 ベースラインRTS3Dと比較して,提案手法はネットワークパラメータをほとんど含まないAP3dに対して2.57%改善されている。 さらに,提案手法は,リアルタイムに余分な監視を行わず,最先端の手法よりも優れた性能を示す。

Pseudo-LiDAR based 3D object detectors have gained popularity due to their high accuracy. However, these methods need dense depth supervision and suffer from inferior speed. To solve these two issues, a recently introduced RTS3D builds an efficient 4D Feature-Consistency Embedding (FCE) space for the intermediate representation of object without depth supervision. FCE space splits the entire object region into 3D uniform grid latent space for feature sampling point generation, which ignores the importance of different object regions. However, we argue that, compared with the inner region, the outer region plays a more important role for accurate 3D detection. To encode more information from the outer region, we propose a shape prior non-uniform sampling strategy that performs dense sampling in outer region and sparse sampling in inner region. As a result, more points are sampled from the outer region and more useful features are extracted for 3D detection. Further, to enhance the feature discrimination of each sampling point, we propose a high-level semantic enhanced FCE module to exploit more contextual information and suppress noise better. Experiments on the KITTI dataset are performed to show the effectiveness of the proposed method. Compared with the baseline RTS3D, our proposed method has 2.57% improvement on AP3d almost without extra network parameters. Moreover, our proposed method outperforms the state-of-the-art methods without extra supervision at a real-time speed.
翻訳日:2021-06-23 11:19:55 公開日:2021-06-22
# 信頼誘導放射線学報告

Confidence-Guided Radiology Report Generation ( http://arxiv.org/abs/2106.10887v2 )

ライセンス: Link先を確認
Yixin Wang, Zihao Lin, Jiang Tian, Zhongchao Shi, Yang Zhang, Jianping Fan, Zhiqiang He(参考訳) 医療画像は臨床における診断と治療において重要な役割を担っている。 画像の自動キャプションの大幅な進歩に触発されて,医療画像の放射線学レポートを作成するための様々なディープラーニング(DL)アーキテクチャが提案されている。 しかし、モデル不確実性(すなわち、レポート生成におけるモデル信頼性/信頼)は未解決の問題である。 本稿では,放射線学レポート作成作業における視覚的不確実性とテキスト的不確実性の両方を明確に定量化する手法を提案する。 このようなマルチモーダル不確実性は、レポートレベルと文レベルの両方でモデルの信頼性スコアを十分に捉えることができ、より包括的なモデル最適化を達成するために損失を重くするためにさらに活用される。 実験結果から,提案手法は放射線レポート生成に信頼性の高い信頼性スコアを与えることが可能であり,提案手法はより包括的なモデル最適化を実現することができ,パブリック放射線レポートデータセットにおける最新性能が得られている。

Medical imaging plays a pivotal role in diagnosis and treatment in clinical practice. Inspired by the significant progress in automatic image captioning, various deep learning (DL)-based architectures have been proposed for generating radiology reports for medical images. However, model uncertainty (i.e., model reliability/confiden ce on report generation) is still an under-explored problem. In this paper, we propose a novel method to explicitly quantify both the visual uncertainty and the textual uncertainty for the task of radiology report generation. Such multi-modal uncertainties can sufficiently capture the model confidence scores at both the report-level and the sentence-level, and thus they are further leveraged to weight the losses for achieving more comprehensive model optimization. Our experimental results have demonstrated that our proposed method for model uncertainty characterization and estimation can provide more reliable confidence scores for radiology report generation, and our proposed uncertainty-weighted losses can achieve more comprehensive model optimization and result in state-of-the-art performance on a public radiology report dataset.
翻訳日:2021-06-23 11:19:32 公開日:2021-06-22
# SODA10M: 自律運転のための大規模物体検出ベンチマークを目指して

SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving ( http://arxiv.org/abs/2106.11118v2 )

ライセンス: Link先を確認
Jianhua Han, Xiwen Liang, Hang Xu, Kai Chen, Lanqing Hong, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Xiaodan Liang, Chunjing Xu(参考訳) 本稿では,実世界で進化し,進化し,スケーラブルな自動運転システムを実現することを目指して,これまでで1番目かつ最大のベンチマークである生データから学習することにより,異なる自己教師あり・半教師ありアプローチの評価を標準化する大規模ベンチマークを提案する。 既存の自動運転システムは、安全を確保するために広範囲の注釈データを使用して訓練された「完璧な」視覚知覚モデル(例えば、検出)に大きく依存している。 しかしながら、堅牢な自動運転システムを展開する場合、すべてのシナリオや状況(例えば、夜間、極端な天候、都市)のインスタンスを精巧にラベルするのは現実的ではない。 近年の自己教師型・半教師型学習の強力な進歩により,大規模未ラベルデータとラベル付きデータの少ないデータを協調的に活用することにより,堅牢な検出モデルを学ぶことが期待できる。 既存のデータセット(例えば、KITTI、Waymo)は、少量のデータしか提供しないか、あるいは完全なアノテーションで限られたドメインをカバーするため、大規模な事前訓練モデルの探索を妨げている。 そこで我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークを公開し,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。 多様性を改善するため、画像は天候、期間、場所の異なる32都市で、フレームごとに10秒ごとに収集される。 我々は,既存の監視状態検出モデル,一般的な自己監視型および半監督型アプローチの広範な実験と深い分析を行い,今後のモデルの開発方法についての知見を提供する。 データと最新情報はhttps://soda-2d.gith ub.ioで公開されている。

Aiming at facilitating a real-world, ever-evolving and scalable autonomous driving system, we present a large-scale benchmark for standardizing the evaluation of different self-supervised and semi-supervised approaches by learning from raw data, which is the first and largest benchmark to date. Existing autonomous driving systems heavily rely on `perfect' visual perception models (e.g., detection) trained using extensive annotated data to ensure the safety. However, it is unrealistic to elaborately label instances of all scenarios and circumstances (e.g., night, extreme weather, cities) when deploying a robust autonomous driving system. Motivated by recent powerful advances of self-supervised and semi-supervised learning, a promising direction is to learn a robust detection model by collaboratively exploiting large-scale unlabeled data and few labeled data. Existing dataset (e.g., KITTI, Waymo) either provides only a small amount of data or covers limited domains with full annotation, hindering the exploration of large-scale pre-trained models. Here, we release a Large-Scale Object Detection benchmark for Autonomous driving, named as SODA10M, containing 10 million unlabeled images and 20K images labeled with 6 representative object categories. To improve diversity, the images are collected every ten seconds per frame within 32 different cities under different weather conditions, periods and location scenes. We provide extensive experiments and deep analyses of existing supervised state-of-the-art detection models, popular self-supervised and semi-supervised approaches, and some insights about how to develop future models. The data and more up-to-date information have been released at https://soda-2d.gith ub.io.
翻訳日:2021-06-23 11:19:15 公開日:2021-06-22
# 集合的再生可能エネルギー発生予測のためのニューラルネットワーク解釈可能性

Neural network interpretability for forecasting of aggregated renewable generation ( http://arxiv.org/abs/2106.10476v2 )

ライセンス: Link先を確認
Yucun Lu, Ilgiz Murzakhanov, Spyros Chatzivasileiadis(参考訳) 再生可能エネルギーの急速な成長に伴い、多くの小型太陽光発電(PV)が出現する。 太陽発電の不確実性のため、総括的プロシューマーは太陽発電を予測し、太陽発電が負荷よりも大きいかどうかを予測する必要がある。 本稿では,二分分類ニューラルネットワークと回帰ニューラルネットワークの2つの解釈可能なニューラルネットワークを提案する。 ニューラルネットワークはTensorFlowを使って構築されている。 グローバルな特徴の重要性と局所的な特徴の寄与は、3つの勾配に基づく手法によって検証される。 さらに,ベイズニューラルネットワークを用いて予測の不確かさを推定することにより,予測が失敗した場合の異常を検出する。 勾配に基づく手法で解釈され、不確実性推定を補完するニューラルネットワークは、意思決定者にロバストで説明可能な予測を提供する。

With the rapid growth of renewable energy, lots of small photovoltaic (PV) prosumers emerge. Due to the uncertainty of solar power generation, there is a need for aggregated prosumers to predict solar power generation and whether solar power generation will be larger than load. This paper presents two interpretable neural networks to solve the problem: one binary classification neural network and one regression neural network. The neural networks are built using TensorFlow. The global feature importance and local feature contributions are examined by three gradient-based methods: Integrated Gradients, Expected Gradients, and DeepLIFT. Moreover, we detect abnormal cases when predictions might fail by estimating the prediction uncertainty using Bayesian neural networks. Neural networks, which are interpreted by gradient-based methods and complemented with uncertainty estimation, provide robust and explainable forecasting for decision-makers.
翻訳日:2021-06-23 11:18:45 公開日:2021-06-22
# スタイン変分ニューラルネットワークアンサンブルについて

On Stein Variational Neural Network Ensembles ( http://arxiv.org/abs/2106.10760v2 )

ライセンス: Link先を確認
Francesco D'Angelo, Vincent Fortuin, Florian Wenzel(参考訳) ディープニューラルネットワークのアンサンブルは近年大きな成功を収めているが、適切なベイズ的正当化は提供していない。 さらに、いくつかの仮説に対する予測の平均化を可能にするが、それらの多様性の保証は提供せず、関数空間における冗長な解をもたらす。 対照的に、スタイン変分勾配降下(SVGD)のような粒子ベースの推論法はベイズフレームワークを提供するが、アンサンブルメンバー間の類似度を測定するためにカーネルの選択に依存する。 本研究では,重み空間,関数空間,ハイブリッド環境で動作する様々なSVGD法について検討する。 SVGD法と他のアンサンブル法を理論的特性の観点から比較し, 実世界の課題における経験的性能を評価する。 機能的およびハイブリッドカーネルを用いたSVGDは,深いアンサンブルの限界を克服できることがわかった。 関数の多様性と不確実性の推定を改善し、真のベイズ後方に接近する。 さらに,svgdの確率的更新は,標準決定論的更新とは対照的に,さらなる性能向上が期待できることを示す。

Ensembles of deep neural networks have achieved great success recently, but they do not offer a proper Bayesian justification. Moreover, while they allow for averaging of predictions over several hypotheses, they do not provide any guarantees for their diversity, leading to redundant solutions in function space. In contrast, particle-based inference methods, such as Stein variational gradient descent (SVGD), offer a Bayesian framework, but rely on the choice of a kernel to measure the similarity between ensemble members. In this work, we study different SVGD methods operating in the weight space, function space, and in a hybrid setting. We compare the SVGD approaches to other ensembling-based methods in terms of their theoretical properties and assess their empirical performance on synthetic and real-world tasks. We find that SVGD using functional and hybrid kernels can overcome the limitations of deep ensembles. It improves on functional diversity and uncertainty estimation and approaches the true Bayesian posterior more closely. Moreover, we show that using stochastic SVGD updates, as opposed to the standard deterministic ones, can further improve the performance.
翻訳日:2021-06-23 11:18:33 公開日:2021-06-22
# 遅延フィードバックによる円滑な逐次最適化

Smooth Sequential Optimisation with Delayed Feedback ( http://arxiv.org/abs/2106.11294v2 )

ライセンス: Link先を確認
Srivas Chennu, Jamie Martin, Puli Liyanagama, Phil Mohr(参考訳) フィードバックの確率的遅延は、マルチアームのバンディットを用いた不安定な逐次学習につながる。 近年,経験的ベイズ縮小はバンディット学習における報酬推定を改善することが示されている。 本稿では,遅延フィードバックと非定常報酬による不完全な知識に対処するため,窓付き累積入力からの報酬推定を円滑に見積もる,新しい縮小適応を提案する。 数値シミュレーションを用いて, この適応が収縮の利点を保ち, 報酬推定の安定性を50%以上向上させることを示した。 提案手法は, 最善の腕への治療割り当ての変動を最大3.8倍削減し, 統計的精度を最大8%改善し, 37%の偽陽性率を低下させる。 これらの利点は、速度と適応の安定性の間のトレードオフを制御し、ループ内シーケンシャル最適化を容易にする。

Stochastic delays in feedback lead to unstable sequential learning using multi-armed bandits. Recently, empirical Bayesian shrinkage has been shown to improve reward estimation in bandit learning. Here, we propose a novel adaptation to shrinkage that estimates smoothed reward estimates from windowed cumulative inputs, to deal with incomplete knowledge from delayed feedback and non-stationary rewards. Using numerical simulations, we show that this adaptation retains the benefits of shrinkage, and improves the stability of reward estimation by more than 50%. Our proposal reduces variability in treatment allocations to the best arm by up to 3.8x, and improves statistical accuracy - with up to 8% improvement in true positive rates and 37% reduction in false positive rates. Together, these advantages enable control of the trade-off between speed and stability of adaptation, and facilitate human-in-the-loop sequential optimisation.
翻訳日:2021-06-23 11:18:15 公開日:2021-06-22
# 重み付き自由エネルギー最小化による伝達ベイズメタラーニング

Transfer Bayesian Meta-learning via Weighted Free Energy Minimization ( http://arxiv.org/abs/2106.10711v2 )

ライセンス: Link先を確認
Yunchuan Zhang, Sharu Theresa Jose, Osvaldo Simeone(参考訳) メタラーニングは、複数の補助タスクからサンプリングされたデータに基づいて、初期化、カーネル、学習率などのトレーニング手順のハイパーパラメータを最適化する。 主要な前提として、メタトレーニングタスクとして知られる補助タスクは、メタテストタスクとして知られるデプロイメント時に遭遇するタスクと同じ生成分布を共有する。 しかし、これはテスト環境がメタトレーニング条件と異なる場合ではないかもしれない。 メタトレーニングとメタテストフェーズ間のタスク生成分布の変化に対処するために,トランスファーメタラーニングのための重み付け自由エネルギー最小化(WFEM)を提案する。 本稿では,非パラメトリックベイズ回帰法とガウス過程(GP)による分類法を提案する。 本手法は, PACOHによるGP前の標準メタラーニングとの比較により, おもちゃの正弦波回帰問題と, miniImagenet と CUB データセットを用いた分類で検証した。

Meta-learning optimizes the hyperparameters of a training procedure, such as its initialization, kernel, or learning rate, based on data sampled from a number of auxiliary tasks. A key underlying assumption is that the auxiliary tasks, known as meta-training tasks, share the same generating distribution as the tasks to be encountered at deployment time, known as meta-test tasks. This may, however, not be the case when the test environment differ from the meta-training conditions. To address shifts in task generating distribution between meta-training and meta-testing phases, this paper introduces weighted free energy minimization (WFEM) for transfer meta-learning. We instantiate the proposed approach for non-parametric Bayesian regression and classification via Gaussian Processes (GPs). The method is validated on a toy sinusoidal regression problem, as well as on classification using miniImagenet and CUB data sets, through comparison with standard meta-learning of GP priors as implemented by PACOH.
翻訳日:2021-06-23 11:18:00 公開日:2021-06-22
# 非ニューラルネットワーク協調フィルタリングレコメンデーションシステムに関する包括的レビュー

A Comprehensive Review on Non-Neural Networks Collaborative Filtering Recommendation Systems ( http://arxiv.org/abs/2106.10679v2 )

ライセンス: Link先を確認
Carmel Wenga, Majirus Fansi, S\'ebastien Chabrier, Jean-Martial Mari, Alban Gabillon(参考訳) 過去20年間で、オンラインアプリケーションにおけるデータ量の増加により、レコメンダシステムは多くの関心を集めている。 情報レコメンデーションを含むアプリケーションで最も広く使われているコラボレーティブフィルタリングには、特に注意が払われている。 コラボレーティブフィルタリング(cf)は、既知のユーザの選好を使用して、他のユーザの未知の選好に関する予測とレコメンデーションを行う(ユーザの過去の行動に基づいて推奨が行われる)。 1990年代に初めて導入されたが、様々なモデルが提案されている。 多くの分野で機械学習技術が成功しているため、レコメンデーションシステムにおけるそのようなアルゴリズムの適用に重点が置かれている。 本稿では,レコメンダシステムのためのcfアプローチの概要,2つの主要なカテゴリ,評価指標について述べる。 我々は,従来の機械学習アルゴリズムをCFレコメンデータシステムに適用するために,最初のユースケースから高度な機械学習モデルへの進化を示す。 我々は、この分野における研究と実践のガイドラインとして機能するcfシステム(python実装)の包括的かつ比較的な概要を提供しようとしている。

Over the past two decades, recommender systems have attracted a lot of interest due to the explosion in the amount of data in online applications. A particular attention has been paid to collaborative filtering, which is the most widely used in applications that involve information recommendations. Collaborative filtering (CF) uses the known preference of a group of users to make predictions and recommendations about the unknown preferences of other users (recommendations are made based on the past behavior of users). First introduced in the 1990s, a wide variety of increasingly successful models have been proposed. Due to the success of machine learning techniques in many areas, there has been a growing emphasis on the application of such algorithms in recommendation systems. In this article, we present an overview of the CF approaches for recommender systems, their two main categories, and their evaluation metrics. We focus on the application of classical Machine Learning algorithms to CF recommender systems by presenting their evolution from their first use-cases to advanced Machine Learning models. We attempt to provide a comprehensive and comparative overview of CF systems (with python implementations) that can serve as a guideline for research and practice in this area.
翻訳日:2021-06-23 11:17:43 公開日:2021-06-22
# BVLOSドローンの障害物検出

Obstacle Detection for BVLOS Drones ( http://arxiv.org/abs/2106.11098v2 )

ライセンス: Link先を確認
Jan Moros Esteban, Jaap van de Loosdrecht, Maya Aghaei(参考訳) 欧州連合(EU)に新たな規制が導入されることで、Beyond Visual Line Of Sight(BVLOS)ドローンの未来が開花する。 これによりBEASTプロジェクトは、これらの規制と安全性に焦点を当てた自律型セキュリティドローンの開発を目的としている。 この技術論文では、このプロジェクトにおけるモジュールの最初のステップについて記述し、障害検出を中心に回転することで、フェールセーフランディングで回避できるようにする。 ディープラーニングを利用した物体検出手法は,様々なデータ拡張手法やyolov3,yolov5の比較など,その性能を最大化するための様々な実験が行われている。 実験の結果,オブジェクト検出はこの問題を解決するための有望なアプローチであるが,実際のアプリケーションでの利用にはより多くのデータが必要であると結論づけた。

With the introduction of new regulations in the European Union, the future of Beyond Visual Line Of Sight (BVLOS) drones is set to bloom. This led to the creation of the theBEAST project, which aims to create an autonomous security drone, with focus on those regulations and on safety. This technical paper describes the first steps of a module within this project, which revolves around detecting obstacles so they can be avoided in a fail-safe landing. A deep learning powered object detection method is the subject of our research, and various experiments are held to maximize its performance, such as comparing various data augmentation techniques or YOLOv3 and YOLOv5. According to the results of the experiments, we conclude that although object detection is a promising approach to resolve this problem, more volume of data is required for potential usage in a real-life application.
翻訳日:2021-06-23 11:17:26 公開日:2021-06-22
# FedXGBoost: フェデレートラーニングのためのプライバシ保護XGBoost

FedXGBoost: Privacy-Preserving XGBoost for Federated Learning ( http://arxiv.org/abs/2106.10662v2 )

ライセンス: Link先を確認
Nhan Khanh Le and Yang Liu and Quang Minh Nguyen and Qingchen Liu and Fangzhou Liu and Quanwei Cai and Sandra Hirche(参考訳) フェデレーション学習(Federated Learning)は、データプライバシを確保しながら、複数のパーティ間で協調的なトレーニングを可能にする分散機械学習フレームワークである。 従来のプライバシ保存手法がもたらす高コストのため,最先端のツリー強化フレームワークであるXGBoostのフェデレーション学習への実践的適応は依然として限られている。 本稿では,FedXGBoost-SMMとFedXGBoost-LDPの2種類のフェデレートXGBoostをプライバシ保証として提案する。 弊社の最初のプロトコルであるFedXGBoost-SMMは、セキュアな行列乗法を導入し、プライバシーを無害な精度で保存し、暗号化技術よりもオーバーヘッドを低くする。 独立に開発された第2のプロトコルfedexgboost-ldpは、局所微分プライバシーのためのノイズ摂動でヒューリスティックに設計され、実世界および合成データセットで実証的に評価される。

Federated learning is the distributed machine learning framework that enables collaborative training across multiple parties while ensuring data privacy. Practical adaptation of XGBoost, the state-of-the-art tree boosting framework, to federated learning remains limited due to high cost incurred by conventional privacy-preserving methods. To address the problem, we propose two variants of federated XGBoost with privacy guarantee: FedXGBoost-SMM and FedXGBoost-LDP. Our first protocol FedXGBoost-SMM deploys enhanced secure matrix multiplication method to preserve privacy with lossless accuracy and lower overhead than encryption-based techniques. Developed independently, the second protocol FedXGBoost-LDP is heuristically designed with noise perturbation for local differential privacy, and empirically evaluated on real-world and synthetic datasets.
翻訳日:2021-06-23 11:17:12 公開日:2021-06-22