このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210610)

# (参考訳) IoT周波数帯域における干渉検出とモデル化のための機械学習フレームワーク

Machine Learning Framework for Sensing and Modeling Interference in IoT Frequency Bands ( http://arxiv.org/abs/2106.06010v1 )

ライセンス: CC BY 4.0
Bassel Al Homssi and Akram Al-Hourani and Zarko Krusevac and Wayne S T Rowe(参考訳) スペクトル不足は、過去数年間に新しい技術が出現し、無線通信における重要な関心事となっている。 その結果、モノのインターネットをサポートする新たなアクセス技術によって、スペクトル占有率をよりよく理解する必要性が高まっている。 本稿では、共有帯域におけるIoTアプリケーションにおける短時間スペクトル占有のトラフィック挙動をキャプチャし、モデル化し、既存の干渉を判定するフレームワークを提案する。 提案手法は,電力スペクトル密度に変換された時系列データを捕捉し,観測された占有率を抽出することで,iot送信の短いバーストを監視するためのソフトウェア無線を利用する。 さらに,従来実装されていたエネルギー検出手法を強化するための教師なし機械学習手法を提案する。 実験の結果, スペクトルの時間的および周波数的挙動は, 半マルコフ鎖とポアソン分布の到達率という2つのモデルの組み合わせによりよく把握できることがわかった。 我々は,異なる都市環境において広範な計測キャンペーンを実施し,その空間効果をiot共有スペクトルに組み込む。

Spectrum scarcity has surfaced as a prominent concern in wireless radio communications with the emergence of new technologies over the past few years. As a result, there is growing need for better understanding of the spectrum occupancy with newly emerging access technologies supporting the Internet of Things. In this paper, we present a framework to capture and model the traffic behavior of short-time spectrum occupancy for IoT applications in the shared bands to determine the existing interference. The proposed capturing method utilizes a software defined radio to monitor the short bursts of IoT transmissions by capturing the time series data which is converted to power spectral density to extract the observed occupancy. Furthermore, we propose the use of an unsupervised machine learning technique to enhance conventionally implemented energy detection methods. Our experimental results show that the temporal and frequency behavior of the spectrum can be well-captured using the combination of two models, namely, semi-Markov chains and a Poisson-distribution arrival rate. We conduct an extensive measurement campaign in different urban environments and incorporate the spatial effect on the IoT shared spectrum.
翻訳日:2021-06-14 15:03:21 公開日:2021-06-10
# (参考訳) 勾配分散:ユーザ参加者行列の再構成による連合学習におけるプライバシの破断

Gradient Disaggregation: Breaking Privacy in Federated Learning by Reconstructing the User Participant Matrix ( http://arxiv.org/abs/2106.06089v1 )

ライセンス: CC BY 4.0
Maximilian Lam, Gu-Yeon Wei, David Brooks, Vijay Janapa Reddi, Michael Mitzenmacher(参考訳) フェデレーション学習におけるモデル更新の集約は,安全性に欠ける可能性がある。 信頼できない中央サーバは、参加者間の更新の合計からユーザ更新を分解し、従来の勾配推論攻撃によって個々のユーザのプライベートトレーニングデータに関する特権情報を取得することができる。 本手法は,連合学習システムの監視,デバッグ,管理に一般的に使用されるデバイスアナリティクスの要約情報を活用し,集約モデル更新から参加者情報(例えば,ユーザが参加するトレーニングラウンド)を再構築する。 攻撃は並列化可能で、最大数千人の参加者でユーザー更新を無効にしました。 我々は,分散した更新に対する様々な推論攻撃の能力について,定量的,質的に有意な改善を示す。 この攻撃により,個々のユーザに対する学習属性の帰属が可能となり,匿名性に違反し,決定された中央サーバが,個々のユーザのデータのプライバシを損なうセキュアアグリゲーションプロトコルを損なう可能性がある。

We show that aggregated model updates in federated learning may be insecure. An untrusted central server may disaggregate user updates from sums of updates across participants given repeated observations, enabling the server to recover privileged information about individual users' private training data via traditional gradient inference attacks. Our method revolves around reconstructing participant information (e.g: which rounds of training users participated in) from aggregated model updates by leveraging summary information from device analytics commonly used to monitor, debug, and manage federated learning systems. Our attack is parallelizable and we successfully disaggregate user updates on settings with up to thousands of participants. We quantitatively and qualitatively demonstrate significant improvements in the capability of various inference attacks on the disaggregated updates. Our attack enables the attribution of learned properties to individual users, violating anonymity, and shows that a determined central server may undermine the secure aggregation protocol to break individual users' data privacy in federated learning.
翻訳日:2021-06-14 14:59:17 公開日:2021-06-10
# コミュニティ検出のためのストリーミング信条伝播

Streaming Belief Propagation for Community Detection ( http://arxiv.org/abs/2106.04805v2 )

ライセンス: Link先を確認
Yuchen Wu, MohammadHossein Bateni, Andre Linhares, Filipe Miguel Goncalves de Almeida, Andrea Montanari, Ashkan Norouzi-Fard, Jakab Tardos(参考訳) コミュニティ検出問題では、ネットワークのノードを少数の親密な"コミュニティ"にクラスタ化する必要がある。 単純な確率的ブロックモデルに基づくコミュニティ検出の基本的な統計的限界を特徴づける手法が,近年かなり進歩している。 しかし、現実世界のアプリケーションでは、ネットワーク構造は通常動的であり、時間とともにノードが結合する。 この設定では、各ノードの到着時に限られた数の更新のみを実行するための検出アルゴリズムが望まれる。 標準的な投票手法はこの制約を満たすが、最適にネットワーク情報を利用するかどうかは不明である。 本稿では,ストリーミング確率ブロックモデル(StSBM)と呼ぶ,時間とともに成長するネットワークのシンプルなモデルを提案する。 このモデルでは、投票アルゴリズムには基本的な制限があることを示す。 また,ストリームBP (Stream belief-proagation) アプローチを開発し,一定の状況下で最適性を証明した。 合成および実データに関する理論的知見を検証する。

The community detection problem requires to cluster the nodes of a network into a small number of well-connected "communities". There has been substantial recent progress in characterizing the fundamental statistical limits of community detection under simple stochastic block models. However, in real-world applications, the network structure is typically dynamic, with nodes that join over time. In this setting, we would like a detection algorithm to perform only a limited number of updates at each node arrival. While standard voting approaches satisfy this constraint, it is unclear whether they exploit the network information optimally. We introduce a simple model for networks growing over time which we refer to as streaming stochastic block model (StSBM). Within this model, we prove that voting algorithms have fundamental limitations. We also develop a streaming belief-propagation (StreamBP) approach, for which we prove optimality in certain regimes. We validate our theoretical findings on synthetic and real data.
翻訳日:2021-06-14 14:39:22 公開日:2021-06-10
# ホモトピーアルゴリズムによるスパース・アンド・インセプタブル・アドバーサリー攻撃

Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm ( http://arxiv.org/abs/2106.06027v1 )

ライセンス: Link先を確認
Mingkang Zhu, Tianlong Chen, Zhangyang Wang(参考訳) sparse adversarial attackは、数ピクセルを摂動するだけでディープニューラルネットワーク(dnn)を騙すことができる(l_0ノルムで表現される)。 近年の研究では、摂動等級の別のl_inftyimperceptible と組み合わされている。 その結果、スパースと非知覚的な攻撃は事実上関係があり、我々が通常想像したより高いDNNの脆弱性を示している。 しかし、この攻撃は、l_0正規化器とボックス制約を非凸目的物とを結合することで最適化の難しさにより、より困難である。 本稿では,この課題をホモトピーアルゴリズムによって解決し,一つの統一フレームワークに束縛されたスパーシティと摂動に共同で取り組むことを提案する。 提案アルゴリズムの主なステップは,非単調なアクセラレーション・プロキシ・グラディエント・メソッド(nmAPG)を非凸プログラミングに活用することにより,l_0-規則化された逆数損失を最適化することであり,その後にl_0変更制御ステップと,悪質なローカル・ミニマから逃れるための任意のポストアタックステップが続く。 また、このアルゴリズムを構造空間正規化器に拡張する。 CIFAR-10 と ImageNet のデータセットを用いて,攻撃シナリオと非攻撃シナリオの両方に対して提案したホモトピー攻撃の有効性を詳細に検討した。 最先端の手法と比較して、我々のホモトピー攻撃は、cifar-10では42.91%、imagenetでは75.03%、100%攻撃成功率の場合も同様の最大摂動規模で、摂動を著しく減少させる。 私たちのコードは、https://github.com/V ITA-Group/SparseADV_ Homotopy.comで利用可能です。

Sparse adversarial attacks can fool deep neural networks (DNNs) by only perturbing a few pixels (regularized by l_0 norm). Recent efforts combine it with another l_infty imperceptible on the perturbation magnitudes. The resultant sparse and imperceptible attacks are practically relevant, and indicate an even higher vulnerability of DNNs that we usually imagined. However, such attacks are more challenging to generate due to the optimization difficulty by coupling the l_0 regularizer and box constraints with a non-convex objective. In this paper, we address this challenge by proposing a homotopy algorithm, to jointly tackle the sparsity and the perturbation bound in one unified framework. Each iteration, the main step of our algorithm is to optimize an l_0-regularized adversarial loss, by leveraging the nonmonotone Accelerated Proximal Gradient Method (nmAPG) for nonconvex programming; it is followed by an l_0 change control step, and an optional post-attack step designed to escape bad local minima. We also extend the algorithm to handling the structural sparsity regularizer. We extensively examine the effectiveness of our proposed homotopy attack for both targeted and non-targeted attack scenarios, on CIFAR-10 and ImageNet datasets. Compared to state-of-the-art methods, our homotopy attack leads to significantly fewer perturbations, e.g., reducing 42.91% on CIFAR-10 and 75.03% on ImageNet (average case, targeted attack), at similar maximal perturbation magnitudes, when still achieving 100% attack success rates. Our codes are available at: https://github.com/V ITA-Group/SparseADV_ Homotopy.
翻訳日:2021-06-14 14:36:25 公開日:2021-06-10
# 単一画像テクスチャ3次元モデルのビュー一般化

View Generalization for Single Image Textured 3D Models ( http://arxiv.org/abs/2106.06533v1 )

ライセンス: Link先を確認
Anand Bhattad, Aysegul Dundar, Guilin Liu, Andrew Tao, Bryan Catanzaro(参考訳) 人間は、単一の2d画像からのみ対象の3d形状とテクスチャを推定することができる。 現在のコンピュータビジョン手法もこれを行うことができるが、ビューの一般化の問題に悩まされている。 機械学習における一般化問題に関しては、単一ビュー精度(cf)のバランスが難しい。 トレーニングエラー(バイアス)は,新しい視点精度(cf。 テストエラー; 分散)。 このトレードオフを管理するために幾何学的剛性を容易に制御できるモデルのクラスについて述べる。 我々は、ビューの一般化を改善するサイクル一貫性の損失について説明する(概して、生成されたビューからのモデルが元のビューをうまく予測すべきである)。 テクスチャを一般化するには、モデルがテクスチャ情報を共有する必要があるため、後部から見た車にはヘッドライトがある。 モデルテクスチャの整合を促進するサイクル一貫性の損失を,共有を促進するために記述する。 本手法を最先端手法と比較し,質的および定量的な改善点を示す。

Humans can easily infer the underlying 3D geometry and texture of an object only from a single 2D image. Current computer vision methods can do this, too, but suffer from view generalization problems - the models inferred tend to make poor predictions of appearance in novel views. As for generalization problems in machine learning, the difficulty is balancing single-view accuracy (cf. training error; bias) with novel view accuracy (cf. test error; variance). We describe a class of models whose geometric rigidity is easily controlled to manage this tradeoff. We describe a cycle consistency loss that improves view generalization (roughly, a model from a generated view should predict the original view well). View generalization of textures requires that models share texture information, so a car seen from the back still has headlights because other cars have headlights. We describe a cycle consistency loss that encourages model textures to be aligned, so as to encourage sharing. We compare our method against the state-of-the-art method and show both qualitative and quantitative improvements.
翻訳日:2021-06-14 14:35:56 公開日:2021-06-10
# 対向ロバスト性へのアンサンブルアプローチ

An Ensemble Approach Towards Adversarial Robustness ( http://arxiv.org/abs/2106.05996v1 )

ライセンス: Link先を確認
Haifeng Qian(参考訳) 敵意の強固さが自然の正確さの犠牲になるという既知の現象である。 このトレードオフを改善するために,複雑な頑健な分類タスクを単純なサブタスクに分割するアンサンブル手法を提案する。 具体的には、フラクタル分割はトレーニングデータから複数のトレーニングセットを導き、フラクタル集約はこれらのセットに基づいてトレーニングされた複数の分類器からの推論出力を組み合わせる。 結果として得られるアンサンブル分類器は、ある条件が満たされていなければ入力の堅牢性を保証するユニークな性質を持つ。 新しいテクニックはmnistとfashion-mnistで評価され、敵対的なトレーニングは行われない。 MNIST分類器は99%の自然精度、70%の頑健性、36.9%の証明可能な頑健性を有し、L2距離は2。 Fashion-MNIST分類器は90%の自然精度、54.5%の頑健性、28.2%の証明可能な頑健性を有しており、L2距離は1.5である。 どちらの結果も新たな技術の現状であり,ラベルペアに挑戦する上での新たな最先端のバイナリ結果も提示する。

It is a known phenomenon that adversarial robustness comes at a cost to natural accuracy. To improve this trade-off, this paper proposes an ensemble approach that divides a complex robust-classificatio n task into simpler subtasks. Specifically, fractal divide derives multiple training sets from the training data, and fractal aggregation combines inference outputs from multiple classifiers that are trained on those sets. The resulting ensemble classifiers have a unique property that ensures robustness for an input if certain don't-care conditions are met. The new techniques are evaluated on MNIST and Fashion-MNIST, with no adversarial training. The MNIST classifier has 99% natural accuracy, 70% measured robustness and 36.9% provable robustness, within L2 distance of 2. The Fashion-MNIST classifier has 90% natural accuracy, 54.5% measured robustness and 28.2% provable robustness, within L2 distance of 1.5. Both results are new state of the art, and we also present new state-of-the-art binary results on challenging label-pairs.
翻訳日:2021-06-14 14:34:05 公開日:2021-06-10
# ドメイントランスフォーマー: 見えない将来のドメインのサンプルを予測する

Domain Transformer: Predicting Samples of Unseen, Future Domains ( http://arxiv.org/abs/2106.06057v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) データ分布は通常、時間とともに進化し、分類器の性能を低下させる概念ドリフトのような問題を引き起こす。 私たちは、未発見のデータ(とそのラベル)を予測し、すでにエラーを引き起こしている可能性のある既存の変更を検知し、対応するのではなく、非定常なデータ分散による課題に対処できるようにしたいと考えています。 この目的のために、教師なしの方法でドメイントランスフォーマーを学習し、未知のドメインのデータを生成する。 提案手法はまず,Cycle-GANを用いて自動エンコーダから得られた2つの領域の潜在表現を独立に学習する。 逆に、元のサンプルの変換を学習して、未確認領域への外挿を反復的に適用することができる。 画像データを用いたcnnの評価は,その有用性を確認した。 また、教師なしドメイン適応のよく知られた問題において、ラベルは予測されるがサンプルではないという非常に良い結果が得られる。

The data distribution commonly evolves over time leading to problems such as concept drift that often decrease classifier performance. We seek to predict unseen data (and their labels) allowing us to tackle challenges due to a non-constant data distribution in a \emph{proactive} manner rather than detecting and reacting to already existing changes that might already have led to errors. To this end, we learn a domain transformer in an unsupervised manner that allows generating data of unseen domains. Our approach first matches independently learned latent representations of two given domains obtained from an auto-encoder using a Cycle-GAN. In turn, a transformation of the original samples can be learned that can be applied iteratively to extrapolate to unseen domains. Our evaluation on CNNs on image data confirms the usefulness of the approach. It also achieves very good results on the well-known problem of unsupervised domain adaption, where labels but not samples have to be predicted.
翻訳日:2021-06-14 14:33:43 公開日:2021-06-10
# 野生における経時的ドメイン適応:中間分布が欠如している場合

Gradual Domain Adaptation in the Wild:When Intermediate Distributions are Absent ( http://arxiv.org/abs/2106.06080v1 )

ライセンス: Link先を確認
Samira Abnar, Rianne van den Berg, Golnaz Ghiasi, Mostafa Dehghani, Nal Kalchbrenner, Hanie Sedghi(参考訳) ドメイン不変表現を学習するのではなく、目標がターゲット分布にモデルをシフトする場合に、ドメイン適応の問題に焦点を当てる。 a)中間分布からのサンプルへのアクセス、および(b)ソース分布からの変化量にアノテートされたサンプルの2つの仮定の下で、徐々にシフトしたサンプルに対して、自己学習をうまく適用し、モデルがターゲット分布に適応できることが示されている。 a) 反復的な自己学習によって、暗黙のカリキュラムを利用することで、モデルがターゲットの分布にゆっくりと適応できる、と仮定する。 a)が持たない場合、反復的な自己学習が不足するのを観察する。 本稿では,ソース領域とターゲット領域の例を補間することで,中間分布から仮想サンプルを作成するGIFTを提案する。 自然分布シフトのあるデータセットに対する反復自己学習手法の評価を行い、他のドメイン適応手法に応用すると、ターゲットデータセット上でのモデルの性能が向上することを示す。 a)反復的自己学習の存在下では、自然にサンプルのカリキュラムを形成することを示すために、合成データセットの分析を行う。 さらに, (a) が保持されない場合, GIFT は反復的自己学習よりも優れることを示す。

We focus on the problem of domain adaptation when the goal is shifting the model towards the target distribution, rather than learning domain invariant representations. It has been shown that under the following two assumptions: (a) access to samples from intermediate distributions, and (b) samples being annotated with the amount of change from the source distribution, self-training can be successfully applied on gradually shifted samples to adapt the model toward the target distribution. We hypothesize having (a) is enough to enable iterative self-training to slowly adapt the model to the target distribution, by making use of an implicit curriculum. In the case where (a) does not hold, we observe that iterative self-training falls short. We propose GIFT, a method that creates virtual samples from intermediate distributions by interpolating representations of examples from source and target domains. We evaluate an iterative-self-train ing method on datasets with natural distribution shifts, and show that when applied on top of other domain adaptation methods, it improves the performance of the model on the target dataset. We run an analysis on a synthetic dataset to show that in the presence of (a) iterative-self-train ing naturally forms a curriculum of samples. Furthermore, we show that when (a) does not hold, GIFT performs better than iterative self-training.
翻訳日:2021-06-14 14:33:28 公開日:2021-06-10
# 調和カーネル分解によるスケーラブルな変分ガウス過程

Scalable Variational Gaussian Processes via Harmonic Kernel Decomposition ( http://arxiv.org/abs/2106.05992v1 )

ライセンス: Link先を確認
Shengyang Sun, Jiaxin Shi, Andrew Gordon Wilson, Roger Grosse(参考訳) 汎用性を維持しつつ高忠実度近似を提供する新しいスケーラブルな変分ガウス過程近似を提案する。 本研究では,フーリエ級数を用いて直交核の和としてカーネルを分解する高調波核分解(hkd)を提案する。 我々の変分近似はこの直交性を利用して、計算コストの低い多数の誘導点を実現する。 我々は,回帰や分類の問題において,翻訳やリフレクションなどの入力空間対称性を活用し,拡張性と正確性において標準変分法を大幅に上回っていることを示す。 提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。

We introduce a new scalable variational Gaussian process approximation which provides a high fidelity approximation while retaining general applicability. We propose the harmonic kernel decomposition (HKD), which uses Fourier series to decompose a kernel as a sum of orthogonal kernels. Our variational approximation exploits this orthogonality to enable a large number of inducing points at a low computational cost. We demonstrate that, on a range of regression and classification problems, our approach can exploit input space symmetries such as translations and reflections, and it significantly outperforms standard variational methods in scalability and accuracy. Notably, our approach achieves state-of-the-art results on CIFAR-10 among pure GP models.
翻訳日:2021-06-14 14:31:23 公開日:2021-06-10
# ランダムバック伝搬重みによる勾配降下の収束とアライメント

Convergence and Alignment of Gradient Descentwith Random Back propagation Weights ( http://arxiv.org/abs/2106.06044v1 )

ライセンス: Link先を確認
Ganlin Song, Ruitu Xu, John Lafferty(参考訳) バックプロパゲーションを伴う確率勾配降下は、人工ニューラルネットワークの働きである。 バックプロパゲーションは生物学的に妥当なアルゴリズムではないと長年認識されてきた。 1つのニューロンのシナプス重みを更新するには、シナプス重みの知識や下流ニューロンの受容野が必要である。 これは、脳における情報処理の生物学的原理を理解するツールとしての人工ニューラルネットワークの使用を制限する。 lillicrapとal。 (2016)は、ランダムおよび固定されたバックプロパゲーション重みを使い、有望なシミュレーションを示す、より生物学的に可能な「フィードバックアライメント」アルゴリズムを提案する。 本稿では,二層ネットワークの2次誤差損失に対する収束とアライメントを解析し,フィードバックアライメント手順の数学的性質について検討する。 過パラメータ設定では、誤差が指数関数的にゼロに収束し、パラメータがランダムなバックプロパゲーションの重みと一致するためには、正規化が必要であることが証明される。 この解析と一致するシミュレーションが与えられ、さらなる一般化が提案される。 これらの結果は、生物学的に可算なアルゴリズムがヘビーン学習とは異なる方法で重み学習を行う方法の理解に寄与し、その性能は非局所的バックプロパゲーションアルゴリズムに匹敵する。

Stochastic gradient descent with backpropagation is the workhorse of artificial neural networks. It has long been recognized that backpropagation fails to be a biologically plausible algorithm. Fundamentally, it is a non-local procedure -- updating one neuron's synaptic weights requires knowledge of synaptic weights or receptive fields of downstream neurons. This limits the use of artificial neural networks as a tool for understanding the biological principles of information processing in the brain. Lillicrap et al. (2016) propose a more biologically plausible "feedback alignment" algorithm that uses random and fixed backpropagation weights, and show promising simulations. In this paper we study the mathematical properties of the feedback alignment procedure by analyzing convergence and alignment for two-layer networks under squared error loss. In the overparameterized setting, we prove that the error converges to zero exponentially fast, and also that regularization is necessary in order for the parameters to become aligned with the random backpropagation weights. Simulations are given that are consistent with this analysis and suggest further generalizations. These results contribute to our understanding of how biologically plausible algorithms might carry out weight learning in a manner different from Hebbian learning, with performance that is comparable with the full non-local backpropagation algorithm.
翻訳日:2021-06-14 14:31:11 公開日:2021-06-10
# コスト制約付きベイズ最適化に対する非線形アプローチ

A Nonmyopic Approach to Cost-Constrained Bayesian Optimization ( http://arxiv.org/abs/2106.06079v1 )

ライセンス: Link先を確認
Eric Hans Lee, David Eriksson, Valerio Perrone, Matthias Seeger(参考訳) ベイズ最適化(BO)は、高価なブラックボックス関数を最適化する一般的な方法である。 BO予算は通常イテレーションで与えられ、各評価が同じコストであると暗黙的に仮定する。 実際、多くのBOアプリケーションにおいて、検索空間の異なる領域において評価コストは著しく異なる。 ハイパーパラメータ最適化では、ニューラルネットワークのトレーニングに費やす時間は層の大きさとともに増加し、臨床試験では、薬物の金銭的コストは変化し、最適な制御では、制御行動は複雑度が異なる。 コスト制約付きBOは、標準BO法のサンプル効率が不適切である時間、お金、エネルギーなどの代替コスト指標と収束する。 コスト制約のあるBOでは、コスト効率はサンプル効率よりもはるかに重要である。 本稿では、コスト制約付きBOを制約付きマルコフ決定プロセス(CMDP)として定式化し、コストと将来のイテレーションを考慮に入れた最適CMDPポリシーへの効率的なロールアウト近似を開発する。 本稿では,ハイパーパラメータ最適化問題の集合とセンサセット選択アプリケーションについて検証を行う。

Bayesian optimization (BO) is a popular method for optimizing expensive-to-evaluat e black-box functions. BO budgets are typically given in iterations, which implicitly assumes each evaluation has the same cost. In fact, in many BO applications, evaluation costs vary significantly in different regions of the search space. In hyperparameter optimization, the time spent on neural network training increases with layer size; in clinical trials, the monetary cost of drug compounds vary; and in optimal control, control actions have differing complexities. Cost-constrained BO measures convergence with alternative cost metrics such as time, money, or energy, for which the sample efficiency of standard BO methods is ill-suited. For cost-constrained BO, cost efficiency is far more important than sample efficiency. In this paper, we formulate cost-constrained BO as a constrained Markov decision process (CMDP), and develop an efficient rollout approximation to the optimal CMDP policy that takes both the cost and future iterations into account. We validate our method on a collection of hyperparameter optimization problems as well as a sensor set selection application.
翻訳日:2021-06-14 14:30:49 公開日:2021-06-10
# 層内多様性が一般化ギャップを減らす

Within-layer Diversity Reduces Generalization Gap ( http://arxiv.org/abs/2106.06012v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj(参考訳) ニューラルネットワークは階層構造に配置された複数のレイヤで構成され、勾配に基づく最適化によって、エラーが最後のレイヤから最初のレイヤにバックプロパゲーションされる。 各最適化ステップにおいて、与えられた階層のニューロンは階層の上位層に属するニューロンからフィードバックを受け取る。 本稿では、この従来の「中間層」フィードバックを補足して、同一層内での活性化の多様性を促進することを提案する。 この目的のために、ニューロンの出力間の対関係の類似性を計測し、それを用いて層全体の多様性をモデル化する。 類似性を罰し,多様性を促進することにより,各ニューロンが独特の表現を学ぶことを奨励し,レイヤー内で学習したデータ表現を豊かにし,モデルの総容量を増やす。 本研究では,層内活性化の多様性がニューラルネットワークの一般化性能にどのように影響するかを理論的に検討し,隠れ活性化の多様性の増加が推定誤差を減少させることを示した。 理論的な保証に加えて,提案手法が最先端ニューラルネットワークモデルの性能を高め,一般化ギャップを減少させることを示す3つのデータセットに関する実証研究を行った。

Neural networks are composed of multiple layers arranged in a hierarchical structure jointly trained with a gradient-based optimization, where the errors are back-propagated from the last layer back to the first one. At each optimization step, neurons at a given layer receive feedback from neurons belonging to higher layers of the hierarchy. In this paper, we propose to complement this traditional 'between-layer' feedback with additional 'within-layer' feedback to encourage diversity of the activations within the same layer. To this end, we measure the pairwise similarity between the outputs of the neurons and use it to model the layer's overall diversity. By penalizing similarities and promoting diversity, we encourage each neuron to learn a distinctive representation and, thus, to enrich the data representation learned within the layer and to increase the total capacity of the model. We theoretically study how the within-layer activation diversity affects the generalization performance of a neural network and prove that increasing the diversity of hidden activations reduces the estimation error. In addition to the theoretical guarantees, we present an empirical study on three datasets confirming that the proposed approach enhances the performance of state-of-the-art neural network models and decreases the generalization gap.
翻訳日:2021-06-14 14:28:15 公開日:2021-06-10
# フェデレーション学習におけるデータ不均一性に取り組むためのアーキテクチャ設計再考

Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2106.06047v1 )

ライセンス: Link先を確認
Liangqiong Qu, Yuyin Zhou, Paul Pu Liang, Yingda Xia, Feifei Wang, Li Fei-Fei, Ehsan Adeli, Daniel Rubin(参考訳) フェデレーテッド・ラーニング(Federated Learning)は、さまざまな組織間で機械学習モデルの協調トレーニングを可能にしつつ、各機関でデータを非公開にする、新たな研究パラダイムである。 近年の進歩にもかかわらず、収束の欠如や、現実世界の異種デバイス間での連合学習における破滅的な忘れ込みの可能性といった根本的な課題が残っている。 本稿では,注意に基づくアーキテクチャ(例えばトランスフォーマー)が分散シフトに対してかなり頑健であることを示し,ヘテロジニアスデータに対するフェデレーション学習を改善する。 具体的には,フェデレーションアルゴリズムや実世界のベンチマーク,異種データ分割など,さまざまなニューラルネットワークアーキテクチャに関する最初の厳密な実証調査を行う。 実験により, 畳み込みネットワークをトランスフォーマーに置き換えれば, 従来装置の悲惨な忘れを著しく減らし, 収束を加速し, 特に異種データを扱う場合, より優れたグローバルモデルに到達できることが示された。 私たちはコードと事前トレーニング済みモデルをhttps://github.com/l iangqiong/vit-fl-mai nでリリースし、現在の最適化に関する研究の代替として、ロバストアーキテクチャの将来的な調査を奨励します。

Federated learning is an emerging research paradigm enabling collaborative training of machine learning models among different organizations while keeping data private at each institution. Despite recent progress, there remain fundamental challenges such as lack of convergence and potential for catastrophic forgetting in federated learning across real-world heterogeneous devices. In this paper, we demonstrate that attention-based architectures (e.g., Transformers) are fairly robust to distribution shifts and hence improve federated learning over heterogeneous data. Concretely, we conduct the first rigorous empirical investigation of different neural architectures across a range of federated algorithms, real-world benchmarks, and heterogeneous data splits. Our experiments show that simply replacing convolutional networks with Transformers can greatly reduce catastrophic forgetting of previous devices, accelerate convergence, and reach a better global model, especially when dealing with heterogeneous data. We will release our code and pretrained models at https://github.com/L iangqiong/ViT-FL-mai n to encourage future exploration in robust architectures as an alternative to current research efforts on the optimization front.
翻訳日:2021-06-14 14:27:55 公開日:2021-06-10
# min-max最適化問題の解法に対する分散適応運動量法

A Decentralized Adaptive Momentum Method for Solving a Class of Min-Max Optimization Problems ( http://arxiv.org/abs/2106.06075v1 )

ライセンス: Link先を確認
Babak Barazandeh, Tianjian Huang, George Michailidis(参考訳) ミニマックスサドルポイントゲームは、GANs(Generative Adversarial Networks)のトレーニングを含む幅広い応用のために、最近激しく研究されている。 しかし、近年の課題の多くは凸凹型ゲームのような特殊な制度に限られている。 さらに、基礎となる最適化問題は、一台のマシンか、複数のマシンが中央ノードと通信する集中型方式で接続された場合のいずれかで解決されると、慣例的に仮定される。 通信ネットワークの帯域幅が低くなると,後者のアプローチは困難になる。 さらに、プライバシーに関する考慮は、特定のノードが他のノードのサブセットと通信できることを規定するかもしれない。 したがって、min-maxゲームを分散的に解く方法の開発が注目される。 そこで本研究では,目的関数が凸凹の場合の一般化であるミント変分不等式条件を満たすことを条件として,min-max最適化問題を解く分散適応運動量(adam)型アルゴリズムを開発した。 提案手法は,近年の非適応的勾配に基づく分散アルゴリズムの欠点を克服するものである。 本稿では,(確率的に)一階ナッシュ平衡点を求めるアルゴリズム(dadam$^3$)の非漸近的収束率を求め,学習gansの性能評価を行う。 DADAM$^3$が最近開発された手法として, 分散型楽観的確率勾配を用いた分極化法がある。

Min-max saddle point games have recently been intensely studied, due to their wide range of applications, including training Generative Adversarial Networks~(GANs). However, most of the recent efforts for solving them are limited to special regimes such as convex-concave games. Further, it is customarily assumed that the underlying optimization problem is solved either by a single machine or in the case of multiple machines connected in centralized fashion, wherein each one communicates with a central node. The latter approach becomes challenging, when the underlying communications network has low bandwidth. In addition, privacy considerations may dictate that certain nodes can communicate with a subset of other nodes. Hence, it is of interest to develop methods that solve min-max games in a decentralized manner. To that end, we develop a decentralized adaptive momentum (ADAM)-type algorithm for solving min-max optimization problem under the condition that the objective function satisfies a Minty Variational Inequality condition, which is a generalization to convex-concave case. The proposed method overcomes shortcomings of recent non-adaptive gradient-based decentralized algorithms for min-max optimization problems that do not perform well in practice and require careful tuning. In this paper, we obtain non-asymptotic rates of convergence of the proposed algorithm (coined DADAM$^3$) for finding a (stochastic) first-order Nash equilibrium point and subsequently evaluate its performance on training GANs. The extensive empirical evaluation shows that DADAM$^3$ outperforms recently developed methods, including decentralized optimistic stochastic gradient for solving such min-max problems.
翻訳日:2021-06-14 14:24:28 公開日:2021-06-10
# 投影勾配推定によるプログレッシブスケール境界ブラックボックス攻撃

Progressive-Scale Boundary Blackbox Attack via Projective Gradient Estimation ( http://arxiv.org/abs/2106.06056v1 )

ライセンス: Link先を確認
Jiawei Zhang and Linyi Li and Huichen Li and Xiaolu Zhang and Shuang Yang and Bo Li(参考訳) 境界ベースのブラックボックス攻撃は、攻撃者が最終的なモデル予測にのみアクセスする必要があるため、実用的で効果的であると認識されている。 しかし、そのクエリ効率は一般に高次元画像データに対して高い。 本稿では,このような効率は,攻撃が適用されたスケールに大きく依存し,最適なスケールでのアタックが効率を大幅に改善することを示す。 特に,クエリ効率を向上させるための3つの重要な特徴を分析し,示す理論的枠組みを提案する。 射影勾配推定には最適スケールが存在することを示す。 我々のフレームワークは、既存のバウンダリブラックボックス攻撃によって達成された満足のいくパフォーマンスも説明します。 本稿では,本理論の枠組みに基づき,プログレッシブスケール可能な射影境界攻撃(psba)を提案し,プログレッシブスケーリング手法によるクエリ効率を向上させる。 特に,PSBA-PGANと呼ばれるプログレッシブGANを用いて投影の規模を最適化する。 空間的および周波数的尺度におけるアプローチの評価を行った。 MNIST、CIFAR-10、CelebA、ImageNetの様々なモデルに対する大規模な実験により、PSBA-PGANはクエリ効率とアタック成功率で既存のベースラインアタックを著しく上回っていることが示された。 また,異なるモデルやデータセットに対して比較的安定な最適スケールを観測する。 コードはhttps://github.com/A I-Secure/PSBAで公開されている。

Boundary based blackbox attack has been recognized as practical and effective, given that an attacker only needs to access the final model prediction. However, the query efficiency of it is in general high especially for high dimensional image data. In this paper, we show that such efficiency highly depends on the scale at which the attack is applied, and attacking at the optimal scale significantly improves the efficiency. In particular, we propose a theoretical framework to analyze and show three key characteristics to improve the query efficiency. We prove that there exists an optimal scale for projective gradient estimation. Our framework also explains the satisfactory performance achieved by existing boundary black-box attacks. Based on our theoretical framework, we propose Progressive-Scale enabled projective Boundary Attack (PSBA) to improve the query efficiency via progressive scaling techniques. In particular, we employ Progressive-GAN to optimize the scale of projections, which we call PSBA-PGAN. We evaluate our approach on both spatial and frequency scales. Extensive experiments on MNIST, CIFAR-10, CelebA, and ImageNet against different models including a real-world face recognition API show that PSBA-PGAN significantly outperforms existing baseline attacks in terms of query efficiency and attack success rate. We also observe relatively stable optimal scales for different models and datasets. The code is publicly available at https://github.com/A I-secure/PSBA.
翻訳日:2021-06-14 14:22:32 公開日:2021-06-10
# CodemixedNLP: コードミキシングのための拡張性とオープンなNLPツールキット

CodemixedNLP: An Extensible and Open NLP Toolkit for Code-Mixing ( http://arxiv.org/abs/2106.06004v1 )

ライセンス: Link先を確認
Sai Muralidhar Jayanthi, Kavya Nerella, Khyathi Raghavi Chandu, Alan W Black(参考訳) NLPコミュニティは最近、モノリンガルおよび多言語言語処理の領域で様々なタスクが急激な進歩を遂げているのを目撃している。 これらの成功は、ソーシャルメディア上の混成言語相互作用の拡大と相まって、コード混合テキストのモデリングへの関心を高めている。 本研究では、コードミックスNLPの進歩をまとめ、より広い機械学習コミュニティに開放するという目標を掲げた、オープンソースのライブラリであるCodemixedNLPを紹介する。 このライブラリは、混合テキストに適した多目的モデルアーキテクチャの開発とベンチマークを行うツール、トレーニングセットを拡張する方法、混合スタイルの定量化技術、ヒングリッシュの7つのタスクのための細調整された最先端モデルで構成される。 この研究は、分散的でコラボレーティブで持続可能なエコシステムを、コードミキシング研究の分散領域で育てる可能性があると考えています。 このツールキットは単純で容易に拡張可能で、研究者と実践者の両方にとって有益であるように設計されている。

The NLP community has witnessed steep progress in a variety of tasks across the realms of monolingual and multilingual language processing recently. These successes, in conjunction with the proliferating mixed language interactions on social media have boosted interest in modeling code-mixed texts. In this work, we present CodemixedNLP, an open-source library with the goals of bringing together the advances in code-mixed NLP and opening it up to a wider machine learning community. The library consists of tools to develop and benchmark versatile model architectures that are tailored for mixed texts, methods to expand training sets, techniques to quantify mixing styles, and fine-tuned state-of-the-art models for 7 tasks in Hinglish. We believe this work has a potential to foster a distributed yet collaborative and sustainable ecosystem in an otherwise dispersed space of code-mixing research. The toolkit is designed to be simple, easily extensible, and resourceful to both researchers as well as practitioners.
翻訳日:2021-06-14 14:19:12 公開日:2021-06-10
# ニューラルネットワークモデルにおける構文一致機構の因果解析

Causal Analysis of Syntactic Agreement Mechanisms in Neural Language Models ( http://arxiv.org/abs/2106.06087v1 )

ライセンス: Link先を確認
Matthew Finlayson, Aaron Mueller, Stuart Shieber, Sebastian Gehrmann, Tal Linzen, Yonatan Belinkov(参考訳) 対象とする構文評価は,難易度のある文脈において,言語モデルが主語と動詞の合意を行う能力を示す。 本研究は,この動作をモデルが達成するメカニズムを明らかにするために,事前学習されたニューラルネットワークモデルに対して因果的調停分析を適用する。 本研究は, 文法的屈折に対するモデルの嗜好の大きさ, および, 異なる構文構造を持つ文間で, 主語-動詞の一致が同様に処理されるか否かを考察する。 アーキテクチャとモデルのサイズの類似点と相違点を明らかにする。 また、入力文の構文構造に応じて主語と動詞の合意を生成する2つの異なるメカニズムを観察する。 最後に、類似した構文構造を持つ文が与えられた場合、言語モデルは類似したニューロンの集合に依存する。

Targeted syntactic evaluations have demonstrated the ability of language models to perform subject-verb agreement given difficult contexts. To elucidate the mechanisms by which the models accomplish this behavior, this study applies causal mediation analysis to pre-trained neural language models. We investigate the magnitude of models' preferences for grammatical inflections, as well as whether neurons process subject-verb agreement similarly across sentences with different syntactic structures. We uncover similarities and differences across architectures and model sizes -- notably, that larger models do not necessarily learn stronger preferences. We also observe two distinct mechanisms for producing subject-verb agreement depending on the syntactic structure of the input sentence. Finally, we find that language models rely on similar sets of neurons when given sentences with similar syntactic structure.
翻訳日:2021-06-14 14:18:56 公開日:2021-06-10
# 合成強化による遠隔PPGにおける暗肌者獲得の難しさの克服

Overcoming Difficulty in Obtaining Dark-skinned Subjects for Remote-PPG by Synthetic Augmentation ( http://arxiv.org/abs/2106.06007v1 )

ライセンス: Link先を確認
Yunhao Ba, Zhen Wang, Kerim Doruk Karinca, Oyku Deniz Bozkurt, and Achuta Kadambi(参考訳) カメラベースのリモートフォトプレチモグラフィ(rppg)は、顔の動画を使って生理的信号(例えば心拍数)を測定する非接触方式を提供する。 近年の深層学習アーキテクチャは、これらの生理学的測定の精度を大幅に向上させたが、アノテーション付きビデオの多様性によって制限されている。 既存のデータセット MMSE-HR と AFRL と UBFC-RPPG はそれぞれ、浅黒い肌の被験者の約10%、0%、5% を含む。 バランスの取れないトレーニングセットは、被験者を認識できない一般化能力に乏しい結果となり、異なる集団に対する望ましくない偏見につながる。 西洋の学界では、暗い肌の被験者のデータを集めることは、大学環境では残念なほど難しい。 ここでは,合成補足による浅黒い肌の被験者の欠如を克服する最初の試みを示す。 共同最適化フレームワークは、脈動信号を保ちながら、光肌の被写体から暗い肌の色に実際の映像を翻訳するために利用される。 実験では,暗黒肌群の平均絶対誤差を約31%減少させ,全群に対するバイアス軽減率を46%向上させた。

Camera-based remote photoplethysmography (rPPG) provides a non-contact way to measure physiological signals (e.g., heart rate) using facial videos. Recent deep learning architectures have improved the accuracy of such physiological measurement significantly, yet they are restricted by the diversity of the annotated videos. The existing datasets MMSE-HR, AFRL, and UBFC-RPPG contain roughly 10%, 0%, and 5% of dark-skinned subjects respectively. The unbalanced training sets result in a poor generalization capability to unseen subjects and lead to unwanted bias toward different demographic groups. In Western academia, it is regrettably difficult in a university setting to collect data on these dark-skinned subjects. Here we show a first attempt to overcome the lack of dark-skinned subjects by synthetic augmentation. A joint optimization framework is utilized to translate real videos from light-skinned subjects to dark skin tones while retaining their pulsatile signals. In the experiment, our method exhibits around 31% reduction in mean absolute error for the dark-skinned group and 46% improvement on bias mitigation for all the groups, as compared with the previous work trained with just real samples.
翻訳日:2021-06-14 14:17:33 公開日:2021-06-10
# 映像異常検出における次の局所出現予測

Predicting Next Local Appearance for Video Anomaly Detection ( http://arxiv.org/abs/2106.06059v1 )

ライセンス: Link先を確認
Pankaj Raj Roy, Guillaume-Alexandre Bilodeau and Lama Seoud(参考訳) ビデオに局所異常検出手法を提案する。 計算コストが高く,異なる映像シーンではあまり一般化できない既存の手法とは対照的に,シーンの次のフレームにおける通常の振る舞いオブジェクトの出現を,現在と過去の外観にのみ依存して予測することにより,時間的局所的な外観変化を学習する逆向きのフレームワークを提案する。 異常な振る舞いのある物体が存在する場合、その物体の現実と予測される次の出現の間の再構成誤差は異常の可能性を示唆する。 提案手法は,既存の最先端技術と競合すると同時に,トレーニングと推論の両面において極めて高速であり,映像シーンの可視化に優れる。

We present a local anomaly detection method in videos. As opposed to most existing methods that are computationally expensive and are not very generalizable across different video scenes, we propose an adversarial framework that learns the temporal local appearance variations by predicting the appearance of a normally behaving object in the next frame of a scene by only relying on its current and past appearances. In the presence of an abnormally behaving object, the reconstruction error between the real and the predicted next appearance of that object indicates the likelihood of an anomaly. Our method is competitive with the existing state-of-the-art while being significantly faster for both training and inference and being better at generalizing to unseen video scenes.
翻訳日:2021-06-14 14:17:12 公開日:2021-06-10
# 物体検出のためのガウス境界ボックスと確率的相互接続

Gaussian Bounding Boxes and Probabilistic Intersection-over-Un ion for Object Detection ( http://arxiv.org/abs/2106.06072v1 )

ライセンス: Link先を確認
Jeffri M. Llerena, Luis Felipe Zeni, Lucas N. Kristen, Claudio Jung(参考訳) ほとんどのオブジェクト検出方法は、境界ボックスを使用してオブジェクトの形状と位置をエンコードし、表現する。 本研究では,ガウス分布を用いた対象領域のファジィ表現について検討する。 また,Helinger Distanceに基づくガウス分布の類似度尺度も提示し,確率的インターセクション・オーバー・ユニオン(ProbIoU)とみなすことができる。 実験の結果,提案したガウス表現は公開データセットの注釈付きセグメンテーションマスクに近づき,ProbIoUに基づく損失関数はガウス表現のパラメータの回帰に有効であることが示唆された。 さらに,従来の(あるいは回転した)バウンディングボックスからガウス表現への単純なマッピングスキームを提案し,提案するprobiouベースの損失を任意の物体検出器にシームレスに統合する。

Most object detection methods use bounding boxes to encode and represent the object shape and location. In this work, we explore a fuzzy representation of object regions using Gaussian distributions, which provides an implicit binary representation as (potentially rotated) ellipses. We also present a similarity measure for the Gaussian distributions based on the Hellinger Distance, which can be viewed as a Probabilistic Intersection-over-Un ion (ProbIoU). Our experimental results show that the proposed Gaussian representations are closer to annotated segmentation masks in publicly available datasets, and that loss functions based on ProbIoU can be successfully used to regress the parameters of the Gaussian representation. Furthermore, we present a simple mapping scheme from traditional (or rotated) bounding boxes to Gaussian representations, allowing the proposed ProbIoU-based losses to be seamlessly integrated into any object detector.
翻訳日:2021-06-14 14:16:59 公開日:2021-06-10
# 動的シーンにおけるオブジェクトベースのサスカディック決定のためのモジュラーフレームワーク

A modular framework for object-based saccadic decisions in dynamic scenes ( http://arxiv.org/abs/2106.06073v1 )

ライセンス: Link先を確認
Nicolas Roth, Pia Bideau, Olaf Hellwich, Martin Rolfs, Klaus Obermayer(参考訳) 私たちの周りの世界を視覚的に探索することは受動的プロセスではありません。 代わりに、私たちは積極的に世界を探索し、時間とともに視覚情報を取得します。 本稿では,人間の眼球運動を動的実世界のシーンでシミュレートする新しいモデルを提案する。 この活動的なシーン探索を逐次的な意思決定プロセスとしてモデル化する。 我々は,人気のあるドリフト拡散モデル(ddm)を知覚的意思決定に適用し,シーンに存在するオブジェクトによって定義される複数の選択肢へと拡張する。 可能な選択ごとに、モデルがエビデンスを時間とともに統合し、証拠が決定しきい値を越えると、意思決定(サッカディック眼球運動)がトリガーされる。 意思決定とオブジェクトベースのシーン知覚の間の明示的な関係は、外部環境と対話しながら意思決定を継続するアクティブな視聴の文脈で非常に関係している。 モデルを注意深く設計したアブレーション研究で検証し,モデルパラメータの影響について検討した。 VidComデータセットの比較は、提案手法の妥当性を支持する。

Visually exploring the world around us is not a passive process. Instead, we actively explore the world and acquire visual information over time. Here, we present a new model for simulating human eye-movement behavior in dynamic real-world scenes. We model this active scene exploration as a sequential decision making process. We adapt the popular drift-diffusion model (DDM) for perceptual decision making and extend it towards multiple options, defined by objects present in the scene. For each possible choice, the model integrates evidence over time and a decision (saccadic eye movement) is triggered as soon as evidence crosses a decision threshold. Drawing this explicit connection between decision making and object-based scene perception is highly relevant in the context of active viewing, where decisions are made continuously while interacting with an external environment. We validate our model with a carefully designed ablation study and explore influences of our model parameters. A comparison on the VidCom dataset supports the plausibility of the proposed approach.
翻訳日:2021-06-14 14:16:41 公開日:2021-06-10
# 周期的不確実性下での長期時系列予測

Deep Probabilistic Koopman: Long-term time-series forecasting under periodic uncertainties ( http://arxiv.org/abs/2106.06033v1 )

ライセンス: Link先を確認
Alex Mallen, Henning Lange, J. Nathan Kutz(参考訳) 複雑な現象の確率論的予測は、様々な科学分野や応用において重要である。 問題の一般性と重要性にもかかわらず、不確実性尺度を校正した安定な長期予測を可能にする一般的な数学的手法が不足している。 ほとんどの時系列モデルでは、予測地平線によって正確な確率的将来の時間ステップ予測を得るのが困難になる。 本稿では,時間変化分布を特徴付ける驚くほど単純なアプローチを導入し,将来への数千のタイムステップを合理的に予測する。 この手法は深確率koopman (dpk) と呼ばれ、線形koopman作用素理論の最近の進歩に基づいており、将来の予測には時間ステップを必要としない。 クープマンモデルは小さなパラメータフットプリントを持つ傾向がある(しばしば1万のパラメータ未満)。 本稿では,電力需要予測,大気化学,神経科学などの領域において,これらのモデルの長期予測性能を示す。 電力需要モデリングでは、最新のGlobal Energy Forecasting Competitionにおいて、ドメインに依存しない手法が177のドメイン固有の競合すべてを上回っています。

Probabilistic forecasting of complex phenomena is paramount to various scientific disciplines and applications. Despite the generality and importance of the problem, general mathematical techniques that allow for stable long-term forecasts with calibrated uncertainty measures are lacking. For most time series models, the difficulty of obtaining accurate probabilistic future time step predictions increases with the prediction horizon. In this paper, we introduce a surprisingly simple approach that characterizes time-varying distributions and enables reasonably accurate predictions thousands of timesteps into the future. This technique, which we call Deep Probabilistic Koopman (DPK), is based on recent advances in linear Koopman operator theory, and does not require time stepping for future time predictions. Koopman models also tend to have a small parameter footprint (often less than 10,000 parameters). We demonstrate the long-term forecasting performance of these models on a diversity of domains, including electricity demand forecasting, atmospheric chemistry, and neuroscience. For electricity demand modeling, our domain-agnostic technique outperforms all of 177 domain-specific competitors in the most recent Global Energy Forecasting Competition.
翻訳日:2021-06-14 14:12:32 公開日:2021-06-10
# 連続潜在状態空間を持つ教師なしニューラルネットワーク隠れマルコフモデル

Unsupervised Neural Hidden Markov Models with a Continuous latent state space ( http://arxiv.org/abs/2106.06536v1 )

ライセンス: Link先を確認
Firas Jarboui, Vianney Perchet(参考訳) 我々は,非教師付き隠れマルコフモデルを連続ケースで神経化するための新しい手法を提案する。 これにより、下層の潜伏変数で問題を解決する柔軟性が向上する。 このアプローチは、合成データと実データの両方で評価される。 市販のニューラルネットワーク(lstms, grusなど)と同等の性能を持つモデルパラメータを生成することに加えて、得られた結果は容易に解釈できる。

We introduce a new procedure to neuralize unsupervised Hidden Markov Models in the continuous case. This provides higher flexibility to solve problems with underlying latent variables. This approach is evaluated on both synthetic and real data. On top of generating likely model parameters with comparable performances to off-the-shelf neural architecture (LSTMs, GRUs,..), the obtained results are easily interpretable.
翻訳日:2021-06-14 14:08:32 公開日:2021-06-10
# 時間ネットワークにおけるニューラル高次パターン(モチーフ)予測

Neural Higher-order Pattern (Motif) Prediction in Temporal Networks ( http://arxiv.org/abs/2106.06039v1 )

ライセンス: Link先を確認
Yunyu Liu, Jianzhu Ma, Pan Li(参考訳) 相互作用する要素の集合からなる動的システムは、時間的ネットワークとして抽象化できる。 近年、複数の相互作用ノードを含む高次パターンが、異なる時間ネットワークのドメイン固有の法則を示すために重要であることが判明している。 この論文は、これらの高階パターンと関連する新しい学習アルゴリズムのために、より洗練されたハイパーグラフモデルを設計するという課題を取り上げている。 本稿では,時間ハイパーグラフにおける高次パターン予測のためのHITモデルを提案する。 特に,時間的ネットワークにおける3つの相互作用要素を含む3種類の共通だが重要な相互作用パターンの予測に焦点をあてた。 HITは、時間ハイパーグラフ上の関心のノード三重項の構造的表現を抽出し、それを用いて、この三重項において相互作用の展開が起こるか、いつ、なぜ起こるかを知る。 HITは、5つの実世界の大きな時間ハイパーグラフ上のヒューリスティックおよび他のニューラルネットワークベースのベースラインと比較して、大きな改善(平均20%のAUCゲインで相互作用タイプを識別し、一様に正確な時間推定を行う)を達成できる。 さらに、hitは、異なる高次パターンを予測するために、時間的ハイパーグラフの最も識別的な構造特徴を識別することによって、ある程度の解釈可能性を提供する。

Dynamic systems that consist of a set of interacting elements can be abstracted as temporal networks. Recently, higher-order patterns that involve multiple interacting nodes have been found crucial to indicate domain-specific laws of different temporal networks. This posts us the challenge of designing more sophisticated hypergraph models for these higher-order patterns and the associated new learning algorithms. Here, we propose the first model, named HIT, for higher-order pattern prediction in temporal hypergraphs. Particularly, we focus on predicting three types of common but important interaction patterns involving three interacting elements in temporal networks, which could be extended to even higher-order patterns. HIT extracts the structural representation of a node triplet of interest on the temporal hypergraph and uses it to tell what type of, when, and why the interaction expansion could happen in this triplet. HIT could achieve significant improvement(averaged 20% AUC gain to identify the interaction type, uniformly more accurate time estimation) compared to both heuristic and other neural-network-based baselines on 5 real-world large temporal hypergraphs. Moreover, HIT provides a certain degree of interpretability by identifying the most discriminatory structural features on the temporal hypergraphs for predicting different higher-order patterns.
翻訳日:2021-06-14 14:08:24 公開日:2021-06-10
# ダウンサンプリングレキシケース選択の問題解決効果

Problem-solving benefits of down-sampled lexicase selection ( http://arxiv.org/abs/2106.06085v1 )

ライセンス: Link先を確認
Thomas Helmuth and Lee Spector(参考訳) 遺伝的プログラミングでは、特定の計算問題を解決するコンピュータプログラムを生成する進化的手法であり、親の選択は、通常、トレーニングセット全体のパフォーマンスの総合尺度に基づいて行われる。 対照的に、語彙選択は、訓練事例のランダムなシーケンスに基づくパフォーマンスに基づいて選択され、多くの状況において問題解決力を高めることが示されている。 レキシケースの選択は、生物が生涯にわたって直面する課題のシーケンスをモデル化することで、生物学的進化をより反映すると見なすこともできる。 近年の研究では、レキシケース選択の利点がダウンサンプリングによって増幅できることが示されており、トレーニングケースのランダムサブサンプルのみが各世代で使用される。 これは、個々の生物が可能な環境のサブセットにのみ遭遇し、時間とともに環境が変化するという事実をモデル化していると見なすことができる。 ここでは、現在までサンプルの少ないレキシケース選択の最も広範囲なベンチマークを行い、その利点がより精査されることを示す。 しかし、ダウンサンプリングが役立つ理由は、まだ完全には理解されていない。 ダウンサンプリングは、プログラム評価の同じ予算でより多くの世代を処理できる、世代間でのトレーニングデータのばらつきが変化環境として機能し、適応を促進する、あるいは過度な適合を減らし、より一般的な解決策をもたらす、という仮説がある。 我々はこれらの仮説を体系的に評価し、3つすべてに対して証拠を見いだし、代わりに、ダウンサンプルのレキシケース選択の主な利点は、各個体が完全に調べられなくても、進化過程が同じ計算予算内でより多くの個人を調べることができるという事実に由来するという結論を導いた。

In genetic programming, an evolutionary method for producing computer programs that solve specified computational problems, parent selection is ordinarily based on aggregate measures of performance across an entire training set. Lexicase selection, by contrast, selects on the basis of performance on random sequences of training cases; this has been shown to enhance problem-solving power in many circumstances. Lexicase selection can also be seen as better reflecting biological evolution, by modeling sequences of challenges that organisms face over their lifetimes. Recent work has demonstrated that the advantages of lexicase selection can be amplified by down-sampling, meaning that only a random subsample of the training cases is used each generation. This can be seen as modeling the fact that individual organisms encounter only subsets of the possible environments, and that environments change over time. Here we provide the most extensive benchmarking of down-sampled lexicase selection to date, showing that its benefits hold up to increased scrutiny. The reasons that down-sampling helps, however, are not yet fully understood. Hypotheses include that down-sampling allows for more generations to be processed with the same budget of program evaluations; that the variation of training data across generations acts as a changing environment, encouraging adaptation; or that it reduces overfitting, leading to more general solutions. We systematically evaluate these hypotheses, finding evidence against all three, and instead draw the conclusion that down-sampled lexicase selection's main benefit stems from the fact that it allows the evolutionary process to examine more individuals within the same computational budget, even though each individual is examined less completely.
翻訳日:2021-06-14 14:08:02 公開日:2021-06-10
# 深層強化学習型マルチエージェント市場におけるAI駆動価格による多目的達成

Achieving Diverse Objectives with AI-driven Prices in Deep Reinforcement Learning Multi-agent Markets ( http://arxiv.org/abs/2106.06060v1 )

ライセンス: Link先を確認
Panayiotis Danassis, Aris Filos-Ratsikas, Boi Faltings(参考訳) 本稿では,他の学習エージェントの環境で動作する深層強化学習政策立案エージェントを用いて,市場価格とアロケーションを計算するための実践的アプローチを提案する。 理想的な市場均衡の結果 -- 私たちがベンチマークとして使用している -- と比較して、当社の政策立案者はより柔軟で、持続可能性や資源の浪費、公正性、買い手や売り手の福祉といった様々な目的において価格を調整できます。 このアプローチを評価するために、複数の多様な買い手と売り手による現実的な市場を設計する。 さらに、深層学習エージェントである売り手は、商業漁業の生物経済モデルに基づいた共同プール給付環境において資源を競う。 a)導入された政策立案者は、市場均衡と同等のパフォーマンスを達成でき、均衡価格を効率的に計算できない市場でのそのようなアプローチの可能性を示しています。 b) 政策立案者は, ある指標の平衡解を顕著に上回り, 残る指標と同等の性能を維持することができる。 c) 当社の政策立案者は,資源環境が不足している状況において,市場結果と比較して資源持続可能性の維持にかなり成功しています。

We propose a practical approach to computing market prices and allocations via a deep reinforcement learning policymaker agent, operating in an environment of other learning agents. Compared to the idealized market equilibrium outcome -- which we use as a benchmark -- our policymaker is much more flexible, allowing us to tune the prices with regard to diverse objectives such as sustainability and resource wastefulness, fairness, buyers' and sellers' welfare, etc. To evaluate our approach, we design a realistic market with multiple and diverse buyers and sellers. Additionally, the sellers, which are deep learning agents themselves, compete for resources in a common-pool appropriation environment based on bio-economic models of commercial fisheries. We demonstrate that: (a) The introduced policymaker is able to achieve comparable performance to the market equilibrium, showcasing the potential of such approaches in markets where the equilibrium prices can not be efficiently computed. (b) Our policymaker can notably outperform the equilibrium solution on certain metrics, while at the same time maintaining comparable performance for the remaining ones. (c) As a highlight of our findings, our policymaker is significantly more successful in maintaining resource sustainability, compared to the market outcome, in scarce resource environments.
翻訳日:2021-06-14 14:06:07 公開日:2021-06-10
# 形式的保証によるベイズ最適化

Bayesian Optimisation with Formal Guarantees ( http://arxiv.org/abs/2106.06067v1 )

ライセンス: Link先を確認
Franz Brau{\ss}e, Zurab Khasidashvili, Konstantin Korovin(参考訳) ベイズ最適化の応用領域には、ブラックボックス関数や非常に複雑な関数の最適化が含まれる。 複雑な実世界システムを記述するのに興味のある機能は、産業環境で適用されます。 明示的な表現を持っているにもかかわらず、標準最適化技術は検証された解決策と正確性保証を提供してはいない。 本稿では,ベイズ最適化とSMTに基づく制約解を組み合わせることで,最適性を保証する安全で安定した解を実現する。

Application domains of Bayesian optimization include optimizing black-box functions or very complex functions. The functions we are interested in describe complex real-world systems applied in industrial settings. Even though they do have explicit representations, standard optimization techniques fail to provide validated solutions and correctness guarantees for them. In this paper we present a combination of Bayesian optimisation and SMT-based constraint solving to achieve safe and stable solutions with optimality guarantees.
翻訳日:2021-06-14 14:04:59 公開日:2021-06-10
# SMTモデル検査による量子ニューラルネットワークの検証

Verifying Quantized Neural Networks using SMT-Based Model Checking ( http://arxiv.org/abs/2106.05997v1 )

ライセンス: Link先を確認
Luiz Sena, Xidan Song, Erickson Alves, Iury Bessa, Edoardo Manino, Lucas Cordeiro(参考訳) ANN(Artificial Neural Networks)は、自動運転車や医療診断など、安全に重要なアプリケーションにデプロイされている。 しかし、ブラックボックスの性質と敵の攻撃に対する明らかな脆弱さにより、信頼性に関する懸念が高まっている。 本稿では,インクリメンタル・モデル・チェック(imc)とsmt(sipfiability modulo theories)を用いて,annの脆弱性をチェックできるシンボリック検証フレームワークを開発し,評価する。 具体的には、インターバル解析による不変推論や非線形アクティベーション関数の離散化など、IMCのANN関連最適化を提案する。 これにより、浮動小数点演算と不動小数点演算の両方で実装されたANNの安全な挙動を保証できる。 そこで本研究では,画像分類と一般的な機械学習アプリケーションにまたがる52の試験事例に対して,検証を行い,検証を行った。 小型から中型ANNの場合、我々の手法は検証のほとんどを数分で完了する。 さらに、ほとんどの最先端手法とは対照的に、我々の手法はアクティベーション関数や非量子化表現の特定の選択に制限されない。

Artificial Neural Networks (ANNs) are being deployed on an increasing number of safety-critical applications, including autonomous cars and medical diagnosis. However, concerns about their reliability have been raised due to their black-box nature and apparent fragility to adversarial attacks. Here, we develop and evaluate a symbolic verification framework using incremental model checking (IMC) and satisfiability modulo theories (SMT) to check for vulnerabilities in ANNs. More specifically, we propose several ANN-related optimizations for IMC, including invariant inference via interval analysis and the discretization of non-linear activation functions. With this, we can provide guarantees on the safe behavior of ANNs implemented both in floating-point and fixed-point (quantized) arithmetic. In this regard, our verification approach was able to verify and produce adversarial examples for 52 test cases spanning image classification and general machine learning applications. For small- to medium-sized ANN, our approach completes most of its verification runs in minutes. Moreover, in contrast to most state-of-the-art methods, our approach is not restricted to specific choices of activation functions or non-quantized representations.
翻訳日:2021-06-14 14:02:18 公開日:2021-06-10
# (参考訳) 連続再帰ニューラルネットワークによる階層構造モデリング

Modeling Hierarchical Structures with Continuous Recursive Neural Networks ( http://arxiv.org/abs/2106.06038v1 )

ライセンス: CC BY 4.0
Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) 階層的構文構造に従ってシーケンスを構成する再帰的ニューラルネットワーク(rvnn)は、構造バイアスのない類似モデルと比較して、いくつかの自然言語処理タスクでよく機能している。 しかし、従来のRvNNは、独自のプレーンテキストシーケンスで潜在構造を誘導することができない。 この制限を克服するためにいくつかの拡張が提案されている。 それでもこれらの拡張は、高いバイアスや分散のコストで、代理勾配や強化学習に依存する傾向がある。 本研究では、前述の制限に対処するバックプロパゲーションフレンドリな代替として、連続再帰ニューラルネットワーク(CRvNN)を提案する。 これは、誘導構造に連続的な緩和を組み込むことによって行われる。 CRvNNは論理推論やListOpsといった難解な合成タスクにおいて高い性能を発揮することを示す。 また,crvnnは感情分析や自然言語推論といった実世界のタスクにおいて,事前の潜在構造モデルと同等かそれ以上の性能を示す。

Recursive Neural Networks (RvNNs), which compose sequences according to their underlying hierarchical syntactic structure, have performed well in several natural language processing tasks compared to similar models without structural biases. However, traditional RvNNs are incapable of inducing the latent structure in a plain text sequence on their own. Several extensions have been proposed to overcome this limitation. Nevertheless, these extensions tend to rely on surrogate gradients or reinforcement learning at the cost of higher bias or variance. In this work, we propose Continuous Recursive Neural Network (CRvNN) as a backpropagation-frie ndly alternative to address the aforementioned limitations. This is done by incorporating a continuous relaxation to the induced structure. We demonstrate that CRvNN achieves strong performance in challenging synthetic tasks such as logical inference and ListOps. We also show that CRvNN performs comparably or better than prior latent structure models on real-world tasks such as sentiment analysis and natural language inference.
翻訳日:2021-06-14 13:59:38 公開日:2021-06-10
# (参考訳) まばらな混合専門家によるビジョンのスケーリング

Scaling Vision with Sparse Mixture of Experts ( http://arxiv.org/abs/2106.05974v1 )

ライセンス: CC BY 4.0
Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, Andr\'e Susano Pinto, Daniel Keysers, Neil Houlsby(参考訳) 専門家ネットワーク(MoE)は、自然言語処理において優れたスケーラビリティを示す。 しかしコンピュータビジョンでは、ほとんどの高性能ネットワークは「dense」であり、つまり全ての入力は各パラメータによって処理される。 我々は、最大密度のネットワークとスケーラブルで競合するVision TransformerのスパースバージョンであるVision MoE(V-MoE)を紹介する。 画像認識に適用すると、V-MoEは最先端のネットワークの性能と一致し、推論時に計算の半分しか必要としない。 さらに,各入力のサブセットをバッチ全体にわたって優先順位付け可能なルーティングアルゴリズムの拡張を提案する。 これにより、V-MoEはパフォーマンスをトレードオフし、テスト時にスムーズに計算できる。 最後に、視覚モデルをスケールするV-MoEの可能性を示し、ImageNetで90.35%に達する15Bパラメータモデルをトレーニングする。

Sparsely-gated Mixture of Experts networks (MoEs) have demonstrated excellent scalability in Natural Language Processing. In Computer Vision, however, almost all performant networks are "dense", that is, every input is processed by every parameter. We present a Vision MoE (V-MoE), a sparse version of the Vision Transformer, that is scalable and competitive with the largest dense networks. When applied to image recognition, V-MoE matches the performance of state-of-the-art networks, while requiring as little as half of the compute at inference time. Further, we propose an extension to the routing algorithm that can prioritize subsets of each input across the entire batch, leading to adaptive per-image compute. This allows V-MoE to trade-off performance and compute smoothly at test-time. Finally, we demonstrate the potential of V-MoE to scale vision models, and train a 15B parameter model that attains 90.35% on ImageNet.
翻訳日:2021-06-14 13:59:02 公開日:2021-06-10
# (参考訳) 座標独立畳み込みネットワーク -- リーマン多様体上の等長およびゲージ同変畳み込み

Coordinate Independent Convolutional Networks -- Isometry and Gauge Equivariant Convolutions on Riemannian Manifolds ( http://arxiv.org/abs/2106.06020v1 )

ライセンス: CC BY 4.0
Maurice Weiler, Patrick Forr\'e, Erik Verlinde, Max Welling(参考訳) 深い畳み込みネットワークの大きな成功により、非ユークリッド多様体への畳み込みの一般化に大きな関心がある。 平坦空間に対する大きな複雑度は、畳み込み核が多様体上でどのアライメントを適用するべきかが明らかでないことである。 この曖昧さの根底にある理由は、一般多様体が参照フレーム(ゲージ)の正準選択を伴わないことである。 したがって、カーネルと特徴は任意の座標に対して表現されなければならない。 コーディネート化の特定の選択は、ネットワークの推論に影響を与えるべきではない、と我々は主張する。 座標独立性と重み共有の同時要求は、ネットワークが局所ゲージ変換(局所参照フレームの変更)の下で同変であることを要求することが示される。 したがって、参照フレームの曖昧性は多様体の g-構造に依存するので、対応する構造群 g によりゲージ同値の必要レベルが規定される。 これらのアイソメトリーはG構造の対称性である。 得られた理論はファイバー束の項で座標自由な方法で定式化される。 座標独立畳み込みの設計を例示するために, m\"obius strip 上の畳み込みネットワークを実装した。 畳み込みネットワークの微分幾何学的定式化の一般性は、座標独立畳み込みの特定の例として、一般曲面上の多くのユークリッド cnn,球面 cnn, cnn を説明する広範な文献レビューによって証明される。

Motivated by the vast success of deep convolutional networks, there is a great interest in generalizing convolutions to non-Euclidean manifolds. A major complication in comparison to flat spaces is that it is unclear in which alignment a convolution kernel should be applied on a manifold. The underlying reason for this ambiguity is that general manifolds do not come with a canonical choice of reference frames (gauge). Kernels and features therefore have to be expressed relative to arbitrary coordinates. We argue that the particular choice of coordinatization should not affect a network's inference -- it should be coordinate independent. A simultaneous demand for coordinate independence and weight sharing is shown to result in a requirement on the network to be equivariant under local gauge transformations (changes of local reference frames). The ambiguity of reference frames depends thereby on the G-structure of the manifold, such that the necessary level of gauge equivariance is prescribed by the corresponding structure group G. Coordinate independent convolutions are proven to be equivariant w.r.t. those isometries that are symmetries of the G-structure. The resulting theory is formulated in a coordinate free fashion in terms of fiber bundles. To exemplify the design of coordinate independent convolutions, we implement a convolutional network on the M\"obius strip. The generality of our differential geometric formulation of convolutional networks is demonstrated by an extensive literature review which explains a large number of Euclidean CNNs, spherical CNNs and CNNs on general surfaces as specific instances of coordinate independent convolutions.
翻訳日:2021-06-14 13:58:46 公開日:2021-06-10
# (参考訳) 自然言語処理のためのグラフニューラルネットワーク:調査

Graph Neural Networks for Natural Language Processing: A Survey ( http://arxiv.org/abs/2106.06090v1 )

ライセンス: CC BY 4.0
Lingfei Wu, Yu Chen, Kai Shen, Xiaojie Guo, Hanning Gao, Shucheng Li, Jian Pei, Bo Long(参考訳) 自然言語処理(NLP)における様々な課題に対処する上で,ディープラーニングが主流となっている。 テキスト入力は典型的にはトークンの列として表現されるが、グラフ構造で最もよく表現できる多種多様なNLP問題が存在する。 その結果,多くのNLPタスクに対するグラフ上での新しいディープラーニング技術開発への関心が高まっている。 本稿では,自然言語処理のためのグラフニューラルネットワーク(GNN)の概要を紹介する。 グラフ構築,グラフ表現学習,グラフベースエンコーダ・デコーダモデルという3つの軸に沿って,NLP用GNNの既存の研究を体系的に整理した。 さらに,gnnのパワーを活用した多数のnlpアプリケーションを紹介し,ベンチマークデータセット,評価メトリクス,オープンソースコードを要約する。 最後に,NLPにGNNをフル活用する上での課題と今後の研究方向性について論じる。 我々の知る限りでは、これは自然言語処理のためのグラフニューラルネットの最初の包括的概要である。

Deep learning has become the dominant approach in coping with various tasks in Natural LanguageProcessing (NLP). Although text inputs are typically represented as a sequence of tokens, there isa rich variety of NLP problems that can be best expressed with a graph structure. As a result, thereis a surge of interests in developing new deep learning techniques on graphs for a large numberof NLP tasks. In this survey, we present a comprehensive overview onGraph Neural Networks(GNNs) for Natural Language Processing. We propose a new taxonomy of GNNs for NLP, whichsystematically organizes existing research of GNNs for NLP along three axes: graph construction,graph representation learning, and graph based encoder-decoder models. We further introducea large number of NLP applications that are exploiting the power of GNNs and summarize thecorresponding benchmark datasets, evaluation metrics, and open-source codes. Finally, we discussvarious outstanding challenges for making the full use of GNNs for NLP as well as future researchdirections. To the best of our knowledge, this is the first comprehensive overview of Graph NeuralNetworks for Natural Language Processing.
翻訳日:2021-06-14 13:58:16 公開日:2021-06-10
# (参考訳) 集合値帰納規則学習による強化学習ポリシーの合成

Synthesising Reinforcement Learning Policies through Set-Valued Inductive Rule Learning ( http://arxiv.org/abs/2106.06009v1 )

ライセンス: CC BY-SA 4.0
Youri Coppens, Denis Steckelmacher, Catholijn M. Jonker, Ann Now\'e(参考訳) 今日の高度な強化学習アルゴリズムは、人に対する解釈と信頼が難しいブラックボックスポリシーを生成する。 本稿では, cn2ルールマイニングアルゴリズムに基づいて, ポリシーをルールベース決定システムに蒸留する政策蒸留アルゴリズムを提案する。 我々のアプローチの核心は、RLプロセスが単に政策や状態から行動へのマッピングを学ぶだけでなく、代替行動の質を示すアクション値のような追加のメタ情報を生成するという事実です。 このメタ情報は、ある状態に対して複数のアクションがほぼ最適であるかどうかを示すことができる。 私たちはcn2を拡張して、政策をより少ないルールに絞り込む等質な行動に関する知識を活用できるようにします。 次に,ルールが有効な非退化ポリシーを説明することを保証するために,ルールを微調整し,環境内で実行した場合の良好な性能を得るための改良アルゴリズムを提案する。 ニューラルネットワークを含む現代的な強化学習アルゴリズムを必要とする複雑なタスクであるmario aiベンチマークで,本アルゴリズムの適用性を示す。 私たちが生成した説明は、ブラックボックスエージェントが学んだことを理解できるように、学習したポリシーをほんの数ルールでキャプチャする。 ソースコード: https://gitlab.ai.vu b.ac.be/yocoppen/svc n2

Today's advanced Reinforcement Learning algorithms produce black-box policies, that are often difficult to interpret and trust for a person. We introduce a policy distilling algorithm, building on the CN2 rule mining algorithm, that distills the policy into a rule-based decision system. At the core of our approach is the fact that an RL process does not just learn a policy, a mapping from states to actions, but also produces extra meta-information, such as action values indicating the quality of alternative actions. This meta-information can indicate whether more than one action is near-optimal for a certain state. We extend CN2 to make it able to leverage knowledge about equally-good actions to distill the policy into fewer rules, increasing its interpretability by a person. Then, to ensure that the rules explain a valid, non-degenerate policy, we introduce a refinement algorithm that fine-tunes the rules to obtain good performance when executed in the environment. We demonstrate the applicability of our algorithm on the Mario AI benchmark, a complex task that requires modern reinforcement learning algorithms including neural networks. The explanations we produce capture the learned policy in only a few rules, that allow a person to understand what the black-box agent learned. Source code: https://gitlab.ai.vu b.ac.be/yocoppen/svc n2
翻訳日:2021-06-14 13:57:21 公開日:2021-06-10
# (参考訳) 確率的時空間予測のための粒子流付きRNN

RNN with Particle Flow for Probabilistic Spatio-temporal Forecasting ( http://arxiv.org/abs/2106.06064v1 )

ライセンス: CC BY 4.0
Soumyasundar Pal and Liheng Ma and Yingxue Zhang and Mark Coates(参考訳) 時空間予測は、無線、トラフィック、金融ネットワークの分析に多くの応用がある。 多くの古典統計モデルは、時系列データに存在する複雑さと高い非線形性を扱うのに不足している。 ディープラーニングの最近の進歩は、空間的および時間的依存関係のモデリングを改善する。 これらのモデルのほとんどは正確な点予測の獲得に焦点を当てているが、予測の不確かさを特徴付けていない。 本研究では,時系列データを非線形状態空間モデルからランダムに実現し,確率予測のための隠れ状態のベイズ推定を目標とする。 粒子流は, 複雑で高次元的な設定において極めて有効であることを示すため, 状態の後方分布を近似するツールとして用いられる。 いくつかの実世界の時系列データセットの詳細な実験により、我々の手法は、最先端の予測手法に匹敵する精度を維持しながら、不確実性のより良い評価を提供することを示した。

Spatio-temporal forecasting has numerous applications in analyzing wireless, traffic, and financial networks. Many classical statistical models often fall short in handling the complexity and high non-linearity present in time-series data. Recent advances in deep learning allow for better modelling of spatial and temporal dependencies. While most of these models focus on obtaining accurate point forecasts, they do not characterize the prediction uncertainty. In this work, we consider the time-series data as a random realization from a nonlinear state-space model and target Bayesian inference of the hidden states for probabilistic forecasting. We use particle flow as the tool for approximating the posterior distribution of the states, as it is shown to be highly effective in complex, high-dimensional settings. Thorough experimentation on several real world time-series datasets demonstrates that our approach provides better characterization of uncertainty while maintaining comparable accuracy to the state-of-the art point forecasting methods.
翻訳日:2021-06-14 13:56:44 公開日:2021-06-10
# (参考訳) 虹深部強化学習を用いたエネルギー仲裁のためのデータ駆動型バッテリ操作

Data-driven battery operation for energy arbitrage using rainbow deep reinforcement learning ( http://arxiv.org/abs/2106.06061v1 )

ライセンス: CC BY 4.0
Daniel J. B. Harrold, Jun Cao, and Zhong Fan(参考訳) 世界がより持続可能なものにするためには、再生可能エネルギーの浸透を増やすためのインテリジェントなソリューションが必要である。 本稿では,モデルフリーの深部強化学習アルゴリズムであるRainbow Deep Q-Networksを用いて小型マイクログリッドの電池を制御し,エネルギーの調停を行い,太陽・風力エネルギー源をより効率的に活用する。 このグリッドはキール大学が収集したデータセットに基づいて独自の需要と再生可能エネルギーで動作し、また実際のホールセールエネルギー市場からの動的エネルギー価格を使用している。 地域気象データを用いた需要予測と価格予測を含む4つのシナリオを検証した。 アルゴリズムとそのサブコンポーネントは、2つの連続制御ベンチマークに対して評価され、Rainbowは他のすべてのメソッドよりも優れている。 本研究は,複雑な環境と報酬関数を扱う際の強化学習に分布的アプローチを用いることの重要性と,実世界のアプリケーションにおけるエージェントの振る舞いの可視化とコンテキスト化に利用することの重要性を示す。

As the world seeks to become more sustainable, intelligent solutions are needed to increase the penetration of renewable energy. In this paper, the model-free deep reinforcement learning algorithm Rainbow Deep Q-Networks is used to control a battery in a small microgrid to perform energy arbitrage and more efficiently utilise solar and wind energy sources. The grid operates with its own demand and renewable generation based on a dataset collected at Keele University, as well as using dynamic energy pricing from a real wholesale energy market. Four scenarios are tested including using demand and price forecasting produced with local weather data. The algorithm and its subcomponents are evaluated against two continuous control benchmarks with Rainbow able to outperform all other method. This research shows the importance of using the distributional approach for reinforcement learning when working with complex environments and reward functions, as well as how it can be used to visualise and contextualise the agent's behaviour for real-world applications.
翻訳日:2021-06-14 13:54:13 公開日:2021-06-10
# (参考訳) GAN自動設計のための自己適応型超解像構造フレームワーク

A self-adapting super-resolution structures framework for automatic design of GAN ( http://arxiv.org/abs/2106.06011v1 )

ライセンス: CC BY 4.0
Yibo Guo, Haidi Wang, Yiming Fan, Shunyao Li, Mingliang Xu(参考訳) ディープラーニングの発展に伴い、単一の超解像度画像再構成ネットワークモデルはますます複雑になりつつある。 モデルのハイパーパラメータの小さな変更は、モデルパフォーマンスに大きな影響を与えます。 既存の研究では、経験値やブルートフォース探索の実行に基づいて、専門家は徐々に最適なモデルパラメータのセットを探索してきた。 本稿では,新しい高分解能画像再構成生成対向ネットワークフレームワークと,生成器と識別器のハイパーパラメータを最適化するベイズ最適化手法を提案する。 発電機は自己校正された畳み込みで作られ、識別器は畳み込みによって作られる。 我々は,ネットワーク層数やニューロン数などのハイパーパラメータを定義した。 本手法は,GANの最適化ポリシとしてベイズ最適化を採用する。 最適なハイパーパラメータソリューションを自動で見つけるだけでなく、超高解像度画像再構成ネットワークの構築も可能で、手動の作業量を削減できる。 実験により、ベイズ最適化は他の2つの最適化アルゴリズムよりも早く最適解を探索できることが示されている。

With the development of deep learning, the single super-resolution image reconstruction network models are becoming more and more complex. Small changes in hyperparameters of the models have a greater impact on model performance. In the existing works, experts have gradually explored a set of optimal model parameters based on empirical values or performing brute-force search. In this paper, we introduce a new super-resolution image reconstruction generative adversarial network framework, and a Bayesian optimization method used to optimizing the hyperparameters of the generator and discriminator. The generator is made by self-calibrated convolution, and discriminator is made by convolution lays. We have defined the hyperparameters such as the number of network layers and the number of neurons. Our method adopts Bayesian optimization as a optimization policy of GAN in our model. Not only can find the optimal hyperparameter solution automatically, but also can construct a super-resolution image reconstruction network, reducing the manual workload. Experiments show that Bayesian optimization can search the optimal solution earlier than the other two optimization algorithms.
翻訳日:2021-06-14 13:51:59 公開日:2021-06-10
# (参考訳) amrアライメントの多様性、精度、範囲を改善する確率的構造認識アルゴリズム

Probabilistic, Structure-Aware Algorithms for Improved Variety, Accuracy, and Coverage of AMR Alignments ( http://arxiv.org/abs/2106.06002v1 )

ライセンス: CC BY 4.0
Austin Blodgett and Nathan Schneider(参考訳) 本稿では,抽象的意味表現(AMR)グラフの成分を英文で表すアルゴリズムを提案する。 我々は、教師なし学習とヒューリスティックスを組み合わせて、以前のAMR調整器から両方の世界を最大限に活用する。 しかし、我々の教師なしモデルは、個別の構文解析を必要とせず、グラフのサブ構造に敏感である。 提案手法は,従来検討したよりも幅広いamrサブストラクチャをカバーし,ノードやエッジのカバー率を高め,高い精度で実現している。 我々は、AMR解析、生成、評価の研究に使用するLEAMRデータセットと調整器をリリースする。

We present algorithms for aligning components of Abstract Meaning Representation (AMR) graphs to spans in English sentences. We leverage unsupervised learning in combination with heuristics, taking the best of both worlds from previous AMR aligners. Our unsupervised models, however, are more sensitive to graph substructures, without requiring a separate syntactic parse. Our approach covers a wider variety of AMR substructures than previously considered, achieves higher coverage of nodes and edges, and does so with higher accuracy. We will release our LEAMR datasets and aligner for use in research on AMR parsing, generation, and evaluation.
翻訳日:2021-06-14 13:51:30 公開日:2021-06-10
# (参考訳) 言語間感情検出

Cross-lingual Emotion Detection ( http://arxiv.org/abs/2106.06017v1 )

ライセンス: CC BY 4.0
Sabit Hassan, Shaden Shaar, Kareem Darwish(参考訳) 感情検出は人間を理解する上で非常に重要である。 自動モデルをトレーニングするための注釈付きデータセットの構築は、コストがかかる可能性がある。 対象言語における感情検出モデルを構築するために,ソース言語からのデータを用いた言語間アプローチの有効性を検討する。 i) 本質的に多言語モデル,i) 学習データを対象言語に翻訳する,iii) 自動的にタグ付けされた並列コーパスを用いた3つのアプローチを比較した。 本研究では,アラビア語とスペイン語を対象言語とするソース言語として英語を考察した。 本研究では,BERT や SVM などの異なる分類モデルの有効性について検討した。 対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-a rt)を5%上回りました。 次に、英語データのみを用いた言語間アプローチを用いて、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。 最後に、モデル間の差異を解釈するためにLIMEを使用します。

Emotion detection is of great importance for understanding humans. Constructing annotated datasets to train automated models can be expensive. We explore the efficacy of cross-lingual approaches that would use data from a source language to build models for emotion detection in a target language. We compare three approaches, namely: i) using inherently multilingual models; ii) translating training data into the target language; and iii) using an automatically tagged parallel corpus. In our study, we consider English as the source language with Arabic and Spanish as target languages. We study the effectiveness of different classification models such as BERT and SVMs trained with different features. Our BERT-based monolingual models that are trained on target language data surpass state-of-the-art (SOTA) by 4% and 5% absolute Jaccard score for Arabic and Spanish respectively. Next, we show that using cross-lingual approaches with English data alone, we can achieve more than 90% and 80% relative effectiveness of the Arabic and Spanish BERT models respectively. Lastly, we use LIME to interpret the differences between models.
翻訳日:2021-06-14 13:51:18 公開日:2021-06-10
# (参考訳) 翻訳1件につき一感

One Sense Per Translation ( http://arxiv.org/abs/2106.06082v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Grzegorz Kondrak(参考訳) 感覚の在庫を定義するために語彙翻訳を使うという考えは、語彙意味論において長い歴史を持っている。 我々は、この一見合理的なアイデアがなぜ有用な結果を生み出せなかったのかという疑問に答えるための理論的枠組みを提案する。 我々は、単語の翻訳がその感覚とどのように関連しているか、また同義語と多義語の関係について、いくつかの命題を正式に証明する。 我々は,BabelNetに関する理論的知見を実証的に検証し,語彙のかなりの部分の教師なし単語感覚の曖昧さをいかに実現できるかを実証した。

The idea of using lexical translations to define sense inventories has a long history in lexical semantics. We propose a theoretical framework which allows us to answer the question of why this apparently reasonable idea failed to produce useful results. We formally prove several propositions on how the translations of a word relate to its senses, as well as on the relationship between synonymy and polysemy. We empirically validate our theoretical findings on BabelNet, and demonstrate how they could be used to perform unsupervised word sense disambiguation of a substantial fraction of the lexicon.
翻訳日:2021-06-14 13:51:01 公開日:2021-06-10
# (参考訳) バイリンガル語彙誘導のための静的単語埋め込みと文脈表現の組み合わせ [全文訳有]

Combining Static Word Embeddings and Contextual Representations for Bilingual Lexicon Induction ( http://arxiv.org/abs/2106.03084v2 )

ライセンス: CC BY 4.0
Jinpeng Zhang, Baijun Ji, Nini Xiao, Xiangyu Duan, Min Zhang, Yangbin Shi, Weihua Luo(参考訳) bilingual lexicon induction (bli) は、ある言語の単語を別の言語の翻訳にマッピングすることを目的としており、典型的には線形射影を学習して単言語表現空間を整列する。 単語表現は静的な単語埋め込みと文脈表現の2つのクラスがBLIのために研究されているが、両方を組み合わせる研究は行われていない。 本稿では,静的な単語埋め込みと文脈表現を組み合わせることで,両方のパラダイムの利点を活用できる,シンプルで効果的なメカニズムを提案する。 教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で組み合わせのメカニズムをテストする。 実験により,教師付き設定の3.2点,教師なし設定の3.1点を平均的に改善することにより,すべての言語ペアにおけるロバストbliベースラインのパフォーマンスを一貫して改善することを示した。

Bilingual Lexicon Induction (BLI) aims to map words in one language to their translations in another, and is typically through learning linear projections to align monolingual word representation spaces. Two classes of word representations have been explored for BLI: static word embeddings and contextual representations, but there is no studies to combine both. In this paper, we propose a simple yet effective mechanism to combine the static word embeddings and the contextual representations to utilize the advantages of both paradigms. We test the combination mechanism on various language pairs under the supervised and unsupervised BLI benchmark settings. Experiments show that our mechanism consistently improves performances over robust BLI baselines on all language pairs by averagely improving 3.2 points in the supervised setting, and 3.1 points in the unsupervised setting.
翻訳日:2021-06-13 20:14:59 公開日:2021-06-10
# (参考訳) 細かな模倣学習:単一デモによるロボット操作

Coarse-to-Fine Imitation Learning: Robot Manipulation from a Single Demonstration ( http://arxiv.org/abs/2105.06411v2 )

ライセンス: CC BY 4.0
Edward Johns(参考訳) そこで本研究では,視覚模倣学習のための簡易な手法を提案する。ロボット操作タスクを,物体の事前知識を必要とせず,人間の1つのデモンストレーションから学習することができる。 提案手法は,物体の相互作用が開始する時点におけるエンドエフェクタのポーズとして定義される状態が,状態推定問題として模倣学習をモデル化する。 次に、操作タスクを粗い、接近軌跡、それに続く細かな相互作用軌跡としてモデル化することにより、この状態推定器を自己監督的に訓練し、エンドエフェクタのカメラをオブジェクトの周囲に自動的に移動させる。 テスト時には、エンドエフェクタは線形経路を通って推定状態に移動し、元のデモのエンドエフェクタ速度を単純に再生する。 これにより、ポリシーを明示的に学ぶ必要なく、複雑な相互作用軌跡の便利な取得が可能になる。 8つの日常的なタスクにおける実世界の実験は、我々の手法が1人の人間の実演から多様なスキルを習得できることを示している。

We introduce a simple new method for visual imitation learning, which allows a novel robot manipulation task to be learned from a single human demonstration, without requiring any prior knowledge of the object being interacted with. Our method models imitation learning as a state estimation problem, with the state defined as the end-effector's pose at the point where object interaction begins, as observed from the demonstration. By then modelling a manipulation task as a coarse, approach trajectory followed by a fine, interaction trajectory, this state estimator can be trained in a self-supervised manner, by automatically moving the end-effector's camera around the object. At test time, the end-effector moves to the estimated state through a linear path, at which point the original demonstration's end-effector velocities are simply replayed. This enables convenient acquisition of a complex interaction trajectory, without actually needing to explicitly learn a policy. Real-world experiments on 8 everyday tasks show that our method can learn a diverse range of skills from a single human demonstration, whilst also yielding a stable and interpretable controller.
翻訳日:2021-06-13 14:30:14 公開日:2021-06-10
# 視覚認識のための高機能蒸留

Fair Feature Distillation for Visual Recognition ( http://arxiv.org/abs/2106.04411v2 )

ライセンス: Link先を確認
Sangwon Jung, Donggyu Lee, Taeeon Park and Taesup Moon(参考訳) 公平さはコンピュータビジョン、特に人間関連の意思決定システムにとってますます重要な問題になりつつある。 しかし、モデルが保護されたグループに対して無差別の結果を生み出すアルゴリズム的公正性を達成することは、まだ未解決の問題である。 本稿では,mmd-based fair distillation (mfd) と呼ばれる視覚認識タスクのための特徴蒸留によるアルゴリズムバイアスを低減する体系的アプローチを提案する。 蒸留技術は一般的に予測精度を向上させるために広く用いられてきたが、我々の知る限りでは、蒸留による公正性向上を図った明確な研究は行われていない。 さらに,我々はmfdの理論的正当化を,知識蒸留と公平性の影響に与えた。 広範な実験を通じて,mfdは,合成データと実世界の顔データセットの両方の精度を損なうことなく,特定のマイノリティに対するバイアスを著しく軽減することを示した。

Fairness is becoming an increasingly crucial issue for computer vision, especially in the human-related decision systems. However, achieving algorithmic fairness, which makes a model produce indiscriminative outcomes against protected groups, is still an unresolved problem. In this paper, we devise a systematic approach which reduces algorithmic biases via feature distillation for visual recognition tasks, dubbed as MMD-based Fair Distillation (MFD). While the distillation technique has been widely used in general to improve the prediction accuracy, to the best of our knowledge, there has been no explicit work that also tries to improve fairness via distillation. Furthermore, We give a theoretical justification of our MFD on the effect of knowledge distillation and fairness. Throughout the extensive experiments, we show our MFD significantly mitigates the bias against specific minorities without any loss of the accuracy on both synthetic and real-world face datasets.
翻訳日:2021-06-13 13:58:57 公開日:2021-06-10
# (参考訳) テキスト中のポピュリスト段落の識別:機械学習によるアプローチ [全文訳有]

Identifying Populist Paragraphs in Text: A machine-learning approach ( http://arxiv.org/abs/2106.03161v2 )

ライセンス: CC BY 4.0
Jogil\.e Ulinskait\.e and Lukas Pukelis(参考訳) 要約:本稿では,テキスト中のポピュリストコンテンツの識別を可能にするテキスト分類モデルの開発について述べる。 開発されたBERTベースのモデルは、テキスト中のポピュリストコンテンツを特定することに大きく成功し、最小限の偽否定しか生成しないため、コンテンツ分析自動化ツールとして好適であり、人間の検証に関連のあるコンテンツをショートリスト化する。

Abstract: In this paper we present an approach to develop a text-classification model which would be able to identify populist content in text. The developed BERT-based model is largely successful in identifying populist content in text and produces only a negligible amount of False Negatives, which makes it well-suited as a content analysis automation tool, which shortlists potentially relevant content for human validation.
翻訳日:2021-06-13 13:30:08 公開日:2021-06-10
# (参考訳) 未知のサービスレートを有する待ち行列システムのためのジョブディスパッチポリシー

Job Dispatching Policies for Queueing Systems with Unknown Service Rates ( http://arxiv.org/abs/2106.04707v2 )

ライセンス: CC BY 4.0
Tuhinangshu Choudhury, Gauri Joshi, Weina Wang, Sanjay Shakkottai(参考訳) すべてのジョブを保持する中央キューが存在しないマルチサーバキューシステムでは、ジョブディスパッチポリシを使用して、ひとつのサーバのキューにジョブを割り当てる。 join-the-shortest-qu eue や shortest expected delay のような古典的なジョブディスパッチポリシーは、サーバのサービスレートとキューの長さがディスパッチタに知られていると仮定している。 そこで本研究では,サービスレートや待ち行列の長さの知識を必要とせず,ジョブのディスパッチの問題に取り組む。 この問題は、ジョブをすべてのサーバに送信してサービスレートを見積もることと、現在知られている最速のサーバを活用して、待ち行列の遅延を最小化する、という、新たなエクスプロイテーショントレードオフを提示する。 我々は,監視職の退社からサービス率を学習するバンディットに基づく探索政策を提案する。 有限のアクションセットのうち1つだけが最適である標準的なマルチアームバンディット問題とは異なり、最適なポリシーでは各サーバに送信されるジョブの最適な割合を特定する必要がある。 提案手法の有効性を実証するために,後悔の分析とシミュレーションを行った。

In multi-server queueing systems where there is no central queue holding all incoming jobs, job dispatching policies are used to assign incoming jobs to the queue at one of the servers. Classic job dispatching policies such as join-the-shortest-qu eue and shortest expected delay assume that the service rates and queue lengths of the servers are known to the dispatcher. In this work, we tackle the problem of job dispatching without the knowledge of service rates and queue lengths, where the dispatcher can only obtain noisy estimates of the service rates by observing job departures. This problem presents a novel exploration-exploita tion trade-off between sending jobs to all the servers to estimate their service rates, and exploiting the currently known fastest servers to minimize the expected queueing delay. We propose a bandit-based exploration policy that learns the service rates from observed job departures. Unlike the standard multi-armed bandit problem where only one out of a finite set of actions is optimal, here the optimal policy requires identifying the optimal fraction of incoming jobs to be sent to each server. We present a regret analysis and simulations to demonstrate the effectiveness of the proposed bandit-based exploration policy.
翻訳日:2021-06-13 05:35:11 公開日:2021-06-10
# (参考訳) ゼロサムゲームにおけるオープンエンド学習のための行動と反応の多様性の統一 [全文訳有]

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games ( http://arxiv.org/abs/2106.04958v2 )

ライセンス: CC BY 4.0
Xiangyu Liu, Hangtian Jia, Ying Wen, Yaodong Yang, Yujing Hu, Yingfeng Chen, Changjie Fan, Zhipeng Hu(参考訳) 戦略の多様性の測定と促進は、戦略サイクルが存在する強力な非推移力学を持つゲームの解決に不可欠であり、一貫した勝者は存在しない(Rock-Paper-Scissors など)。 オープンエンド学習による多様なポリシーのプールを維持することは魅力的なソリューションであり、悪用されるのを避けるために自動カリキュラムを生成することができる。 しかし、従来のオープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。 本稿では,マルチエージェント・オープンディビジョン学習における多様性の統一尺度として,行動多様性(bd)と応答多様性(rd)の両方に基づいて,マルコフゲームにすべての要素を含める手法を提案する。 軌道分布レベルでは、状態-作用空間におけるBDを占有率の差として再定義する。 報酬力学では、異なる相手に遭遇する際のポリシーの応答を通じて多様性を特徴付けるRDを提案する。 また、現在の多様性対策の多くは、BDまたはRDのカテゴリの1つに該当するが、両方ではないことを示す。 この統一ダイバーシティ尺度を用いて,オープンエンド学習における最善の回答を求める際,対応する多様性促進目標と人口有効性を設計する。 我々は,行列ゲーム,非推移混合モデル,複雑な‘textit{Google Research Football}環境などの比較的単純なゲームにおいて,本手法の有効性を検証する。 提案手法によって得られた人口は,行列ゲームおよび非推移混合モデルにおいて,最も低い利用可能性,最も高い人口効果,および,各種レベルの対戦相手と対話する場合の最大の目標差を明らかにした。

Measuring and promoting policy diversity is critical for solving games with strong non-transitive dynamics where strategic cycles exist, and there is no consistent winner (e.g., Rock-Paper-Scissors) . With that in mind, maintaining a pool of diverse policies via open-ended learning is an attractive solution, which can generate auto-curricula to avoid being exploited. However, in conventional open-ended learning algorithms, there are no widely accepted definitions for diversity, making it hard to construct and evaluate the diverse policies. In this work, we summarize previous concepts of diversity and work towards offering a unified measure of diversity in multi-agent open-ended learning to include all elements in Markov games, based on both Behavioral Diversity (BD) and Response Diversity (RD). At the trajectory distribution level, we re-define BD in the state-action space as the discrepancies of occupancy measures. For the reward dynamics, we propose RD to characterize diversity through the responses of policies when encountering different opponents. We also show that many current diversity measures fall in one of the categories of BD or RD but not both. With this unified diversity measure, we design the corresponding diversity-promoting objective and population effectivity when seeking the best responses in open-ended learning. We validate our methods in both relatively simple games like matrix game, non-transitive mixture model, and the complex \textit{Google Research Football} environment. The population found by our methods reveals the lowest exploitability, highest population effectivity in matrix game and non-transitive mixture model, as well as the largest goal difference when interacting with opponents of various levels in \textit{Google Research Football}.
翻訳日:2021-06-13 05:33:24 公開日:2021-06-10
# (参考訳) 損失関数に基づく二階jensen不等式とその粒子変動推論への応用

Loss function based second-order Jensen inequality and its application to particle variational inference ( http://arxiv.org/abs/2106.05010v2 )

ライセンス: CC BY 4.0
Futoshi Futami, Tomoharu Iwata, Naonori Ueda, Issei Sato, and Masashi Sugiyama(参考訳) 後続分布による確率関数の期待値として得られたベイズモデル平均化は,予測,不確実性の評価,モデル選択に広く用いられている。 後方分布の情報を効率的に捉えるための様々なアプローチが開発されており、その1つは、アンサンブル学習と同じ方法で個々のモデルの多様性を確保するために相互作用を伴う一連のモデルの最適化である。 代表的なアプローチは粒子変動推論 (pvi) であり、モデルの集合を後続分布に対する経験的近似として用いる。 PVIは各モデルを反復的に更新し、最適化されたモデルの多様性を保証する。 しかし、その有望な性能にもかかわらず、この反発の理論的理解と一般化能力との関係は未だ不明である。 本稿では,PAC-ベイジアン解析の観点からこの問題に対処する。 まず、損失関数に基づく反発項を持つ新しい二階ジェンセン不等式を提供する。 反発項により、標準のジェンセン不等式よりも厳密である。 次に,新しい一般化誤差バウンドを導出し,モデルの多様性を増すことによりその誤差を低減できることを示す。 最後に、一般化誤差を直接的に最適化する新しいPVIを導出する。 数値実験により,提案したPVIの性能は既存手法と良好に比較できることを示した。

Bayesian model averaging, obtained as the expectation of a likelihood function by a posterior distribution, has been widely used for prediction, evaluation of uncertainty, and model selection. Various approaches have been developed to efficiently capture the information in the posterior distribution; one such approach is the optimization of a set of models simultaneously with interaction to ensure the diversity of the individual models in the same way as ensemble learning. A representative approach is particle variational inference (PVI), which uses an ensemble of models as an empirical approximation for the posterior distribution. PVI iteratively updates each model with a repulsion force to ensure the diversity of the optimized models. However, despite its promising performance, a theoretical understanding of this repulsion and its association with the generalization ability remains unclear. In this paper, we tackle this problem in light of PAC-Bayesian analysis. First, we provide a new second-order Jensen inequality, which has the repulsion term based on the loss function. Thanks to the repulsion term, it is tighter than the standard Jensen inequality. Then, we derive a novel generalization error bound and show that it can be reduced by enhancing the diversity of models. Finally, we derive a new PVI that optimizes the generalization error bound directly. Numerical experiments demonstrate that the performance of the proposed PVI compares favorably with existing methods in the experiment.
翻訳日:2021-06-13 05:09:38 公開日:2021-06-10
# (参考訳) 複雑な原因の操作:調停の実用的見方 [全文訳有]

Operationalizing Complex Causes: A Pragmatic View of Mediation ( http://arxiv.org/abs/2106.05074v2 )

ライセンス: CC0 1.0
Limor Gultchin, David S. Watson, Matt J. Kusner, Ricardo Silva(参考訳) 複雑な対象(テキスト,画像,ゲノムなど)に対する因果応答推定の問題について検討する。 この設定では、古典的な \emph{atomic} の介入がしばしば利用できない(例えば、文字、ピクセル、DNA塩基対)。 代わりに、間接的な介入や\emph{crude}介入(例えば、書き込みプログラムへの登録、シーンの変更、遺伝子治療の適用など)しかアクセスできません。 本研究では,この問題を形式化し,初期解を提供する。 候補媒介者の収集を前提として、(a)粗介入の因果反応を予測するための2段階の方法、(b)粗介入の媒介者を特定するための試験手順を提案する。 シミュレーションと実世界のインスパイアされた実例を用いて, 新たな治療体制の限られたデータを用いて, 粗介入の効果を効率的に推定できることを実証した。

We examine the problem of causal response estimation for complex objects (e.g., text, images, genomics). In this setting, classical \emph{atomic} interventions are often not available (e.g., changes to characters, pixels, DNA base-pairs). Instead, we only have access to indirect or \emph{crude} interventions (e.g., enrolling in a writing program, modifying a scene, applying a gene therapy). In this work, we formalize this problem and provide an initial solution. Given a collection of candidate mediators, we propose (a) a two-step method for predicting the causal responses of crude interventions; and (b) a testing procedure to identify mediators of crude interventions. We demonstrate, on a range of simulated and real-world-inspired examples, that our approach allows us to efficiently estimate the effect of crude interventions with limited data from new treatment regimes.
翻訳日:2021-06-13 05:08:18 公開日:2021-06-10
# (参考訳) 医用画像分類における再考伝達学習 [全文訳有]

Rethink Transfer Learning in Medical Image Classification ( http://arxiv.org/abs/2106.05152v2 )

ライセンス: CC BY 4.0
Le Peng, Hengyue Liang, Taihui Li, Ju Sun(参考訳) 深層畳み込みニューラルネットワーク(DCNN)を用いた伝達学習(TL)は医用画像分類(MIC)において成功している。 MICは一般的にDCNNの下位層で学習される低層および中層機能にのみ依存するため、現在のプラクティスは混乱している。 この直感に従うと、MICにおけるTLの現在の戦略を疑問視する。 本稿では,異なるtl戦略を用いて,胸部x線データ集合の分類のための浅層と深層ネットワークの実験的比較を行った。 私たちは、ディープモデルは必ずしも好ましくないことに気付き、微調整されたディープモデルは、特にデータ貧弱な状況において、ほとんどの場合、最高のパフォーマンスを得る。 プロジェクトWebページ:https://sun-umn.git hub.io/Transfer-Lear ning-in-Medical-Imag ing/キーワード:転送学習、医用画像分類、特徴階層、医用画像、評価指標、不均衡データ

Transfer learning (TL) with deep convolutional neural networks (DCNNs) has proved successful in medical image classification (MIC). However, the current practice is puzzling, as MIC typically relies only on low- and/or mid-level features that are learned in the bottom layers of DCNNs. Following this intuition, we question the current strategies of TL in MIC. In this paper, we perform careful experimental comparisons between shallow and deep networks for classification on two chest x-ray datasets, using different TL strategies. We find that deep models are not always favorable, and finetuning truncated deep models almost always yields the best performance, especially in data-poor regimes. Project webpage: https://sun-umn.gith ub.io/Transfer-Learn ing-in-Medical-Imagi ng/ Keywords: Transfer learning, Medical image classification, Feature hierarchy, Medical imaging, Evaluation metrics, Imbalanced data
翻訳日:2021-06-13 04:32:59 公開日:2021-06-10
# (参考訳) クロスモーダル離散表現学習 [全文訳有]

Cross-Modal Discrete Representation Learning ( http://arxiv.org/abs/2106.05438v1 )

ライセンス: CC BY 4.0
Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko, Aude Oliva, James Glass(参考訳) 表現学習の最近の進歩は、ビデオ、テキスト、音声といった異なるモダリティからの情報を単一の高レベル埋め込みベクトルで表現する能力を示している。 本研究では,視覚的対象や話し言葉によって表現される概念や出来事など,さまざまなモダリティにまたがる詳細な粒度を捉えた表現を学習できる自己教師型学習フレームワークを提案する。 私たちのフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散埋め込み空間に依存しています。 共有埋め込み空間を超えて、異なるビュー(モダリティ)からの表現を離散埋め込み空間上の同様の分布に強制するクロスモーダルコードマッチングの目的を提案し、クロスモーダルオブジェクト/アクションのローカライゼーションを直接の監督なしに行えるようにする。 実験の結果,提案手法は,高レベルな要約表現(例えば,ビデオ/文/波形)を補完することで,クロスモーダル検索タスクの性能を向上させることができることがわかった。 また、離散化表現は個々のクラスタを用いて、モーダル性にまたがる同じ意味概念を表現する。

Recent advances in representation learning have demonstrated an ability to represent information from different modalities such as video, text, and audio in a single high-level embedding vector. In this work we present a self-supervised learning framework that is able to learn a representation that captures finer levels of granularity across different modalities such as concepts or events represented by visual objects or spoken words. Our framework relies on a discretized embedding space created via vector quantization that is shared across different modalities. Beyond the shared embedding space, we propose a Cross-Modal Code Matching objective that forces the representations from different views (modalities) to have a similar distribution over the discrete embedding space such that cross-modal objects/actions localization can be performed without direct supervision. In our experiments we show that the proposed discretized multi-modal fine-grained representation (e.g., pixel/word/frame) can complement high-level summary representations (e.g., video/sentence/wavef orm) for improved performance on cross-modal retrieval tasks. We also observe that the discretized representation uses individual clusters to represent the same semantic concept across modalities.
翻訳日:2021-06-12 21:28:08 公開日:2021-06-10
# (参考訳) 騒音・フレーム認識クラスタリングによる教師なし映像人物の再識別 [全文訳有]

Unsupervised Video Person Re-identification via Noise and Hard frame Aware Clustering ( http://arxiv.org/abs/2106.05441v1 )

ライセンス: CC BY 4.0
Pengyu Xie, Xin Xu, Zheng Wang, and Toshihiko Yamasaki(参考訳) 教師なしビデオベース人物識別(re-ID)手法は、画像ベースよりもビデオトラッカーからリッチな特徴を抽出する。 最先端の手法はクラスタリングを利用して擬似ラベルを取得し、反復的にモデルをトレーニングする。 しかし、トラックレット内の2種類のフレームの影響を過小評価している: 1) 検出エラーや重閉塞によるノイズフレームがトラックレット内に存在し、クラスタリング中に信頼できないラベルが割り当てられる可能性がある; 2) トラックレットには、ポーズの変化や部分閉塞による硬いフレームが含まれており、識別が難しい。 本稿では,ノイズ・ハードフレーム・アウェア・クラスタリング(NHAC)手法を提案する。 NHACはグラフトリミングモジュールとノード再サンプリングモジュールで構成される。 グラフトリミングモジュールは、ノイズフレームノードを除去して安定したグラフを取得し、クラスタリング精度を向上させる。 ノード再サンプリングモジュールは、ハードフレームノードのトレーニングを強化し、豊富なトラックレット情報を学ぶ。 2つのビデオベースデータセットで実施された実験は、教師なしのre-ID設定の下で提案されたNHACの有効性を示す。

Unsupervised video-based person re-identification (re-ID) methods extract richer features from video tracklets than image-based ones. The state-of-the-art methods utilize clustering to obtain pseudo-labels and train the models iteratively. However, they underestimate the influence of two kinds of frames in the tracklet: 1) noise frames caused by detection errors or heavy occlusions exist in the tracklet, which may be allocated with unreliable labels during clustering; 2) the tracklet also contains hard frames caused by pose changes or partial occlusions, which are difficult to distinguish but informative. This paper proposes a Noise and Hard frame Aware Clustering (NHAC) method. NHAC consists of a graph trimming module and a node re-sampling module. The graph trimming module obtains stable graphs by removing noise frame nodes to improve the clustering accuracy. The node re-sampling module enhances the training of hard frame nodes to learn rich tracklet information. Experiments conducted on two video-based datasets demonstrate the effectiveness of the proposed NHAC under the unsupervised re-ID setting.
翻訳日:2021-06-12 21:05:31 公開日:2021-06-10
# (参考訳) 神経自己回帰配列モデリングにおけるモード回復 [全文訳有]

Mode recovery in neural autoregressive sequence modeling ( http://arxiv.org/abs/2106.05459v1 )

ライセンス: CC BY 4.0
Ilia Kulikov, Sean Welleck, Kyunghyun Cho(参考訳) 広く使われているにもかかわらず、最近の研究では、トレーニング後の短いシーケンスへの不当に高い親和性や復号時の無限に長いシーケンスなど、最大限に訓練された神経自己回帰配列モデルの予期せぬ、望ましくない特性を明らかにしている。 そこで本研究では,新たに提案したモード回復コストを用いて,地中構造,経験的,学習的,復号化的分布の完全な学習連鎖を通して,分布のモード,あるいは局所的な最大値がどのように維持されているかを検討する。 我々は,(1)lstmベースの構造化分布,(2)シーケンスの確率がその内容に依存しない非構造化分布,(3)半構造化分布と呼ばれるこれら2つの生成物という,3つの種類の基底-真実分布を構築可能なテストベッドを設計した。 本研究は予期せぬ結果と予期せぬ結果の両方を明らかにする。 まず、データ収集から始めると、モード回復コストは地中構造分布に強く依存し、半構造分布に最もコストがかかる。 第2に, 地中構造分布によるモード回復コストは, データ収集に比べて増加または減少し, 半構造的地中構造分布で最大のコスト劣化が発生する。 最後に,学習した分布からモードを復元する復号誘導分布の能力は,学習連鎖の早い段階で行った選択に大きく影響される。 将来的な研究は、潜在性と周辺を完全に理解し、神経自己回帰配列モデルをさらに改善するために、学習連鎖全体を考慮しなければならないと結論づける。

Despite its wide use, recent studies have revealed unexpected and undesirable properties of neural autoregressive sequence models trained with maximum likelihood, such as an unreasonably high affinity to short sequences after training and to infinitely long sequences at decoding time. We propose to study these phenomena by investigating how the modes, or local maxima, of a distribution are maintained throughout the full learning chain of the ground-truth, empirical, learned and decoding-induced distributions, via the newly proposed mode recovery cost. We design a tractable testbed where we build three types of ground-truth distributions: (1) an LSTM based structured distribution, (2) an unstructured distribution where probability of a sequence does not depend on its content, and (3) a product of these two which we call a semi-structured distribution. Our study reveals both expected and unexpected findings. First, starting with data collection, mode recovery cost strongly relies on the ground-truth distribution and is most costly with the semi-structured distribution. Second, after learning, mode recovery cost from the ground-truth distribution may increase or decrease compared to data collection, with the largest cost degradation occurring with the semi-structured ground-truth distribution. Finally, the ability of the decoding-induced distribution to recover modes from the learned distribution is highly impacted by the choices made earlier in the learning chain. We conclude that future research must consider the entire learning chain in order to fully understand the potentials and perils and to further improve neural autoregressive sequence models.
翻訳日:2021-06-12 20:56:09 公開日:2021-06-10
# (参考訳) 十分条件分布のメトロポレートサンプリング法における下限

Lower Bounds on Metropolized Sampling Methods for Well-Conditioned Distributions ( http://arxiv.org/abs/2106.05480v1 )

ライセンス: CC BY 4.0
Yin Tat Lee, Ruoqi Shen, Kevin Tian(参考訳) 我々は,よく調和した分布に適用した場合,最も一般的なサンプリング手法であるメトロポリス調整ランゲヴィンアルゴリズム (MALA) と,跳躍フロッグ積分器を用いたマルチステップハミルトンモンテカルロ (HMC) の性能を低くする。 私たちの主な結果は、指数関数的に温かいスタートからmalaの混合時間に関する$\widetilde{\omega}(\kappa d)$のほぼタイトな下限であり、アルゴリズム的な結果のラインを対数因子に一致させ、chewi etのオープン質問に答えます。 アル また, HMC の任意の段数における緩和時間には, 次元への多項式依存が必要であり, ステップ数を変化させることで得られるゲインを束縛できることも示している。 我々のHMC分析は、跳躍積分とチェビシェフ多項式の間の新しい関係を導いており、これは独立した関心を持つかもしれない。

We give lower bounds on the performance of two of the most popular sampling methods in practice, the Metropolis-adjusted Langevin algorithm (MALA) and multi-step Hamiltonian Monte Carlo (HMC) with a leapfrog integrator, when applied to well-conditioned distributions. Our main result is a nearly-tight lower bound of $\widetilde{\Omega}(\kappa d)$ on the mixing time of MALA from an exponentially warm start, matching a line of algorithmic results up to logarithmic factors and answering an open question of Chewi et. al. We also show that a polynomial dependence on dimension is necessary for the relaxation time of HMC under any number of leapfrog steps, and bound the gains achievable by changing the step count. Our HMC analysis draws upon a novel connection between leapfrog integration and Chebyshev polynomials, which may be of independent interest.
翻訳日:2021-06-12 20:44:17 公開日:2021-06-10
# (参考訳) SignalNet: 低分解能正弦波分解・推定ネットワーク [全文訳有]

SignalNet: A Low Resolution Sinusoid Decomposition and Estimation Network ( http://arxiv.org/abs/2106.05490v1 )

ライセンス: CC BY 4.0
Ryan Dreifuerst, Robert W. Heath Jr(参考訳) 正弦波の検出と推定は、センシングと通信に関連する多くのアプリケーションのための基本的な信号処理タスクである。 この設定のためにアルゴリズムが提案されているが、量子化は批判的であるが、しばしばモデリング効果を無視している。 無線通信では、低解像度データコンバータを用いた推定が広帯域受信機における消費電力削減に関係している。 同様に、イメージングとスペクトルセンシングにおける低分解能サンプリングは効率的なデータ収集を可能にする。 本研究では,正弦波の数を検出し,そのパラメータを量子化イン相および二次サンプルから推定するニューラルネットワークアーキテクチャであるsignalnetを提案する。 ネットワーク内のドメイン知識として内部に信号再構成を組み込んで学習を強化し,従来のアルゴリズムを平均二乗誤差とシャンファー誤差で上回った。 基礎となるデータ分布と比較してネットワークの結果を比較するための最悪の学習しきい値を導入する。 このしきい値は、ニューラルネットワークが従来の方法よりも優れている理由と、入力と出力の分布の間の学習された関係について洞察を与える。 シミュレーションでは、3ビットデータでは常にしきい値を超えることができるが、1ビットデータではしきい値を超えないことが多い。 学習しきい値を用いて、1ビットの場合、データから特徴を学習するのではなく、分布損失を最小限に抑える方法を学ぶ。

The detection and estimation of sinusoids is a fundamental signal processing task for many applications related to sensing and communications. While algorithms have been proposed for this setting, quantization is a critical, but often ignored modeling effect. In wireless communications, estimation with low resolution data converters is relevant for reduced power consumption in wideband receivers. Similarly, low resolution sampling in imaging and spectrum sensing allows for efficient data collection. In this work, we propose SignalNet, a neural network architecture that detects the number of sinusoids and estimates their parameters from quantized in-phase and quadrature samples. We incorporate signal reconstruction internally as domain knowledge within the network to enhance learning and surpass traditional algorithms in mean squared error and Chamfer error. We introduce a worst-case learning threshold for comparing the results of our network relative to the underlying data distributions. This threshold provides insight into why neural networks tend to outperform traditional methods and into the learned relationships between the input and output distributions. In simulation, we find that our algorithm is always able to surpass the threshold for three-bit data but often cannot exceed the threshold for one-bit data. We use the learning threshold to explain, in the one-bit case, how our estimators learn to minimize the distributional loss, rather than learn features from the data.
翻訳日:2021-06-12 20:42:57 公開日:2021-06-10
# (参考訳) ERMAS:マルチエージェントシミュレーションにおけるリワード関数-レアルギャップのロバスト化 [全文訳有]

ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations ( http://arxiv.org/abs/2106.05492v1 )

ライセンス: CC BY 4.0
Eric Zhao, Alexander R. Trott, Caiming Xiong, Stephan Zheng(参考訳) マルチエージェントシミュレーションは、合理的エージェントと相互作用する学習ポリシーのためのスケーラブルな環境を提供する。 しかし、そのようなポリシーは、エージェントが非モデル化された不合理性と不特定報酬関数のためにシミュレーションされたものと異なる実世界への一般化に失敗する可能性がある。 Epsilon-Robust Multi-Agent Simulation (ERMAS)は、AIポリシーを学習するための堅牢な最適化フレームワークである。 エージェントの行動におけるマルチエージェントの頑健性に関する既存の概念は、エージェントの報酬関数における摂動に関する新しい頑健性目的に対処する。 ERMASは、最悪の場合のエプシロン平衡として形式化された他のエージェントからの最適行動を予測することによって、この堅牢性を提供する。 経済シミュレーションにおいて,ERMASは繰り返しビマトリクスゲームや最適課税問題に対して堅牢な政策を採っていることを実証的に示す。 特に、AIエコノミスト(Zheng et al., 2020)が提起する2段階のRL問題において、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時空間シミュレーションにおいて最大15%の社会福祉を改善する。

Multi-agent simulations provide a scalable environment for learning policies that interact with rational agents. However, such policies may fail to generalize to the real-world where agents may differ from simulated counterparts due to unmodeled irrationality and misspecified reward functions. We introduce Epsilon-Robust Multi-Agent Simulation (ERMAS), a robust optimization framework for learning AI policies that are robust to such multiagent sim-to-real gaps. While existing notions of multi-agent robustness concern perturbations in the actions of agents, we address a novel robustness objective concerning perturbations in the reward functions of agents. ERMAS provides this robustness by anticipating suboptimal behaviors from other agents, formalized as the worst-case epsilon-equilibrium. We show empirically that ERMAS yields robust policies for repeated bimatrix games and optimal taxation problems in economic simulations. In particular, in the two-level RL problem posed by the AI Economist (Zheng et al., 2020) ERMAS learns tax policies that are robust to changes in agent risk aversion, improving social welfare by up to 15% in complex spatiotemporal simulations.
翻訳日:2021-06-12 20:22:12 公開日:2021-06-10
# (参考訳) 連続状態空間における変化の遅いモデルベース強化学習問題に対するハイパースペース近傍の動的プログラミング [全文訳有]

Hyperspace Neighbor Penetration Approach to Dynamic Programming for Model-Based Reinforcement Learning Problems with Slowly Changing Variables in A Continuous State Space ( http://arxiv.org/abs/2106.05497v1 )

ライセンス: CC BY 4.0
Vincent Zha, Ivey Chiu, Alexandre Guilbault, and Jaime Tatis(参考訳) 連続状態空間における変数のゆるやかな変化は強化学習の重要なカテゴリであり、温度や湿度などの気候制御システムのモデル化など、多くの領域で応用されている。 時間とともにゆっくり変化します しかし、近年の研究ではこの問題に対処していない。 状態空間を離散化する動的プログラミングとタイル符号化のような、ある変種を持つ古典的な手法は、非常に粒度の細かいグリッドシステムを確立するのに計算コストがかかるか不可能であるため、各遷移ステップの小さな変化を捉えることができないため、ゆっくりと変化する変数を扱うことができない。 本稿では,その問題を解決するHyperspace Neighbor Peretration(HNP)アプローチを提案する。 HNPは、各遷移ステップで状態の部分的な「貫通」を、グリッド化されたハイパースペース内の隣接するハイパータイルにキャプチャするので、変更をキャプチャするために、遷移をタイル間とする必要はない。 したがって、HNPは非常に粗いグリッドシステムが可能であり、計算が実現可能である。 HNP は局所空間における遷移関数の概線型性を仮定するが、これは一般に満足される。 要約すると、HNPは強化学習においてゆっくりと変化する変数を扱う場合、古典的な方法よりも桁違いに効率的である。 我々はNHPの産業的実装を大成功を収めた。

Slowly changing variables in a continuous state space constitute an important category of reinforcement learning and see its application in many domains, such as modeling a climate control system where temperature, humidity, etc. change slowly over time. However, this subject is less addressed in recent studies. Classical methods with certain variants, such as Dynamic Programming with Tile Coding which discretizes the state space, fail to handle slowly changing variables because those methods cannot capture the tiny changes in each transition step, as it is computationally expensive or impossible to establish an extremely granular grid system. In this paper, we introduce a Hyperspace Neighbor Penetration (HNP) approach that solves the problem. HNP captures in each transition step the state's partial "penetration" into its neighboring hyper-tiles in the gridded hyperspace, thus does not require the transition to be inter-tile in order for the change to be captured. Therefore, HNP allows for a very coarse grid system, which makes the computation feasible. HNP assumes near linearity of the transition function in a local space, which is commonly satisfied. In summary, HNP can be orders of magnitude more efficient than classical method in handling slowly changing variables in reinforcement learning. We have made an industrial implementation of NHP with a great success.
翻訳日:2021-06-12 20:03:04 公開日:2021-06-10
# (参考訳) 脆弱なAI、因果融合、悪いメンタルモデル:XAIプログラムにおける課題と成功 [全文訳有]

Brittle AI, Causal Confusion, and Bad Mental Models: Challenges and Successes in the XAI Program ( http://arxiv.org/abs/2106.05506v1 )

ライセンス: CC BY 4.0
Jeff Druce, James Niehaus, Vanessa Moody, David Jensen, Michael L. Littman(参考訳) ディープラーニングアーキテクチャによって実現される人工知能の進歩は否定できない。 いくつかのケースでは、ディープニューラルネットワーク駆動モデルが、ベンチマーク自律タスクにおける人間レベルのパフォーマンスを上回っている。 しかし、これらのエージェントの基本的なポリシーは容易に解釈できない。 実際、基礎となる深層モデルを考えると、観測から行動へのマッピングを合理的に複雑なエージェントに対して直接理解することは不可能である。 これらのAIシステムの「ブラックボックスを開く」技術を開発したが、性能を犠牲にせず、DARPA XAIプログラムの基本的な目標であった。 1) 説明はシナリオに合わせて高度に調整する必要がある; 2) 一見ハイパフォーマンスなRLエージェントの多くは極めて脆弱で、説明ができない; 3) 因果的モデルは豊かな説明を許すが、どのように提示するかは必ずしも簡単ではない; 4) 人間の被験者がAIの驚くほど間違った精神モデルを持っている; そして、これらのモデルはしばしば破ることが難しい。 本稿では,これらの情報の起源,増幅情報,今後の課題の提案について述べる。

The advances in artificial intelligence enabled by deep learning architectures are undeniable. In several cases, deep neural network driven models have surpassed human level performance in benchmark autonomy tasks. The underlying policies for these agents, however, are not easily interpretable. In fact, given their underlying deep models, it is impossible to directly understand the mapping from observations to actions for any reasonably complex agent. Producing this supporting technology to "open the black box" of these AI systems, while not sacrificing performance, was the fundamental goal of the DARPA XAI program. In our journey through this program, we have several "big picture" takeaways: 1) Explanations need to be highly tailored to their scenario; 2) many seemingly high performing RL agents are extremely brittle and are not amendable to explanation; 3) causal models allow for rich explanations, but how to present them isn't always straightforward; and 4) human subjects conjure fantastically wrong mental models for AIs, and these models are often hard to break. This paper discusses the origins of these takeaways, provides amplifying information, and suggestions for future work.
翻訳日:2021-06-12 19:52:22 公開日:2021-06-10
# (参考訳) 教師なしドメイン適応のためのクロスドメインコントラスト学習 [全文訳有]

Cross-domain Contrastive Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.05528v1 )

ライセンス: CC BY 4.0
Rui Wang, Zuxuan Wu, Zejia Weng, Jingjing Chen, Guo-Jun Qi, Yu-Gang Jiang(参考訳) 教師なしドメイン適応(UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。 既存のUDAメソッドの多くは、ドメイン間の特徴距離を最小化することで、ドメイン不変の特徴表現を学習する。 本研究は, 自己教師型学習の対比に基づいて, 特徴を整列させ, トレーニングとテストセットのドメイン差を低減する。 両ドメインが共有する同じカテゴリの集合を探索し、ドメインアライメントのためのシンプルで効果的なフレームワークCDCLを紹介します。 特に、ある領域からのアンカーイメージが与えられたとき、異なるカテゴリのアンカー画像に対して同じクラスからクロスドメインのサンプルまでの距離を最小化する。 ターゲットラベルは利用できないため、慎重に初期化したクラスタリングベースのアプローチを用いて擬似ラベルを生成する。 さらに、CDCLは一般的なフレームワークであり、トレーニング中にソースデータが利用できないようなデータフリーな設定に、最小限の変更で適応可能であることを実証する。 我々は、広く使われている2つのドメイン適応ベンチマーク(office-31とvisda-2017)の実験を行い、cdclが両方のデータセットで最先端のパフォーマンスを達成することを実証する。

Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a fully-labeled source domain to a different unlabeled target domain. Most existing UDA methods learn domain-invariant feature representations by minimizing feature distances across domains. In this work, we build upon contrastive self-supervised learning to align features so as to reduce the domain discrepancy between training and testing sets. Exploring the same set of categories shared by both domains, we introduce a simple yet effective framework CDCL, for domain alignment. In particular, given an anchor image from one domain, we minimize its distances to cross-domain samples from the same class relative to those from different categories. Since target labels are unavailable, we use a clustering-based approach with carefully initialized centers to produce pseudo labels. In addition, we demonstrate that CDCL is a general framework and can be adapted to the data-free setting, where the source data are unavailable during training, with minimal modification. We conduct experiments on two widely used domain adaptation benchmarks, i.e., Office-31 and VisDA-2017, and demonstrate that CDCL achieves state-of-the-art performance on both datasets.
翻訳日:2021-06-12 19:42:33 公開日:2021-06-10
# (参考訳) CALTeC:コラボレーションインテリジェンスのためのコンテンツ適応線形テンソル補完 [全文訳有]

CALTeC: Content-Adaptive Linear Tensor Completion for Collaborative Intelligence ( http://arxiv.org/abs/2106.05531v1 )

ライセンス: CC BY 4.0
Ashiv Dhondea, Robert A. Cohen, Ivan V. Baji\'c(参考訳) コラボレーティブインテリジェンスでは、人工知能(AI)モデルは通常、エッジデバイスとクラウドの間で分割される。 エッジサブモデルによって生成された特徴テンソルは、不完全な通信チャネルを介してクラウドに送られる。 クラウド側では、パケット損失のために機能テンソルの一部が失われる可能性がある。 本稿では,不足する特徴データを復元するために,コンテンツ適応線形テンソル補完(caltec)と呼ばれる手法を提案する。 提案手法は高速でデータ適応性があり,事前学習を必要としない。

In collaborative intelligence, an artificial intelligence (AI) model is typically split between an edge device and the cloud. Feature tensors produced by the edge sub-model are sent to the cloud via an imperfect communication channel. At the cloud side, parts of the feature tensor may be missing due to packet loss. In this paper we propose a method called Content-Adaptive Linear Tensor Completion (CALTeC) to recover the missing feature data. The proposed method is fast, data-adaptive, does not require pre-training, and produces better results than existing methods for tensor data recovery in collaborative intelligence.
翻訳日:2021-06-12 19:31:13 公開日:2021-06-10
# (参考訳) 自己校正畳み込みGANに基づく超解像再構成 [全文訳有]

Super-Resolution Image Reconstruction Based on Self-Calibrated Convolutional GAN ( http://arxiv.org/abs/2106.05545v1 )

ライセンス: CC BY 4.0
Yibo Guo, Haidi Wang, Yiming Fan, Shunyao Li, Mingliang Xu(参考訳) コンピュータビジョンにおけるディープラーニングの効果的な応用により、超高解像度画像再構成の研究においてブレークスルーが生まれている。 しかし、画像特徴に対するニューラルネットワーク抽出の不十分さは、新たに再構成された画像の劣化を引き起こす可能性があると多くの研究が指摘している。 一方、生成した写真は過剰なスムーシングのため、しばしば人工的すぎる。 上記の問題を解決するために,新たな自己校正畳み込み生成対向ネットワークを提案する。 ジェネレータは特徴抽出と画像再構成で構成される。 特徴抽出は4つの部分を含む自己結合畳み込みを使用し、各部分には特定の機能がある。 受容場の範囲を広げるだけでなく、長距離空間およびチャネル間依存性も得ることができる。 そして、画像再構成を行い、最終的に超解像を再構成する。 ssim評価手法を用いて set5, set14, bsd100 を含む様々なデータセットについて徹底的な実験を行った。 その結果,提案ネットワークの有効性が実証された。

With the effective application of deep learning in computer vision, breakthroughs have been made in the research of super-resolution images reconstruction. However, many researches have pointed out that the insufficiency of the neural network extraction on image features may bring the deteriorating of newly reconstructed image. On the other hand, the generated pictures are sometimes too artificial because of over-smoothing. In order to solve the above problems, we propose a novel self-calibrated convolutional generative adversarial networks. The generator consists of feature extraction and image reconstruction. Feature extraction uses self-calibrated convolutions, which contains four portions, and each portion has specific functions. It can not only expand the range of receptive fields, but also obtain long-range spatial and inter-channel dependencies. Then image reconstruction is performed, and finally a super-resolution image is reconstructed. We have conducted thorough experiments on different datasets including set5, set14 and BSD100 under the SSIM evaluation method. The experimental results prove the effectiveness of the proposed network.
翻訳日:2021-06-12 19:22:32 公開日:2021-06-10
# (参考訳) 非自己回帰翻訳のためのプログレッシブマルチグラニュラリティトレーニング [全文訳有]

Progressive Multi-Granularity Training for Non-Autoregressive Translation ( http://arxiv.org/abs/2106.05546v1 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu(参考訳) 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。 しかし、最近の研究では、NATは一対多翻訳のような高度な知識の学習に弱いことが示されている。 モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。 本研究では,NATモデルが文と比較して,単語やフレーズなど,より細粒度の低い知識を学習する傾向があることを実証的に示す。 そこで本研究では,NATの進行的多粒度学習を提案する。 具体的には、トレーニングデータを最大限に活用するために、文レベルの例を3つのタイプに分類する。 言葉、句、文、そして訓練が進むにつれて、我々は徐々に粒度を増す。 ルーマニア語・英語・ドイツ語・中国語・日英語における実験により,本手法が句の翻訳精度とモデルの並べ替え能力を改善し,natベースラインに対する翻訳品質の向上を実現した。 また,より決定論的なききめ細かな知識が性能をさらに向上させることを示す。

Non-autoregressive translation (NAT) significantly accelerates the inference process via predicting the entire target sequence. However, recent studies show that NAT is weak at learning high-mode of knowledge such as one-to-many translations. We argue that modes can be divided into various granularities which can be learned from easy to hard. In this study, we empirically show that NAT models are prone to learn fine-grained lower-mode knowledge, such as words and phrases, compared with sentences. Based on this observation, we propose progressive multi-granularity training for NAT. More specifically, to make the most of the training data, we break down the sentence-level examples into three types, i.e. words, phrases, sentences, and with the training goes, we progressively increase the granularities. Experiments on Romanian-English, English-German, Chinese-English, and Japanese-English demonstrate that our approach improves the phrase translation accuracy and model reordering ability, therefore resulting in better translation quality against strong NAT baselines. Also, we show that more deterministic fine-grained knowledge can further enhance performance.
翻訳日:2021-06-12 19:11:52 公開日:2021-06-10
# (参考訳) BLEU, Flavours of Success: The Case of MultiWOZ [全文訳有]

Shades of BLEU, Flavours of Success: The Case of MultiWOZ ( http://arxiv.org/abs/2106.05555v1 )

ライセンス: CC BY 4.0
Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek(参考訳) マルチウォズデータセット(budzianowski et al., 2018)はタスク指向対話システムのコンテキスト対応答能力のベンチマークによく使われている。 本研究では,このデータセットで使用される3つのコーパスベースメトリクス,すなわちbleuスコアとinform & success rateのデータの事前処理とレポートにおける不整合を特定する。 我々は,マルチウォズベンチマークの問題点として,不十分な前処理,不十分な評価指標,厳格なデータベースなどを挙げた。 7つのエンドツーエンドと6つのポリシー最適化モデルを再評価し,それらのスコアを直接比較できないことを示した。 将来のシステムの比較を容易にするために、我々はスタンドアロンの標準評価スクリプトをリリースする。 また、今後の作業においてコーパスベースのベンチマークに関する基本的な推奨事項も提示する。

The MultiWOZ dataset (Budzianowski et al.,2018) is frequently used for benchmarking context-to-response abilities of task-oriented dialogue systems. In this work, we identify inconsistencies in data preprocessing and reporting of three corpus-based metrics used on this dataset, i.e., BLEU score and Inform & Success rates. We point out a few problems of the MultiWOZ benchmark such as unsatisfactory preprocessing, insufficient or under-specified evaluation metrics, or rigid database. We re-evaluate 7 end-to-end and 6 policy optimization models in as-fair-as-possible setups, and we show that their reported scores cannot be directly compared. To facilitate comparison of future systems, we release our stand-alone standardized evaluation scripts. We also give basic recommendations for corpus-based benchmarking in future works.
翻訳日:2021-06-12 19:03:21 公開日:2021-06-10
# (参考訳) 相互作用粒子の平均場方程式における相互作用核の識別可能性 [全文訳有]

Identifiability of interaction kernels in mean-field equations of interacting particles ( http://arxiv.org/abs/2106.05565v1 )

ライセンス: CC BY 4.0
Quanjun Lang and Fei Lu(参考訳) 粒子系における平均場方程式における相互作用核の同定可能性について検討した。 鍵となるのは、確率損失函数が一意の最小値を持つ函数空間を特定することである。 2つの再生カーネルヒルベルト空間(RKHS)の任意の部分空間に同一性があることを証明し、その再生成カーネルはシステムに固有のものであり、データ適応的であることを示す。 さらに、2つのアンビエント l2 空間に対する同一性は、再生核に関連する積分作用素が厳密に正であることと同値である。 したがって、逆問題は一般に悪用される。 また,計算実践における識別可能性の重要性についても論じる。

We study the identifiability of the interaction kernels in mean-field equations for intreacting particle systems. The key is to identify function spaces on which a probabilistic loss functional has a unique minimizer. We prove that identifiability holds on any subspace of two reproducing kernel Hilbert spaces (RKHS), whose reproducing kernels are intrinsic to the system and are data-adaptive. Furthermore, identifiability holds on two ambient L2 spaces if and only if the integral operators associated with the reproducing kernels are strictly positive. Thus, the inverse problem is ill-posed in general. We also discuss the implications of identifiability in computational practice.
翻訳日:2021-06-12 18:45:40 公開日:2021-06-10
# (参考訳) AGGGEN: 生成中の順序付けと集約 [全文訳有]

AGGGEN: Ordering and Aggregating while Generating ( http://arxiv.org/abs/2106.05580v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Ond\v{r}ej Du\v{s}ek, Verena Rieser, Ioannis Konstas(参考訳) 本稿では、入力順序付けと入力集約という2つの明示的な文計画段階を再導入するデータ-テキストモデルであるAGGGENについて述べる。 AGGGENは、入力表現とターゲットテキスト間の(意味的な事実を介して)潜在的アライメントを学習することによって、テキストを生成すると同時に、文計画を実行する。 WebNLGとE2Eの課題データによる実験では、ファクトベースのアライメントを使用することで、私たちのアプローチはより解釈可能で、表現力があり、ノイズに対して頑健で、制御が容易であり、一方、頻度の観点からはエンドツーエンドシステムの利点を保っている。 私たちのコードはhttps://github.com/x innuoxu/agggenで利用可能です。

We present AGGGEN (pronounced 'again'), a data-to-text model which re-introduces two explicit sentence planning stages into neural data-to-text systems: input ordering and input aggregation. In contrast to previous work using sentence planning, our model is still end-to-end: AGGGEN performs sentence planning at the same time as generating text by learning latent alignments (via semantic facts) between input representation and target text. Experiments on the WebNLG and E2E challenge data show that by using fact-based alignments our approach is more interpretable, expressive, robust to noise, and easier to control, while retaining the advantages of end-to-end systems in terms of fluency. Our code is available at https://github.com/X innuoXu/AggGen.
翻訳日:2021-06-12 18:13:45 公開日:2021-06-10
# (参考訳) AUGNLG: 自己学習データ拡張による自然言語生成 [全文訳有]

AUGNLG: Few-shot Natural Language Generation using Self-trained Data Augmentation ( http://arxiv.org/abs/2106.05589v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Guoyin Wang, Young-Bum Kim, Sungjin Lee(参考訳) 自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素であり、構造化された意味表現(MR)を自然言語に変換する。 数百以上の意図と数千のスロットを持つ大規模会話システムでは、テンプレートベースのアプローチもモデルベースのアプローチもスケーラブルではない。 近年,ニューラルnlgsはトランスファー学習の活用を始め,数ショット設定で有望な結果を示した。 本稿では,自己学習型ニューラル検索モデルと数ショット学習型NLUモデルを組み合わせた新しいデータ拡張手法であるAUGNLGを提案し,オープンドメインテキストからMR-to-Textデータを自動的に生成する。 提案方式はBLEUとSlot Error Rateの両方でFewShotWOZデータの最先端の手法よりも優れている。 さらに、FewShotSGDデータの改善結果を確認し、システムの主要コンポーネントに関する包括的な分析結果を提供する。 私たちのコードとデータはhttps://github.com/x innuoxu/augnlg.comから入手できます。

Natural Language Generation (NLG) is a key component in a task-oriented dialogue system, which converts the structured meaning representation (MR) to the natural language. For large-scale conversational systems, where it is common to have over hundreds of intents and thousands of slots, neither template-based approaches nor model-based approaches are scalable. Recently, neural NLGs started leveraging transfer learning and showed promising results in few-shot settings. This paper proposes AUGNLG, a novel data augmentation approach that combines a self-trained neural retrieval model with a few-shot learned NLU model, to automatically create MR-to-Text data from open-domain texts. The proposed system mostly outperforms the state-of-the-art methods on the FewShotWOZ data in both BLEU and Slot Error Rate. We further confirm improved results on the FewShotSGD data and provide comprehensive analysis results on key components of our system. Our code and data are available at https://github.com/X innuoXu/AugNLG.
翻訳日:2021-06-12 17:49:25 公開日:2021-06-10
# (参考訳) ThompsonがMixture Priorでサンプリング [全文訳有]

Thompson Sampling with a Mixture Prior ( http://arxiv.org/abs/2106.05608v1 )

ライセンス: CC BY 4.0
Joey Hong, Branislav Kveton, Manzil Zaheer, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) 混合分布から不確実な環境をサンプリングするオンライン意思決定問題におけるトンプソンサンプリング(TS)について検討した。 これは、学習エージェントが異なるクラスの問題に直面しているマルチタスク設定に関係します。 この構造を,MixTSと呼ばれる前駆体でTSを初期化して自然に組み込むとともに,その前駆体でTSの後悔を分析するための新しい一般的な手法を開発した。 本研究では,MixTS に対するベイズ残差を線形帯域と表型マルコフ決定過程(MDPs)の両方で導出する手法を提案する。 我々の後悔の限界は問題の構造を反映し、前の各コンポーネントのコンポーネントの数と信頼性の幅に依存する。 最後に,MixTSの合成実験および実世界の実験における実証実験の有効性を示す。

We study Thompson sampling (TS) in online decision-making problems where the uncertain environment is sampled from a mixture distribution. This is relevant to multi-task settings, where a learning agent is faced with different classes of problems. We incorporate this structure in a natural way by initializing TS with a mixture prior -- dubbed MixTS -- and develop a novel, general technique for analyzing the regret of TS with such priors. We apply this technique to derive Bayes regret bounds for MixTS in both linear bandits and tabular Markov decision processes (MDPs). Our regret bounds reflect the structure of the problem and depend on the number of components and confidence width of each component of the prior. Finally, we demonstrate the empirical effectiveness of MixTS in both synthetic and real-world experiments.
翻訳日:2021-06-12 17:30:36 公開日:2021-06-10
# (参考訳) gnnautoscale: 履歴埋め込みによるスケーラブルで表現豊かなグラフニューラルネットワーク [全文訳有]

GNNAutoScale: Scalable and Expressive Graph Neural Networks via Historical Embeddings ( http://arxiv.org/abs/2106.05609v1 )

ライセンス: CC BY 4.0
Matthias Fey, Jan E. Lenssen, Frank Weichert, Jure Leskovec(参考訳) 本稿では,任意のメッセージパスGNNを大規模グラフに拡張するためのフレームワークであるGNNAutoScale(GAS)を提案する。 GASは、事前のトレーニングイテレーションからの履歴埋め込みを利用して計算グラフのサブツリー全体を掘り起こし、データをドロップすることなく入力ノードサイズに対して一定のGPUメモリ消費をもたらす。 既存の手法はエッジのサブサンプリングや非トレーニング可能な伝搬によるメッセージパッシングの表現力を弱めるが,本手法は元のGNNの表現力を確実に維持することができる。 歴史的埋め込みの近似誤差境界を提供することでこれを達成し、実際にそれらを締め付ける方法を示す。 実験により,PyTorch Geometric の使い勝手のよい拡張である PyGAS が高速かつメモリ効率に優れ,表現的ノード表現を学習し,非スケーリンググラフの性能によく似ており,大規模グラフ上での最先端の性能に達することを示す。

We present GNNAutoScale (GAS), a framework for scaling arbitrary message-passing GNNs to large graphs. GAS prunes entire sub-trees of the computation graph by utilizing historical embeddings from prior training iterations, leading to constant GPU memory consumption in respect to input node size without dropping any data. While existing solutions weaken the expressive power of message passing due to sub-sampling of edges or non-trainable propagations, our approach is provably able to maintain the expressive power of the original GNN. We achieve this by providing approximation error bounds of historical embeddings and show how to tighten them in practice. Empirically, we show that the practical realization of our framework, PyGAS, an easy-to-use extension for PyTorch Geometric, is both fast and memory-efficient, learns expressive node representations, closely resembles the performance of their non-scaling counterparts, and reaches state-of-the-art performance on large-scale graphs.
翻訳日:2021-06-12 16:22:50 公開日:2021-06-10
# (参考訳) リアルタイム・モバイル・エンドテキスト検出・認識のための文脈自由テキストスポッター [全文訳有]

Context-Free TextSpotter for Real-Time and Mobile End-to-End Text Detection and Recognition ( http://arxiv.org/abs/2106.05611v1 )

ライセンス: CC BY 4.0
Ryota Yoshihashi, Tomohiro Tanaka, Kenji Doi, Takumi Fujino, and Naoaki Yamashita(参考訳) モバイルプラットフォームへのシーンテキストスポッティングシステムの導入では,低計算の軽量モデルが望ましい。 概念上、エンドツーエンド(e2e)テキストスポッティングは、1つのモデルでテキストの検出と認識を行うため、このような目的に適している。 しかし、現在の最先端のE2E法は、精度を追求するために重い特徴抽出器、繰り返しシーケンスモデリング、複雑な形状整合器に頼っている。 E2Eテキストスポッティングでベルやホイッスルを使わずにどこまで行くことができるのか? そこで本研究では、単純な畳み込みと、Context-Free TextSpotterと呼ばれるポストプロセスからなるテキストスポッティング手法を提案する。 標準ベンチマークを用いた実験によれば、コンテキストフリーのtextspotterは、300万のパラメータしか持たないgpu上でリアルタイムテキストスポッティングを実現している。 さらに,当社のテキストスポッターが安価なスマートフォン上で動作できることを実証し,スタンドアロンのocrアプリケーション構築に有用であることを示す。

In the deployment of scene-text spotting systems on mobile platforms, lightweight models with low computation are preferable. In concept, end-to-end (E2E) text spotting is suitable for such purposes because it performs text detection and recognition in a single model. However, current state-of-the-art E2E methods rely on heavy feature extractors, recurrent sequence modellings, and complex shape aligners to pursue accuracy, which means their computations are still heavy. We explore the opposite direction: How far can we go without bells and whistles in E2E text spotting? To this end, we propose a text-spotting method that consists of simple convolutions and a few post-processes, named Context-Free TextSpotter. Experiments using standard benchmarks show that Context-Free TextSpotter achieves real-time text spotting on a GPU with only three million parameters, which is the smallest and fastest among existing deep text spotters, with an acceptable transcription quality degradation compared to heavier ones. Further, we demonstrate that our text spotter can run on a smartphone with affordable latency, which is valuable for building stand-alone OCR applications.
翻訳日:2021-06-12 15:45:41 公開日:2021-06-10
# (参考訳) SVMA:単眼の3次元人物位置推定のためのGANモデル [全文訳有]

SVMA: A GAN-based model for Monocular 3D Human Pose Estimation ( http://arxiv.org/abs/2106.05616v1 )

ライセンス: CC0 1.0
Yicheng Deng, Yongqi Sun, Jiahui Zhu(参考訳) 2Dジョイントから3D人間のポーズを復元することは、特にビデオやマルチビュー情報なしでは、非常に制約のない問題である。 1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。 我々のモデルは、単純な2D-3D対応ではなく、GANを用いて2Dポーズから3Dポーズへの分布のマッピングを学習する。 再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。 この再プロジェクション法に基づいて、生成されたポーズを回転させて「新しい」2Dポーズを取得し、その後に「新しい」3Dポーズと「新しい」カメラを推定するために重量共有ジェネレータを使用する。 以上の推定プロセスを通じて,訓練中の単視点多角一貫性損失を定義し,多視点一貫性をシミュレートすることができる。つまり,単視点の2角度から推定した3次元ポーズとカメラを混合してリッチな2次元再投影を生成でき,同じ3次元ポーズから再投影された2次元再投影は一貫性を持つべきである。 また,Human3.6Mによる実験結果から,本手法は最先端の手法を全て上回り,MPI-INF-3DHPによる手法は最先端の手法を約15.0%上回ることがわかった。

Recovering 3D human pose from 2D joints is a highly unconstrained problem, especially without any video or multi-view information. We present an unsupervised GAN-based model to recover 3D human pose from 2D joint locations extracted from a single image. Our model uses a GAN to learn the mapping of distribution from 2D poses to 3D poses, not the simple 2D-3D correspondence. Considering the reprojection constraint, our model can estimate the camera so that we can reproject the estimated 3D pose to the original 2D pose. Based on this reprojection method, we can rotate and reproject the generated pose to get our "new" 2D pose and then use a weight sharing generator to estimate the "new" 3D pose and a "new" camera. Through the above estimation process, we can define the single-view-multi-an gle consistency loss during training to simulate multi-view consistency, which means the 3D poses and cameras estimated from two angles of a single view should be able to be mixed to generate rich 2D reprojections, and the 2D reprojections reprojected from the same 3D pose should be consistent. The experimental results on Human3.6M show that our method outperforms all the state-of-the-art methods, and results on MPI-INF-3DHP show that our method outperforms state-of-the-art by approximately 15.0%.
翻訳日:2021-06-12 15:27:20 公開日:2021-06-10
# (参考訳) スキャンされた歴史的写真の野生における日時推定:画像検索によるアプローチ [全文訳有]

Date Estimation in the Wild of Scanned Historical Photos: An Image Retrieval Approach ( http://arxiv.org/abs/2106.05618v1 )

ライセンス: CC BY-SA 4.0
Adri\`a Molina and Pau Riba and Lluis Gomez and Oriol Ramos-Terrades and Josep Llad\'os(参考訳) 本稿では,史料からの古写真年代推定手法を提案する。 主な貢献は、検索タスクとして日付推定を定式化することであり、クエリが与えられた場合、検索した画像は推定日付類似度でランク付けされる。 それらの埋め込み表現が近いほど、その日付が近い。 分類器や回帰器を学習するニューラルネットワークを設計する従来のモデルとは対照的に,nDCGランキング尺度に基づく学習目標を提案する。 我々は,dew公開データベースを用いた日付推定と日付センシティブ画像検索の2つのタスクにおいて,ベースライン手法を克服した手法の性能を実験的に評価した。

This paper presents a novel method for date estimation of historical photographs from archival sources. The main contribution is to formulate the date estimation as a retrieval task, where given a query, the retrieved images are ranked in terms of the estimated date similarity. The closer are their embedded representations the closer are their dates. Contrary to the traditional models that design a neural network that learns a classifier or a regressor, we propose a learning objective based on the nDCG ranking metric. We have experimentally evaluated the performance of the method in two different tasks: date estimation and date-sensitive image retrieval, using the DEW public database, overcoming the baseline methods.
翻訳日:2021-06-12 15:16:12 公開日:2021-06-10
# (参考訳) 機械翻訳における教師なし事前学習目標の検討 [全文訳有]

Exploring Unsupervised Pretraining Objectives for Machine Translation ( http://arxiv.org/abs/2106.05634v1 )

ライセンス: CC BY 4.0
Christos Baziotis, Ivan Titov, Alexandra Birch, Barry Haddow(参考訳) 教師なしの言語間事前学習は、大きな並列データの必要性を大幅に減らし、ニューラルマシン翻訳(NMT)において大きな成果を上げている。 ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。 本研究では,マスキングを実文に似た入力を生成する代替目的と体系的に比較し,文脈に基づく単語の並べ替えを行う。 英語$\leftrightarrow$ger man, english$\leftrightar row$nepali, english$\leftrightar row$sinhala単言語データを用いたモデルの事前学習を行い,nmtで評価した。 半教師NMTでは、事前訓練対象の変化は、微調整された性能に驚くほど小さな違いをもたらすが、教師なしNMTはそれに対してはるかに敏感である。 これらの結果を理解するために, 一連のプローブを用いて事前学習したモデルを徹底的に検討し, 異なる方法で情報をエンコードし, 使用することを確認する。 並列データの微調整は、強い言語間能力を持つモデルも必要とする教師なしNMTとは対照的に、強いデコーダなど、ほとんどのモデルで共有される少数の特性に主に敏感である。

Unsupervised cross-lingual pretraining has achieved strong results in neural machine translation (NMT), by drastically reducing the need for large parallel data. Most approaches adapt masked-language modeling (MLM) to sequence-to-sequence architectures, by masking parts of the input and reconstructing them in the decoder. In this work, we systematically compare masking with alternative objectives that produce inputs resembling real (full) sentences, by reordering and replacing words based on their context. We pretrain models with different methods on English$\leftrightar row$German, English$\leftrightar row$Nepali and English$\leftrightar row$Sinhala monolingual data, and evaluate them on NMT. In (semi-) supervised NMT, varying the pretraining objective leads to surprisingly small differences in the finetuned performance, whereas unsupervised NMT is much more sensitive to it. To understand these results, we thoroughly study the pretrained models using a series of probes and verify that they encode and use information in different ways. We conclude that finetuning on parallel data is mostly sensitive to few properties that are shared by most models, such as a strong decoder, in contrast to unsupervised NMT that also requires models with strong cross-lingual abilities.
翻訳日:2021-06-12 15:06:04 公開日:2021-06-10
# (参考訳) U2++: 音声認識のための双方向双方向統合モデル [全文訳有]

U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition ( http://arxiv.org/abs/2106.05642v1 )

ライセンス: CC0 1.0
Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu Chen, Xin Lei(参考訳) 音声認識のための統合ストリーミングと非ストリーミング2パスモデル(U2)は、ストリーミング能力、精度、リアルタイム係数(RTF)、レイテンシにおいて優れたパフォーマンスを示している。 本稿では,U2の精度向上のための拡張版であるU2++を提案する。 U2++の中核となる考え方は、トレーニング時にラベル配列の前方および後方情報を同時に使用し、よりリッチな情報を学び、復号時の前方と後方の予測を組み合わせてより正確な認識結果を与えることである。 また、u2++モデルをより正確かつ堅牢にするためのspecsubと呼ばれる新しいデータ拡張手法も提案しました。 実験の結果,U2++はU2に比べて学習時の収束速度が向上し,復号法に対する堅牢性が向上し,単語誤り率の減少率が5\%であることがわかった。 AISHELL-1の実験では、非ストリーミングセットアップで4.63\%の文字エラー率(CER)、U2++で320msのレイテンシを持つストリーミングセットアップで5.05\%を達成する。 我々の知る限りでは、5.05\%はAISHELL-1テストセットで最も多く発行されたストリーミング結果である。

The unified streaming and non-streaming two-pass (U2) end-to-end model for speech recognition has shown great performance in terms of streaming capability, accuracy, real-time factor (RTF), and latency. In this paper, we present U2++, an enhanced version of U2 to further improve the accuracy. The core idea of U2++ is to use the forward and the backward information of the labeling sequences at the same time at training to learn richer information, and combine the forward and backward prediction at decoding to give more accurate recognition results. We also proposed a new data augmentation method called SpecSub to help the U2++ model to be more accurate and robust. Our experiments show that, compared with U2, U2++ shows faster convergence at training, better robustness to the decoding method, as well as consistent 5\% - 8\% word error rate reduction gain over U2. On the experiment of AISHELL-1, we achieve a 4.63\% character error rate (CER) with a non-streaming setup and 5.05\% with a streaming setup with 320ms latency by U2++. To the best of our knowledge, 5.05\% is the best-published streaming result on the AISHELL-1 test set.
翻訳日:2021-06-12 14:42:13 公開日:2021-06-10
# (参考訳) 物理組立のための視覚スコープ操作 [全文訳有]

Visual scoping operations for physical assembly ( http://arxiv.org/abs/2106.05654v1 )

ライセンス: CC BY-SA 4.0
Felix J Binder, Marcelo M Mattar, David Kirsh, Judith E Fan(参考訳) 計画は難しい。 サブゴールの使用は計画をより扱いやすいものにするが、これらのサブゴールの選択は計算コストがかかる。 選択の計算オーバーヘッドを最小限に抑えながら、サブゴールを使用する計画のメリットを享受できるアルゴリズムは何でしょうか? 空間領域を次のサブゴールとして交互に定義し、それを達成するためのアクションを選択することにより、計画と行動を切り離す戦略であるビジュアルスコーピングを提案する。 視覚的スコーピングアルゴリズムを,前もって全てのサブゴールを計画することと,副ゴールなしで計画することの2つの基本ラインに対して,様々な物理組立問題に対して評価した。 視覚的スコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を達成できることがわかった。 これらの結果は、人間が複雑な計画問題の解決に認知資源を効率的に活用する方法の理解に寄与する。

Planning is hard. The use of subgoals can make planning more tractable, but selecting these subgoals is computationally costly. What algorithms might enable us to reap the benefits of planning using subgoals while minimizing the computational overhead of selecting them? We propose visual scoping, a strategy that interleaves planning and acting by alternately defining a spatial region as the next subgoal and selecting actions to achieve it. We evaluated our visual scoping algorithm on a variety of physical assembly problems against two baselines: planning all subgoals in advance and planning without subgoals. We found that visual scoping achieves comparable task performance to the subgoal planner while requiring only a fraction of the total computational cost. Together, these results contribute to our understanding of how humans might make efficient use of cognitive resources to solve complex planning problems.
翻訳日:2021-06-12 14:32:35 公開日:2021-06-10
# (参考訳) MST:視覚表現のためのマスク付きセルフスーパーバイザートランス [全文訳有]

MST: Masked Self-Supervised Transformer for Visual Representation ( http://arxiv.org/abs/2106.05656v1 )

ライセンス: CC BY 4.0
Zhaowen Li, Zhiyang Chen, Fan Yang, Wei Li, Yousong Zhu, Chaoyang Zhao, Rui Deng, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang(参考訳) Transformerは自然言語処理(NLP)における自己教師型事前学習に広く使われており、大きな成功を収めている。 しかし、視覚的自己指導学習では十分に研究されていない。 一方、従来の手法では、グローバルな視点から高レベルな特徴と学習表現のみを考慮し、局所的な特徴に着目した下流密集予測タスクに転送できない可能性がある。 本稿では,世界的意味情報を保存しつつ,画像の局所的文脈を明示的に捉えることができるマスク付き自己教師付きトランスフォーマー手法であるmstを提案する。 具体的には,nlp の masked language modeling (mlm) に着想を得たマルチヘッド・セルフアテンションマップに基づくマスキングトークン戦略を提案し,自己教師付き学習の重要な構造を損なうことなく,局所パッチのトークンを動的にマスキングする。 さらに重要なことに、マスクされたトークンと残りのトークンは、画像の空間情報を保存し、下流の密集した予測タスクにより親しみやすいグローバル画像デコーダによってさらに復元される。 複数のデータセットに対する実験により,提案手法の有効性と汎用性を示した。 例えば、mstは、線形評価による300エポック事前トレーニングのみを使用して、deit-sで76.9%のtop-1精度を達成している。 密集予測タスクでは、MS COCOオブジェクト検出では42.7% mAP、Cityscapesセグメンテーションでは74.04% mIoU、100エポシック事前トレーニングでは74.04% mIoUを達成した。

Transformer has been widely used for self-supervised pre-training in Natural Language Processing (NLP) and achieved great success. However, it has not been fully explored in visual self-supervised learning. Meanwhile, previous methods only consider the high-level feature and learning representation from a global perspective, which may fail to transfer to the downstream dense prediction tasks focusing on local features. In this paper, we present a novel Masked Self-supervised Transformer approach named MST, which can explicitly capture the local context of an image while preserving the global semantic information. Specifically, inspired by the Masked Language Modeling (MLM) in NLP, we propose a masked token strategy based on the multi-head self-attention map, which dynamically masks some tokens of local patches without damaging the crucial structure for self-supervised learning. More importantly, the masked tokens together with the remaining tokens are further recovered by a global image decoder, which preserves the spatial information of the image and is more friendly to the downstream dense prediction tasks. The experiments on multiple datasets demonstrate the effectiveness and generality of the proposed method. For instance, MST achieves Top-1 accuracy of 76.9% with DeiT-S only using 300-epoch pre-training by linear evaluation, which outperforms supervised methods with the same epoch by 0.4% and its comparable variant DINO by 1.0\%. For dense prediction tasks, MST also achieves 42.7% mAP on MS COCO object detection and 74.04% mIoU on Cityscapes segmentation only with 100-epoch pre-training.
翻訳日:2021-06-12 14:21:00 公開日:2021-06-10
# (参考訳) ディープニューラルネットワークは敵画像に注意を失う [全文訳有]

Deep neural network loses attention to adversarial images ( http://arxiv.org/abs/2106.05657v1 )

ライセンス: CC BY 4.0
Shashank Kotyan and Danilo Vasconcellos Vargas(参考訳) 敵アルゴリズムは様々なタスクにおいてニューラルネットワークに対して有効であることが示されている。 いくつかの逆アルゴリズムは、画像分類タスクにおいて、画像内のすべてのピクセルを最小限に摂動する。 対照的に、いくつかのアルゴリズムはピクセルを強く摂動する。 しかし、なぜこれらの対立するサンプルが互いにこれほど多様なのかについては、ほとんど情報がない。 最近、Vargasら。 敵のサンプルの存在は ニューラルネットワーク内の 塩分濃度の相反によるものかもしれない 本研究では,Saliency Maps (SM) と Gradient-weighted Class Activation Maps (Grad-CAM) を原型および少数種の逆数サンプルから解析し,相反する正則性仮説を検証した。 また、元のサンプルと比較して、異なる対向サンプルがニューラルネットワークの注意を歪めているかを分析する。 Pixel Attackの場合、摂動ピクセルはネットワークの注意を自分自身に呼び出すか、それらから注意を逸らすかを示す。 同時に、投影された勾配降下は、ニューラルネットワーク内の中間層が正しいクラスに注意を払わないように画素を摂動させる。 また,どちらの攻撃もサリエンシマップとアクティベーションマップに異なる影響を及ぼすことを示した。 したがって、ある攻撃に対して成功した防衛部隊が、他の攻撃に対して脆弱なままである理由に光を当てる。 この分析によって、敵のサンプルの存在と効果の理解が向上し、コミュニティがより堅牢なニューラルネットワークを開発することを期待する。

Adversarial algorithms have shown to be effective against neural networks for a variety of tasks. Some adversarial algorithms perturb all the pixels in the image minimally for the image classification task in image classification. In contrast, some algorithms perturb few pixels strongly. However, very little information is available regarding why these adversarial samples so diverse from each other exist. Recently, Vargas et al. showed that the existence of these adversarial samples might be due to conflicting saliency within the neural network. We test this hypothesis of conflicting saliency by analysing the Saliency Maps (SM) and Gradient-weighted Class Activation Maps (Grad-CAM) of original and few different types of adversarial samples. We also analyse how different adversarial samples distort the attention of the neural network compared to original samples. We show that in the case of Pixel Attack, perturbed pixels either calls the network attention to themselves or divert the attention from them. Simultaneously, the Projected Gradient Descent Attack perturbs pixels so that intermediate layers inside the neural network lose attention for the correct class. We also show that both attacks affect the saliency map and activation maps differently. Thus, shedding light on why some defences successful against some attacks remain vulnerable against other attacks. We hope that this analysis will improve understanding of the existence and the effect of adversarial samples and enable the community to develop more robust neural networks.
翻訳日:2021-06-12 14:05:53 公開日:2021-06-10
# (参考訳) 次世代機械学習による宇宙船の診断システム [全文訳有]

Next-Gen Machine Learning Supported Diagnostic Systems for Spacecraft ( http://arxiv.org/abs/2106.05659v1 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Gabriel Sutherland, Siddha Ganju, Frank Soboczenski(参考訳) 将来の短期または長期の宇宙ミッションは、通信障害による新しい世代の監視と診断システムと、特別な乗組員や機器の制限を必要とする。 機械学習がサポートする診断システムは、医療および技術応用に有効なソリューションである。 今後のミッションに照らして、このようなシステムの課題と適用性について論じ、将来の宇宙運用のための次世代医療診断システムの実例を概説する。 さらに、宇宙船上での機械学習モデルの生成と利用を成功させるために、アプローチの推奨と制約を提案する。

Future short or long-term space missions require a new generation of monitoring and diagnostic systems due to communication impasses as well as limitations in specialized crew and equipment. Machine learning supported diagnostic systems present a viable solution for medical and technical applications. We discuss challenges and applicability of such systems in light of upcoming missions and outline an example use case for a next-generation medical diagnostic system for future space operations. Additionally, we present approach recommendations and constraints for the successful generation and use of machine learning models aboard a spacecraft.
翻訳日:2021-06-12 13:54:52 公開日:2021-06-10
# (参考訳) 対応駆動型単眼3次元カテゴリー再構築 [全文訳有]

To The Point: Correspondence-drive n monocular 3D category reconstruction ( http://arxiv.org/abs/2106.05662v1 )

ライセンス: CC BY 4.0
Filippos Kokkinos and Iasonas Kokkinos(参考訳) 本稿では,弱い監督から学んだ2次元から3次元の対応を利用して,単一の画像から3次元オブジェクトを再構成する手法であるTTPについて述べる。 3dテンプレート頂点に対応する2d位置をまず回帰させ、次に3d形状投影により2d位置を最適に説明する剛性カメラ変換及び非剛性テンプレート変形を共同で推定し、2d画像から3d形状を復元する。 3D-2D対応を頼りにすることで,CNNによるカメラポーズの回帰と非剛性変形を置き換え,より高精度な3D再構成を実現する。 我々は,この最適化を微分可能な層として扱い,システム全体をエンドツーエンドでトレーニングする。 本稿では,複数のカテゴリの体系的定量的改善を報告し,多様な形状,ポーズ,テクスチャ予測例からなる質的結果を提供する。 プロジェクトwebサイト: https://fkokkinos.gi thub.io/to_the_point /

We present To The Point (TTP), a method for reconstructing 3D objects from a single image using 2D to 3D correspondences learned from weak supervision. We recover a 3D shape from a 2D image by first regressing the 2D positions corresponding to the 3D template vertices and then jointly estimating a rigid camera transform and non-rigid template deformation that optimally explain the 2D positions through the 3D shape projection. By relying on 3D-2D correspondences we use a simple per-sample optimization problem to replace CNN-based regression of camera pose and non-rigid deformation and thereby obtain substantially more accurate 3D reconstructions. We treat this optimization as a differentiable layer and train the whole system in an end-to-end manner. We report systematic quantitative improvements on multiple categories and provide qualitative results comprising diverse shape, pose and texture prediction examples. Project website: https://fkokkinos.gi thub.io/to_the_point /.
翻訳日:2021-06-12 13:45:21 公開日:2021-06-10
# (参考訳) GraphiT: トランスフォーマーのグラフ構造をエンコードする [全文訳有]

GraphiT: Encoding Graph Structure in Transformers ( http://arxiv.org/abs/2106.05667v1 )

ライセンス: CC BY 4.0
Gr\'egoire Mialon, Dexiong Chen, Margot Selosse, Julien Mairal(参考訳) 従来のグラフニューラルネットワーク(GNN)で学習した表現よりも、グラフをノードの特徴の集合として見ることができ、構造的および位置的情報をトランスフォーマーアーキテクチャに組み込むことが可能であることを示す。 我々のモデルであるGraphiTは,グラフ上の正定値カーネルに基づく自己注意スコアにおける相対的な位置符号化戦略と,短距離パスなどの局所的なサブ構造を列挙して符号化することで,そのような情報を符号化する。 我々はこれらの2つの概念を多くの分類タスクと回帰タスクで徹底的に評価し、それぞれの有効性と組み合わせの有効性を独立に示す。 標準ベンチマークでよく機能するだけでなく,予測を説明するグラフモチーフを解釈するための自然な可視化機構も認めており,解釈が重要である科学的応用の候補として潜在的に有力である。 コードはhttps://github.com/i nria-thoth/graphit。

We show that viewing graphs as sets of node features and incorporating structural and positional information into a transformer architecture is able to outperform representations learned with classical graph neural networks (GNNs). Our model, GraphiT, encodes such information by (i) leveraging relative positional encoding strategies in self-attention scores based on positive definite kernels on graphs, and (ii) enumerating and encoding local sub-structures such as paths of short length. We thoroughly evaluate these two ideas on many classification and regression tasks, demonstrating the effectiveness of each of them independently, as well as their combination. In addition to performing well on standard benchmarks, our model also admits natural visualization mechanisms for interpreting graph motifs explaining the predictions, making it a potentially strong candidate for scientific applications where interpretation is important. Code available at https://github.com/i nria-thoth/GraphiT.
翻訳日:2021-06-12 13:26:00 公開日:2021-06-10
# (参考訳) ロボットピッキングのための水中物体検出のデータセットとベンチマーク [全文訳有]

A Dataset And Benchmark Of Underwater Object Detection For Robot Picking ( http://arxiv.org/abs/2106.05681v1 )

ライセンス: CC BY 4.0
Chongwei Liu, Haojie Li, Shuchang Wang, Ming Zhu, Dong Wang, Xin Fan and Zhihui Wang(参考訳) ロボットピッキングのための水中物体検出は、多くの関心を集めている。 しかし、いくつかの問題により未解決の問題である。 以下に示す課題に対処することで、より現実的なものにするためのステップを踏み出します。 まず、現在利用可能なデータセットは基本的にテストセットアノテーションを欠いているため、研究者は他のSOTAと比較しなければならない(トレーニングセットから)。 他の方法のトレーニングはワークロードの増加につながり、研究者によって異なるデータセットが分割されるため、異なるアルゴリズムのパフォーマンスを比較するための統一ベンチマークは存在しない。 第二に、これらのデータセットには他にも欠点があり、例えば、多くの類似した画像や不完全なラベルがある。 これらの課題に向けて、すべての関連するデータセットの収集と再アノテーションに基づいて、データセット、検出水中オブジェクト(DUO)および対応するベンチマークを導入します。 DUOはより合理的な注釈を持つ多様な水中画像のコレクションを含んでいる。 対応するベンチマークは、JETSON AGX XAVIERを使用して検出速度を評価し、ロボット組み込み環境をシミュレートする、学術研究および産業応用のためのSOTA(MDtection framework)の効率と精度の指標を提供する。

Underwater object detection for robot picking has attracted a lot of interest. However, it is still an unsolved problem due to several challenges. We take steps towards making it more realistic by addressing the following challenges. Firstly, the currently available datasets basically lack the test set annotations, causing researchers must compare their method with other SOTAs on a self-divided test set (from the training set). Training other methods lead to an increase in workload and different researchers divide different datasets, resulting there is no unified benchmark to compare the performance of different algorithms. Secondly, these datasets also have other shortcomings, e.g., too many similar images or incomplete labels. Towards these challenges we introduce a dataset, Detecting Underwater Objects (DUO), and a corresponding benchmark, based on the collection and re-annotation of all relevant datasets. DUO contains a collection of diverse underwater images with more rational annotations. The corresponding benchmark provides indicators of both efficiency and accuracy of SOTAs (under the MMDtection framework) for academic research and industrial applications, where JETSON AGX XAVIER is used to assess detector speed to simulate the robot-embedded environment.
翻訳日:2021-06-12 13:09:22 公開日:2021-06-10
# (参考訳) 平衡シナプスを有する単一信号ニューロンの時空間スパイク-パタン選択性 [全文訳有]

Spatiotemporal Spike-Pattern Selectivity in Single Mixed-Signal Neurons with Balanced Synapses ( http://arxiv.org/abs/2106.05686v1 )

ライセンス: CC BY 4.0
Mattias Nilsson, Foteini Liwicki, and Fredrik Sandin(参考訳) 超低消費電力推論と学習のための混合信号ニューロモルフィックプロセッサの可能性を実現するには、その不均一なアナログ回路とスパース、時間ベースの情報符号化と処理の効率的な利用が必要である。 本研究では,stcネットワークにおけるspike-timing-based spatiotemporal receptive fields (spike-timing-based spatiotemporal receptive fields of output-neurons in the spatiotemporal correlator (stc)について検討した。 ハードウェアニューロンの5次元受容場を一様分布からランダムに入力スパイクパターンをサンプリングすることによってマッピングした混合信号DYNAP-SEニューロモルフィックプロセッサを用いたループ内ハードウェア実験を行った。 バランスの取れたシナプス要素がランダムにプログラムされると、いくつかのニューロンは異なる受容野を示す。 さらに,同種アナログシナプス回路の異なるサブセットを活性化することにより,ニューロンが特定の時空間的特徴を検出するように調整されたことを実証した。 バランスの取れたシナプス要素のエネルギー散逸は、かつての遅延ベースのニューロモルフィックハードウェア実装よりも1桁低い(0.65 nJ 対 9.3 nJ 対 スパイク)。 そこで本研究では,不均質なシナプス回路をstcネットワーク層のリソース効率の高い実装に活用し,機能チューニングのための離散的な機構としてシナプスアドレス再プログラミングを可能にする方法を示す。

Realizing the potential of mixed-signal neuromorphic processors for ultra-low-power inference and learning requires efficient use of their inhomogeneous analog circuitry as well as sparse, time-based information encoding and processing. Here, we investigate spike-timing-based spatiotemporal receptive fields of output-neurons in the Spatiotemporal Correlator (STC) network, for which we used excitatory-inhibitor y balanced disynaptic inputs instead of dedicated axonal or neuronal delays. We present hardware-in-the-loop experiments with a mixed-signal DYNAP-SE neuromorphic processor, in which five-dimensional receptive fields of hardware neurons were mapped by randomly sampling input spike-patterns from a uniform distribution. We find that, when the balanced disynaptic elements are randomly programmed, some of the neurons display distinct receptive fields. Furthermore, we demonstrate how a neuron was tuned to detect a particular spatiotemporal feature, to which it initially was non-selective, by activating a different subset of the inhomogeneous analog synaptic circuits. The energy dissipation of the balanced synaptic elements is one order of magnitude lower per lateral connection (0.65 nJ vs 9.3 nJ per spike) than former delay-based neuromorphic hardware implementations. Thus, we show how the inhomogeneous synaptic circuits could be utilized for resource-efficient implementation of STC network layers, in a way that enables synapse-address reprogramming as a discrete mechanism for feature tuning.
翻訳日:2021-06-12 13:00:52 公開日:2021-06-10
# (参考訳) ハイパーグラフ学習のための学習可能なハイパーグラフラプラシアン [全文訳有]

Learnable Hypergraph Laplacian for Hypergraph Learning ( http://arxiv.org/abs/2106.05701v1 )

ライセンス: CC BY 4.0
Jiying Zhang, Yuzhao Chen, Xi Xiao, Runiu Lu, Shu-Tao Xia(参考訳) HyperGraph Convolutional Neural Networks (HGCNN) は、グラフ構造化データに保存された高次関係をモデル化する可能性を示した。 しかし、既存の畳み込みフィルタの多くは、事前に定義された初期ハイパーグラフトポロジーによって局所化され決定され、実世界データにおける暗黙的および長期的関係の探索を怠る。 本稿では,hgcnnの表現力を向上させる汎用プラグイン・イン・プレイモジュールとして機能する,適応型ハイパーグラフ構造構築のための最初の学習ベース手法であるhypergraph laplacian adaptor(herald)を提案する。 具体的には,ハイパーノードとハイパーエッジの隣接関係をエンドツーエンドで適応的に最適化し,タスク認識ハイパーグラフを学習する。 さらにヘラルドは、非局所的な対ノード関係を捉えるために自己アテンション機構を用いる。 ノード分類とグラフ分類タスクのための多種多様なハイパーグラフデータセットに対する大規模な実験により,本手法が一貫した性能向上を実現し,その有効性と一般化能力を示した。

HyperGraph Convolutional Neural Networks (HGCNNs) have demonstrated their potential in modeling high-order relations preserved in graph structured data. However, most existing convolution filters are localized and determined by the pre-defined initial hypergraph topology, neglecting to explore implicit and long-ange relations in real-world data. In this paper, we propose the first learning-based method tailored for constructing adaptive hypergraph structure, termed HypERgrAph Laplacian aDaptor (HERALD), which serves as a generic plug-in-play module for improving the representational power of HGCNNs. Specifically, HERALD adaptively optimizes the adjacency relationship between hypernodes and hyperedges in an end-to-end manner and thus the task-aware hypergraph is learned. Furthermore, HERALD employs the self-attention mechanism to capture the non-local paired-nodes relation. Extensive experiments on various popular hypergraph datasets for node classification and graph classification tasks demonstrate that our approach obtains consistent and considerable performance enhancement, proving its effectiveness and generalization ability.
翻訳日:2021-06-12 12:48:23 公開日:2021-06-10
# (参考訳) FEVEROUS:非構造化情報に対するFact extract and Verification [全文訳有]

FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information ( http://arxiv.org/abs/2106.05707v1 )

ライセンス: CC BY-SA 4.0
Rami Aly, Zhijiang Guo, Michael Schlichtkrull, James Thorne, Andreas Vlachos, Christos Christodoulopoulos, Oana Cocarascu, Arpit Mittal(参考訳) ファクト検証は、誤情報を検出する重要な方法の1つであるため、機械学習や自然言語処理のコミュニティで多くの注目を集めている。 このタスクの既存の大規模ベンチマークは主にテキストソースに焦点を当てている。 構造化されていない情報は、テーブルのような構造化されたフォーマットで利用可能な豊富な情報を無視します。 本稿では,87,026件の検証済みクレームからなる新しいデータセットとベンチマークであるFact extract and VERification Over Unstructured and Structured Information (FEVEROUS)を紹介する。 それぞれのクレームには、ウィキペディアの表の文やセルの形での証拠と、この証拠が評決に達するのに十分な情報を提供していないかどうかを示すラベルが添付されている。 さらに、データセットに存在するバイアスを追跡し最小化するための取り組みを詳述し、例えばモデルによって悪用される可能性がある。 証拠を使わずにラベルを予測できるのです 最後に,テキストと表に対するクレームを検証するためのベースラインを開発し,クレームの正しい証拠と18%の判定を予測した。

Fact verification has attracted a lot of attention in the machine learning and natural language processing communities, as it is one of the key methods for detecting misinformation. Existing large-scale benchmarks for this task have focused mostly on textual sources, i.e. unstructured information, and thus ignored the wealth of information available in structured formats, such as tables. In this paper we introduce a novel dataset and benchmark, Fact Extraction and VERification Over Unstructured and Structured information (FEVEROUS), which consists of 87,026 verified claims. Each claim is annotated with evidence in the form of sentences and/or cells from tables in Wikipedia, as well as a label indicating whether this evidence supports, refutes, or does not provide enough information to reach a verdict. Furthermore, we detail our efforts to track and minimize the biases present in the dataset and could be exploited by models, e.g. being able to predict the label without using evidence. Finally, we develop a baseline for verifying claims against text and tables which predicts both the correct evidence and verdict for 18% of the claims.
翻訳日:2021-06-12 12:38:19 公開日:2021-06-10
# (参考訳) DNNに基づくトポロジ最適化:空間不変性とニューラルタンジェントカーネル [全文訳有]

DNN-Based Topology Optimisation: Spatial Invariance and Neural Tangent Kernel ( http://arxiv.org/abs/2106.05710v1 )

ライセンス: CC BY 4.0
Benjamin Dupuis and Arthur Jacot(参考訳) 完全連結ニューラルネットワークによって生成される密度場を用いてSIMP法について検討し,その座標を入力とする。 広帯域幅では,DNNを用いた場合,従来のSIMPのフィルタリング手法と同様のフィルタ効果が得られ,Nutral Tangent Kernel (NTK) によるフィルタが記述される。 しかし、このフィルターは翻訳下で不変ではなく、視覚的アーティファクトと非最適形状をもたらす。 入力座標の埋め込みを2つ提案し、NTKとフィルタの空間的不変性を(近似的に)引き起こす。 理論的観測を実証的に確認し,ネットワークのアーキテクチャによるフィルタサイズの影響について検討する。 我々の解は他の座標ベースの生成方法にも容易に適用できる。

We study the SIMP method with a density field generated by a fully-connected neural network, taking the coordinates as inputs. In the large width limit, we show that the use of DNNs leads to a filtering effect similar to traditional filtering techniques for SIMP, with a filter described by the Neural Tangent Kernel (NTK). This filter is however not invariant under translation, leading to visual artifacts and non-optimal shapes. We propose two embeddings of the input coordinates, which lead to (approximate) spatial invariance of the NTK and of the filter. We empirically confirm our theoretical observations and study how the filter size is affected by the architecture of the network. Our solution can easily be applied to any other coordinates-based generation method.
翻訳日:2021-06-12 12:12:06 公開日:2021-06-10
# (参考訳) Wasserstein 距離を用いた分布ロバストな規範解析 [全文訳有]

Distributionally Robust Prescriptive Analytics with Wasserstein Distance ( http://arxiv.org/abs/2106.05724v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Ningyuan Chen and Chun Wang(参考訳) 規範的分析では、決定者は$(X, Y)$の歴史的サンプルを観察し、$Y$は不確実な問題パラメータであり、$X$は共同分布を知らずに同時共変量である。 追加の共変量観測の$x$が与えられた場合、この観測の目標は、コストが$\mathbb{E}[c(z,Y)|X=x]$を最小化する決定の$z$条件を選択することである。 本稿では,ヒストリデータに関するnadaraya-watson kernel estimatorに基づいてy|x=x$の公称分布を構築する,wassersteinambiguit y setに基づく新しい分布的ロバストなアプローチを提案する。 名目分布はwasserstein距離の下で実際の条件分布に収束することを示す。 我々は,フレームワークの外部保証と計算可搬性を確立する。 newsvendor問題とポートフォリオ最適化に関する総合的かつ実証的な実験を通じて,提案フレームワークの性能と実用的価値を実証する。

In prescriptive analytics, the decision-maker observes historical samples of $(X, Y)$, where $Y$ is the uncertain problem parameter and $X$ is the concurrent covariate, without knowing the joint distribution. Given an additional covariate observation $x$, the goal is to choose a decision $z$ conditional on this observation to minimize the cost $\mathbb{E}[c(z,Y)|X=x]$. This paper proposes a new distributionally robust approach under Wasserstein ambiguity sets, in which the nominal distribution of $Y|X=x$ is constructed based on the Nadaraya-Watson kernel estimator concerning the historical data. We show that the nominal distribution converges to the actual conditional distribution under the Wasserstein distance. We establish the out-of-sample guarantees and the computational tractability of the framework. Through synthetic and empirical experiments about the newsvendor problem and portfolio optimization, we demonstrate the strong performance and practical value of the proposed framework.
翻訳日:2021-06-12 11:47:18 公開日:2021-06-10
# (参考訳) 等価ポリシーを用いた協調型マルチエージェント学習の公平性 [全文訳有]

Fairness for Cooperative Multi-Agent Learning with Equivariant Policies ( http://arxiv.org/abs/2106.05727v1 )

ライセンス: CC BY 4.0
Niko A. Grupen, Bart Selman, Daniel D. Lee(参考訳) 協調型マルチエージェント学習のレンズを通して公平性を研究する。 私たちの仕事は、チーム報酬の最小化が個々のチームメンバーに不公平な結果をもたらすという実証的な証拠によって動機付けられています。 マルチエージェント・コンテキストにおける公平性に対処するために、マルチエージェント・ラーニングのためのグループベースフェアネス尺度であるteam fairnessを導入する。 次に、チームフェアネスをポリシー最適化に取り入れます -- 公正さを平等性(Fair-E)を通じて導入します。 次に,fair-e のソフト・コンストラクティブ版として等分散正規化 (fair-er) によってフェアネスを導入することにより,fair-er が fair-e よりも高い有用性に到達し,公平性のない政策よりも公正な結果が得られることを示した。 最後に,マルチエージェント設定におけるフェアネスユーティリティトレードオフについて検討する。

We study fairness through the lens of cooperative multi-agent learning. Our work is motivated by empirical evidence that naive maximization of team reward yields unfair outcomes for individual team members. To address fairness in multi-agent contexts, we introduce team fairness, a group-based fairness measure for multi-agent learning. We then incorporate team fairness into policy optimization -- introducing Fairness through Equivariance (Fair-E), a novel learning strategy that achieves provably fair reward distributions. We then introduce Fairness through Equivariance Regularization (Fair-ER) as a soft-constraint version of Fair-E and show that Fair-ER reaches higher levels of utility than Fair-E and fairer outcomes than policies with no equivariance. Finally, we investigate the fairness-utility trade-off in multi-agent settings.
翻訳日:2021-06-12 11:25:34 公開日:2021-06-10
# (参考訳) 畳み込みニューラルネットワークを用いた顔マスク検出 [全文訳有]

Face mask detection using convolution neural network ( http://arxiv.org/abs/2106.05728v1 )

ライセンス: CC BY 4.0
Riya Shah Rutva Shah(参考訳) 近年では、異なるウイルスの大きなファミリーであるコロナウイルスは、人間全体にとって非常に一般的で伝染性があり、危険になっている。 ウイルスの液滴を異なる表面に残し、他の人が吸っても感染をキャッチする感染口を吐き出すことで、ヒトからヒトに拡散する。 そのため、この状況から自分と周りの人々を守ることがとても重要になっています。 ソーシャルディスタンシング、手洗い、2時間ごとに手洗い、消毒剤の使用、社会的距離の維持、マスク着用などの予防措置を採ることができる。 マスクを身に着けることの公的な利用は、今や世界中で非常に一般的になっている。 それ以来、インドで最も影響を受け、壊滅的な状況は、人口が極端に少ないことによる。 そこで本稿では,オフィスや出勤者の多い職場でフェイスマスクが装着されているかどうかを検知する手法を提案する。 畳み込みニューラルネットワークも同様に使用しました。 このモデルは実世界のデータセットでトレーニングされ、ライブビデオストリーミングで高い精度でテストされる。 さらに、ハイパーパラメータの異なるモデルの精度と、フレームの距離や位置の異なる複数の人物の精度について検討する。

In the recent times, the Coronaviruses that are a big family of different viruses have become very common, contagious and dangerous to the whole human kind. It spreads human to human by exhaling the infection breath, which leaves droplets of the virus on different surface which is then inhaled by other person and catches the infection too. So it has become very important to protect ourselves and the people around us from this situation. We can take precautions such as social distancing, washing hands every two hours, using sanitizer, maintaining social distance and the most important wearing a mask. Public use of wearing a masks has become very common everywhere in the whole world now. From that the most affected and devastating condition is of India due to its extreme population in small area. This paper proposes a method to detect the face mask is put on or not for offices, or any other work place with a lot of people coming to work. We have used convolutional neural network for the same. The model is trained on a real world dataset and tested with live video streaming with a good accuracy. Further the accuracy of the model with different hyper parameters and multiple people at different distance and location of the frame is done.
翻訳日:2021-06-12 11:09:53 公開日:2021-06-10
# (参考訳) リアルタイム画像編集のためのPivotal Tuning [全文訳有]

Pivotal Tuning for Latent-based Editing of Real Images ( http://arxiv.org/abs/2106.05744v1 )

ライセンス: CC BY-SA 4.0
Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or(参考訳) 近年,事前学習したStyleGANの生成能力を活用した高度な顔編集技術が提案されている。 このようにして画像を編集するには、事前に訓練されたジェネレータのドメインに最初に画像を投影(あるいは反転)する必要がある。 しかし、スタイルガンの潜在空間は、歪曲と編集性の間に固有のトレードオフを生じさせる。 元の外観を保ち 属性のいくつかを 確実に変更することです 実際には、ジェネレータの領域外にある顔に対して、ID保存の顔潜在空間編集を適用することは依然として困難である。 本稿では,このギャップを橋渡しする手法を提案する。 我々の技術はジェネレータを少し変更し、ドメイン外の画像を忠実にドメイン内の潜在コードにマッピングする。 重要なアイデアはpivotal tuning – ドメイン内の潜在領域の編集品質を保ちながら、その表現されたアイデンティティと外観を変更する、簡単なトレーニングプロセスだ。 Pivotal Tuning Inversion (PTI)では、初期反転潜時コードはピボットとして機能し、その周りでジェネレータを微調整する。 同時に、正規化用語は、その効果を局所的に含むために、近隣のアイデンティティをそのまま保持する。 この手術訓練プロセスは、編集能力に影響を与えることなく、ほとんど同一性を表す外観の特徴を変えることになる。 測定値の反転と編集を行い,最先端の手法に好適なスコアを示す。 さらに,高度な編集(ポーズ,年齢,表情など)を,知名度や認識可能な多数の画像に適用することにより,この手法を定性的に実証する。 最後に, ヘビーメイクアップ, 精巧なヘアスタイル, ヘッドウェアなど, 難易度の高い症例に対するレジリエンスを実証した。

Recently, a surge of advanced facial editing techniques have been proposed that leverage the generative power of a pre-trained StyleGAN. To successfully edit an image this way, one must first project (or invert) the image into the pre-trained generator's domain. As it turns out, however, StyleGAN's latent space induces an inherent tradeoff between distortion and editability, i.e. between maintaining the original appearance and convincingly altering some of its attributes. Practically, this means it is still challenging to apply ID-preserving facial latent-space editing to faces which are out of the generator's domain. In this paper, we present an approach to bridge this gap. Our technique slightly alters the generator, so that an out-of-domain image is faithfully mapped into an in-domain latent code. The key idea is pivotal tuning - a brief training process that preserves the editing quality of an in-domain latent region, while changing its portrayed identity and appearance. In Pivotal Tuning Inversion (PTI), an initial inverted latent code serves as a pivot, around which the generator is fined-tuned. At the same time, a regularization term keeps nearby identities intact, to locally contain the effect. This surgical training process ends up altering appearance features that represent mostly identity, without affecting editing capabilities. We validate our technique through inversion and editing metrics, and show preferable scores to state-of-the-art methods. We further qualitatively demonstrate our technique by applying advanced edits (such as pose, age, or expression) to numerous images of well-known and recognizable identities. Finally, we demonstrate resilience to harder cases, including heavy make-up, elaborate hairstyles and/or headwear, which otherwise could not have been successfully inverted and edited by state-of-the-art methods.
翻訳日:2021-06-12 11:05:41 公開日:2021-06-10
# (参考訳) 残留エンコーダと正規化流れによるマルチスピーカーtts韻律分散の改善 [全文訳有]

Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows ( http://arxiv.org/abs/2106.05762v1 )

ライセンス: CC BY 4.0
Iv\'an Vall\'es-P\'erez, Julian Roth, Grzegorz Beringer, Roberto Barra-Chicote, Jasha Droppo(参考訳) テキスト対音声システムは最近、人間の発話とほとんど区別がつかない品質を達成した。 しかし、それらのシステムの韻律は一般に自然発声よりも平坦であり、表現力の低いサンプルを生成する。 自然性を改善し、より可変的な合成を生成するために、テキスト対音声システムでは話者idと韻律の絡み合いが不可欠である。 本稿では,フロー正規化話者埋め込みにTacotron2のようなアーキテクチャを条件付け,韻律による文内変動をモデル化する新たな学習潜時分布を基準エンコーダに置き換えることで,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。 参照エンコーダの依存性を取り除くことで、この種のシステムで発生する話者推論問題は消失し、推論時により独特な合成が生成される。 新しいモデルでは, 話者の明瞭度を低下させることなく, 数量的韻律特徴のセットにおいて, ベースラインよりもはるかに高い韻律分散を実現する。 最後に、正規化話者埋め込みにより、よりリッチな話者補間が可能となり、新しい補間話者の特異性を大幅に向上する。

Text-to-speech systems recently achieved almost indistinguishable quality from human speech. However, the prosody of those systems is generally flatter than natural speech, producing samples with low expressiveness. Disentanglement of speaker id and prosody is crucial in text-to-speech systems to improve on naturalness and produce more variable syntheses. This paper proposes a new neural text-to-speech model that approaches the disentanglement problem by conditioning a Tacotron2-like architecture on flow-normalized speaker embeddings, and by substituting the reference encoder with a new learned latent distribution responsible for modeling the intra-sentence variability due to the prosody. By removing the reference encoder dependency, the speaker-leakage problem typically happening in this kind of systems disappears, producing more distinctive syntheses at inference time. The new model achieves significantly higher prosody variance than the baseline in a set of quantitative prosody features, as well as higher speaker distinctiveness, without decreasing the speaker intelligibility. Finally, we observe that the normalized speaker embeddings enable much richer speaker interpolations, substantially improving the distinctiveness of the new interpolated speakers.
翻訳日:2021-06-12 10:50:08 公開日:2021-06-10
# (参考訳) 生存データをクラスタリングするための深い変分アプローチ

A Deep Variational Approach to Clustering Survival Data ( http://arxiv.org/abs/2106.05763v1 )

ライセンス: CC BY 4.0
Laura Manduchi, Ri\v{c}ards Marcinkevi\v{c}s, Michela C. Massi, Verena Gotta, Timothy M\"uller, Flavio Vasella, Marian C. Neidert, Marc Pfister and Julia E. Vogt(参考訳) 生存分析は医療分野で大きな注目を集めており、多くの広範囲の応用がある。 複雑な依存関係を持つ非構造化データの時間対イベント予測に様々な機械学習手法が導入されたが、サバイバルデータのクラスタリングは未探索の問題のままである。 後者は、異なる生成機構によって生存が制御される患者サブポピュレーションの発見に特に有用であり、精密医学における重要な問題である。 そこで本研究では,変動型深層クラスタリングにおけるクラスタ生存データに対する新しい確率的アプローチを提案する。 提案手法は,説明変数と潜在的に検閲された生存時間の両方の分布を明らかにするために,深い生成モデルを用いる。 本モデルとサバイバルクラスタリングに関する関連する研究を比較し,合成,半合成,実世界のデータセットの総合実験を行った。 提案手法は,クラスタの同定に優れ,一致指数と相対絶対誤差の観点から生存時間を予測できる。 さらに本手法の有用性を実証するため,これまでの臨床所見と一致した血液透析患者の観察的コホートから有意義なクラスターを同定した。

Survival analysis has gained significant attention in the medical domain and has many far-reaching applications. Although a variety of machine learning methods have been introduced for tackling time-to-event prediction in unstructured data with complex dependencies, clustering of survival data remains an under-explored problem. The latter is particularly helpful in discovering patient subpopulations whose survival is regulated by different generative mechanisms, a critical problem in precision medicine. To this end, we introduce a novel probabilistic approach to cluster survival data in a variational deep clustering setting. Our proposed method employs a deep generative model to uncover the underlying distribution of both the explanatory variables and the potentially censored survival times. We compare our model to the related work on survival clustering in comprehensive experiments on a range of synthetic, semi-synthetic, and real-world datasets. Our proposed method performs better at identifying clusters and is competitive at predicting survival times in terms of the concordance index and relative absolute error. To further demonstrate the usefulness of our approach, we show that our method identifies meaningful clusters from an observational cohort of hemodialysis patients that are consistent with previous clinical findings.
翻訳日:2021-06-11 21:49:30 公開日:2021-06-10
# (参考訳) 特許領域における表現学習のための言語情報マスキング [全文訳有]

Linguistically Informed Masking for Representation Learning in the Patent Domain ( http://arxiv.org/abs/2106.05768v1 )

ライセンス: CC BY 4.0
Sophia Althammer, Mark Buckley, Sebastian Hofst\"atter, Allan Hanbury(参考訳) ドメイン特化言語モデルは、類似性マッチング、エンティティ認識、情報検索など、ドメイン特化下流タスクに対してかなりの効果を発揮している。 しかし、そのようなモデルを高度に特定の言語領域に適用するには、事前訓練されたモデルのドメイン適応が必要である。 本稿では,特許の言語パターンにドメイン適応型事前学習を集中させる,経験的動機付け型言語インフォームドマスキング(LIM)手法を提案する。 特許, 科学, 汎用言語間の関連性の違いを定量化し, LIMによるドメイン適応が, IPC分類と類似性マッチングという2つの独立した下流タスクにおいて, 特許言語のドメイン適応表現の性能を評価することによって, 体系的に改良された表現をもたらすことを示す。 特許ドメインに対するドメイン適応において,異なる情報ソースからの学習のバランスが与える影響を実証する。 ソースコードとドメイン適応型プレトレーニング済みの特許言語モデルをhttps://github.com/s ophiaalthammer/paten t-lim.comで公開しています。

Domain-specific contextualized language models have demonstrated substantial effectiveness gains for domain-specific downstream tasks, like similarity matching, entity recognition or information retrieval. However successfully applying such models in highly specific language domains requires domain adaptation of the pre-trained models. In this paper we propose the empirically motivated Linguistically Informed Masking (LIM) method to focus domain-adaptative pre-training on the linguistic patterns of patents, which use a highly technical sublanguage. We quantify the relevant differences between patent, scientific and general-purpose language and demonstrate for two different language models (BERT and SciBERT) that domain adaptation with LIM leads to systematically improved representations by evaluating the performance of the domain-adapted representations of patent language on two independent downstream tasks, the IPC classification and similarity matching. We demonstrate the impact of balancing the learning from different information sources during domain adaptation for the patent domain. We make the source code as well as the domain-adaptive pre-trained patent language models publicly available at https://github.com/s ophiaalthammer/paten t-lim.
翻訳日:2021-06-11 21:48:29 公開日:2021-06-10
# (参考訳) 深部暗黙的表面点予測ネットワーク [全文訳有]

Deep Implicit Surface Point Prediction Networks ( http://arxiv.org/abs/2106.05779v1 )

ライセンス: CC BY 4.0
Rahul Venkatesh, Tejan Karmali, Sarthak Sharma, Aurobrata Ghosh, L\'aszl\'o A. Jeni, R. Venkatesh Babu, Maneesh Singh(参考訳) 暗黙の関数としての3次元形状の深い神経表現は、メッシュと点雲を用いた明示的な表現によって直面する解像度-メモリトレードオフを超える高忠実度モデルを生成することが示されている。 しかし、そのようなアプローチのほとんどは閉じた形を表現することに焦点を当てている。 非符号距離関数(UDF)に基づくアプローチは、最近オープン形状とクローズ形状の両方を表すための有望な代替として提案されている。 しかし、UDFの勾配が表面でなくなるため、視覚やグラフィックスにおける多くの下流アプリケーションに必要な正規や接面のような局所的な(微分)幾何学的性質を推定することは困難である。 これらのプロパティを低メモリフットプリントで効率的に計算するには、さらに課題がある。 本稿では, 近接面点 (csp) 表現と呼ばれる新しい階層の暗黙表現を用いて, 曲面をモデル化する新しい手法を提案する。 CSPにより、任意の位相(開あるいは閉)の複素曲面を高い忠実度で表現できることが示される。 また、局所幾何学的性質の正確かつ効率的な計算を可能にする。 さらに、3D表面をレンダリングするスフィアトレーシングのような下流アルゴリズムを効率よく実装し、メッシュベースの明示的な表現を作成できることを示す。 shapenetデータセットの広範な実験的評価は、上記の貢献が最先端の成果を上回っていることを検証している。

Deep neural representations of 3D shapes as implicit functions have been shown to produce high fidelity models surpassing the resolution-memory trade-off faced by the explicit representations using meshes and point clouds. However, most such approaches focus on representing closed shapes. Unsigned distance function (UDF) based approaches have been proposed recently as a promising alternative to represent both open and closed shapes. However, since the gradients of UDFs vanish on the surface, it is challenging to estimate local (differential) geometric properties like the normals and tangent planes which are needed for many downstream applications in vision and graphics. There are additional challenges in computing these properties efficiently with a low-memory footprint. This paper presents a novel approach that models such surfaces using a new class of implicit representations called the closest surface-point (CSP) representation. We show that CSP allows us to represent complex surfaces of any topology (open or closed) with high fidelity. It also allows for accurate and efficient computation of local geometric properties. We further demonstrate that it leads to efficient implementation of downstream algorithms like sphere-tracing for rendering the 3D surface as well as to create explicit mesh-based representations. Extensive experimental evaluation on the ShapeNet dataset validate the above contributions with results surpassing the state-of-the-art.
翻訳日:2021-06-11 21:30:48 公開日:2021-06-10
# (参考訳) Transformed CNNs:自己注意で事前学習した畳み込み層をリキャストする [全文訳有]

Transformed CNNs: recasting pre-trained convolutional layers with self-attention ( http://arxiv.org/abs/2106.05795v1 )

ライセンス: CC BY 4.0
St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos(参考訳) ビジョントランスフォーマー(ViT)は近年,畳み込みネットワーク(CNN)の強力な代替手段として登場した。 ハイブリッドモデルはこれらの2つのアーキテクチャ間のギャップを埋めようとしているが、それらが依存する自己注意層は特に大きな空間解像度において強力な計算ボトルネックを引き起こす。 本研究では,これらの層を畳み込み層として初期化することにより,これらの層を訓練するのに要する時間を短縮する手法を検討する。 これにより、任意の事前学習されたCNNからTransformed CNN(T-CNN)と呼ばれる機能的に同一のハイブリッドモデルへの移行を円滑に行うことができる。 わずか50回の微調整で、結果として得られたT-CNNはCNN(ResNet50-RSではImageNet-1kで+2.2%、ImageNet-Cでは+11%)よりも大幅に性能が向上した。 我々は、T-CNNが学習した表現を分析し、畳み込みと自己意識の間の実りある相互作用について深い洞察を提供する。 最後に、部分的に訓練されたCNNからT-CNNを初期化する実験を行い、トレーニング時間を短縮しつつ、スクラッチからトレーニングした対応するハイブリッドモデルよりも優れた性能が得られることを示した。

Vision Transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). Although hybrid models attempt to bridge the gap between these two architectures, the self-attention layers they rely on induce a strong computational bottleneck, especially at large spatial resolutions. In this work, we explore the idea of reducing the time spent training these layers by initializing them as convolutional layers. This enables us to transition smoothly from any pre-trained CNN to its functionally identical hybrid model, called Transformed CNN (T-CNN). With only 50 epochs of fine-tuning, the resulting T-CNNs demonstrate significant performance gains over the CNN (+2.2% top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved robustness (+11% top-1 on ImageNet-C). We analyze the representations learnt by the T-CNN, providing deeper insights into the fruitful interplay between convolutions and self-attention. Finally, we experiment initializing the T-CNN from a partially trained CNN, and find that it reaches better performance than the corresponding hybrid model trained from scratch, while reducing training time.
翻訳日:2021-06-11 21:13:10 公開日:2021-06-10
# (参考訳) 無限不均衡下における線形分類器

Linear Classifiers Under Infinite Imbalance ( http://arxiv.org/abs/2106.05797v1 )

ライセンス: CC BY 4.0
Paul Glasserman, Mike Li(参考訳) 無限不均衡極限における二項分類における線形判別関数の挙動について検討し,一方のクラスのサンプルサイズは拘束されずに増大し,他方のサンプルサイズは固定されたままである。 分類器の係数は、重み関数によって指定された期待損失を最小化する。 重み関数の広いクラスでは、インターセプタは発散するが、係数ベクトルの残りの部分は無限不均衡の下で有限の極限を持ち、ロジスティック回帰に関する先行研究が拡張される。 極限は重み関数の左尾に依存し、有界、漸近多項式、漸近指数の3つの場合を区別する。 制限係数ベクトルは、ある最悪の選択肢に対して最適化されるという意味で、ロバスト性や保守性を反映する。 有界および多項式の場合、極限は少数類に対するアップサンプリング分布の暗黙の選択と等価である。 我々はこれらのアイデアを信用リスク設定に適用し、特に高感度および高特異性領域のパフォーマンスに重点を置いている。

We study the behavior of linear discriminant functions for binary classification in the infinite-imbalance limit, where the sample size of one class grows without bound while the sample size of the other remains fixed. The coefficients of the classifier minimize an expected loss specified through a weight function. We show that for a broad class of weight functions, the intercept diverges but the rest of the coefficient vector has a finite limit under infinite imbalance, extending prior work on logistic regression. The limit depends on the left tail of the weight function, for which we distinguish three cases: bounded, asymptotically polynomial, and asymptotically exponential. The limiting coefficient vectors reflect robustness or conservatism properties in the sense that they optimize against certain worst-case alternatives. In the bounded and polynomial cases, the limit is equivalent to an implicit choice of upsampling distribution for the minority class. We apply these ideas in a credit risk setting, with particular emphasis on performance in the high-sensitivity and high-specificity regions.
翻訳日:2021-06-11 20:55:21 公開日:2021-06-10
# (参考訳) 共同行動分布を用いた多エージェント強化学習における情報表現 [全文訳有]

Informative Policy Representations in Multi-Agent Reinforcement Learning via Joint-Action Distributions ( http://arxiv.org/abs/2106.05802v1 )

ライセンス: CC BY 4.0
Yifan Yu, Haobin Jiang, Zongqing Lu(参考訳) 多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。 非定常性に対処する一つの方法はエージェントモデリングであり、エージェントは他のエージェントのポリシーの影響を考慮に入れる。 既存の作業の多くは、他のエージェントの行動や目標を予測したり、政策を区別したりすることに依存している。 しかし、このようなモデリングはポリシー間の類似点と相違点を同時に捉えることができず、不明瞭なポリシーに一般化する際に有用な情報を提供できない。 そこで本研究では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な手法を提案する。 政策間の類似性や相違は、共同行動分布から推定される政策距離によって自然に捉えられ、学習された表現に故意に反映される。 政策表象に基づくエージェントは、目に見えないエージェントにうまく一般化することができる。 提案手法は,未確認エージェントに直面する場合,既存のマルチエージェントタスクよりも優れていることを示す。

In multi-agent reinforcement learning, the inherent non-stationarity of the environment caused by other agents' actions posed significant difficulties for an agent to learn a good policy independently. One way to deal with non-stationarity is agent modeling, by which the agent takes into consideration the influence of other agents' policies. Most existing work relies on predicting other agents' actions or goals, or discriminating between their policies. However, such modeling fails to capture the similarities and differences between policies simultaneously and thus cannot provide useful information when generalizing to unseen policies. To address this, we propose a general method to learn representations of other agents' policies via the joint-action distributions sampled in interactions. The similarities and differences between policies are naturally captured by the policy distance inferred from the joint-action distributions and deliberately reflected in the learned representations. Agents conditioned on the policy representations can well generalize to unseen agents. We empirically demonstrate that our method outperforms existing work in multi-agent tasks when facing unseen agents.
翻訳日:2021-06-11 20:54:23 公開日:2021-06-10
# (参考訳) 変分ベイのための量子自然勾配 [全文訳有]

Quantum Natural Gradient for Variational Bayes ( http://arxiv.org/abs/2106.05807v1 )

ライセンス: CC BY 4.0
Anna Lopatnikova and Minh-Ngoc Tran(参考訳) 変分ベイズ(VB)は機械学習と統計学において重要な手法であり、最近のベイズ深層学習の成功を支えている。 自然勾配は効率的なVB推定の必須成分であるが、高次元では計算コストが禁じられている。 本稿では,自然勾配計算のスケーリング性を向上させるためのハイブリッド量子古典アルゴリズムを提案する。 このアルゴリズムはHarrow, Hassidim, Lloyd [Phys] による線形システムアルゴリズムからの行列逆変換を利用する。 Rev Lett! 103, 15 (2009)] (HHL)。 逆行列はスパースであり、古典的量子古典的ハンドオフは計算効率を維持するのに十分な経済的であり、VBの自然勾配の問題がHHLの理想的な応用であることを示す。 標準条件下では、量子自然勾配を持つvbアルゴリズムが収束することが保証される。

Variational Bayes (VB) is a critical method in machine learning and statistics, underpinning the recent success of Bayesian deep learning. The natural gradient is an essential component of efficient VB estimation, but it is prohibitively computationally expensive in high dimensions. We propose a hybrid quantum-classical algorithm to improve the scaling properties of natural gradient computation and make VB a truly computationally efficient method for Bayesian inference in highdimensional settings. The algorithm leverages matrix inversion from the linear systems algorithm by Harrow, Hassidim, and Lloyd [Phys. Rev. Lett. 103, 15 (2009)] (HHL). We demonstrate that the matrix to be inverted is sparse and the classical-quantum-cl assical handoffs are sufficiently economical to preserve computational efficiency, making the problem of natural gradient for VB an ideal application of HHL. We prove that, under standard conditions, the VB algorithm with quantum natural gradient is guaranteed to converge.
翻訳日:2021-06-11 20:12:37 公開日:2021-06-10
# (参考訳) 正規化周波数による特徴選択の簡潔化 [全文訳有]

A concise method for feature selection via normalized frequencies ( http://arxiv.org/abs/2106.05814v1 )

ライセンス: CC BY 4.0
Song Tan, Xia He(参考訳) 特徴選択は、機械学習モデルを構築する上で重要な部分である。 データから冗長あるいは誤解を招く機能を排除することによって、機械学習モデルは、計算リソースの需要を減らしながら、より良いパフォーマンスを達成することができる。 メタヒューリスティックアルゴリズムは主に、Swarmインテリジェンスアルゴリズムや進化アルゴリズムのような特徴選択を実装するために使用される。 しかし、それらは相対的な複雑さと遅さの欠点に苦しんでいる。 本稿では,普遍的特徴選択のための簡潔な手法を提案する。 提案手法はフィルタ法とラッパー法の融合を利用したものである。 この方法は、データセットを前処理するためにワンホットエンコーディングを使用し、ランダムフォレストを分類器として利用する。 提案手法では、正規化周波数を用いて各特徴に値を割り当て、最適な特徴部分集合を見つける。 さらに,実験の出発点として,相互情報の出力を活用する新しい手法を提案する。 提案手法の評価には,侵入検出分野における実世界の2つのデータセットを用いた。 評価の結果,提案手法は精度,精度,リコール,f-score,aucの点で最先端関連作品よりも優れていた。

Feature selection is an important part of building a machine learning model. By eliminating redundant or misleading features from data, the machine learning model can achieve better performance while reducing the demand on com-puting resources. Metaheuristic algorithms are mostly used to implement feature selection such as swarm intelligence algorithms and evolutionary algorithms. However, they suffer from the disadvantage of relative complexity and slowness. In this paper, a concise method is proposed for universal feature selection. The proposed method uses a fusion of the filter method and the wrapper method, rather than a combination of them. In the method, one-hoting encoding is used to preprocess the dataset, and random forest is utilized as the classifier. The proposed method uses normalized frequencies to assign a value to each feature, which will be used to find the optimal feature subset. Furthermore, we propose a novel approach to exploit the outputs of mutual information, which allows for a better starting point for the experiments. Two real-world dataset in the field of intrusion detection were used to evaluate the proposed method. The evaluation results show that the proposed method outperformed several state-of-the-art related works in terms of accuracy, precision, recall, F-score and AUC.
翻訳日:2021-06-11 19:55:42 公開日:2021-06-10
# (参考訳) グラフコントラスト学習改善のための逆グラフ拡張 [全文訳有]

Adversarial Graph Augmentation to Improve Graph Contrastive Learning ( http://arxiv.org/abs/2106.05819v1 )

ライセンス: CC BY 4.0
Susheel Suresh, Pan Li, Cong Hao, Jennifer Neville(参考訳) グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンス化を設計する。 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習における最大14\%、転送時の6\%、および半教師付き学習環境における3\%のパフォーマンス向上を実験的に検証した。

Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edge-dropping graph augmentation. We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to $14\%$ in unsupervised, $6\%$ in transfer, and $3\%$ in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification.
翻訳日:2021-06-11 19:24:52 公開日:2021-06-10
# (参考訳) GroupBERT: 効率的なグループ構造を持つ拡張トランスフォーマーアーキテクチャ [全文訳有]

GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures ( http://arxiv.org/abs/2106.05822v1 )

ライセンス: CC BY-SA 4.0
Ivan Chelombiev, Daniel Justus, Douglas Orr, Anastasia Dietrich, Frithjof Gressmann, Alexandros Koliousis, Carlo Luschi(参考訳) 注意に基づく言語モデルは最先端自然言語処理システムにおいて重要な要素となっている。 しかし、これらのモデルには、長い訓練時間、厳密な演算、大きなパラメータ数のために、かなりの計算要求がある。 本研究では,トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。 まず、自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。 第二に,モデル表現性を維持しつつ,密なフィードフォワード層と畳み込みの計算コストを削減するために群変換に依存する。 得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。 さらに,浮動小数点演算(FLOP)と時間・ツー・トレインの両面で,効率の向上を強調した。

Attention based language models have become a critical component in state-of-the-art natural language processing systems. However, these models have significant computational requirements, due to long training times, dense operations and large parameter count. In this work we demonstrate a set of modifications to the structure of a Transformer layer, producing a more efficient architecture. First, we add a convolutional module to complement the self-attention module, decoupling the learning of local and global interactions. Secondly, we rely on grouped transformations to reduce the computational cost of dense feed-forward layers and convolutions, while preserving the expressivity of the model. We apply the resulting architecture to language representation learning and demonstrate its superior performance compared to BERT models of different scales. We further highlight its improved efficiency, both in terms of floating-point operations (FLOPs) and time-to-train.
翻訳日:2021-06-11 18:46:15 公開日:2021-06-10
# (参考訳) 知識ベースタスク指向対話システムのためのテンプレート誘導型ハイブリッドポインタネットワーク [全文訳有]

A Template-guided Hybrid Pointer Network for Knowledge-basedTask- oriented Dialogue Systems ( http://arxiv.org/abs/2106.05830v1 )

ライセンス: CC BY 4.0
Dingmin Wang, Ziyao Chen, Wanwei He, Li Zhong, Yunzhe Tao, Min Yang(参考訳) 既存のニューラルネットワークベースのタスク指向対話システムは、エンコーダ-デコーダパラダイムに従っており、デコーダは純粋にソーステキストに依存して、不安定で可読性の悪い単語列を生成する。 従来のテンプレート・ベース・ジェネレーション・アプローチにインスパイアされた,知識に基づくタスク指向対話システムのためのテンプレート誘導型ハイブリッド・ポインター・ネットワークを提案する。 具体的には,ゲッティング機構を備えたメモリポインタネットワークモデルの設計を行い,得られた回答と接地応答とのセマンティック相関を十分に活用する。 4つのタスク指向データセットについて評価を行い,1つのシミュレーションデータセットと3つの手動生成データセットについて検討した。 実験の結果, 提案手法は, 異なる自動評価指標に対して, 最先端手法よりも有意に優れた性能が得られることがわかった。

Most existing neural network based task-oriented dialogue systems follow encoder-decoder paradigm, where the decoder purely depends on the source texts to generate a sequence of words, usually suffering from instability and poor readability. Inspired by the traditional template-based generation approaches, we propose a template-guided hybrid pointer network for the knowledge-based task-oriented dialogue system, which retrieves several potentially relevant answers from a pre-constructed domain-specific conversational repository as guidance answers, and incorporates the guidance answers into both the encoding and decoding processes. Specifically, we design a memory pointer network model with a gating mechanism to fully exploit the semantic correlation between the retrieved answers and the ground-truth response. We evaluate our model on four widely used task-oriented datasets, including one simulated and three manually created datasets. The experimental results demonstrate that the proposed model achieves significantly better performance than the state-of-the-art methods over different automatic evaluation metrics.
翻訳日:2021-06-11 18:30:39 公開日:2021-06-10
# (参考訳) 蛍光顕微鏡画像におけるセルインスタンスセグメンテーション改善のための完全畳み込みネットワークにおける形態素情報を強制する [全文訳有]

Enforcing Morphological Information in Fully Convolutional Networks to Improve Cell Instance Segmentation in Fluorescence Microscopy Images ( http://arxiv.org/abs/2106.05843v1 )

ライセンス: CC BY 4.0
Willard Zamora-Cardenas, Mauro Mendez, Saul Calderon-Ramirez, Martin Vargas, Gerardo Monge, Steve Quiros, David Elizondo, David Elizondo, Miguel A. Molina-Cabello(参考訳) 蛍光顕微鏡画像における細胞インスタンスのセグメンテーションは、がんのダイナミックスや予後に欠かせないものになりつつある。 がんダイナミクスから抽出されたデータは、増殖のような異なる代謝過程を理解し、正確にモデル化することができる。 これにより、カスタマイズされたより正確ながん治療が可能になる。 しかし、さらなる細胞追跡と行動解析に必要な正確な細胞インスタンスのセグメンテーションは、高い細胞濃度と重なり合うエッジを持つシナリオでは依然として困難である。 本稿では,よく知られたU-Netアーキテクチャに基づく新しいセルインスタンス分割手法を提案する。 画素毎の形態情報の学習を強制するために、奥行きトランスフォーマー(ddt)がバックボーンモデルとして機能する。 DDT出力はその後、トップモデルのトレーニングに使用される。 以下のトップモデルが考慮される: 3つのクラス(前景、背景およびセル境界)、u-net、および流域変換。 その結果,従来のU-Netアーキテクチャよりも性能が向上することが示唆された。 これは、形態素情報を完全な畳み込みモデルに注入するというアイデアに関する興味深い研究ラインを開く。

Cell instance segmentation in fluorescence microscopy images is becoming essential for cancer dynamics and prognosis. Data extracted from cancer dynamics allows to understand and accurately model different metabolic processes such as proliferation. This enables customized and more precise cancer treatments. However, accurate cell instance segmentation, necessary for further cell tracking and behavior analysis, is still challenging in scenarios with high cell concentration and overlapping edges. Within this framework, we propose a novel cell instance segmentation approach based on the well-known U-Net architecture. To enforce the learning of morphological information per pixel, a deep distance transformer (DDT) acts as a back-bone model. The DDT output is subsequently used to train a top-model. The following top-models are considered: a three-class (\emph{e.g.,} foreground, background and cell border) U-net, and a watershed transform. The obtained results suggest a performance boost over traditional U-Net architectures. This opens an interesting research line around the idea of injecting morphological information into a fully convolutional model.
翻訳日:2021-06-11 18:15:31 公開日:2021-06-10
# (参考訳) 群同変部分サンプリング [全文訳有]

Group Equivariant Subsampling ( http://arxiv.org/abs/2106.05886v1 )

ライセンス: CC BY 4.0
Jin Xu, Hyunjik Kim, Tom Rainforth, Yee Whye Teh(参考訳) サブサンプリングは、プールやストライド畳み込みの形で畳み込みニューラルネットワーク(CNN)で使われ、特徴写像の空間次元を小さくし、受容野が深さとともに指数関数的に成長できるようにする。 しかし、そのような部分サンプリング操作は、変換同変である畳み込みとは異なり、翻訳同変ではないことが知られている。 ここではまず,完全翻訳同変cnnの構築に使用できる翻訳同変部分サンプリング/アップサンプリング層について紹介する。 次にこれらの層を一般群への変換を超えて一般化し、したがって群同変部分サンプリング/アップサンプリングを提案する。 これらの層を用いて群同変オートエンコーダ(GAE)を構築し、低次元同変表現を学習する。 我々は、表現が入力の翻訳と回転と実際に同値であることのイメージを経験的に検証し、その結果、見つからない位置と向きによく一般化する。 さらに,マルチオブジェクトデータセット上でオブジェクト中心表現を学習するモデルにおいて,gaesを用いて,非同値なベースラインと比較して,データ効率と分解性が向上することを示す。

Subsampling is used in convolutional neural networks (CNNs) in the form of pooling or strided convolutions, to reduce the spatial dimensions of feature maps and to allow the receptive fields to grow exponentially with depth. However, it is known that such subsampling operations are not translation equivariant, unlike convolutions that are translation equivariant. Here, we first introduce translation equivariant subsampling/upsampli ng layers that can be used to construct exact translation equivariant CNNs. We then generalise these layers beyond translations to general groups, thus proposing group equivariant subsampling/upsampli ng. We use these layers to construct group equivariant autoencoders (GAEs) that allow us to learn low-dimensional equivariant representations. We empirically verify on images that the representations are indeed equivariant to input translations and rotations, and thus generalise well to unseen positions and orientations. We further use GAEs in models that learn object-centric representations on multi-object datasets, and show improved data efficiency and decomposition compared to non-equivariant baselines.
翻訳日:2021-06-11 18:04:28 公開日:2021-06-10
# (参考訳) ロバスト応答ランキングと評価のための対向負反応の合成 [全文訳有]

Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation ( http://arxiv.org/abs/2106.05894v1 )

ライセンス: CC BY 4.0
Prakhar Gupta, Yulia Tsvetkov, Jeffrey P. Bigham(参考訳) オープンドメインニューラルダイアログモデルは、応答のランキングと評価タスクにおいて高い性能を達成した。 これらのタスクは、対話コンテキストで与えられる応答のバイナリ分類として定式化され、モデルは通常、コンテキスト応答の内容の類似性に基づいて予測を学習する。 しかし、コンテンツ類似性への過度な依存は、モデルが不整合、不正確な時間表現、そして応答の適切性や一貫性に重要な要素の存在に敏感になる。 本稿では,コンテンツ類似性を超えた特徴のランキングと評価を支援するために,逆ネガティブトレーニングデータの自動作成手法を提案する。 より堅牢な対話システムをトレーニングするためのネガティブな例を生成するマスク・アンド・フィルとキーワード誘導アプローチを提案する。 これらの生成した逆応答は、文脈と高い内容の類似性を持つが、不整合性、不適切、あるいは流動性がない。 私たちのアプローチは完全にデータ駆動であり、既存のモデルやデータセットに簡単に組み込むことができます。 複数のデータセットにまたがる分類、ランキング、評価タスクの実験により、我々のアプローチは、トレーニング対話システムに有益なネガティブな例を提供する上で、強いベースラインを上回ります。

Open-domain neural dialogue models have achieved high performance in response ranking and evaluation tasks. These tasks are formulated as a binary classification of responses given in a dialogue context, and models generally learn to make predictions based on context-response content similarity. However, over-reliance on content similarity makes the models less sensitive to the presence of inconsistencies, incorrect time expressions and other factors important for response appropriateness and coherence. We propose approaches for automatically creating adversarial negative training data to help ranking and evaluation models learn features beyond content similarity. We propose mask-and-fill and keyword-guided approaches that generate negative examples for training more robust dialogue systems. These generated adversarial responses have high content similarity with the contexts but are either incoherent, inappropriate or not fluent. Our approaches are fully data-driven and can be easily incorporated in existing models and datasets. Experiments on classification, ranking and evaluation tasks across multiple datasets demonstrate that our approaches outperform strong baselines in providing informative negative examples for training dialogue systems.
翻訳日:2021-06-11 17:33:07 公開日:2021-06-10
# (参考訳) 双対多目的マニピュレーションにおける固有正則化としての遠絡注意 [全文訳有]

Disentangled Attention as Intrinsic Regularization for Bimanual Multi-Object Manipulation ( http://arxiv.org/abs/2106.05907v1 )

ライセンス: CC BY 4.0
Minghao Zhang, Pingcheng Jian, Yi Wu, Huazhe Xu, Xiaolong Wang(参考訳) 本稿では,スパース報酬を伴う複数のオブジェクト上での複雑な双方向ロボット操作タスクの解決に対処する。 このような複雑なタスクは、異なるロボットによって同時または順次に実現可能なサブタスクに分解され、効率性が向上する。 従来の強化学習アプローチは、主にサブタスクの構成性をモデル化することに焦点を当てていたが、特に2つのロボットの協調戦略を学ぶ際には、2つの基本的な問題は無視されている。 この2つの課題に取り組むために,2つのロボットが分離したサブタスクとオブジェクトに焦点を合わせるための本質的な正規化を提供する,disentangled attentionと呼ばれる新しい手法を提案する。 本手法を4つの双方向操作タスクで評価する。 実験の結果,提案する本質的正則化は,すべての基準よりもはるかに効果的な協調戦略をもたらすため,支配を回避し,政策の対立を低減できることがわかった。 ビデオ付きプロジェクトページはhttps://mehooz.githu b.io/bimanual-attent ion。

We address the problem of solving complex bimanual robot manipulation tasks on multiple objects with sparse rewards. Such complex tasks can be decomposed into sub-tasks that are accomplishable by different robots concurrently or sequentially for better efficiency. While previous reinforcement learning approaches primarily focus on modeling the compositionality of sub-tasks, two fundamental issues are largely ignored particularly when learning cooperative strategies for two robots: (i) domination, i.e., one robot may try to solve a task by itself and leaves the other idle; (ii) conflict, i.e., one robot can easily interrupt another's workspace when executing different sub-tasks simultaneously. To tackle these two issues, we propose a novel technique called disentangled attention, which provides an intrinsic regularization for two robots to focus on separate sub-tasks and objects. We evaluate our method on four bimanual manipulation tasks. Experimental results show that our proposed intrinsic regularization successfully avoids domination and reduces conflicts for the policies, which leads to significantly more effective cooperative strategies than all the baselines. Our project page with videos is at https://mehooz.githu b.io/bimanual-attent ion.
翻訳日:2021-06-11 17:08:25 公開日:2021-06-10
# (参考訳) anatomy x-net : 胸部疾患分類のための半教師付き畳み込みニューラルネットワーク [全文訳有]

Anatomy X-Net: A Semi-Supervised Anatomy Aware Convolutional Neural Network for Thoracic Disease Classification ( http://arxiv.org/abs/2106.05915v1 )

ライセンス: CC BY 4.0
Uday Kamal, Mohammad Zunaed, Nusrat Binta Nizam, Taufiq Hasan(参考訳) 深層学習法を用いた胸部x線写真からの胸部疾患の検出は,過去10年間,活発に研究されてきた。 これまでの手法のほとんどは、モデルの予測に重要な貢献をした空間領域を同定することで、画像の病的な臓器に焦点を当てようとするものである。 対照的に、専門家の放射線学者は、これらの領域が異常かどうかを決定する前に、まず顕著な解剖学的構造を見つける。 したがって、ディープラーニングモデルに解剖学的知識を統合することで、自動疾患分類が大幅に改善される可能性がある。 本研究は,事前同定された解剖領域によって誘導される空間的特徴を優先する解剖学的アウェアメントベースアーキテクチャanatomy x-netを提案する。 臓器レベルのアノテーションを含むjsrtデータセットを用いた半教師あり学習法を用いて,nihおよびchexpertデータセットの解剖学的分節マスク(肺と心臓用)を得る。 提案する解剖学 x-net では,事前学習された densenet-121 を,解剖学的注意学習のためのコヒーシブフレームワークとして anatomy aware attention (aaa) と probabilistic weighted average pooling (pwap) という2つの構造モジュールを備えたバックボーンネットワークとして使用する。 提案手法は,AUCスコア0.8439のNIHテストセットに新たな最先端性能を設定し,解剖学的セグメンテーション知識を用いて胸部疾患分類を改善することの有効性を示した。 さらに、Anatomy X-NetはStanford CheXpertデータセット上で平均0.9020のAUCを生成し、提案フレームワークの一般化可能性を示す既存の手法を改善した。

Thoracic disease detection from chest radiographs using deep learning methods has been an active area of research in the last decade. Most previous methods attempt to focus on the diseased organs of the image by identifying spatial regions responsible for significant contributions to the model's prediction. In contrast, expert radiologists first locate the prominent anatomical structures before determining if those regions are anomalous. Therefore, integrating anatomical knowledge within deep learning models could bring substantial improvement in automatic disease classification. This work proposes an anatomy-aware attention-based architecture named Anatomy X-Net, that prioritizes the spatial features guided by the pre-identified anatomy regions. We leverage a semi-supervised learning method using the JSRT dataset containing organ-level annotation to obtain the anatomical segmentation masks (for lungs and heart) for the NIH and CheXpert datasets. The proposed Anatomy X-Net uses the pre-trained DenseNet-121 as the backbone network with two corresponding structured modules, the Anatomy Aware Attention (AAA) and Probabilistic Weighted Average Pooling (PWAP), in a cohesive framework for anatomical attention learning. Our proposed method sets new state-of-the-art performance on the official NIH test set with an AUC score of 0.8439, proving the efficacy of utilizing the anatomy segmentation knowledge to improve the thoracic disease classification. Furthermore, the Anatomy X-Net yields an averaged AUC of 0.9020 on the Stanford CheXpert dataset, improving on existing methods that demonstrate the generalizability of the proposed framework.
翻訳日:2021-06-11 16:46:35 公開日:2021-06-10
# (参考訳) PARP:自己教師付き音声認識のためのプーン, 調整, 再プーン

PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition ( http://arxiv.org/abs/2106.05933v1 )

ライセンス: CC BY 4.0
Cheng-I Jeff Lai, Yang Zhang, Alexander H. Liu, Shiyu Chang, Yi-Lun Liao, Yung-Sung Chuang, Kaizhi Qian, Sameer Khurana, David Cox, James Glass(参考訳) 最近の音声自己教師付き学習(speech ssl)の研究は、並列データ制限付き自動音声認識(asr)のためのリッチで転送可能な表現の学習におけるスケールの利点を実証した。 そして、より優れた低リソースASR性能を実現することができる事前訓練された音声SSLモデルにおけるスパースおよびトランスファー可能なサブネットワークの存在を調査することは自然である。 しかし、LTH(Lottery Ticket hypothesis)のような広く採用されているプルーニング手法を直接適用することは、計算コストにおいて最適ではない。 さらに、LTHの予測に反して、発見されたサブネットは、元の高密度ネットワークと比較して最小の性能向上をもたらす。 本研究では,より優れたASR性能を実現するためにサブネットワークの探索と微調整を行う Prune-Adjust-Re-Prun e (PARP) を提案する。 PARPは、サブネットワークが事前トレーニングタスクで実行されているという驚くべき観察にインスパイアされ、下流のASRタスクで大きなパフォーマンス向上を達成するために、わずかに調整される必要がある。 低リソース英語と多言語ASRの広範な実験は、(1)訓練済み音声SSLにはスパースサブネットが存在し、(2)ベースラインプルーニング法よりも計算上の優位性と性能が向上していることを示している。 LMデコード無しの10min Librispeechスプリットでは、PARPはwav2vec 2.0からサブネットワークを発見し、完全なモデルに比べて10.9%/12.6%のWERが減少する。 PARPは,言語間マスキングにおける性能劣化を軽減し,単一のサブネットワークを1回の実行で10言語で発見する可能性を実証する。

Recent work on speech self-supervised learning (speech SSL) demonstrated the benefits of scale in learning rich and transferable representations for Automatic Speech Recognition (ASR) with limited parallel data. It is then natural to investigate the existence of sparse and transferrable subnetworks in pre-trained speech SSL models that can achieve even better low-resource ASR performance. However, directly applying widely adopted pruning methods such as the Lottery Ticket Hypothesis (LTH) is suboptimal in the computational cost needed. Moreover, contrary to what LTH predicts, the discovered subnetworks yield minimal performance gain compared to the original dense network. In this work, we propose Prune-Adjust- Re-Prune (PARP), which discovers and finetunes subnetworks for much better ASR performance, while only requiring a single downstream finetuning run. PARP is inspired by our surprising observation that subnetworks pruned for pre-training tasks only needed to be slightly adjusted to achieve a sizeable performance boost in downstream ASR tasks. Extensive experiments on low-resource English and multi-lingual ASR show (1) sparse subnetworks exist in pre-trained speech SSL, and (2) the computational advantage and performance gain of PARP over baseline pruning methods. On the 10min Librispeech split without LM decoding, PARP discovers subnetworks from wav2vec 2.0 with an absolute 10.9%/12.6% WER decrease compared to the full model. We demonstrate PARP mitigates performance degradation in cross-lingual mask transfer, and investigate the possibility of discovering a single subnetwork for 10 spoken languages in one run.
翻訳日:2021-06-11 16:28:13 公開日:2021-06-10
# (参考訳) 公平な正規化フロー [全文訳有]

Fair Normalizing Flows ( http://arxiv.org/abs/2106.05937v1 )

ライセンス: CC BY 4.0
Mislav Balunovi\'c, Anian Ruoss, Martin Vechev(参考訳) 公正表現学習は、センシティブなデータを符号化することで下流予測子の公平性を保証する魅力的なアプローチである。 残念なことに、近年の研究では、強い敵の予測器は、これらの表現から感度特性を回復することで、いまだに不公平であることを示した。 本研究では,FNF(Fair Normalizing Flows)という,学習表現に対する厳密な公正性を保証する新しい手法を提案する。 具体的には,感度群に対する確率密度を推定できる実用的な設定を考える。 鍵となる考え方は、異なる群の潜在表現間の統計的距離を最小化するために訓練された正規化フローとしてエンコーダをモデル化することである。 FNFの主な利点は、その正確な確率計算により、潜在的に逆下流予測器の最大不公平性の保証が得られることである。 我々は,FNFが様々なグループフェアネスの概念と,解釈可能性や伝達学習などの魅力的な特性を,様々な課題のある実世界のデータセット上で実施する効果を実験的に実証した。

Fair representation learning is an attractive approach that promises fairness of downstream predictors by encoding sensitive data. Unfortunately, recent work has shown that strong adversarial predictors can still exhibit unfairness by recovering sensitive attributes from these representations. In this work, we present Fair Normalizing Flows (FNF), a new approach offering more rigorous fairness guarantees for learned representations. Specifically, we consider a practical setting where we can estimate the probability density for sensitive groups. The key idea is to model the encoder as a normalizing flow trained to minimize the statistical distance between the latent representations of different groups. The main advantage of FNF is that its exact likelihood computation allows us to obtain guarantees on the maximum unfairness of any potentially adversarial downstream predictor. We experimentally demonstrate the effectiveness of FNF in enforcing various group fairness notions, as well as other attractive properties such as interpretability and transfer learning, on a variety of challenging real-world datasets.
翻訳日:2021-06-11 16:27:02 公開日:2021-06-10
# (参考訳) Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 [全文訳有]

Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold ( http://arxiv.org/abs/2106.05965v1 )

ライセンス: CC BY 4.0
Kieran Murphy, Carlos Esteves, Varun Jampani, Srikumar Ramalingam, Ameesh Makadia(参考訳) 単一画像のポーズ推定は多くの視覚やロボティクスのタスクにおいて基本的な問題であり、既存のディープラーニングアプローチは、完全にモデリングやハンドリングに苦しむ:i)予測の不確実性、i)複数の(時には無限)正しいポーズを持つ対称オブジェクト。 そこで本研究では,SO(3)上の任意の非パラメトリック分布を推定する手法を提案する。 私たちのキーとなるアイデアは、入力画像と候補ポーズの確率を推定するニューラルネットワークで、分布を暗黙的に表現することです。 グリッドサンプリングや勾配上昇は最も可能性の高いポーズを見つけるために用いられるが、任意のポーズで確率を評価することもでき、対称性や不確実性についての推論を可能にする。 これは多様体上の分布を表現する最も一般的な方法であり、豊かな表現力を示すために、対称でほぼ対称な物体のデータセットを導入する。 ポーズの不確実性に関する監督は必要ありません -- モデルでは、例毎に1つのポーズのみをトレーニングします。 それにもかかわらず、我々の暗黙のモデルは、3dポーズ上の複雑な分布を扱うために非常に表現力があり、標準の非曖昧な環境で正確なポーズ推定を得て、pascal3d+とmodelnet10-so(3)ベンチマークで最先端のパフォーマンスを達成しています。

Single image pose estimation is a fundamental problem in many vision and robotics tasks, and existing deep learning approaches suffer by not completely modeling and handling: i) uncertainty about the predictions, and ii) symmetric objects with multiple (sometimes infinite) correct poses. To this end, we introduce a method to estimate arbitrary, non-parametric distributions on SO(3). Our key idea is to represent the distributions implicitly, with a neural network that estimates the probability given the input image and a candidate pose. Grid sampling or gradient ascent can be used to find the most likely pose, but it is also possible to evaluate the probability at any pose, enabling reasoning about symmetries and uncertainty. This is the most general way of representing distributions on manifolds, and to showcase the rich expressive power, we introduce a dataset of challenging symmetric and nearly-symmetric objects. We require no supervision on pose uncertainty -- the model trains only with a single pose per example. Nonetheless, our implicit model is highly expressive to handle complex distributions over 3D poses, while still obtaining accurate pose estimation on standard non-ambiguous environments, achieving state-of-the-art performance on Pascal3D+ and ModelNet10-SO(3) benchmarks.
翻訳日:2021-06-11 16:03:53 公開日:2021-06-10
# (参考訳) 映像予測のための量子条件COT-GAN [全文訳有]

Quantized Conditional COT-GAN for Video Prediction ( http://arxiv.org/abs/2106.05658v1 )

ライセンス: CC BY 4.0
Tianlin Xu and Beatrice Acciaio(参考訳) 因果的最適輸送(COT)は、古典的最適輸送問題に時間的因果性制約を課し、経路空間上の分布間の距離の新しい概念を自然に生成する。 逐次学習にCOT理論を最初に応用したのは、Xuらである。 (2020)では,逐次データ生成に最適化された暗黙的生成モデルを学習するための逆アルゴリズムとしてCOT-GANを導入した。 Xuなどを参照。 (2020年)本論文の貢献は2倍である。 まず,シーケンス予測に適した条件付きCOT-GANを開発する。 これは、データセットが過去の進化の観察からシーケンスがどのように進化するかを学ぶために現在使用されていることを意味する。 第2に,backhoffらによる特定種類の量子化を通じて,経験的尺度の修正を行うことにより,収束結果を改善する。 (2020). 得られた量子化条件付きCOT-GANアルゴリズムをビデオ予測に応用した。

Causal Optimal Transport (COT) results from imposing a temporal causality constraint on classic optimal transport problems, which naturally generates a new concept of distances between distributions on path spaces. The first application of the COT theory for sequential learning was given in Xu et al. (2020), where COT-GAN was introduced as an adversarial algorithm to train implicit generative models optimized for producing sequential data. Relying on Xu et al. (2020), the contribution of the present paper is twofold. First, we develop a conditional version of COT-GAN suitable for sequence prediction. This means that the dataset is now used in order to learn how a sequence will evolve given the observation of its past evolution. Second, we improve on the convergence results by working with modifications of the empirical measures via a specific type of quantization due to Backhoff et al. (2020). The resulting quantized conditional COT-GAN algorithm is illustrated with an application for video prediction.
翻訳日:2021-06-11 15:11:02 公開日:2021-06-10
# 計画のためのベクトル量子化モデル

Vector Quantized Models for Planning ( http://arxiv.org/abs/2106.04615v2 )

ライセンス: Link先を確認
Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van den Oord, Oriol Vinyals(参考訳) モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。 しかし、そのような成功は決定論的完全観測環境に限定されている。 確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。 我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。 エージェントの動作と環境の応答を表す離散的潜在変数の両方を計画するためにモンテカルロ木探索の確率的変種を用いる。 本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。 また,大規模な視覚観察と部分観測が可能な1対1の3D環境であるDeepMind Labにアプローチを拡大することを示す。

Recent developments in the field of model-based RL have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic and partially-observable environments. Our key insight is to use discrete autoencoders to capture the multiple possible effects of an action in a stochastic environment. We use a stochastic variant of Monte Carlo tree search to plan over both the agent's actions and the discrete latent variables representing the environment's response. Our approach significantly outperforms an offline version of MuZero on a stochastic interpretation of chess where the opponent is considered part of the environment. We also show that our approach scales to DeepMind Lab, a first-person 3D environment with large visual observations and partial observability.
翻訳日:2021-06-11 14:49:30 公開日:2021-06-10
# 4次元人体運動のマルチフレームシーケンス生成

Multi-frame sequence generator of 4D human body motion ( http://arxiv.org/abs/2106.04387v2 )

ライセンス: Link先を確認
Marsot Mathieu, Wuhrer Stefanie, Franco Jean-Sebastien, Durocher Stephane(参考訳) 本研究では,時間的および空間的に密集した4次元人体運動の発生問題について検討する。 一方、メッシュ表現のような高密度な3次元モデルに対する時間枠の静的適合問題として生成モデルが広く研究されており、時間的側面は生成モデルから外されている。 一方、マーカーベースのキャプチャー表現のような疎密な人間のモデルには時間的生成モデルが存在するが、我々の知識は高密度な3次元形状に拡張されたわけではない。 本稿では,このギャップを生成的オートエンコーダベースのフレームワークで橋渡しし,形態,翻訳・回転を含む大域的ロコモーション,複数フレームの時間運動を単一潜在空間ベクトルとして符号化する。 一般化と因子化能力を評価するため、我々はAMASSの循環移動サブセットにモデルを訓練し、より広範囲なモーションキャプチャーを提供する高密度表面モデルを活用する。 本研究は,低誤差境界内における人間の移動の4次元配列の再構成と,異なる多フレーム配列と移動型を表す潜在ベクトル間の潜時空間補間の有用性を検証した。 また,最初のロコモーションフレームから将来のフレームを4次元人力で予測する手法の利点を説明し,人間の運動の現実的な時空間的特徴を学習するモデルに有望な能力を示す。 このモデルにより,空間的および時間的にスパースなデータの補完が可能となることを示す。

We examine the problem of generating temporally and spatially dense 4D human body motion. On the one hand generative modeling has been extensively studied as a per time-frame static fitting problem for dense 3D models such as mesh representations, where the temporal aspect is left out of the generative model. On the other hand, temporal generative models exist for sparse human models such as marker-based capture representations, but have not to our knowledge been extended to dense 3D shapes. We propose to bridge this gap with a generative auto-encoder-based framework, which encodes morphology, global locomotion including translation and rotation, and multi-frame temporal motion as a single latent space vector. To assess its generalization and factorization abilities, we train our model on a cyclic locomotion subset of AMASS, leveraging the dense surface models it provides for an extensive set of motion captures. Our results validate the ability of the model to reconstruct 4D sequences of human locomotions within a low error bound, and the meaningfulness of latent space interpolation between latent vectors representing different multi-frame sequences and locomotion types. We also illustrate the benefits of the approach for 4D human motion prediction of future frames from initial human locomotion frames, showing promising abilities of our model to learn realistic spatio-temporal features of human motion. We show that our model allows for data completion of both spatially and temporally sparse data.
翻訳日:2021-06-11 14:48:45 公開日:2021-06-10
# 位置保存注意による有能な物体ランク付け

Salient Object Ranking with Position-Preserved Attention ( http://arxiv.org/abs/2106.05047v2 )

ライセンス: Link先を確認
Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu, Deng Cai and Xiaofei He(参考訳) インスタンスセグメンテーションは、オブジェクトが画像のどこにいるかを検出するが、それらの関係を理解するのは難しい。 私たちは典型的な関係、相対的な正当性に注意を払う。 密接に関連するタスクであるsalient object detectionは、複数のオブジェクトを識別するのは難しいが、視覚的なsalient領域をハイライトするバイナリマップを予測する。 後処理による2つのタスクの直接結合もパフォーマンスの低下につながる。 現在、相対的正当性の研究が欠如しており、コンテンツ対応画像トリミング、ビデオ要約、画像ラベリングといった実用的応用が制限されている。 本稿では,検出された各対象の順位を視覚的な順に割り当てるsaient object ranking (sor)タスクについて検討する。 本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。 このフレームワークはインスタンスセグメンテーションと適切なオブジェクトランキングを同時に処理する。 このフレームワークでは、sorブランチは独立で柔軟性があり、異なる検出メソッドと連携できるため、プラグインとして簡単に使用できます。 また、SORブランチ用に調整されたPPAモジュールも導入する。 位置埋め込みステージと特徴相互作用ステージで構成される。 正当性比較における位置の重要性を考慮すると、ROIプーリング動作における物体の絶対座標を保存し、第1段階における意味的特徴と位置情報を融合する。 特徴対話の段階では,提案の文脈化表現の獲得に注意機構を適用し,相対的な順位の予測を行う。 ASRデータセットで大規模な実験が行われた。 ベルとホイッスルがなければ,提案手法は従来の最先端手法よりも優れる。 コードは一般公開される予定だ。

Instance segmentation can detect where the objects are in an image, but hard to understand the relationship between them. We pay attention to a typical relationship, relative saliency. A closely related task, salient object detection, predicts a binary map highlighting a visually salient region while hard to distinguish multiple objects. Directly combining two tasks by post-processing also leads to poor performance. There is a lack of research on relative saliency at present, limiting the practical applications such as content-aware image cropping, video summary, and image labeling. In this paper, we study the Salient Object Ranking (SOR) task, which manages to assign a ranking order of each detected object according to its visual saliency. We propose the first end-to-end framework of the SOR task and solve it in a multi-task learning fashion. The framework handles instance segmentation and salient object ranking simultaneously. In this framework, the SOR branch is independent and flexible to cooperate with different detection methods, so that easy to use as a plugin. We also introduce a Position-Preserved Attention (PPA) module tailored for the SOR branch. It consists of the position embedding stage and feature interaction stage. Considering the importance of position in saliency comparison, we preserve absolute coordinates of objects in ROI pooling operation and then fuse positional information with semantic features in the first stage. In the feature interaction stage, we apply the attention mechanism to obtain proposals' contextualized representations to predict their relative ranking orders. Extensive experiments have been conducted on the ASR dataset. Without bells and whistles, our proposed method outperforms the former state-of-the-art method significantly. The code will be released publicly available.
翻訳日:2021-06-11 14:48:22 公開日:2021-06-10
# 文脈帯域における固定予算ベストアーム同定:静的適応アルゴリズム

Fixed-Budget Best-Arm Identification in Contextual Bandits: A Static-Adaptive Algorithm ( http://arxiv.org/abs/2106.04763v2 )

ライセンス: Link先を確認
MohammadJavad Azizi, Branislav Kveton and Mohammad Ghavamzadeh(参考訳) 固定予算設定における文脈的バンディットにおけるbest-arm identification(bai)の問題について検討する。 段階的に進行し,各段階における最適アームの固定分数を除去できる汎用逐次除去アルゴリズムを提案する。 この設計は静的および適応的な割り当ての強みを生かしている。 このアルゴリズムを線形モデルで解析し,先行研究よりも優れた誤差境界を求める。 また,一般化線形モデル (glms) にも適用し,その誤差を限定した。 これは固定予算設定におけるGLMに対する最初のBAIアルゴリズムである。 我々の膨大な数値実験により、我々のアルゴリズムは芸術の状態を上回ります。

We study the problem of best-arm identification (BAI) in contextual bandits in the fixed-budget setting. We propose a general successive elimination algorithm that proceeds in stages and eliminates a fixed fraction of suboptimal arms in each stage. This design takes advantage of the strengths of static and adaptive allocations. We analyze the algorithm in linear models and obtain a better error bound than prior work. We also apply it to generalized linear models (GLMs) and bound its error. This is the first BAI algorithm for GLMs in the fixed-budget setting. Our extensive numerical experiments show that our algorithm outperforms the state of art.
翻訳日:2021-06-11 14:47:58 公開日:2021-06-10
# ベイジアンベルマン作用素

Bayesian Bellman Operators ( http://arxiv.org/abs/2106.05012v2 )

ライセンス: Link先を確認
Matthew Fellows, Kristian Hartikainen, Shimon Whiteson(参考訳) ベイズ強化学習(RL)の新たな視点を導入し、既存のアプローチでは遷移分布やQ-関数よりも後方を推測するが、ベルマン作用素の不確かさを特徴付ける。 当社のbayesian bellman operator(bbo)フレームワークは、ブートストラップが導入されたとき、モデルフリーアプローチが実際にベルマン演算子の後方を推測し、値関数ではないという洞察によって動機付けられたものです。 本稿では,BBOを用いてモデルフリーベイズRLの厳密な理論的解析を行い,その関係性をよりよく理解する。 ベイズ解は近似推論が使用されるときでさえ、頻繁な rl 解と一致し、収束性が成り立つ条件が導かれることが証明される。 実証的に、BBOフレームワークから派生したアルゴリズムは、最先端の正規化アクター批判アルゴリズムが破滅的に失敗する継続的制御タスクを解くことができる洗練された深層探査特性を持つことを示した。

We introduce a novel perspective on Bayesian reinforcement learning (RL); whereas existing approaches infer a posterior over the transition distribution or Q-function, we characterise the uncertainty in the Bellman operator. Our Bayesian Bellman operator (BBO) framework is motivated by the insight that when bootstrapping is introduced, model-free approaches actually infer a posterior over Bellman operators, not value functions. In this paper, we use BBO to provide a rigorous theoretical analysis of model-free Bayesian RL to better understand its relationshipto established frequentist RL methodologies. We prove that Bayesian solutions are consistent with frequentist RL solutions, even when approximate inference isused, and derive conditions for which convergence properties hold. Empirically, we demonstrate that algorithms derived from the BBO framework have sophisticated deep exploration properties that enable them to solve continuous control tasks at which state-of-the-art regularised actor-critic algorithms fail catastrophically
翻訳日:2021-06-11 14:47:51 公開日:2021-06-10
# 常にキャッチできる:シグネチャの有無に関わらず、逆のパッチ対象を検出する

We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature ( http://arxiv.org/abs/2106.05261v2 )

ライセンス: Link先を確認
Bin Liang and Jiachun Li and Jianjun Huang(参考訳) 近年,ディープラーニングに基づく物体検出は,敵パッチ攻撃に対して脆弱であることが証明されている。 特別に製作されたパッチを持った攻撃者は、物理的な世界でさえ最先端の人検知器、例えばYOLOから身を隠すことができる。 このような攻撃は、監視カメラから逃れるなど、深刻なセキュリティ上の脅威を引き起こす可能性がある。 本稿では,対象物検出に対する敵対的パッチ攻撃に対する検出問題について深く検討する。 まず、可視化説明の観点から、既存の敵パッチの活用可能なシグネチャを特定する。 高速シグネチャベースの防御手法を提案し,有効性を示した。 第2に,改良パッチ生成アルゴリズムの設計を行い,シグネチャベースの手法が将来出現する技術によってバイパスされるリスクを明らかにする。 新たに生成された敵パッチは、提案された署名ベースの防御を回避できる。 最後に,攻撃固有の事前知識ではなく,内部コンテンツセマンティクスの一貫性に基づく新たな署名非依存検出手法を提案する。 基本的直観は、対向物体が局所的に現れるが、入力画像で世界中に消えてしまうことである。 実験により,シグネチャ非依存手法が既存および改良された攻撃を効果的に検出できることが示されている。 また、攻撃固有の事前知識がなくても、予期せぬ攻撃やその他の種類の攻撃を検出する一般的な方法であることが証明されている。 提案する2つの検出方法は,異なるシナリオで適用可能であり,これらを組み合わせることで包括的に保護できると信じている。

Recently, the object detection based on deep learning has proven to be vulnerable to adversarial patch attacks. The attackers holding a specially crafted patch can hide themselves from the state-of-the-art person detectors, e.g., YOLO, even in the physical world. This kind of attack can bring serious security threats, such as escaping from surveillance cameras. In this paper, we deeply explore the detection problems about the adversarial patch attacks to the object detection. First, we identify a leverageable signature of existing adversarial patches from the point of the visualization explanation. A fast signature-based defense method is proposed and demonstrated to be effective. Second, we design an improved patch generation algorithm to reveal the risk that the signature-based way may be bypassed by the techniques emerging in the future. The newly generated adversarial patches can successfully evade the proposed signature-based defense. Finally, we present a novel signature-independen t detection method based on the internal content semantics consistency rather than any attack-specific prior knowledge. The fundamental intuition is that the adversarial object can appear locally but disappear globally in an input image. The experiments demonstrate that the signature-independen t method can effectively detect the existing and improved attacks. It has also proven to be a general method by detecting unforeseen and even other types of attacks without any attack-specific prior knowledge. The two proposed detection methods can be adopted in different scenarios, and we believe that combining them can offer a comprehensive protection.
翻訳日:2021-06-11 14:47:34 公開日:2021-06-10
# 構造スペクトル特徴とニューラルネットワークを用いた原理ハイパーエッジ予測

Principled Hyperedge Prediction with Structural Spectral Features and Neural Networks ( http://arxiv.org/abs/2106.04292v3 )

ライセンス: Link先を確認
Changlin Wan, Muhan Zhang, Wei Hao, Sha Cao, Pan Li, Chi Zhang(参考訳) hypergraphは、現実世界の複雑なデータの多角的関係を記述するフレームワークを提供する。 高次関係の予測、すなわちハイパーエッジは、複雑な相互作用を完全に理解するための根本的な問題となる。 グラフニューラルネットワーク(GNN)の開発は、対関係を持つ通常のグラフの解析を大幅に進歩させた。 しかし、これらの手法はハイパーグラフの場合に容易に拡張できない。 本稿では,エッジとノードレベルのあいまいさを原則として高次データを表現するgnnの課題を一般化する。 これらの課題を克服するために,2部グラフニューラルネットワークと構造的特徴を用いたSNALSを提案する。 SNALSは、その局所環境によってハイパーエッジの結合相互作用をキャプチャし、それらの接続のスペクトル情報を収集して取得する。 その結果、SNALSは最新のGNNモデルと比較して30%近い性能向上を達成した。 さらに,SNALSを用いて3次元ゲノム構造データ上での遺伝的高次相互作用を予測した。 SNALSは、異なる染色体間で一貫して高い予測精度を示し、既存の文献でさらに検証された4方向遺伝子相互作用の新しい発見を生んだ。

Hypergraph offers a framework to depict the multilateral relationships in real-world complex data. Predicting higher-order relationships, i.e hyperedge, becomes a fundamental problem for the full understanding of complicated interactions. The development of graph neural network (GNN) has greatly advanced the analysis of ordinary graphs with pair-wise relations. However, these methods could not be easily extended to the case of hypergraph. In this paper, we generalize the challenges of GNN in representing higher-order data in principle, which are edge- and node-level ambiguities. To overcome the challenges, we present SNALS that utilizes bipartite graph neural network with structural features to collectively tackle the two ambiguity issues. SNALS captures the joint interactions of a hyperedge by its local environment, which is retrieved by collecting the spectrum information of their connections. As a result, SNALS achieves nearly 30% performance increase compared with most recent GNN-based models. In addition, we applied SNALS to predict genetic higher-order interactions on 3D genome organization data. SNALS showed consistently high prediction accuracy across different chromosomes, and generated novel findings on 4-way gene interaction, which is further validated by existing literature.
翻訳日:2021-06-11 14:47:14 公開日:2021-06-10
# ソーシャルメディアを利用したCOVID-19パンデミックのサーベイランス:ノースカロライナ州におけるReddit調査

Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina ( http://arxiv.org/abs/2106.04515v3 )

ライセンス: Link先を確認
Christopher Whitfield, Yang Liu, Mohd Anwar(参考訳) 新型コロナウイルス(COVID-19)パンデミックは人々の生活や行動の様々な側面を変えてきた。 この段階では、マスクを着用したり、距離を観察したり、手を洗ったりといった緩和策を採用する以外に、病気の自然進行を制御する方法はない。 さらに、ソーシャルディスタンシングにおいて、ソーシャルメディアは人々をつなげ、感情を表現するためのプラットフォームを提供する上で重要な役割を果たす。 本研究では,ソーシャルメディアを活用し,緩和策と検出戦略の取組を調査し,パンデミックに関する問題や懸念を捉えた。 特に、研究課題として、「Redditの投稿で自然言語処理を使用することで、新型コロナウイルスのパンデミックに対する公衆の取り組みや懸念について、どの程度のことが学べるか? ノースカロライナの4大サブレディットコミュニティから6ヶ月にわたって新型コロナウイルス関連の投稿を抽出した後、ノイズの多いデータをきれいにするためにNLPベースの前処理を行いました。 redditコーパス上でトピックモデリングを行うために,独自の名前付きエンティティ認識 (ner) システムと潜在ディリクレ割り当て (lda) 方式を採用した。 我々は,「マスク」,「フル」,「テスト」が,「個人保護装置」,「症状」,「テスト」の各カテゴリーにおいて,最も多い名義であることを示した。 また、最も議論されたトピックは、テスト、マスク、雇用に関連することも確認した。 緩和策は、すべてのサブredditで最も一般的な議論テーマである。

Coronavirus disease (COVID-19) pandemic has changed various aspects of people's lives and behaviors. At this stage, there are no other ways to control the natural progression of the disease than adopting mitigation strategies such as wearing masks, watching distance, and washing hands. Moreover, at this time of social distancing, social media plays a key role in connecting people and providing a platform for expressing their feelings. In this study, we tap into social media to surveil the uptake of mitigation and detection strategies, and capture issues and concerns about the pandemic. In particular, we explore the research question, "how much can be learned regarding the public uptake of mitigation strategies and concerns about COVID-19 pandemic by using natural language processing on Reddit posts?" After extracting COVID-related posts from the four largest subreddit communities of North Carolina over six months, we performed NLP-based preprocessing to clean the noisy data. We employed a custom Named-entity Recognition (NER) system and a Latent Dirichlet Allocation (LDA) method for topic modeling on a Reddit corpus. We observed that 'mask', 'flu', and 'testing' are the most prevalent named-entities for "Personal Protective Equipment", "symptoms", and "testing" categories, respectively. We also observed that the most discussed topics are related to testing, masks, and employment. The mitigation measures are the most prevalent theme of discussion across all subreddits.
翻訳日:2021-06-11 14:46:57 公開日:2021-06-10
# 単一サーバのプライベートリニア変換: 共同プライバシケース

Single-Server Private Linear Transformation: The Joint Privacy Case ( http://arxiv.org/abs/2106.05220v2 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では,プライベート情報検索とプライベート線形計算の問題を一般化するPLT(Private Linear Transformation)の問題を紹介する。 PLTの問題には、1つ以上のリモートサーバが$K$メッセージを格納している(IDコピー)ことと、$D$サブセットの独立線形結合を$L$で計算したいユーザが含まれている。 ユーザの目的は、サーバから最小限の情報量をダウンロードし、計算に必要な$D$メッセージのIDを保護することで、計算を実行することである。 本研究では,計算に必要な$D$メッセージのIDを共同で保護しなければならない場合,PLT問題の単一サーバ設定に焦点を当てる。 必要となる$L$線形結合の係数行列が最大距離分離(MDS)符号を生成するかどうかによって、2つの異なるモデルを考える。 両方のモデルのキャパシティは$l/(k-d+l)$で与えられることが証明され、キャパシティはすべての実行可能ダウンロード率の上限として定義される。 逆証明は、線形代数的および情報理論的議論に基づいて、PLTスキームと線形符号の接続を確立する。 また、検討中の各モデルに対する達成可能性スキームも提示する。

This paper introduces the problem of Private Linear Transformation (PLT) which generalizes the problems of private information retrieval and private linear computation. The PLT problem includes one or more remote server(s) storing (identical copies of) $K$ messages and a user who wants to compute $L$ independent linear combinations of a $D$-subset of messages. The objective of the user is to perform the computation by downloading minimum possible amount of information from the server(s), while protecting the identities of the $D$ messages required for the computation. In this work, we focus on the single-server setting of the PLT problem when the identities of the $D$ messages required for the computation must be protected jointly. We consider two different models, depending on whether the coefficient matrix of the required $L$ linear combinations generates a Maximum Distance Separable (MDS) code. We prove that the capacity for both models is given by $L/(K-D+L)$, where the capacity is defined as the supremum of all achievable download rates. Our converse proofs are based on linear-algebraic and information-theoreti c arguments that establish connections between PLT schemes and linear codes. We also present an achievability scheme for each of the models being considered.
翻訳日:2021-06-11 14:46:33 公開日:2021-06-10
# シングルサーバのプライベートリニアトランスフォーメーション:個人のプライバシケース

Single-Server Private Linear Transformation: The Individual Privacy Case ( http://arxiv.org/abs/2106.05222v2 )

ライセンス: Link先を確認
Anoosheh Heidarzadeh, Nahid Esmati, and Alex Sprintson(参考訳) 本稿では、個々のプライバシ保証を伴うシングルサーバのプライベートリニアトランスフォーメーション(PLT)問題を考察する。 この問題では、単一のサーバに格納された$K$メッセージのデータセットに属する$D$サブセットの独立線形結合を$L$で取得したいユーザが存在する。 目標は、計算に必要な各メッセージのアイデンティティを個別にプライベートに保ちながら、ダウンロードコストを最小限にすることである。 個々のプライバシー要件は、計算に必要な個々のメッセージのidがプライベートに保持されることを保証する。 これは、これらのアイデンティティ間の相関を含む計算に使用されるすべてのメッセージのアイデンティティ全体を保護する、共同プライバシーというより厳密な概念とは対照的である。 個人のプライバシーの概念は、幅広い実用的応用を捉えている。 例えば、データセットには個人に関する情報が含まれており、それぞれがデータアクセスパターンに対してプライバシーを保証する必要があります。 本稿では,必要線形変換を最大距離分離行列(MDS)に関連付ける設定に着目する。 特に、必要線形結合に関連する係数の行列がMDS符号の生成行列であることが要求される。 個々のプライバシに関して、pltの容量の上限を低く設定し、その容量をすべての達成可能なダウンロード率の上限と定義します。 一定の条件下では境界が固いことを示す。

This paper considers the single-server Private Linear Transformation (PLT) problem with individual privacy guarantees. In this problem, there is a user that wishes to obtain $L$ independent linear combinations of a $D$-subset of messages belonging to a dataset of $K$ messages stored on a single server. The goal is to minimize the download cost while keeping the identity of each message required for the computation individually private. The individual privacy requirement ensures that the identity of each individual message required for the computation is kept private. This is in contrast to the stricter notion of joint privacy that protects the entire set of identities of all messages used for the computation, including the correlations between these identities. The notion of individual privacy captures a broad set of practical applications. For example, such notion is relevant when the dataset contains information about individuals, each of them requires privacy guarantees for their data access patterns. We focus on the setting in which the required linear transformation is associated with a maximum distance separable (MDS) matrix. In particular, we require that the matrix of coefficients pertaining to the required linear combinations is the generator matrix of an MDS code. We establish lower and upper bounds on the capacity of PLT with individual privacy, where the capacity is defined as the supremum of all achievable download rates. We show that our bounds are tight under certain conditions.
翻訳日:2021-06-11 14:46:11 公開日:2021-06-10
# ImaginE: 自然言語生成のためのイマジネーションに基づく自動評価指標

ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation ( http://arxiv.org/abs/2106.05970v1 )

ライセンス: Link先を確認
Wanrong Zhu, Xin Eric Wang, An Yan, Miguel Eckstein, William Yang Wang(参考訳) 自然言語生成(nlg)の自動評価は、通常、トークンレベルや埋め込みレベルの比較に依存する。 これは、視覚の想像力がしばしば理解を改善する人間の言語処理とは異なる。 本稿では,自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 clipとdall-eの助けを借りて,テキストスニペットの具体化された想像力としてイメージを自動的に生成し,文脈埋め込みを用いて想像の類似性を計算する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることで、NLG評価にマルチモーダル情報を導入する大きな可能性を示し、多くの状況において人間の類似性判定と既存の自動メトリクスの相関性を改善することが示されている。

Automatic evaluations for natural language generation (NLG) conventionally rely on token-level or embedding-level comparisons with the text references. This is different from human language processing, for which visual imaginations often improve comprehension. In this work, we propose ImaginE, an imagination-based automatic evaluation metric for natural language generation. With the help of CLIP and DALL-E, two cross-modal models pre-trained on large-scale image-text pairs, we automatically generate an image as the embodied imagination for the text snippet and compute the imagination similarity using contextual embeddings. Experiments spanning several text generation tasks demonstrate that adding imagination with our ImaginE displays great potential in introducing multi-modal information into NLG evaluation, and improves existing automatic metrics' correlations with human similarity judgments in many circumstances.
翻訳日:2021-06-11 14:45:51 公開日:2021-06-10
# モデルランキングの堅牢性:平等評価のためのリーダーボードカスタマイズアプローチ

How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation ( http://arxiv.org/abs/2106.05532v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar(参考訳) トップのリーダーボードが現実世界のアプリケーションにデプロイするとき、しばしば不満足に機能するモデルです。 私たちのリーダーボードは、公平な評価をしていますか? 本稿では,その「難易度」に基づいてサンプルを重み付けすることで,リーダボードを探索するタスク非依存手法を提案する。 リーダーボードは敵対的に攻撃され、トップパフォーマンスモデルが必ずしも最良のモデルであるとは限らない。 その後,代替評価指標を提案する。 10モデルに関する我々の実験では、モデルランキングの変更と、以前報告したパフォーマンスの全体的な削減が示されています。 行動テストの原則に触発されて、エンドユーザーの焦点領域に基づいて、カスタマイズによるリーダーボードの改良を可能にするビジュアル分析ツールのプロトタイプをさらに開発する。 これにより、ユーザはモデルの強みと弱みを分析し、アプリケーションシナリオに最も適したモデルを選択するのに役立ちます。 ユーザスタディでは、5つのフォーカス領域をカバーするさまざまな商用製品開発チームのメンバーが、プロトタイプがデプロイ前の開発とテストの労力を平均で41%削減できることを発見しました。

Models that top leaderboards often perform unsatisfactorily when deployed in real world applications; this has necessitated rigorous and expensive pre-deployment model testing. A hitherto unexplored facet of model performance is: Are our leaderboards doing equitable evaluation? In this paper, we introduce a task-agnostic method to probe leaderboards by weighting samples based on their `difficulty' level. We find that leaderboards can be adversarially attacked and top performing models may not always be the best models. We subsequently propose alternate evaluation metrics. Our experiments on 10 models show changes in model ranking and an overall reduction in previously reported performance -- thus rectifying the overestimation of AI systems' capabilities. Inspired by behavioral testing principles, we further develop a prototype of a visual analytics tool that enables leaderboard revamping through customization, based on an end user's focus area. This helps users analyze models' strengths and weaknesses, and guides them in the selection of a model best suited for their application scenario. In a user study, members of various commercial product development teams, covering 5 focus areas, find that our prototype reduces pre-deployment development and testing effort by 41% on average.
翻訳日:2021-06-11 14:45:38 公開日:2021-06-10
# 暗黙Hateの解読:マルチモーダルHateの自動検出アルゴリズムの評価

Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for Multimodal Hate ( http://arxiv.org/abs/2106.05903v1 )

ライセンス: Link先を確認
Austin Botelho and Bertie Vidgen and Scott A. Hale(参考訳) オンライン憎しみの正確な検出と分類は難しい課題である。 暗黙的な憎しみは特に困難であり、そのような内容は異常な構文、多義語、偏見のマーカー(例えばスラリー)が少ない傾向がある。 この問題は、ミーム(テキストと画像の組み合わせ)のようなマルチモーダルコンテンツによって高められ、ユニモーダルコンテンツ(例えば、テキストのみ)よりも解読が難しいことが多い。 本稿では,暗黙的かつ明示的な憎悪を検出するための意味的・マルチモーダル的文脈の役割を評価する。 テキストおよびビジュアルエンリッチメントの両方がモデル性能を向上させることを示し、マルチモーダルモデル(0.771)は他のモデルのF1スコア(0.544、0.737、0.754)を上回っている。 unimodal-text context-aware (transformer) モデルは暗黙のヘイト検出のサブタスクにおいて最も正確であったが、マルチモーダルモデルは偽陽性に対する傾向が低かったため、全体としてはそれを上回った。 すべてのモデルが完全なアノテータ契約でコンテンツ上でより優れた性能を発揮しており、マルチモーダルモデルはアノテータが同意しないコンテントの分類に最適である。 これらの調査を行うために,5000個のマルチモーダルエントリのサンプルの高品質なアノテーションを行った。 ツイートは主要カテゴリー、モダリティ、戦略に注釈が付された。 このコーパスは、コードブック、コード、最終的なモデルとともに、自由に利用できます。

Accurate detection and classification of online hate is a difficult task. Implicit hate is particularly challenging as such content tends to have unusual syntax, polysemic words, and fewer markers of prejudice (e.g., slurs). This problem is heightened with multimodal content, such as memes (combinations of text and images), as they are often harder to decipher than unimodal content (e.g., text alone). This paper evaluates the role of semantic and multimodal context for detecting implicit and explicit hate. We show that both text- and visual- enrichment improves model performance, with the multimodal model (0.771) outperforming other models' F1 scores (0.544, 0.737, and 0.754). While the unimodal-text context-aware (transformer) model was the most accurate on the subtask of implicit hate detection, the multimodal model outperformed it overall because of a lower propensity towards false positives. We find that all models perform better on content with full annotator agreement and that multimodal models are best at classifying the content where annotators disagree. To conduct these investigations, we undertook high-quality annotation of a sample of 5,000 multimodal entries. Tweets were annotated for primary category, modality, and strategy. We make this corpus, along with the codebook, code, and final model, freely available.
翻訳日:2021-06-11 14:45:21 公開日:2021-06-10
# 非有界データスコアのスコアマッチングモデル

Score Matching Model for Unbounded Data Score ( http://arxiv.org/abs/2106.05527v1 )

ライセンス: Link先を確認
Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, Il-Chul Moon(参考訳) スコアベースモデルの最近の進歩は、確率微分方程式(SDE)を取り入れ、画像生成タスクにおける最先端技術性能をもたらす。 本稿では,ゼロ摂動雑音におけるモデルを解析することで,スコアベースモデルを改善する。 実際のデータセットでは、摂動ノイズ(\sigma$)がゼロになるにつれてスコア関数が分岐し、この観測は、どのニューラルネットワーク構造でもスコア推定は$\sigma=0$で失敗するという議論を導く。 次に, ノイズ条件付きスコアネットワーク(UNCSN)を導入し, ノイズ条件付きスコアベースモデルに容易に適用可能な変更を加えることで, スコアのばらつきを解消する。 さらに,新しいタイプのSDEを導入し,新たに提案したSDEから正確なログ確率を計算する。 さらに,ミニバッチにおける損失不均衡問題を軽減するとともに,提案する損失に関する理論的解析を行い,スコアベースモデルによるデータ分散モデリングの背後にあるメカニズムを明らかにする。

Recent advance in score-based models incorporates the stochastic differential equation (SDE), which brings the state-of-the art performance on image generation tasks. This paper improves such score-based models by analyzing the model at the zero perturbation noise. In real datasets, the score function diverges as the perturbation noise ($\sigma$) decreases to zero, and this observation leads an argument that the score estimation fails at $\sigma=0$ with any neural network structure. Subsequently, we introduce Unbounded Noise Conditional Score Network (UNCSN) that resolves the score diverging problem with an easily applicable modification to any noise conditional score-based models. Additionally, we introduce a new type of SDE, so the exact log likelihood can be calculated from the newly suggested SDE. On top of that, the associated loss function mitigates the loss imbalance issue in a mini-batch, and we present a theoretic analysis on the proposed loss to uncover the behind mechanism of the data distribution modeling by the score-based models.
翻訳日:2021-06-11 14:44:57 公開日:2021-06-10
# ローカルサーロゲート解説者のための説明目的定義の見過ごされた課題について

On the overlooked issue of defining explanation objectives for local-surrogate explainers ( http://arxiv.org/abs/2106.05810v1 )

ライセンス: Link先を確認
Rafael Poyiadzi, Xavier Renard, Thibault Laugel, Raul Santos-Rodriguez, Marcin Detyniecki(参考訳) 機械学習モデル予測を説明するローカルサロゲートアプローチは、モデルに依存しず、モデリングにおいて柔軟であるなど、魅力的な特性を持っている。 この記述に適合し、この目標を共有するいくつかの方法が存在する。 しかし、共通の全体的な手順にもかかわらず、彼らは異なる目的を設定し、ブラックボックスから異なる情報を抽出し、その結果、一般に比較不能な多様な説明を生み出した。 本稿では,複数の手法間の類似点と相違点を概観し,モデルから抽出した情報に特に焦点をあてる。 我々は,説明可能性の研究と実践に関する方法の目的の中で,合意の欠如,明快さの欠如の意義について論じる。

Local surrogate approaches for explaining machine learning model predictions have appealing properties, such as being model-agnostic and flexible in their modelling. Several methods exist that fit this description and share this goal. However, despite their shared overall procedure, they set out different objectives, extract different information from the black-box, and consequently produce diverse explanations, that are -- in general -- incomparable. In this work we review the similarities and differences amongst multiple methods, with a particular focus on what information they extract from the model, as this has large impact on the output: the explanation. We discuss the implications of the lack of agreement, and clarity, amongst the methods' objectives on the research and practice of explainability.
翻訳日:2021-06-11 14:44:40 公開日:2021-06-10
# 時間・物体定量化ネットワーク

Temporal and Object Quantification Networks ( http://arxiv.org/abs/2106.05891v1 )

ライセンス: Link先を確認
Jiayuan Mao, Zhezheng Luo, Chuang Gan, Joshua B. Tenenbaum, Jiajun Wu, Leslie Pack Kaelbling, Tomer D. Ullman(参考訳) 本稿では, 時間的・物体的量化ネットワーク(TOQ-Nets)について述べる。これは, 複雑な関係時間的事象を認識できるように, 構造的バイアスを持つニューロシンボリックネットワークの新たなクラスである。 これは、オブジェクトと時間にわたって有限領域の定量化を実装する層を含むことによって行われる。 この構造により、異なる長さの時間列のオブジェクトの数が異なる入力インスタンスに直接一般化することができる。 複雑な時間関係パターンを用いてイベントタイプを認識する入力領域におけるtoq-netの評価を行う。 toq-netは少量のデータから、トレーニング中に存在し、入力シーケンスの時間的ワーピングよりも多くのオブジェクトを含むシナリオに一般化できることを実証する。

We present Temporal and Object Quantification Networks (TOQ-Nets), a new class of neuro-symbolic networks with a structural bias that enables them to learn to recognize complex relational-temporal events. This is done by including reasoning layers that implement finite-domain quantification over objects and time. The structure allows them to generalize directly to input instances with varying numbers of objects in temporal sequences of varying lengths. We evaluate TOQ-Nets on input domains that require recognizing event-types in terms of complex temporal relational patterns. We demonstrate that TOQ-Nets can generalize from small amounts of data to scenarios containing more objects than were present during training and to temporal warpings of input sequences.
翻訳日:2021-06-11 14:44:29 公開日:2021-06-10
# 変形性股関節症自動評価のための関節ランドマークと構造学習

Joint Landmark and Structure Learning for Automatic Evaluation of Developmental Dysplasia of the Hip ( http://arxiv.org/abs/2106.05458v1 )

ライセンス: Link先を確認
Xindi Hu, Limin Wang, Xin Yang, Xu Zhou, Wufeng Xue, Yan Cao, Shengfeng Liu, Yuhao Huang, Shuangping Guo, Ning Shang, Dong Ni, and Ning Gu(参考訳) 乳児股関節の超音波(US)スクリーニングは、発達性股関節異形成症(DDH)の早期診断に不可欠である。 DDHの米国診断は、股関節の発達を定量化するα角とβ角を測定することである。 これらの2つの角度は、重要な解剖学的ランドマークと股関節の構造から計算される。 しかし、この測定プロセスはソノグラフィーにとって簡単なものではなく、通常は複雑な解剖学的構造を徹底的に理解する必要がある。 本研究では,ランドマークと構造物間の関係を共同で学習し,DDHを自動評価するマルチタスクフレームワークを提案する。 我々のマルチタスクネットワークは3つの新しいモジュールを備えている。 まず,Mask R-CNNを鍵解剖学的構造を検出し,セグメント化するための基本フレームワークとして採用し,新しいマルチタスクフレームワークを形成するために,ランドマーク検出ブランチを1つ追加する。 次に,不完全解剖学的構造予測をロバストかつ精度良く洗練するために,新しい形状類似性損失を提案する。 第3に、セグメント構造と検出されたランドマークから推定されるボニーリムの整合性を確保するために、ランドマーク構造をさらに一貫した形で組み込む。 実験では,632例の乳児股関節の1,231 us画像が収集され,そのうち116例の247画像が検査された。 アルファ角とベータ角の平均誤差は2.221度と2.899度である。 アルファ角とベータ角の93%と85%は、それぞれ5度未満の誤差があると見積もっている。 実験の結果,ddhの自動評価を高精度かつロバストに実現でき,臨床応用の可能性も示唆された。

The ultrasound (US) screening of the infant hip is vital for the early diagnosis of developmental dysplasia of the hip (DDH). The US diagnosis of DDH refers to measuring alpha and beta angles that quantify hip joint development. These two angles are calculated from key anatomical landmarks and structures of the hip. However, this measurement process is not trivial for sonographers and usually requires a thorough understanding of complex anatomical structures. In this study, we propose a multi-task framework to learn the relationships among landmarks and structures jointly and automatically evaluate DDH. Our multi-task networks are equipped with three novel modules. Firstly, we adopt Mask R-CNN as the basic framework to detect and segment key anatomical structures and add one landmark detection branch to form a new multi-task framework. Secondly, we propose a novel shape similarity loss to refine the incomplete anatomical structure prediction robustly and accurately. Thirdly, we further incorporate the landmark-structure consistent prior to ensure the consistency of the bony rim estimated from the segmented structure and the detected landmark. In our experiments, 1,231 US images of the infant hip from 632 patients are collected, of which 247 images from 126 patients are tested. The average errors in alpha and beta angles are 2.221 degrees and 2.899 degrees. About 93% and 85% estimates of alpha and beta angles have errors less than 5 degrees, respectively. Experimental results demonstrate that the proposed method can accurately and robustly realize the automatic evaluation of DDH, showing great potential for clinical application.
翻訳日:2021-06-11 14:44:18 公開日:2021-06-10
# DUET:スキャンまたはキャプチャド文書中のテキストの強調を利用した検出

DUET: Detection Utilizing Enhancement for Text in Scanned or Captured Documents ( http://arxiv.org/abs/2106.05542v1 )

ライセンス: Link先を確認
Eun-Soo Jung, HyeongGwan Son, Kyusam Oh, Yongkeun Yun, Soonhwan Kwon, Min Soo Kim(参考訳) 文書画像におけるテキスト検出のための新しいディープニューラルネットワークを提案する。 ノイズの多いスキャン文書におけるロバストテキスト検出には、テキスト強調の補助タスクを追加することでマルチタスク学習の利点を活用できる。 すなわち,提案モデルでは,雑音低減とテキスト領域拡張とテキスト検出を行うように設計されている。 さらに,テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させ,ラベル付き文書画像データの不十分さを克服する。 合成データと実データを効果的に利用するために、トレーニングプロセスは2つのフェーズに分けられる。 第1フェーズは、完全に監督された方法で合成データのみをトレーニングする。 そして、第2フェーズに検出ラベルのみを持つ実データを追加する。 実データに対する強化タスクは、その検出ラベルからの情報を弱く管理する。 提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。 さらに, アブレーションを行い, 結果から, 合成データ, 補助タスク, 弱スーパービジョンの有効性が確認された。 既存のテキスト検出研究は主にシーンのテキストに焦点を当てているが,本手法はスキャンした文書のテキストに最適化されている。

We present a novel deep neural model for text detection in document images. For robust text detection in noisy scanned documents, the advantages of multi-task learning are adopted by adding an auxiliary task of text enhancement. Namely, our proposed model is designed to perform noise reduction and text region enhancement as well as text detection. Moreover, we enrich the training data for the model with synthesized document images that are fully labeled for text detection and enhancement, thus overcome the insufficiency of labeled document image data. For the effective exploitation of the synthetic and real data, the training process is separated in two phases. The first phase is training only synthetic data in a fully-supervised manner. Then real data with only detection labels are added in the second phase. The enhancement task for the real data is weakly-supervised with information from their detection labels. Our methods are demonstrated in a real document dataset with performances exceeding those of other text detection methods. Moreover, ablations are conducted and the results confirm the effectiveness of the synthetic data, auxiliary task, and weak-supervision. Whereas the existing text detection studies mostly focus on the text in scenes, our proposed method is optimized to the applications for the text in scanned documents.
翻訳日:2021-06-11 14:43:54 公開日:2021-06-10
# ほぼ線形時間における階層的凝集グラフクラスタリング

Hierarchical Agglomerative Graph Clustering in Nearly-Linear Time ( http://arxiv.org/abs/2106.05610v1 )

ライセンス: Link先を確認
Laxman Dhulipala, David Eisenstat, Jakub {\L}\k{a}cki, Vahab Mirrokni, Jessica Shi(参考訳) エッジ重み付きグラフ上での階層的凝集クラスタリング(HAC)アルゴリズムについて検討する。 我々は階層的凝集グラフクラスタリングのためのアルゴリズムフレームワークを定義し、完全リンクやwngmaリンクなどの古典的なリンケージ測度のための最初の効率的な$\tilde{o}(m)$時間厳密なアルゴリズムを提供する。 さらに、hacの最も一般的な変種である平均リンクに対して、$\tilde{o}(n\sqrt{m})$ timeで動作するアルゴリズムを提供する。 この変種に対して、これは、ある定数 $\epsilon > 0$ に対して$m=n^{2-\epsilon}$ の四進時間で実行される最初の正確なアルゴリズムである。 私たちは、$\tilde{o}(m)$時間で実行されるフレームワークの平均リンクに対して、単純な$\epsilon$-close approximationアルゴリズムでこの結果を補完します。 アルゴリズムの適用例として、まず$k$-NNを用いて、点集合からグラフを生成し、その結果の重み付きグラフ上でアルゴリズムを実行することで、計量空間内のクラスタリングポイントを考察する。 公開データセット上でのアルゴリズムの性能を検証し,20.7~76.5倍の速度でポイントデータセットのクラスタリングを高速化できることを示す。

We study the widely used hierarchical agglomerative clustering (HAC) algorithm on edge-weighted graphs. We define an algorithmic framework for hierarchical agglomerative graph clustering that provides the first efficient $\tilde{O}(m)$ time exact algorithms for classic linkage measures, such as complete- and WPGMA-linkage, as well as other measures. Furthermore, for average-linkage, arguably the most popular variant of HAC, we provide an algorithm that runs in $\tilde{O}(n\sqrt{m})$ time. For this variant, this is the first exact algorithm that runs in subquadratic time, as long as $m=n^{2-\epsilon}$ for some constant $\epsilon > 0$. We complement this result with a simple $\epsilon$-close approximation algorithm for average-linkage in our framework that runs in $\tilde{O}(m)$ time. As an application of our algorithms, we consider clustering points in a metric space by first using $k$-NN to generate a graph from the point set, and then running our algorithms on the resulting weighted graph. We validate the performance of our algorithms on publicly available datasets, and show that our approach can speed up clustering of point datasets by a factor of 20.7--76.5x.
翻訳日:2021-06-11 14:43:38 公開日:2021-06-10
# 不均衡半教師付き学習のための分布対応セマンティックス指向擬似ラベル

Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2106.05682v1 )

ライセンス: Link先を確認
Youngtaek Oh, Dong-Jin Kim, In So Kweon(参考訳) 従来の半教師あり学習法(SSL)は,(1)クラス不均衡を考慮せず,(2)ラベル付きデータと未ラベルデータ間のクラス分布ミスマッチを考慮していないため,実世界の応用には程遠い。 本稿では, 比較的未探索な半教師付き学習において, 擬似ラベルの偏りがモデル性能に悪影響を及ぼすような問題に対処する。 興味深いことに、類似性に基づく特徴空間の分類器からの意味的擬似ラベルと、線形分類器からの伝統的な擬似ラベルは相補性を示す。 そこで本研究では,この観測によって動機付けられたバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。 鍵となる考え方は、現在の擬似ラベル分布に応じて、意味的擬似ラベルを線形にクラス適応的にブレンドすることである。 これにより、セマンティクス擬似ラベル成分の増加は、多数派クラスの偽陽性を抑制し、その逆も抑制される。 不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Awa re Semantics-Oriented Pseudo-label)と呼ぶ。 CIFAR10/100-LTとSTL10-LTの広範囲な評価は、DASOが最近提案したラベルと擬似ラベルの再バランス法よりも一貫して優れていることを示している。 さらに,(1)クラス不均衡や(2)クラス分布ミスマッチが存在する場合,および最近の実世界のSemi-Avesベンチマークにおいても,一般的なSSLアルゴリズムはDASOでラベル付けされていないデータを効果的に活用できることを示す。

The capability of the traditional semi-supervised learning (SSL) methods is far from real-world application since they do not consider (1) class imbalance and (2) class distribution mismatch between labeled and unlabeled data. This paper addresses such a relatively under-explored problem, imbalanced semi-supervised learning, where heavily biased pseudo-labels can harm the model performance. Interestingly, we find that the semantic pseudo-labels from a similarity-based classifier in feature space and the traditional pseudo-labels from the linear classifier show the complementary property. To this end, we propose a general pseudo-labeling framework to address the bias motivated by this observation. The key idea is to class-adaptively blend the semantic pseudo-label to the linear one, depending on the current pseudo-label distribution. Thereby, the increased semantic pseudo-label component suppresses the false positives in the majority classes and vice versa. We term the novel pseudo-labeling framework for imbalanced SSL as Distribution-Aware Semantics-Oriented (DASO) Pseudo-label. Extensive evaluation on CIFAR10/100-LT and STL10-LT shows that DASO consistently outperforms both recently proposed re-balancing methods for label and pseudo-label. Moreover, we demonstrate that typical SSL algorithms can effectively benefit from unlabeled data with DASO, especially when (1) class imbalance and (2) class distribution mismatch exist and even on recent real-world Semi-Aves benchmark.
翻訳日:2021-06-11 14:43:16 公開日:2021-06-10
# メディカルセグメンテーションの宣言

The Medical Segmentation Decathlon ( http://arxiv.org/abs/2106.05735v1 )

ライセンス: Link先を確認
Michela Antonelli, Annika Reinke, Spyridon Bakas, Keyvan Farahani, AnnetteKopp-Schneide r, Bennett A. Landman, Geert Litjens, Bjoern Menze, Olaf Ronneberger, Ronald M.Summers, Bram van Ginneken, Michel Bilello, Patrick Bilic, Patrick F. Christ, Richard K. G. Do, Marc J. Gollub, Stephan H. Heckers, Henkjan Huisman, William R. Jarnagin, Maureen K. McHugo, Sandy Napel, Jennifer S. Goli Pernicka, Kawal Rhode, Catalina Tobon-Gomez, Eugene Vorontsov, Henkjan Huisman, James A. Meakin, Sebastien Ourselin, Manuel Wiesenfarth, Pablo Arbelaez, Byeonguk Bae, Sihong Chen, Laura Daza, Jianjiang Feng, Baochun He, Fabian Isensee, Yuanfeng Ji, Fucang Jia, Namkug Kim, Ildoo Kim, Dorit Merhof, Akshay Pai, Beomhee Park, Mathias Perslev, Ramin Rezaiifar, Oliver Rippel, Ignacio Sarasua, Wei Shen, Jaemin Son, Christian Wachinger, Liansheng Wang, Yan Wang, Yingda Xia, Daguang Xu, Zhanwei Xu, Yefeng Zheng, Amber L. Simpson, Lena Maier-Hein, M. Jorge Cardoso(参考訳) 特定のタスクが与えられた画像解析アルゴリズムの比較評価において、国際的な課題がデファクトスタンダードになっている。 セグメンテーションは、現在最も広く研究されている医療画像処理タスクであるが、様々なセグメンテーションの課題は、アルゴリズム開発が単一の特定の臨床問題に取り組む必要性によって引き起こされるように、通常孤立して組織化されている。 我々は、複数のタスクでうまく動作可能なメソッドが、これまで見つからなかったタスクにうまく一般化し、カスタム設計のソリューションより優れていると仮定した。 この仮説を考察するために,我々は,アルゴリズムが複数のタスクとモダリティで競合するバイオメディカル画像解析の課題であるMSD(Medicial Segmentation Decathlon)を組織した。 基礎となるデータセットは、小さなデータセット、バランスの取れていないラベル、マルチサイトデータ、小さなオブジェクトなどの医療画像を扱う際に発生する問題軸を探索するために設計された。 MSDの課題は、一連のタスクで一貫した優れたパフォーマンスを持つアルゴリズムが、これまで見つからなかったタスクの異なるセットで平均的なパフォーマンスを保ったことを確認した。 さらに,MSDの勝者を2年間監視することで,このアルゴリズムが他の幅広い臨床問題にも適用され続けており,さらに仮説が裏付けられている。 本研究から得られた3つの結論は,(1)最先端画像分割アルゴリズムが成熟し,精度が高く,未熟なタスクで再訓練した場合の一般化,(2)複数のタスクにまたがる一貫したアルゴリズム性能はアルゴリズムの一般化可能性の強力なサロゲートである,(3)精度の高いai分割モデルのトレーニングは非ai専門家にコモディティ化されていること,の3つである。

International challenges have become the de facto standard for comparative assessment of image analysis algorithms given a specific task. Segmentation is so far the most widely investigated medical image processing task, but the various segmentation challenges have typically been organized in isolation, such that algorithm development was driven by the need to tackle a single specific clinical problem. We hypothesized that a method capable of performing well on multiple tasks will generalize well to a previously unseen task and potentially outperform a custom-designed solution. To investigate the hypothesis, we organized the Medical Segmentation Decathlon (MSD) - a biomedical image analysis challenge, in which algorithms compete in a multitude of both tasks and modalities. The underlying data set was designed to explore the axis of difficulties typically encountered when dealing with medical images, such as small data sets, unbalanced labels, multi-site data and small objects. The MSD challenge confirmed that algorithms with a consistent good performance on a set of tasks preserved their good average performance on a different set of previously unseen tasks. Moreover, by monitoring the MSD winner for two years, we found that this algorithm continued generalizing well to a wide range of other clinical problems, further confirming our hypothesis. Three main conclusions can be drawn from this study: (1) state-of-the-art image segmentation algorithms are mature, accurate, and generalize well when retrained on unseen tasks; (2) consistent algorithmic performance across multiple tasks is a strong surrogate of algorithmic generalizability; (3) the training of accurate AI segmentation models is now commoditized to non AI experts.
翻訳日:2021-06-11 14:42:48 公開日:2021-06-10
# FetReg:Fetoscopy Challengeデータセットにおける胎盤血管分割と登録

FetReg: Placental Vessel Segmentation and Registration in Fetoscopy Challenge Dataset ( http://arxiv.org/abs/2106.05923v1 )

ライセンス: Link先を確認
Sophia Bano, Alessandro Casella, Francisco Vasconcelos, Sara Moccia, George Attilakos, Ruwan Wimalasundera, Anna L. David, Dario Paladini, Jan Deprest, Leonardo S. Mattos, Danail Stoyanov(参考訳) Fetoscopy laser photocoagulation は、胎盤血管奇形による単子葉性多発妊娠に発生するツイン・ツー・ツイン輸血症候群(TTTS)の治療に広く用いられている治療法である。 この手順は、視野の制限、フェトスコープの操作性の低下、流体の濁度による視認性の低下、光源のばらつき、胎盤の異常な位置など、特に困難である。 これにより、プロシージャ時間と不完全アブレーションが増加し、TTTSが持続する可能性がある。 コンピュータ支援による介入は、ビデオモザイクによるフェトスコープの視野を拡大し、血管ネットワークの可視化をより良くすることで、これらの課題を克服するのに役立つかもしれない。 しかし、この領域における研究開発は、質の高いデータが、手続き内および手続き間変動性をエンコードできないため、まだ限られている。 FetReg(Fetoscopic Placental Vessel Segmentation and Registration, FetReg)の課題を通じて, 長期フェトスコープビデオからドリフトフリーモザイクを作成することを目的とした, 胎児環境のための汎用的で堅牢なセマンティックセグメンテーションとビデオモザイクアルゴリズムの開発のための大規模マルチセントデータセットを提案する。 本稿では,FetRegデータセットの概要,課題タスク,評価指標,セグメンテーションと登録の両方のためのベースライン手法について述べる。 fetregデータセットのベースラインメソッドの結果から、当社のデータセットには興味深い課題があり、fetreg challengeのクラウドソーシングイニシアチブを通じてモデル化され、競うことができます。

Fetoscopy laser photocoagulation is a widely used procedure for the treatment of Twin-to-Twin Transfusion Syndrome (TTTS), that occur in mono-chorionic multiple pregnancies due to placental vascular anastomoses. This procedure is particularly challenging due to limited field of view, poor manoeuvrability of the fetoscope, poor visibility due to fluid turbidity, variability in light source, and unusual position of the placenta. This may lead to increased procedural time and incomplete ablation, resulting in persistent TTTS. Computer-assisted intervention may help overcome these challenges by expanding the fetoscopic field of view through video mosaicking and providing better visualization of the vessel network. However, the research and development in this domain remain limited due to unavailability of high-quality data to encode the intra- and inter-procedure variability. Through the Fetoscopic Placental Vessel Segmentation and Registration (FetReg) challenge, we present a large-scale multi-centre dataset for the development of generalized and robust semantic segmentation and video mosaicking algorithms for the fetal environment with a focus on creating drift-free mosaics from long duration fetoscopy videos. In this paper, we provide an overview of the FetReg dataset, challenge tasks, evaluation metrics and baseline methods for both segmentation and registration. Baseline methods results on the FetReg dataset shows that our dataset poses interesting challenges, which can be modelled and competed for through our crowd-sourcing initiative of the FetReg challenge.
翻訳日:2021-06-11 14:42:18 公開日:2021-06-10
# 観察による学習

Learning by Watching ( http://arxiv.org/abs/2106.05966v1 )

ライセンス: Link先を確認
Jimuyang Zhang and Eshed Ohn-Bar(参考訳) 新しい状況や地理的な場所では、人間ドライバーは他人を観察し、自分自身が実行したことがないような操作を学べる特別な能力を持っている。 対照的に、既存の学習技術は、完全に知られた観察と専門的なドライバーアクションを備えた計測された自走車への直接アクセスを想定しているため、そのような可能性を妨げる。 しかし、そのような測定は、他人を観察することで学習する場合、非自走車に直接アクセスすることはできない。 したがって、データが貴重な資産と見なされるアプリケーションでは、現在のアプローチでは、周囲の車両を間接的に観測することで得られる可能性のあるトレーニングデータの大部分が完全に破棄される。 この重要な洞察を生かして、国家や専門家の行動の知識を必要とせず、運転方針の学習を可能にするLbW(Learning by Watching)フレームワークを提案する。 lbwは、新たな視点と操作によってデータを増やすために、(1)自走車による観察を視点に転換し、(2)専門家の行動を推論することで、与えられたシーンにおける他の車両のデモンストレーションを利用する。 我々のLbWエージェントは、データ効率のよい学習を可能にしながら、より堅牢な運転ポリシーを学びます。 特に、LbWは、既存の方法で必要とされていた運転データのごく一部でも頑健に駆動し、従来のCARLAベンチマークで平均成功率は92%、総走行時間は30分、わずか10分で82%である。

When in a new situation or geographical location, human drivers have an extraordinary ability to watch others and learn maneuvers that they themselves may have never performed. In contrast, existing techniques for learning to drive preclude such a possibility as they assume direct access to an instrumented ego-vehicle with fully known observations and expert driver actions. However, such measurements cannot be directly accessed for the non-ego vehicles when learning by watching others. Therefore, in an application where data is regarded as a highly valuable asset, current approaches completely discard the vast portion of the training data that can be potentially obtained through indirect observation of surrounding vehicles. Motivated by this key insight, we propose the Learning by Watching (LbW) framework which enables learning a driving policy without requiring full knowledge of neither the state nor expert actions. To increase its data, i.e., with new perspectives and maneuvers, LbW makes use of the demonstrations of other vehicles in a given scene by (1) transforming the ego-vehicle's observations to their points of view, and (2) inferring their expert actions. Our LbW agent learns more robust driving policies while enabling data-efficient learning, including quick adaptation of the policy to rare and novel scenarios. In particular, LbW drives robustly even with a fraction of available driving data required by existing methods, achieving an average success rate of 92% on the original CARLA benchmark with only 30 minutes of total driving data and 82% with only 10 minutes.
翻訳日:2021-06-11 14:41:46 公開日:2021-06-10
# ビデオトランスにおける時空間混合注意

Space-time Mixing Attention for Video Transformer ( http://arxiv.org/abs/2106.05968v1 )

ライセンス: Link先を確認
Adrian Bulat and Juan-Manuel Perez-Rua and Swathikiran Sudhakaran and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿ではトランスフォーマーを用いたビデオ認識について述べる。 この領域での最近の試みは、認識精度の観点から有望な結果を示しているが、多くの場合、時間的情報の付加的モデリングによる重要な計算オーバーヘッドを引き起こすことも示されている。 そこで本研究では,ビデオシーケンス内のフレーム数と線形にスケールする複雑なビデオトランスフォーマーモデルを提案し,画像ベースのトランスフォーマーモデルと比較して,‘textit{no overhead’を誘導する。 これを実現するために,本モデルでは,ビデオトランスフォーマーで使用される全時空間の注意を2つ近似する: (a) 時間的注意を局所的な時間的窓に制限し,トランスフォーマーの深さに重み付けし,ビデオシーケンスの完全な時間的カバレッジを得る。 (b)空間のみの注意モデルの上に余分なコストを発生させることなく、効率的な時空混合を用いて空間的および時間的位置に出席する。 また,計算コストの最小化による精度向上を実現するため,グローバル時間のみの注意のための2つの非常に軽量な機構を統合する方法を示す。 我々のモデルは、最も人気のあるビデオ認識データセットに対して、非常に高い認識精度を提供すると同時に、他のビデオトランスフォーマーモデルよりもはるかに効率的であることを示す。 コードは利用可能になる。

This paper is on video recognition using Transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many cases, significant computational overheads due to the additional modelling of the temporal information. In this work, we propose a Video Transformer model the complexity of which scales linearly with the number of frames in the video sequence and hence induces \textit{no overhead} compared to an image-based Transformer model. To achieve this, our model makes two approximations to the full space-time attention used in Video Transformers: (a) It restricts time attention to a local temporal window and capitalizes on the Transformer's depth to obtain full temporal coverage of the video sequence. (b) It uses efficient space-time mixing to attend \textit{jointly} spatial and temporal locations without inducing any additional cost on top of a spatial-only attention model. We also show how to integrate 2 very lightweight mechanisms for global temporal-only attention which provide additional accuracy improvements at minimal computational cost. We demonstrate that our model produces very high recognition accuracy on the most popular video recognition datasets while at the same time being significantly more efficient than other Video Transformer models. Code will be made available.
翻訳日:2021-06-11 14:41:21 公開日:2021-06-10
# エゴセントリックポーズ推定のためのダイナミクス制御キネマティックポリシー

Dynamics-Regulated Kinematic Policy for Egocentric Pose Estimation ( http://arxiv.org/abs/2106.05969v1 )

ライセンス: Link先を確認
Zhengyi Luo, Ryo Hachiuma, Ye Yuan, Kris Kitani(参考訳) 本研究では,動力学的モデリング,動的モデリング,シーンオブジェクト情報を密に統合したオブジェクト認識型3Dエゴセントリックポーズ推定手法を提案する。 先行キネマティクスやダイナミクスベースのアプローチと異なり,2つのコンポーネントを相互に使用する場合と異なり,ダイナミクスが制御するトレーニングによって2つのアプローチを相乗化する。 各段階において、キネマティックモデルを用いて、ビデオエビデンスとシミュレーション状態を用いてターゲットポーズを提供する。 そして、事前学習された動力学モデルは、物理シミュレーターでキネマティックポーズを模倣しようとする。 運動モデルが指示するポーズとダイナミクスモデルが生成するポーズを比較することで、それらの不一致を利用して運動モデルをさらに改善することができる。 シーン内の物体(例えば椅子や箱)の6DoFのポーズを分解することにより、初めて、単一のウェアラブルカメラを用いて物理的に解明可能な3Dオブジェクトインタラクションを推定する能力を示す。 実験環境と実世界のシナリオの両方において,自発的なポーズ推定手法を評価した。

We propose a method for object-aware 3D egocentric pose estimation that tightly integrates kinematics modeling, dynamics modeling, and scene object information. Unlike prior kinematics or dynamics-based approaches where the two components are used disjointly, we synergize the two approaches via dynamics-regulated training. At each timestep, a kinematic model is used to provide a target pose using video evidence and simulation state. Then, a prelearned dynamics model attempts to mimic the kinematic pose in a physics simulator. By comparing the pose instructed by the kinematic model against the pose generated by the dynamics model, we can use their misalignment to further improve the kinematic model. By factoring in the 6DoF pose of objects (e.g., chairs, boxes) in the scene, we demonstrate for the first time, the ability to estimate physically-plausible 3D human-object interactions using a single wearable camera. We evaluate our egocentric pose estimation method in both controlled laboratory settings and real-world scenarios.
翻訳日:2021-06-11 14:40:58 公開日:2021-06-10
# パズルのプログラミング

Programming Puzzles ( http://arxiv.org/abs/2106.05784v1 )

ライセンス: Link先を確認
Tal Schuster, Ashwin Kalyan, Oleksandr Polozov, Adam Tauman Kalai(参考訳) プログラム合成の客観的かつ包括的評価としてプログラミングパズルと呼ばれる新しいタイプのプログラミングチャレンジを導入し、pythonプログラミングパズル(p3)のオープンソースデータセットをリリースする。 それぞれのパズルは、短いPythonプログラム$f$で定義され、そのゴールは、$f$出力"True"を生成する入力$x$を見つけることである。 パズルは、それぞれが検証子$f$のソースコードによって完全に指定されるので、$f(x)$を評価することは、候補解$x$をテストするのに必要なすべてである。 答えのキーや入出力の例は必要ありませんし、自然言語理解にも依存しません。 このデータセットは、人間のプログラマ(aiではない)にとってすぐに明らかな簡単な文字列操作問題から、古典的なプログラミングパズル(ハノイの塔など)、インタビュー/競争プログラミング問題(動的プログラミングなど)、アルゴリズムや数学における長年のオープン問題(ファクタリングなど)まで、さまざまな困難や領域の問題にまたがっている。 p3の客観的な性質は自己教師付きブートストラップをサポートする。 我々は、ベースラインの列挙型プログラム合成とgpt-3ソルバを開発し、過去のソリューションから学習することで、簡単なパズル(参照ソリューションにアクセスせずにも)を解くことができる。 小さなユーザスタディに基づいて、人間のプログラマとベースラインAIソルバの相関が難しいことが分かりました。

We introduce a new type of programming challenge called programming puzzles, as an objective and comprehensive evaluation of program synthesis, and release an open-source dataset of Python Programming Puzzles (P3). Each puzzle is defined by a short Python program $f$, and the goal is to find an input $x$ which makes $f$ output "True". The puzzles are objective in that each one is specified entirely by the source code of its verifier $f$, so evaluating $f(x)$ is all that is needed to test a candidate solution $x$. They do not require an answer key or input/output examples, nor do they depend on natural language understanding. The dataset is comprehensive in that it spans problems of a range of difficulties and domains, ranging from trivial string manipulation problems that are immediately obvious to human programmers (but not necessarily to AI), to classic programming puzzles (e.g., Towers of Hanoi), to interview/competitiv e-programming problems (e.g., dynamic programming), to longstanding open problems in algorithms and mathematics (e.g., factoring). The objective nature of P3 readily supports self-supervised bootstrapping. We develop baseline enumerative program synthesis and GPT-3 solvers that are capable of solving easy puzzles -- even without access to any reference solutions -- by learning from their own past solutions. Based on a small user study, we find puzzle difficulty to correlate between human programmers and the baseline AI solvers.
翻訳日:2021-06-11 14:40:39 公開日:2021-06-10
# 逆摂動を伴う公正分類

Fair Classification with Adversarial Perturbations ( http://arxiv.org/abs/2106.05964v1 )

ライセンス: Link先を確認
L. Elisa Celis, Anay Mehrotra, Nisheeth K. Vishnoi(参考訳) 本研究は,学習サンプルの任意の$\eta$-fractionを選択でき,保護属性を任意に摂動することができるという,全知的な敵の存在下での公平な分類について検討する。 このモチベーションは、戦略的な誤報、悪意のあるアクタ、あるいは命令中のエラーのために保護された属性が正しくないという設定から来ており、以前のアプローチでは、エラーに対する確率的あるいは独立的な仮定は、この敵対的な設定では保証を満たさない可能性がある。 我々の主な貢献は、精度と公正性に関する証明可能な保証を伴うこの逆条件で公平な分類法を学ぶための最適化フレームワークである。 本フレームワークは,多元的および非二元的保護属性で機能し,線形摩擦公正度尺度の大規模クラスを対象として設計されており,保護属性以外の摂動も扱える。 私たちは、自然仮説クラスに対するフレームワークの保証のほぼ完全性を証明する: アルゴリズムの精度が著しく向上することはなく、公平性が優れたアルゴリズムは、より低い精度でなければならない。 実世界および合成データセットの統計速度のフレームワークによって生成された分類器を,敵のファミリーに対して評価する。

We study fair classification in the presence of an omniscient adversary that, given an $\eta$, is allowed to choose an arbitrary $\eta$-fraction of the training samples and arbitrarily perturb their protected attributes. The motivation comes from settings in which protected attributes can be incorrect due to strategic misreporting, malicious actors, or errors in imputation; and prior approaches that make stochastic or independence assumptions on errors may not satisfy their guarantees in this adversarial setting. Our main contribution is an optimization framework to learn fair classifiers in this adversarial setting that comes with provable guarantees on accuracy and fairness. Our framework works with multiple and non-binary protected attributes, is designed for the large class of linear-fractional fairness metrics, and can also handle perturbations besides protected attributes. We prove near-tightness of our framework's guarantees for natural hypothesis classes: no algorithm can have significantly better accuracy and any algorithm with better fairness must have lower accuracy. Empirically, we evaluate the classifiers produced by our framework for statistical rate on real-world and synthetic datasets for a family of adversaries.
翻訳日:2021-06-11 14:40:12 公開日:2021-06-10
# ラディット:英語のRedditコメントに対する攻撃のノーム

Ruddit: Norms of Offensiveness for English Reddit Comments ( http://arxiv.org/abs/2106.05664v1 )

ライセンス: Link先を確認
Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M. Mohammad, Ekaterina Shutova(参考訳) ソーシャルメディアプラットフォームでは、憎悪と攻撃的な言葉がユーザーの精神的幸福と多様な背景を持つ人々の参加に悪影響を及ぼす。 攻撃的言語を検出する自動手法は、分類ラベルを持つデータセットに大きく依存している。 しかし、コメントは攻撃の程度によって異なる。 私たちは、 -1(最大支持)と1(最大攻撃的)の間に \textit{fine-fine, real-valued scores} を持つ、英語のRedditコメントの最初のデータセットを作成します。 データセットは、評価尺度の使用の既知のバイアスを軽減するための比較アノテーションの形式である \emph{best--worst scaling} を使用してアノテートされた。 本手法は信頼性の高い攻撃性スコアを生成する。 最後に,この新しいデータセットにおける攻撃性スコアを予測するために,広く使用されているニューラルモデルの能力を評価する。

On social media platforms, hateful and offensive language negatively impact the mental well-being of users and the participation of people from diverse backgrounds. Automatic methods to detect offensive language have largely relied on datasets with categorical labels. However, comments can vary in their degree of offensiveness. We create the first dataset of English language Reddit comments that has \textit{fine-grained, real-valued scores} between -1 (maximally supportive) and 1 (maximally offensive). The dataset was annotated using \emph{Best--Worst Scaling}, a form of comparative annotation that has been shown to alleviate known biases of using rating scales. We show that the method produces highly reliable offensiveness scores. Finally, we evaluate the ability of widely-used neural models to predict offensiveness scores on this new dataset.
翻訳日:2021-06-11 14:39:51 公開日:2021-06-10
# 画像キャプションソリューションの堅牢性向上のためのデータ拡張

Data augmentation to improve robustness of image captioning solutions ( http://arxiv.org/abs/2106.05437v1 )

ライセンス: Link先を確認
Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo(参考訳) 本稿では,実世界画像における共通品質欠陥であるモーションボケが最先端の2段階画像キャプションソリューションに与える影響について検討し,ボケ強度の増加に伴う解性能の低下に注目した。 本研究では,各段階,すなわちオブジェクト検出とキャプションのトレーニングデータ拡張を用いて,動作のぼかしに対する解の堅牢性を向上させる手法について検討し,改良された結果を観察する。 特に、両方のステージを増強することで、MS COCOデータセットでは68.7から11.7に、Vizwizデータセットでは22.4から6.8に、CIDEr-Dの劣化が減少する。

In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur intensity increases. We investigate techniques to improve the robustness of the solution to motion blur using training data augmentation at each or both stages of the solution, i.e., object detection and captioning, and observe improved results. In particular, augmenting both the stages reduces the CIDEr-D degradation for high motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to 6.8 on Vizwiz dataset.
翻訳日:2021-06-11 14:39:37 公開日:2021-06-10
# CAT:視覚変換器における交差注意

CAT: Cross Attention in Vision Transformer ( http://arxiv.org/abs/2106.05786v1 )

ライセンス: Link先を確認
Hezheng Lin, Xing Cheng, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Qing Song, Wei Yuan(参考訳) Transformer は NLP で広く利用されているため、CV における Transformer の可能性は実現され、多くの新しいアプローチに影響を与えた。 しかし、単語トークンをTransformerのイメージパッチに置き換えるために必要な計算は、画像のトークン化後に大きくなり(例:ViT)、モデルのトレーニングと推論がボトルネックとなる。 本稿では,画像パッチ内の注意を,画像全体ではなく画像パッチ内で交互に取り替え,局所情報をキャプチャし,単一チャネル特徴マップから分割した画像パッチ間で注意を付与する,クロスアテンションと呼ばれる新しい注意機構を提案する。 どちらの操作も、Transformerの通常の自己アテンションよりも計算量が少ない。 内部パッチとパッチを交互に適用することにより、計算コストの低い性能を維持するためにクロスアテンションを実装し、他の視覚タスクに対してクロスアテンショントランスフォーマー(CAT)と呼ばれる階層ネットワークを構築する。 ベースモデルはImageNet-1Kの最先端を実現し,COCOおよびADE20K上の他の手法の性能を改善し,ネットワークが一般的なバックボーンとして機能する可能性を示している。 コードとモデルは \url{https://github.com/l inhezheng19/cat} で入手できる。

Since Transformer has found widespread use in NLP, the potential of Transformer in CV has been realized and has inspired many new approaches. However, the computation required for replacing word tokens with image patches for Transformer after the tokenization of the image is vast(e.g., ViT), which bottlenecks model training and inference. In this paper, we propose a new attention mechanism in Transformer termed Cross Attention, which alternates attention inner the image patch instead of the whole image to capture local information and apply attention between image patches which are divided from single-channel feature maps capture global information. Both operations have less computation than standard self-attention in Transformer. By alternately applying attention inner patch and between patches, we implement cross attention to maintain the performance with lower computational cost and build a hierarchical network called Cross Attention Transformer(CAT) for other vision tasks. Our base model achieves state-of-the-arts on ImageNet-1K, and improves the performance of other methods on COCO and ADE20K, illustrating that our network has the potential to serve as general backbones. The code and models are available at \url{https://github.com/l inhezheng19/CAT}.
翻訳日:2021-06-11 14:39:02 公開日:2021-06-10
# 騒音を見て見ることを学ぶ

Learning to See by Looking at Noise ( http://arxiv.org/abs/2106.05963v1 )

ライセンス: Link先を確認
Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba(参考訳) 現在のビジョンシステムは巨大なデータセットに基づいてトレーニングされており、これらのデータセットにはコストが伴います。 これらのコストに対応するため、ラベルなし画像などの安価なデータソースから学ぶことへの関心が高まっている。 本稿では、さらに一歩進めて、ノイズプロセスから学習する代わりに、実際の画像データセットを完全に廃止できるかどうかを問う。 単純なランダムプロセスから画像を生成する一連の画像生成モデルについて検討する。 これらは、コントラスト損失のある視覚表現学習者のトレーニングデータとして使用される。 本研究では,ランダム初期化の異なる2種類の雑音過程,統計的画像モデル,深部生成モデルについて検討した。 その結果,ノイズが実データの特定の構造的特性を捉えることは重要であるが,現実的とは程遠いプロセスでも良好な性能が得られることがわかった。 また、多様性は優れた表現を学ぶための鍵となる性質であることもわかりました。 データセット、モデル、コードはhttps://mbaradad.git hub.io/learning_with _noiseで入手できる。

Current vision systems are trained on huge datasets, and these datasets come with costs: curation is expensive, they inherit human biases, and there are concerns over privacy and usage rights. To counter these costs, interest has surged in learning from cheaper data sources, such as unlabeled images. In this paper we go a step further and ask if we can do away with real image datasets entirely, instead learning from noise processes. We investigate a suite of image generation models that produce images from simple random processes. These are then used as training data for a visual representation learner with a contrastive loss. We study two types of noise processes, statistical image models and deep generative models under different random initializations. Our findings show that it is important for the noise to capture certain structural properties of real data but that good performance can be achieved even with processes that are far from realistic. We also find that diversity is a key property to learn good representations. Datasets, models, and code are available at https://mbaradad.git hub.io/learning_with _noise.
翻訳日:2021-06-11 14:38:41 公開日:2021-06-10
# グラフ共生学習

Graph Symbiosis Learning ( http://arxiv.org/abs/2106.05455v1 )

ライセンス: Link先を確認
Liang Zeng, Jin Xu, Zijun Yao, Yanqiao Zhu, Jian Li(参考訳) 本稿では,グラフ共生学習(GraphSym)という,複数のグラフビューから学習するフレームワークを紹介する。 GraphSymでは、複数の生成されたグラフビューで開発されたグラフニューラルネットワーク(GNN)がパラメータを適応的に交換し、リンク構造やノード特徴に格納された情報を融合することができる。 具体的には、1つのGNNの重み行列における冗長チャネルを、別のGNNの情報チャネルに層単位で繰り返し置換する新しい適応交換方式を提案する。 GraphSymは、複数のグラフビューとGNNアーキテクチャを生成する特定のメソッドに依存していない。 したがって、既存のGNNを私たちのフレームワークにシームレスに統合することができます。 3つの半教師付きノード分類データセットにおいて、GraphSymは知識蒸留なしで従来のシングルグラフと複数グラフのGNNを上回り、新しい最先端の結果を得る。 また、15の公開ベンチマーク、8つの人気のあるGNNモデル、3つのグラフタスク(ノード分類、グラフ分類、エッジ予測)について一連の実験を行い、GraphSymが既存のGNNよりも平均1.9\%$\sim$3.9\%高いパフォーマンスを実現していることを示す。 広範囲なアブレーションの研究と実験が、graphsymの有効性を実証している。

We introduce a framework for learning from multiple generated graph views, named graph symbiosis learning (GraphSym). In GraphSym, graph neural networks (GNN) developed in multiple generated graph views can adaptively exchange parameters with each other and fuse information stored in linkage structures and node features. Specifically, we propose a novel adaptive exchange method to iteratively substitute redundant channels in the weight matrix of one GNN with informative channels of another GNN in a layer-by-layer manner. GraphSym does not rely on specific methods to generate multiple graph views and GNN architectures. Thus, existing GNNs can be seamlessly integrated into our framework. On 3 semi-supervised node classification datasets, GraphSym outperforms previous single-graph and multiple-graph GNNs without knowledge distillation, and achieves new state-of-the-art results. We also conduct a series of experiments on 15 public benchmarks, 8 popular GNN models, and 3 graph tasks -- node classification, graph classification, and edge prediction -- and show that GraphSym consistently achieves better performance than existing popular GNNs by 1.9\%$\sim$3.9\% on average and their ensembles. Extensive ablation studies and experiments on the few-shot setting also demonstrate the effectiveness of GraphSym.
翻訳日:2021-06-11 14:38:03 公開日:2021-06-10
# グラフの自動教師付き学習

Automated Self-Supervised Learning for Graphs ( http://arxiv.org/abs/2106.05470v1 )

ライセンス: Link先を確認
Wei Jin, Xiaorui Liu, Xiangyu Zhao, Yao Ma, Neil Shah, Jiliang Tang(参考訳) グラフ自己教師付き学習は、表現力のあるノード表現を学習する能力から注目を集めている。 多くのプリテキストタスクや損失関数は、異なる視点から設計されている。 しかし、異なるプリテキストタスクがダウンストリームタスクに異なるクロスデータセットに影響することを観察し、グラフの自己教師付き学習にはプリテキストタスクの探索が不可欠であることを示唆している。 単一のプリテキストタスクの設計に焦点を当てた既存の作業とは異なり、この作業は複数のプリテキストタスクを効果的に活用する方法を検討することを目的としている。 それでも、複数のプリテキストタスクから派生した表現を基底真理ラベルに直接アクセスせずに評価することは、この問題を難しくする。 この障害に対処するために、我々は、多くの実世界のグラフ、すなわちホモフィリーや'like attracts like'の原則の鍵となる原理を、様々な自己教師付きプリテキストタスクを効果的に探索するためのガイダンスとして利用している。 この探索タスクにおけるホモフィリーの柔軟性を正当化するための理論的理解と実証的証拠を提供する。 次に,自己教師型タスクの組み合わせを自動的に検索するAutoSSLフレームワークを提案する。 実世界の7つのデータセットのフレームワークを評価することで、AutoSSLは個々のタスクでのトレーニングと比較して、ノードクラスタリングやノード分類を含む下流タスクのパフォーマンスを大幅に向上させることができることを示す。 コードはhttps://github.com/C handlerBang/AutoSSLでリリースされる。

Graph self-supervised learning has gained increasing attention due to its capacity to learn expressive node representations. Many pretext tasks, or loss functions have been designed from distinct perspectives. However, we observe that different pretext tasks affect downstream tasks differently cross datasets, which suggests that searching pretext tasks is crucial for graph self-supervised learning. Different from existing works focusing on designing single pretext tasks, this work aims to investigate how to automatically leverage multiple pretext tasks effectively. Nevertheless, evaluating representations derived from multiple pretext tasks without direct access to ground truth labels makes this problem challenging. To address this obstacle, we make use of a key principle of many real-world graphs, i.e., homophily, or the principle that ``like attracts like,'' as the guidance to effectively search various self-supervised pretext tasks. We provide theoretical understanding and empirical evidence to justify the flexibility of homophily in this search task. Then we propose the AutoSSL framework which can automatically search over combinations of various self-supervised tasks. By evaluating the framework on 7 real-world datasets, our experimental results show that AutoSSL can significantly boost the performance on downstream tasks including node clustering and node classification compared with training under individual tasks. Code will be released at https://github.com/C handlerBang/AutoSSL.
翻訳日:2021-06-11 14:37:39 公開日:2021-06-10
# 交点メンバシップを明かすことなく垂直フェデレーション学習

Vertical Federated Learning without Revealing Intersection Membership ( http://arxiv.org/abs/2106.05508v1 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Aonan Zhang and Weihao Gao and Junyuan Xie and Chong Wang(参考訳) Vertical Federated Learning (vFL)は、異なる属性(例えば、複数の属性)を所有できる。 同じデータエンティティ(例えば、)の特徴とラベル。 モデルを共同で訓練する人。 トレーニングデータを作成するには、vFLはすべてのパーティが共有する共通データエンティティを識別する必要がある。 通常はプライベート・セット・インターセクション (PSI) によって達成され、個人識別可能な情報(例: 個人識別情報)を使用して、すべての当事者からのトレーニングサンプルの交点を特定する。 データインスタンスをアライメントするためのサンプルIDとして。 結果として、PSIは交差点のサンプルIDを全当事者に可視化するので、各当事者は交差点に表示されるデータエンティティが他の当事者にも現れることを知ることができる。 交差点の会員だ しかし、多くの現実世界のプライバシーに敏感な組織では、例えば。 銀行や病院は データ・エンティティの会員登録を禁止しています 本稿では,PSU(Private Set Union)に基づくvFLフレームワークを提案する。 すべてのトレーニングサンプルの共通点を特定する代わりに、PSUプロトコルはトレーニングインスタンスとしてサンプルの結合を生成する。 さらに,交差点ではなく,連合に属するサンプルを扱うために,合成特徴とラベルを生成する戦略を提案する。 実世界の2つのデータセットに関する広範な実験を通して、我々のフレームワークはモデルユーティリティを維持しながら交差点メンバーシップのプライバシーを保護することができることを示す。

Vertical Federated Learning (vFL) allows multiple parties that own different attributes (e.g. features and labels) of the same data entity (e.g. a person) to jointly train a model. To prepare the training data, vFL needs to identify the common data entities shared by all parties. It is usually achieved by Private Set Intersection (PSI) which identifies the intersection of training samples from all parties by using personal identifiable information (e.g. email) as sample IDs to align data instances. As a result, PSI would make sample IDs of the intersection visible to all parties, and therefore each party can know that the data entities shown in the intersection also appear in the other parties, i.e. intersection membership. However, in many real-world privacy-sensitive organizations, e.g. banks and hospitals, revealing membership of their data entities is prohibited. In this paper, we propose a vFL framework based on Private Set Union (PSU) that allows each party to keep sensitive membership information to itself. Instead of identifying the intersection of all training samples, our PSU protocol generates the union of samples as training instances. In addition, we propose strategies to generate synthetic features and labels to handle samples that belong to the union but not the intersection. Through extensive experiments on two real-world datasets, we show our framework can protect the privacy of the intersection membership while maintaining the model utility.
翻訳日:2021-06-11 14:37:16 公開日:2021-06-10
# pop culture text と english humor literature によるディープラーニングによるサーカズム検出の並列化

Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text and English Humor Literature ( http://arxiv.org/abs/2106.05752v1 )

ライセンス: Link先を確認
Sourav Das and Anup Kumar Kolya(参考訳) サルカズム(Sarcasm)は、真理、偽り、あるいはモックリーを笑える方法で包む洗練された方法である。 ソーシャルネットワークによるコミュニケーションの出現は、新しい社会化の道を開いた。 さらに、ユーモア、皮肉、皮肉、ウィットは現代において社会的に面白い4つのチャリオットであるとも言える。 そこで,本稿では,サーキスティックな対話やモノローグを含むベンチマークポップカルチャーサーカズムコーパスのサーキスティックな単語分布の特徴を手作業で抽出する。 このような単語から重み付きベクトルからなる入力シーケンスを生成する。 さらに,4つの並列深層長短項ネットワーク (pLSTM) のアマルガメーションを提案する。 これらのモジュールは主にテキストコーパスからサルカズムを検出することを目的としている。 提案するサルカズム検出モデルは,検討したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。 連続して、全てのテストケースの中で、2つのハンドピックされたプロジェクトグーテンベルク英語のユーモア文学において、98.31%の検証精度を得た。 提案手法は,いくつかのサルカズムコーパスに関する先行研究を超越し,新しいゴールド標準によるサルカズム検出性能を実現する。

Sarcasm is a sophisticated way of wrapping any immanent truth, mes-sage, or even mockery within a hilarious manner. The advent of communications using social networks has mass-produced new avenues of socialization. It can be further said that humor, irony, sarcasm, and wit are the four chariots of being socially funny in the modern days. In this paper, we manually extract the sarcastic word distribution features of a benchmark pop culture sarcasm corpus, containing sarcastic dialogues and monologues. We generate input sequences formed of the weighted vectors from such words. We further propose an amalgamation of four parallel deep long-short term networks (pLSTM), each with distinctive activation classifier. These modules are primarily aimed at successfully detecting sarcasm from the text corpus. Our proposed model for detecting sarcasm peaks a training accuracy of 98.95% when trained with the discussed dataset. Consecutively, it obtains the highest of 98.31% overall validation accuracy on two handpicked Project Gutenberg English humor literature among all the test cases. Our approach transcends previous state-of-the-art works on several sarcasm corpora and results in a new gold standard performance for sarcasm detection.
翻訳日:2021-06-11 14:36:08 公開日:2021-06-10
# ガウス過程による非パラメトリックボルテラ核の学習

Learning Nonparametric Volterra Kernels with Gaussian Processes ( http://arxiv.org/abs/2106.05582v1 )

ライセンス: Link先を確認
Magnus Ross, Michael T. Smith, Mauricio A. \'Alvarez(参考訳) 本稿では、非線形作用素の非パラメトリックベイズ学習法について、ガウス過程(GP)を用いて表現されたカーネルを持つVolterra級数を用い、非パラメトリックVolterra核モデル(NVKM)と呼ぶ手法を提案する。 NVKMは、演算子への入力関数が観測されず、GP先行を持つとき、単一および複数出力の回帰の強力な方法を構成し、非線形および非パラメトリック潜在力モデルと見なすことができる。 入力関数が観測されると、NVKMを使用してベイズ系の識別を行うことができる。 数値積分を使わずにボルテラ級数によるプロセス実現を地図化するためにgpsから明示的な関数を効率的にサンプリングし,2倍の確率的変分推論による拡張性を実現し,出力プロセスのガウス近似の必要性を回避した。 標準ベンチマークを用いて,複数出力回帰とシステム同定の両方におけるモデルの性能を示す。

This paper introduces a method for the nonparametric Bayesian learning of nonlinear operators, through the use of the Volterra series with kernels represented using Gaussian processes (GPs), which we term the nonparametric Volterra kernels model (NVKM). When the input function to the operator is unobserved and has a GP prior, the NVKM constitutes a powerful method for both single and multiple output regression, and can be viewed as a nonlinear and nonparametric latent force model. When the input function is observed, the NVKM can be used to perform Bayesian system identification. We use recent advances in efficient sampling of explicit functions from GPs to map process realisations through the Volterra series without resorting to numerical integration, allowing scalability through doubly stochastic variational inference, and avoiding the need for Gaussian approximations of the output processes. We demonstrate the performance of the model for both multiple output regression and system identification using standard benchmarks.
翻訳日:2021-06-11 14:35:03 公開日:2021-06-10
# ベイズ型ニューラルネットワークにおけるデータ拡張と冷後効果

Data augmentation in Bayesian neural networks and the cold posterior effect ( http://arxiv.org/abs/2106.05586v1 )

ライセンス: Link先を確認
Seth Nabarro, Stoil Ganev, Adri\`a Garriga-Alonso, Vincent Fortuin, Mark van der Wilk and Laurence Aitchison(参考訳) データ拡張は、ディープニューラルネットワークのパフォーマンス向上に非常に効果的なアプローチである。 標準的な見方では、合成データを追加して拡大データセットを作成するため、ベイジアン推論と組み合わせることで問題が発生する。 この問題は、データ拡張と冷後効果をリンクする最近の観測に特に関係している。 本研究では,拡張データセットのログライクな検索手法について検討する。 提案手法では,テスト時と列車時の両方で,同じ画像が複数回拡大され,ロジットや予測確率が平均化される。 経験的に、平均的な確率で最高のパフォーマンスを観察する。 冷たい後部効果と相互作用するが、平均的なロジットや平均的な確率は排除しない。

Data augmentation is a highly effective approach for improving performance in deep neural networks. The standard view is that it creates an enlarged dataset by adding synthetic data, which raises a problem when combining it with Bayesian inference: how much data are we really conditioning on? This question is particularly relevant to recent observations linking data augmentation to the cold posterior effect. We investigate various principled ways of finding a log-likelihood for augmented datasets. Our approach prescribes augmenting the same underlying image multiple times, both at test and train-time, and averaging either the logits or the predictive probabilities. Empirically, we observe the best performance with averaging probabilities. While there are interactions with the cold posterior effect, neither averaging logits or averaging probabilities eliminates it.
翻訳日:2021-06-11 14:34:45 公開日:2021-06-10
# GBHT:密度推定のための勾配ブースティングヒストグラム変換

GBHT: Gradient Boosting Histogram Transform for Density Estimation ( http://arxiv.org/abs/2106.05738v1 )

ライセンス: Link先を確認
Jingyi Cui, Hanyuan Hang, Yisen Wang, Zhouchen Lin(参考訳) 本稿では,GBHT と呼ばれる密度推定アルゴリズムを提案する。ここでは,教師なしタスクに対してブースティング手順を利用可能にするために,損失関数として \textit{Negative Log Likelihood} を採用する。 学習理論の観点からは、まず、基礎となる密度関数が空間 $c^{0,\alpha}$ にあるという滑らかさを仮定して、gbht の高速収束率を証明する。 このとき、対象密度関数が空間$C^{1,\alpha}$ にあるとき、収束率という意味では、対応するベース学習者の下限よりも小さい GBHT の上限を示す。 我々の知識を最大限に活用するために,我々は,密度推定問題に対する基礎学習者の性能向上を理論的に説明するための最初の試みを行う。 実験では、広く使われているKDEと性能比較を行うだけでなく、異常検出にGBHTを適用し、GBHTのさらなる応用を示す。

In this paper, we propose a density estimation algorithm called \textit{Gradient Boosting Histogram Transform} (GBHT), where we adopt the \textit{Negative Log Likelihood} as the loss function to make the boosting procedure available for the unsupervised tasks. From a learning theory viewpoint, we first prove fast convergence rates for GBHT with the smoothness assumption that the underlying density function lies in the space $C^{0,\alpha}$. Then when the target density function lies in spaces $C^{1,\alpha}$, we present an upper bound for GBHT which is smaller than the lower bound of its corresponding base learner, in the sense of convergence rates. To the best of our knowledge, we make the first attempt to theoretically explain why boosting can enhance the performance of its base learners for density estimation problems. In experiments, we not only conduct performance comparisons with the widely used KDE, but also apply GBHT to anomaly detection to showcase a further application of GBHT.
翻訳日:2021-06-11 14:34:35 公開日:2021-06-10
# シンボリックハイパーパラメータデフォルトのためのメタラーニング

Meta-Learning for Symbolic Hyperparameter Defaults ( http://arxiv.org/abs/2106.05767v1 )

ライセンス: Link先を確認
Pieter Gijsbers, Florian Pfisterer, Jan N. van Rijn, Bernd Bischl and Joaquin Vanschoren(参考訳) 機械学習(ML)におけるハイパーパラメータ最適化は、データから最適なアルゴリズム構成を経験的に学習する問題を扱う。 本研究では,データセットの特性を用いて表現されるメタリアンのシンボル型デフォルトハイパーパラメータ構成のためのゼロショット法を提案する。 これにより、標準的なハイパーパラメータ最適化アプローチに比べて、mlアルゴリズムの高速かつデータ依存の構成が可能になる。 過去には、象徴的および静的なデフォルト値は通常手作りのヒューリスティックとして得られてきた。 進化的アルゴリズムを用いて表現の文法を最適化することにより,複数のデータセット上での事前評価からデータセット特性の式のような記号的構成を学習する手法を提案する。 我々は,100以上のデータセット上で6mlアルゴリズムにまたがる実データに加えて,経験的性能モデルの評価を行い,本手法が真に実行可能なシンボルデフォルトを求めることを実証した。

Hyperparameter optimization in machine learning (ML) deals with the problem of empirically learning an optimal algorithm configuration from data, usually formulated as a black-box optimization problem. In this work, we propose a zero-shot method to meta-learn symbolic default hyperparameter configurations that are expressed in terms of the properties of the dataset. This enables a much faster, but still data-dependent, configuration of the ML algorithm, compared to standard hyperparameter optimization approaches. In the past, symbolic and static default values have usually been obtained as hand-crafted heuristics. We propose an approach of learning such symbolic configurations as formulas of dataset properties from a large set of prior evaluations on multiple datasets by optimizing over a grammar of expressions using an evolutionary algorithm. We evaluate our method on surrogate empirical performance models as well as on real data across 6 ML algorithms on more than 100 datasets and demonstrate that our method indeed finds viable symbolic defaults.
翻訳日:2021-06-11 14:34:17 公開日:2021-06-10
# 潜在空間におけるスコアベース生成モデル

Score-based Generative Modeling in Latent Space ( http://arxiv.org/abs/2106.05931v1 )

ライセンス: Link先を確認
Arash Vahdat, Karsten Kreis, Jan Kautz(参考訳) スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。 しかし、通常はデータ空間に直接適用され、サンプリングには数千のネットワーク評価が必要となる。 本稿では,可変オートエンコーダフレームワークに依拠して,潜在空間でsgmを訓練する新しい手法である潜在スコア型生成モデル(lsgm)を提案する。 データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習し、ネットワーク評価を減らし、より高速なサンプリングを行うことができる。 LSGMのエンド・ツー・エンドをスケーラブルで安定した方法でトレーニングできるようにするため、(i)LSGM設定に適した新たなスコアマッチング目標を導入し、(ii)SGMが目標分布のミスマッチに集中できるようにスコア関数のパラメータ化を提案し、(iii)訓練対象の分散低減のための複数のテクニックを解析的に導出する。 LSGMはCIFAR-10で2.10の最先端のFIDスコアを取得し、このデータセットで既存のすべての生成結果を上回っている。 CelebA-HQ-256では、LSGMはサンプル品質の以前のSGMと同等であり、サンプリング時間では2桁の精度で性能を向上している。 二項画像のモデリングにおいて、LSGMは二項化OMNIGLOTデータセット上で最先端の可能性を達成する。

Score-based generative models (SGMs) have recently demonstrated impressive results in terms of both sample quality and distribution coverage. However, they are usually applied directly in data space and often require thousands of network evaluations for sampling. Here, we propose the Latent Score-based Generative Model (LSGM), a novel approach that trains SGMs in a latent space, relying on the variational autoencoder framework. Moving from data to latent space allows us to train more expressive generative models, apply SGMs to non-continuous data, and learn smoother SGMs in a smaller space, resulting in fewer network evaluations and faster sampling. To enable training LSGMs end-to-end in a scalable and stable manner, we (i) introduce a new score-matching objective suitable to the LSGM setting, (ii) propose a novel parameterization of the score function that allows SGM to focus on the mismatch of the target distribution with respect to a simple Normal one, and (iii) analytically derive multiple techniques for variance reduction of the training objective. LSGM obtains a state-of-the-art FID score of 2.10 on CIFAR-10, outperforming all existing generative results on this dataset. On CelebA-HQ-256, LSGM is on a par with previous SGMs in sample quality while outperforming them in sampling time by two orders of magnitude. In modeling binary images, LSGM achieves state-of-the-art likelihood on the binarized OMNIGLOT dataset.
翻訳日:2021-06-11 14:34:02 公開日:2021-06-10
# 早期停止型ニューラルネットワークは一貫性がある

Early-stopped neural networks are consistent ( http://arxiv.org/abs/2106.05932v1 )

ライセンス: Link先を確認
Ziwei Ji, Justin D. Li, Matus Telgarsky(参考訳) 本研究は、基礎となるデータ分布が一般的で(最適)ベイズリスクが必ずしもゼロではないバイナリ分類データの勾配降下を通じてロジスティック損失で訓練されたニューラルネットワークの挙動を研究する。 この設定では,早期停止による勾配降下は,ロジスティックな損失や誤分類の損失だけでなく,キャリブレーションの観点からも,任意に最適に近い人口リスクをもたらすことが示され,その結果のシグモイドマッピングは,条件分布の真の基礎を任意に近似する。 さらに、この分析に必要な反復、サンプル、およびアーキテクチャ上の複雑さはすべて、真の条件モデルの特定の複雑性尺度で自然にスケールする。 最後に、早期停止の必要性は示されていないが、局所補間特性を満たす任意の単変量分類器は必ずしも矛盾している。

This work studies the behavior of neural networks trained with the logistic loss via gradient descent on binary classification data where the underlying data distribution is general, and the (optimal) Bayes risk is not necessarily zero. In this setting, it is shown that gradient descent with early stopping achieves population risk arbitrarily close to optimal in terms of not just logistic and misclassification losses, but also in terms of calibration, meaning the sigmoid mapping of its outputs approximates the true underlying conditional distribution arbitrarily finely. Moreover, the necessary iteration, sample, and architectural complexities of this analysis all scale naturally with a certain complexity measure of the true conditional model. Lastly, while it is not shown that early stopping is necessary, it is shown that any univariate classifier satisfying a local interpolation property is necessarily inconsistent.
翻訳日:2021-06-11 14:33:36 公開日:2021-06-10
# 知識蒸留は本当に機能するのか?

Does Knowledge Distillation Really Work? ( http://arxiv.org/abs/2106.05945v1 )

ライセンス: Link先を確認
Samuel Stanton, Pavel Izmailov, Polina Kirichenko, Alexander A. Alemi, Andrew Gordon Wilson(参考訳) 知識蒸留は、ネットワークのアンサンブルのようなより大きな教師モデルをエミュレートするために、小さな学生ネットワークを訓練する一般的な技術である。 知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。教師と生徒の予測分布に驚くほど大きな差がある場合が多く、たとえ学生が教師と完全に一致する能力を持つ場合であっても。 生徒が教師と一致できない理由として,最適化の難しさを見いだしている。 また,蒸留に使用するデータセットの詳細が,生徒の教師との密接な一致にどのような役割を果たしているかを示すとともに,教師とパラドックス的により密接な関係が,必ずしも学生の一般化に繋がるとは限らないことを示した。

Knowledge distillation is a popular technique for training a small student network to emulate a larger teacher model, such as an ensemble of networks. We show that while knowledge distillation can improve student generalization, it does not typically work as it is commonly understood: there often remains a surprisingly large discrepancy between the predictive distributions of the teacher and the student, even in cases when the student has the capacity to perfectly match the teacher. We identify difficulties in optimization as a key reason for why the student is unable to match the teacher. We also show how the details of the dataset used for distillation play a role in how closely the student matches the teacher -- and that more closely matching the teacher paradoxically does not always lead to better student generalization.
翻訳日:2021-06-11 14:33:21 公開日:2021-06-10
# ODEに基づくランダム特徴を持つ非線形力学系の構成モデリング

Compositional Modeling of Nonlinear Dynamical Systems with ODE-based Random Features ( http://arxiv.org/abs/2106.05960v1 )

ライセンス: Link先を確認
Thomas M. McDonald, Mauricio A. \'Alvarez(参考訳) 非常に非線形な力学系に存在する現象を効果的にモデル化する一方で、不確実性を正確に定量化することは困難であり、しばしば問題固有の技術を必要とする。 本稿では、通常の微分方程式から導かれる物理に変形したランダムな特徴の合成を用いて、この問題に取り組む新しい領域非依存なアプローチを提案する。 このモデルのアーキテクチャは、ランダムなフーリエ特徴を組み込んだ層毎の重み空間近似や近似ベイズ推論の確率的変分推論など、深いガウス過程の近似推論の最近の進歩を活用している。 本モデルが実世界の多変量時系列データにおいて高度に非線形な挙動を捉えることができることを示す。 さらに,本手法は,ベンチマーク回帰タスクにおいて,他の多くの確率モデルに匹敵する性能を実現する。

Effectively modeling phenomena present in highly nonlinear dynamical systems whilst also accurately quantifying uncertainty is a challenging task, which often requires problem-specific techniques. We present a novel, domain-agnostic approach to tackling this problem, using compositions of physics-informed random features, derived from ordinary differential equations. The architecture of our model leverages recent advances in approximate inference for deep Gaussian processes, such as layer-wise weight-space approximations which allow us to incorporate random Fourier features, and stochastic variational inference for approximate Bayesian inference. We provide evidence that our model is capable of capturing highly nonlinear behaviour in real-world multivariate time series data. In addition, we find that our approach achieves comparable performance to a number of other probabilistic models on benchmark regression tasks.
翻訳日:2021-06-11 14:33:07 公開日:2021-06-10
# 自己組織化クラスタリングのためのSwarm Intelligence

Swarm Intelligence for Self-Organized Clustering ( http://arxiv.org/abs/2106.05521v1 )

ライセンス: Link先を確認
Michael C. Thrun and Alfred Ultsch(参考訳) 互いに相互作用し、環境を感知するエージェントの集団を実装するアルゴリズムは、自己組織化や集団知性などの創発的な行動を示す可能性がある。 ここではDatabionic Swarm(DBS)と呼ばれるSwarmシステムが導入され、データ空間内の距離や密度に基づく構造を特徴とする高次元データの構造に適応することができる。 スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。 Swarmは、大域的目的関数の使用を省略し、アニーリング過程中にナッシュ平衡を探索するためパラメータフリーである。 私たちの知る限り、DBSはこれらのアプローチを組み合わせた最初の群れです。 そのクラスタリングは、k-means、pam、single linkage、spectral clustering、model-based clustering、wardのような一般的なクラスタリングメソッドよりも優れている。 クラスタリングにおける中心的な問題は、クラスタ数の正しい推定である。 これは、クラスタ数を評価できるtopographic mapと呼ばれるdbs可視化によって解決される。 すべてのクラスタリングアルゴリズムが、データセットに関係なくクラスタを構成することが知られている。 他のほとんどのクラスタリングアルゴリズムとは対照的に、地形図は、データが(自然な)クラスタを含まない場合、データのクラスタリングは意味がないと特定する。 DBSの性能は、クラスタリングの困難な問題に対処するために構築されたベンチマークデータと、2つの実世界のアプリケーションで実証される。

Algorithms implementing populations of agents which interact with one another and sense their environment may exhibit emergent behavior such as self-organization and swarm intelligence. Here a swarm system, called Databionic swarm (DBS), is introduced which is able to adapt itself to structures of high-dimensional data characterized by distance and/or density-based structures in the data space. By exploiting the interrelations of swarm intelligence, self-organization and emergence, DBS serves as an alternative approach to the optimization of a global objective function in the task of clustering. The swarm omits the usage of a global objective function and is parameter-free because it searches for the Nash equilibrium during its annealing process. To our knowledge, DBS is the first swarm combining these approaches. Its clustering can outperform common clustering methods such as K-means, PAM, single linkage, spectral clustering, model-based clustering, and Ward, if no prior knowledge about the data is available. A central problem in clustering is the correct estimation of the number of clusters. This is addressed by a DBS visualization called topographic map which allows assessing the number of clusters. It is known that all clustering algorithms construct clusters, irrespective of the data set contains clusters or not. In contrast to most other clustering algorithms, the topographic map identifies, that clustering of the data is meaningless if the data contains no (natural) clusters. The performance of DBS is demonstrated on a set of benchmark data, which are constructed to pose difficult clustering problems and in two real-world applications.
翻訳日:2021-06-11 14:32:52 公開日:2021-06-10
# シミュレーションベーステストの検証:ラベル-画像合成によるドメインシフトの回避

Validation of Simulation-Based Testing: Bypassing Domain Shift with Label-to-Image Synthesis ( http://arxiv.org/abs/2106.05549v1 )

ライセンス: Link先を確認
Julia Rosenzweig, Eduardo Brito, Hans-Ulrich Kobialka, Maram Akila, Nico M. Schmidt, Peter Schlicht, Jan David Schneider, Fabian H\"uger, Matthias Rottmann, Sebastian Houben, Tim Wirtz(参考訳) 多くの機械学習アプリケーションは、シミュレートされたデータを体系的な検証に役立てることができる。 しかし、シミュレーションはドメインシフトw.r.t になりがちである。 実生活データでは、得られた結果の転送可能性を検証することが重要である。 本稿では,合成データから等価な実生活データへ意味セグメンテーションモデルのテスト結果をどの程度転送できるかを調べるために,生成ラベルから画像への合成モデルと異なる転送可能性尺度を組み合わせた新しい枠組みを提案する。 若干の変更を加えると、我々のアプローチは一般的な多クラス分類タスクに拡張可能である。 トランスファービリティ解析に基づくアプローチでは,制御されたシミュレーションを組み込んだ広範囲なテストも可能である。 運転シーンにおける意味セグメンテーションタスクを経験的に検証した。 IoUと学習した識別器の相関解析を用いてトランスファービリティを検証した。 後者は実生活と合成テストを区別できるが、前者は自動車と歩行者の両方で0.7の驚くほど強い相関関係を観察する。

Many machine learning applications can benefit from simulated data for systematic validation - in particular if real-life data is difficult to obtain or annotate. However, since simulations are prone to domain shift w.r.t. real-life data, it is crucial to verify the transferability of the obtained results. We propose a novel framework consisting of a generative label-to-image synthesis model together with different transferability measures to inspect to what extent we can transfer testing results of semantic segmentation models from synthetic data to equivalent real-life data. With slight modifications, our approach is extendable to, e.g., general multi-class classification tasks. Grounded on the transferability analysis, our approach additionally allows for extensive testing by incorporating controlled simulations. We validate our approach empirically on a semantic segmentation task on driving scenes. Transferability is tested using correlation analysis of IoU and a learned discriminator. Although the latter can distinguish between real-life and synthetic tests, in the former we observe surprisingly strong correlations of 0.7 for both cars and pedestrians.
翻訳日:2021-06-11 14:32:15 公開日:2021-06-10
# VQAにおける共振パターンの伝達の監督

Supervising the Transfer of Reasoning Patterns in VQA ( http://arxiv.org/abs/2106.05597v1 )

ライセンス: Link先を確認
Corentin Kervadec, Christian Wolf, Grigory Antipov, Moez Baccouche and Madiha Nadri(参考訳) VQA(Visual Question Anwering)は、推論よりもデータセットバイアスを活用することで知られ、一般化を妨げる。 最近、完璧な(oracle)ビジュアルインプットでトレーニングされた際に、最先端のvqaモデルの注意層により良い推論パターンが現れることが示されている。 これにより、深層ニューラルネットワークが、トレーニング条件が十分に好適であるかどうかを判断できることが証明される。 しかし、この学習した知識をデプロイ可能なモデルに転送することは難しい。 損失関数における正規化項に基づく知識伝達法を提案し,必要な推論操作のシーケンスを監督する。 pac-learningに基づく理論的解析を行い,このプログラム予測が軽度仮説下でのサンプル複雑性の低下につながることを示した。 また,本手法の有効性をGQAデータセット上で実験的に検証し,BERTのような自己教師付き事前学習と相補性を示す。

Methods for Visual Question Anwering (VQA) are notorious for leveraging dataset biases rather than performing reasoning, hindering generalization. It has been recently shown that better reasoning patterns emerge in attention layers of a state-of-the-art VQA model when they are trained on perfect (oracle) visual inputs. This provides evidence that deep neural networks can learn to reason when training conditions are favorable enough. However, transferring this learned knowledge to deployable models is a challenge, as much of it is lost during the transfer. We propose a method for knowledge transfer based on a regularization term in our loss function, supervising the sequence of required reasoning operations. We provide a theoretical analysis based on PAC-learning, showing that such program prediction can lead to decreased sample complexity under mild hypotheses. We also demonstrate the effectiveness of this approach experimentally on the GQA dataset and show its complementarity to BERT-like self-supervised pre-training.
翻訳日:2021-06-11 14:32:00 公開日:2021-06-10
# 深層強化学習を用いた適応型ストリーミング知覚

Adaptive Streaming Perception using Deep Reinforcement Learning ( http://arxiv.org/abs/2106.05665v1 )

ライセンス: Link先を確認
Anurag Ghosh, Akshay Nambi, Aditya Singh, Harish YVS, Tanuja Ganu(参考訳) 視覚データをストリーミングしたり、知覚をストリーミングしたりするコンピュータビジョンモデルの実行は、自動運転、具体化エージェント、拡張現実/バーチャルリアリティーなど、新たな問題である。 このようなシステムの開発は、処理パイプラインの精度とレイテンシに大きく左右される。 過去の開発では、多くの近似実行フレームワークが提案されているが、決定機能は、レイテンシ、正確性、エネルギーなどの最適化にのみ焦点を絞っている。 その結果、システム全体のパフォーマンスに影響を与える最適化を下すことになる。 ストリーミング認識システムはシステム全体の性能(すなわち、精度とレイテンシの両方を同時に考慮して)を総括的に最大化するべきである。 この目的のために,ストリーミング知覚のための実行時にこれらのトレードオフを学ぶための,深層強化学習に基づく新しいアプローチについて述べる。 このトレードオフ最適化は,新たな深層バンディット問題として定式化されており,遅延と精度を1つのメトリックに統合した新たな報酬関数を設計する。 エージェントは、パブリックデータセットの最先端ポリシーよりも優れた、複数の意思決定次元にわたる競合ポリシーを学習できることを示します。

Executing computer vision models on streaming visual data, or streaming perception is an emerging problem, with applications in self-driving, embodied agents, and augmented/virtual reality. The development of such systems is largely governed by the accuracy and latency of the processing pipeline. While past work has proposed numerous approximate execution frameworks, their decision functions solely focus on optimizing latency, accuracy, or energy, etc. This results in sub-optimum decisions, affecting the overall system performance. We argue that the streaming perception systems should holistically maximize the overall system performance (i.e., considering both accuracy and latency simultaneously). To this end, we describe a new approach based on deep reinforcement learning to learn these tradeoffs at runtime for streaming perception. This tradeoff optimization is formulated as a novel deep contextual bandit problem and we design a new reward function that holistically integrates latency and accuracy into a single metric. We show that our agent can learn a competitive policy across multiple decision dimensions, which outperforms state-of-the-art policies on public datasets.
翻訳日:2021-06-11 14:31:43 公開日:2021-06-10
# モデルベース特徴投影ブロックを用いた終端肺結節検出フレームワーク

End-to-end lung nodule detection framework with model-based feature projection block ( http://arxiv.org/abs/2106.05741v1 )

ライセンス: Link先を確認
Ivan Drokin and Elena Ericheva(参考訳) 胸部CTで不審な肺結節を検出するための新しいエンドツーエンドフレームワークを提案する。 メソッドコアのアイデアは、3次元畳み込みにモデルベースの特徴投影ブロックを持つ新しい結節分割アーキテクチャである。 このブロックは、2次元U-Netのような畳み込みネットワークの予備的特徴抽出器として機能する。 軸, コロナ, 矢状投射解析とともに提案手法を用いることで, 広く用いられている偽陽性率低減ステップを放棄することができる。 提案手法はLUNA2016において平均感度0.959、スキャン毎の偽陽性レベル0.936の感度でSOTAを実現する。 提案手法について述べるとともに, LUNA2016およびアブレーション研究に関する実験結果を示す。

This paper proposes novel end-to-end framework for detecting suspicious pulmonary nodules in chest CT scans. The method core idea is a new nodule segmentation architecture with a model-based feature projection block on three-dimensional convolutions. This block acts as a preliminary feature extractor for a two-dimensional U-Net-like convolutional network. Using the proposed approach along with an axial, coronal, and sagittal projection analysis makes it possible to abandon the widely used false positives reduction step. The proposed method achieves SOTA on LUNA2016 with 0.959 average sensitivity, and 0.936 sensitivity if the false-positive level per scan is 0.25. The paper describes the proposed approach and represents the experimental results on LUNA2016 as well as ablation studies.
翻訳日:2021-06-11 14:31:26 公開日:2021-06-10
# ソルガム分類のためのマルチレゾリューションoutlier pooling

Multi-resolution Outlier Pooling for Sorghum Classification ( http://arxiv.org/abs/2106.05748v1 )

ライセンス: Link先を確認
Chao Ren, Justin Dulay, Gregory Rolwes, Duke Pauli, Nadia Shakoor and Abby Stylianou(参考訳) 自動高スループット植物表現法は、RGB、サーマルカメラ、ハイパースペクトルカメラなどのセンサーを活用して、作物の違いをよりよく理解し、迅速な植物育種プログラムを促進するために、植物の物理的特性を大規模かつ迅速に測定する。 最も基本的な表現型付けの課題の1つは、特定のセンサー製品における品種や種を決定することである。 この単純な表現型は、植え付けにおけるエラーを検出し、品種間の最も異なる特徴を学習するために使用できる。 また、多くの関連性の高い作物が同時に栽培されるため、クラス間分散の少ない分類問題を引き起こすため、視覚認識課題にもなっている。 本稿では,sorghum-100データセット,最先端のgantryシステムによってキャプチャされたsorghumのrgbイメージの大規模なデータセット,作物のグローバルおよび細粒度の特徴を学習するマルチレゾリューションネットワークアーキテクチャ,およびこのタスクで標準的なグローバルプーリング戦略を上回る,dynamic outlier poolingと呼ばれる新しいグローバルプーリング戦略を紹介する。

Automated high throughput plant phenotyping involves leveraging sensors, such as RGB, thermal and hyperspectral cameras (among others), to make large scale and rapid measurements of the physical properties of plants for the purpose of better understanding the difference between crops and facilitating rapid plant breeding programs. One of the most basic phenotyping tasks is to determine the cultivar, or species, in a particular sensor product. This simple phenotype can be used to detect errors in planting and to learn the most differentiating features between cultivars. It is also a challenging visual recognition task, as a large number of highly related crops are grown simultaneously, leading to a classification problem with low inter-class variance. In this paper, we introduce the Sorghum-100 dataset, a large dataset of RGB imagery of sorghum captured by a state-of-the-art gantry system, a multi-resolution network architecture that learns both global and fine-grained features on the crops, and a new global pooling strategy called Dynamic Outlier Pooling which outperforms standard global pooling strategies on this task.
翻訳日:2021-06-11 14:31:15 公開日:2021-06-10
# バッチノルムを超えて:深層学習における正規化の一般的な理解に向けて

Beyond BatchNorm: Towards a General Understanding of Normalization in Deep Learning ( http://arxiv.org/abs/2106.05956v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka(参考訳) batchnormに触発されて、ディープラーニングでは正規化層が爆発的に増えている。 最近の研究は、その成功を説明するために、BatchNormの多くの有益な特性を特定している。 しかし、代替正規化手法の追求を考えると、これらの特性は任意の層の成功/失敗を正確に予測できるように一般化する必要がある。 本研究では、ランダム初期化ディープニューラルネットワーク(DNN)におけるBatchNormの既知の特性を、最近提案された9つの正規化層に拡張することで、この目標に向けて第一歩を踏み出す。 Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. 全体として、ディープラーニングにおける正規化技術の成功を説明するいくつかの一般的なメカニズムを明らかにし、DNN正規化層の広大な設計空間を体系的に探索するためのコンパスを提供する。

Inspired by BatchNorm, there has been an explosion of normalization layers in deep learning. Recent works have identified a multitude of beneficial properties in BatchNorm to explain its success. However, given the pursuit of alternative normalization techniques, these properties need to be generalized so that any given layer's success/failure can be accurately predicted. In this work, we take a first step towards this goal by extending known properties of BatchNorm in randomly initialized deep neural networks (DNNs) to nine recently proposed normalization layers. Our primary findings follow: (i) Similar to BatchNorm, activations-based normalization layers can avoid exploding activations in ResNets; (ii) Use of GroupNorm ensures rank of activations is at least $\Omega(\sqrt{\frac{\text{width}}{\text{Group Size}}})$, thus explaining why LayerNorm witnesses slow optimization speed; (iii) Small group sizes result in large gradient norm in earlier layers, hence justifying training instability issues in Instance Normalization and illustrating a speed-stability tradeoff in GroupNorm. Overall, our analysis reveals several general mechanisms that explain the success of normalization techniques in deep learning, providing us with a compass to systematically explore the vast design space of DNN normalization layers.
翻訳日:2021-06-11 14:30:51 公開日:2021-06-10
# 変速試験環境下での分類精度について回転予測が示すこと

What Does Rotation Prediction Tell Us about Classifier Accuracy under Varying Testing Environments? ( http://arxiv.org/abs/2106.05961v1 )

ライセンス: Link先を確認
Weijian Deng, Stephen Gould, Liang Zheng(参考訳) 新たな環境下での分類器の決定を理解することはコミュニティの中心であり、ラベル付きテストセットで評価することが一般的である。 しかし、実世界のテストでは、特にテスト環境が変化している場合、画像アノテーションは入手が難しく、コストがかかる。 訓練された分類器が与えられたら、その精度を様々な未ラベルのテストセットで評価できるだろうか? 本研究では,マルチタスクで意味的分類と回転予測を訓練する。 一連のデータセットについて,セマンティクス分類精度は,回転予測タスクの精度と強い線形関係を示す(ピアソン相関r > 0.88)。 この発見により,自由生成する回転ラベルを用いた試験で得られる回転予測の精度から,線形回帰を利用して分類器の性能を推定できる。

Understanding classifier decision under novel environments is central to the community, and a common practice is evaluating it on labeled test sets. However, in real-world testing, image annotations are difficult and expensive to obtain, especially when the test environment is changing. A natural question then arises: given a trained classifier, can we evaluate its accuracy on varying unlabeled test sets? In this work, we train semantic classification and rotation prediction in a multi-task way. On a series of datasets, we report an interesting finding, i.e., the semantic classification accuracy exhibits a strong linear relationship with the accuracy of the rotation prediction task (Pearson's Correlation r > 0.88). This finding allows us to utilize linear regression to estimate classifier performance from the accuracy of rotation prediction which can be obtained on the test set through the freely generated rotation labels.
翻訳日:2021-06-11 14:30:33 公開日:2021-06-10
# 視覚表現の教師なし学習のためのコントラスト法の再検討

Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations ( http://arxiv.org/abs/2106.05967v1 )

ライセンス: Link先を確認
Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Luc Van Gool(参考訳) 対照的な自己教師付き学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクで教師付き事前学習よりも優れています。 しかし、現在の方法は主にimagenetのようなキュレートされたデータセットに適用される。 本稿では,まず,データセット内のバイアスが既存手法に与える影響について検討する。 その結果、現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能していることがわかった。 第二に、アプローチの一般性を考えると、小さな修正を加えてさらなる利益を実現しようとする。 マルチスケールの収穫、より強い増分、そして最も近い隣人の利用により、学習のさらなる不変性が表現を改善していることを示す。 最後に,MoCoがマルチクロップ戦略で学習すると,空間的構造化された表現が学習されることを示す。 この表現は、微調整なしでセグメンテーションとビデオインスタンスセグメンテーションに使うことができる。 さらに、結果は専門モデルと同等である。 この研究が他の研究者にとって有用な研究になることを期待している。 コードとモデルはhttps://github.com/w vangansbeke/Revisiti ng-Contrastive-SSLで入手できる。

Contrastive self-supervised learning has outperformed supervised pretraining on many downstream tasks like segmentation and object detection. However, current methods are still primarily applied to curated datasets like ImageNet. In this paper, we first study how biases in the dataset affect existing methods. Our results show that current contrastive approaches work surprisingly well across: (i) object- versus scene-centric, (ii) uniform versus long-tailed and (iii) general versus domain-specific datasets. Second, given the generality of the approach, we try to realize further gains with minor modifications. We show that learning additional invariances -- through the use of multi-scale cropping, stronger augmentations and nearest neighbors -- improves the representations. Finally, we observe that MoCo learns spatially structured representations when trained with a multi-crop strategy. The representations can be used for semantic segment retrieval and video instance segmentation without finetuning. Moreover, the results are on par with specialized models. We hope this work will serve as a useful study for other researchers. The code and models will be available at https://github.com/w vangansbeke/Revisiti ng-Contrastive-SSL.
翻訳日:2021-06-11 14:30:19 公開日:2021-06-10
# 品質多様性最適化による教師なし行動発見

Unsupervised Behaviour Discovery with Quality-Diversity Optimisation ( http://arxiv.org/abs/2106.05648v1 )

ライセンス: Link先を確認
Luca Grillotti and Antoine Cully(参考訳) 品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。 ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。 そのため、これらのアルゴリズムはそれぞれの振る舞いに振る舞い記述子を関連付ける。 各行動記述子は、他の行動と比較して1つの行動の新規性を推定するために使用される。 ほとんどの既存のアルゴリズムでは、振る舞い記述子をハンドコーディングする必要があるため、タスクに関する事前の知識が必要となる。 本稿では,その能力を実現する自律ロボットについて紹介する。そのアルゴリズムは次元低減技術を用いて,生の感覚データに基づいて行動記述子を自動的に学習する。 このアルゴリズムの性能はシミュレーションにおける3つのロボットタスクに基づいて評価される。 実験の結果,ハンドコードされた動作記述子を提供する必要なしに,従来のハンドコードアプローチと同じように動作することがわかった。 多様なハイパフォーマンスなソリューションのコレクションでは、ハンドコードされたベースラインよりも多くの機能に関して斬新な振る舞いを見つけることができる。 最後に,動作記述子空間の次元性に頑健なアルゴリズムの変種を導入する。

Quality-Diversity algorithms refer to a class of evolutionary algorithms designed to find a collection of diverse and high-performing solutions to a given problem. In robotics, such algorithms can be used for generating a collection of controllers covering most of the possible behaviours of a robot. To do so, these algorithms associate a behavioural descriptor to each of these behaviours. Each behavioural descriptor is used for estimating the novelty of one behaviour compared to the others. In most existing algorithms, the behavioural descriptor needs to be hand-coded, thus requiring prior knowledge about the task to solve. In this paper, we introduce: Autonomous Robots Realising their Abilities, an algorithm that uses a dimensionality reduction technique to automatically learn behavioural descriptors based on raw sensory data. The performance of this algorithm is assessed on three robotic tasks in simulation. The experimental results show that it performs similarly to traditional hand-coded approaches without the requirement to provide any hand-coded behavioural descriptor. In the collection of diverse and high-performing solutions, it also manages to find behaviours that are novel with respect to more features than its hand-coded baselines. Finally, we introduce a variant of the algorithm which is robust to the dimensionality of the behavioural descriptor space.
翻訳日:2021-06-11 14:29:38 公開日:2021-06-10
# 中心極限定理、損失回避と多腕バンディット

A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits ( http://arxiv.org/abs/2106.05472v1 )

ライセンス: Link先を確認
Zengjing Chen, Larry G. Epstein, Guodong Zhang(参考訳) 本稿では, 条件分散が, 一定間隔の制限のみを条件とする実験において, ほとんど構造化されていない履歴依存の方法で変化できるという仮定の下で, 中心極限定理を確立する。 極限は、新しくて取り外し可能な形式をとり、ブラウン運動の振動の言葉で表される。 第2の貢献は、意思決定者が損失逆であるマルチアームバンディット問題のクラスにこの結果を適用することである。

This paper establishes a central limit theorem under the assumption that conditional variances can vary in a largely unstructured history-dependent way across experiments subject only to the restriction that they lie in a fixed interval. Limits take a novel and tractable form, and are expressed in terms of oscillating Brownian motion. A second contribution is application of this result to a class of multi-armed bandit problems where the decision-maker is loss averse.
翻訳日:2021-06-11 14:29:10 公開日:2021-06-10
# 不確実性推定における被覆バイアスの理解

Understanding the Under-Coverage Bias in Uncertainty Estimation ( http://arxiv.org/abs/2106.05515v1 )

ライセンス: Link先を確認
Yu Bai, Song Mei, Huan Wang, Caiming Xiong(参考訳) 回帰タスクにおけるデータ不確実性の推定は、しばしば、入力に条件付けられた真のラベルの量子関数や予測間隔を学ぶことによって行われる。 漸近的保証を持つ分位数を学習するためのバニラアルゴリズムである分位数回帰は、現実の所望のカバレッジレベルよりも\emph{under-cover} が多いことがしばしば観察される。 様々な修正が提案されているが、この過大な偏見がそもそもなぜ起こるのかというより根本的な理解はいまだに解明されていない。 本稿では,学習量論における不確かさ推定アルゴリズムの適用範囲に関する厳密な理論的研究を行う。 定位回帰は, 線形定位関数が実現可能であり, パラメータ以上のデータが存在するバニラ設定において, 固有の非被覆バイアスに苦しむことを証明した。 より定量的に、$\alpha>0.5$ と small $d/n$ に対して、量子化回帰によって学習された$\alpha$-quantile は、ノイズ分布に関係なく$\alpha - (\alpha-1/2)\cdot d/n$ の範囲をほぼ達成し、$d$ は入力次元、$n$ はトレーニングデータ数である。 本理論では, この非被覆バイアスは, 定位回帰理論に含まない特定の高次元パラメータ推定誤差に起因していることを明らかにした。 シミュレーションおよび実データを用いた実験は,本理論を検証し,サンプルサイズやモデルキャパシティなどの諸要因が,より実践的な設定における下層偏差に及ぼす影響を検証した。

Estimating the data uncertainty in regression tasks is often done by learning a quantile function or a prediction interval of the true label conditioned on the input. It is frequently observed that quantile regression -- a vanilla algorithm for learning quantiles with asymptotic guarantees -- tends to \emph{under-cover} than the desired coverage level in reality. While various fixes have been proposed, a more fundamental understanding of why this under-coverage bias happens in the first place remains elusive. In this paper, we present a rigorous theoretical study on the coverage of uncertainty estimation algorithms in learning quantiles. We prove that quantile regression suffers from an inherent under-coverage bias, in a vanilla setting where we learn a realizable linear quantile function and there is more data than parameters. More quantitatively, for $\alpha>0.5$ and small $d/n$, the $\alpha$-quantile learned by quantile regression roughly achieves coverage $\alpha - (\alpha-1/2)\cdot d/n$ regardless of the noise distribution, where $d$ is the input dimension and $n$ is the number of training data. Our theory reveals that this under-coverage bias stems from a certain high-dimensional parameter estimation error that is not implied by existing theories on quantile regression. Experiments on simulated and real data verify our theory and further illustrate the effect of various factors such as sample size and model capacity on the under-coverage bias in more practical setups.
翻訳日:2021-06-11 14:29:05 公開日:2021-06-10
# パラメータ推論のための解釈可能なニューラルネットワーク

An Interpretable Neural Network for Parameter Inference ( http://arxiv.org/abs/2106.05536v1 )

ライセンス: Link先を確認
Johann Pfitzinger(参考訳) 経済学や金融学などの分野におけるディープニューラルネットワークの導入は、モデル結果の解釈可能性の欠如によって制約されている。 本稿では,回帰モデルのパラメータに対する局所後続分布を推定可能な生成型ニューラルネットワークアーキテクチャであるパラメータエンコーダニューラルネットワーク(penn)を提案する。 パラメータは入力の観点から予測を完全に説明し、複雑な異種効果や特徴依存の存在下での可視化、解釈、推論を可能にする。 ベイズ推論手法を用いることで、局所的なパラメータ推定を安定した解に向けて規則化し、限られたデータ可用性の設定におけるノイズフィッティングを減らすことができる。 提案するニューラルネットワークは、パラメータ推論が重要な役割を果たす経済学や金融分野の応用に特に適している。 資産価格問題への応用は、PENNが金融市場の非線形リスクダイナミクスを探索し、経験的非線形効果と金融理論による行動の比較にどのように使用できるかを示す。

Adoption of deep neural networks in fields such as economics or finance has been constrained by the lack of interpretability of model outcomes. This paper proposes a generative neural network architecture - the parameter encoder neural network (PENN) - capable of estimating local posterior distributions for the parameters of a regression model. The parameters fully explain predictions in terms of the inputs and permit visualization, interpretation and inference in the presence of complex heterogeneous effects and feature dependencies. The use of Bayesian inference techniques offers an intuitive mechanism to regularize local parameter estimates towards a stable solution, and to reduce noise-fitting in settings of limited data availability. The proposed neural network is particularly well-suited to applications in economics and finance, where parameter inference plays an important role. An application to an asset pricing problem demonstrates how the PENN can be used to explore nonlinear risk dynamics in financial markets, and to compare empirical nonlinear effects to behavior posited by financial theory.
翻訳日:2021-06-11 14:28:33 公開日:2021-06-10
# GANのニューラル・タンジェントカーネル・パースペクティブ

A Neural Tangent Kernel Perspective of GANs ( http://arxiv.org/abs/2106.05566v1 )

ライセンス: Link先を確認
Jean-Yves Franceschi (MLIA), Emmanuel de B\'ezenac (MLIA), Ibrahim Ayed (MLIA), Micka\"el Chen, Sylvain Lamprier (MLIA), Patrick Gallinari (MLIA)(参考訳) generative adversarial network (gans) の理論解析は一般に、任意に大きな分類器群を仮定し、実際に使用されるアーキテクチャの特徴を考慮しない。 分析の枠組みは単純すぎてganトレーニングを適切に分析できないことを示す。 この問題に対処するために、無限幅ニューラルネットワークの理論を活用し、ニューラルタンジェントカーネル(NTK)を介して、幅広い敵の損失に対するニューラルディミネータートレーニングをモデル化する。 分析の結果,GANの訓練性は判別器のアーキテクチャに依存することがわかった。 さらに、特定のアーキテクチャと損失の識別器について研究し、GANトレーニングの新たな理解を提供する特性を強調した。 例えば、積分確率計量損失で訓練されたGANは、NTKをカーネルとする最大平均誤差を最小化する。 我々の結論は,より優れた,より原理化されたGANモデルを実現するための,提案するフレームワークがもたらす分析の機会を示すものである。 我々は,研究の実証的部分をサポートするフレームワークに基づく汎用gan分析ツールキットをリリースする。

Theoretical analyses for Generative Adversarial Networks (GANs) generally assume an arbitrarily large family of discriminators and do not consider the characteristics of the architectures used in practice. We show that this framework of analysis is too simplistic to properly analyze GAN training. To tackle this issue, we leverage the theory of infinite-width neural networks to model neural discriminator training for a wide range of adversarial losses via its Neural Tangent Kernel (NTK). Our analytical results show that GAN trainability primarily depends on the discriminator's architecture. We further study the discriminator for specific architectures and losses, and highlight properties providing a new understanding of GAN training. For example, we find that GANs trained with the integral probability metric loss minimize the maximum mean discrepancy with the NTK as kernel. Our conclusions demonstrate the analysis opportunities provided by the proposed framework, which paves the way for better and more principled GAN models. We release a generic GAN analysis toolkit based on our framework that supports the empirical part of our study.
翻訳日:2021-06-11 14:28:18 公開日:2021-06-10
# 線形計測値の混合によるスパース信号の回復支援

Support Recovery of Sparse Signals from a Mixture of Linear Measurements ( http://arxiv.org/abs/2106.05951v1 )

ライセンス: Link先を確認
Venkata Gandikota, Arya Mazumdar, Soumyabrata Pal(参考訳) 単純な測定からスパースベクトルのサポートを回復することは、圧縮センシング、1ビット圧縮センシング、より一般的なシングルインデックスモデルの枠組みで検討された広く研究されている問題である。 線形回帰の混合と線形分類器の混合というこの問題の一般化を考察し、そこでは、少数個のノイズのある線形と1ビットの測定だけを用いて、複数のスパースベクトルのサポートを回復することが目的である。 鍵となる課題は、異なるベクトルからの測定がランダムに混合されることである。 どちらの問題も近年広く研究されている。 線形分類器の混合では、この観測は列状超平面の側面にランダムな未知ベクトルが存在するのに対し、線形回帰の混合では、列状超平面上のランダムな未知ベクトルの投影を観察する。 混合から未知のベクトルを回収する第一のステップは、まず個々の成分ベクトルの支持を識別することである。 本研究では,両モデルにおける混合成分ベクトルの支持部を回収するのに十分な測定数について検討する。 我々は、各成分がk$-sparse $n$-dimensional ベクトルである場合、混合中のすべての$\ell$ 未知ベクトルのサポートを高い確率で回復するために、いくつかの測定多項式を $k, \log n$ および pseudo-polynomial で$\ell$で使用するアルゴリズムを提供する。

Recovery of support of a sparse vector from simple measurements is a widely studied problem, considered under the frameworks of compressed sensing, 1-bit compressed sensing, and more general single index models. We consider generalizations of this problem: mixtures of linear regressions, and mixtures of linear classifiers, where the goal is to recover supports of multiple sparse vectors using only a small number of possibly noisy linear, and 1-bit measurements respectively. The key challenge is that the measurements from different vectors are randomly mixed. Both of these problems were also extensively studied recently. In mixtures of linear classifiers, the observations correspond to the side of queried hyperplane a random unknown vector lies in, whereas in mixtures of linear regressions we observe the projection of a random unknown vector on the queried hyperplane. The primary step in recovering the unknown vectors from the mixture is to first identify the support of all the individual component vectors. In this work, we study the number of measurements sufficient for recovering the supports of all the component vectors in a mixture in both these models. We provide algorithms that use a number of measurements polynomial in $k, \log n$ and quasi-polynomial in $\ell$, to recover the support of all the $\ell$ unknown vectors in the mixture with high probability when each individual component is a $k$-sparse $n$-dimensional vector.
翻訳日:2021-06-11 14:27:43 公開日:2021-06-10
# 固定カーネルと特徴学習確率の分離結果

Separation Results between Fixed-Kernel and Feature-Learning Probability Metrics ( http://arxiv.org/abs/2106.05739v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Youssef Mroueh(参考訳) 暗黙的で明示的な生成モデルにおけるいくつかの研究は、特徴学習判別器がモデルのサンプル品質の点で固定カーネル判別器より優れていることを経験的に観察した。 重パラメータ2層ニューラルネットワークの研究のために開発された関数クラス $\mathcal{f}_2$ と $\mathcal{f}_1$ を用いて,固定カーネルを用いた確率メトリクスと特徴学習判別器との分離結果を提供する。 特に、固定されたカーネル$(\mathcal{F}_2)$積分確率メートル法(IPM)とスタイン差分法(SD)で高次元で区別できない超球面上の分布のペアを構築するが、それらの特徴学習(\mathcal{F}_1$)によって区別することができる。 分離をさらに研究するために、ワッサーシュタイン距離をスライスした $\mathcal{F}_1$ と $\mathcal{F}_2$ IPMs のリンクを提供する。 我々の研究は、固定カーネル識別器は、対応するメトリクスが弱いため、特徴学習器よりも性能が悪いことを示唆している。

Several works in implicit and explicit generative modeling empirically observed that feature-learning discriminators outperform fixed-kernel discriminators in terms of the sample quality of the models. We provide separation results between probability metrics with fixed-kernel and feature-learning discriminators using the function classes $\mathcal{F}_2$ and $\mathcal{F}_1$ respectively, which were developed to study overparametrized two-layer neural networks. In particular, we construct pairs of distributions over hyper-spheres that can not be discriminated by fixed kernel $(\mathcal{F}_2)$ integral probability metric (IPM) and Stein discrepancy (SD) in high dimensions, but that can be discriminated by their feature learning ($\mathcal{F}_1$) counterparts. To further study the separation we provide links between the $\mathcal{F}_1$ and $\mathcal{F}_2$ IPMs with sliced Wasserstein distances. Our work suggests that fixed-kernel discriminators perform worse than their feature learning counterparts because their corresponding metrics are weaker.
翻訳日:2021-06-11 14:27:16 公開日:2021-06-10
# 入力拡張によるニューラルマシン翻訳のための制約ビーム探索の改善:WAT 2021におけるNTT

Input Augmentation Improves Constrained Beam Search for Neural Machine Translation: NTT at WAT 2021 ( http://arxiv.org/abs/2106.05450v1 )

ライセンス: Link先を確認
Katsuki Chousa and Makoto Morishita(参考訳) 本稿では,WAT 2021の制限翻訳タスクに送信されたシステムについて述べる。 このタスクでは、与えられた単語の制約を全て含む翻訳文を出力する必要がある。 本システムでは,入力拡張と制約ビーム探索アルゴリズムを組み合わせた。 実験の結果,この組み合わせによって翻訳精度が大幅に向上し,全ての制約を出力に含めて推論時間を短縮できることがわかった。 en->jaとja->enの両方において,本システムは自動評価において最高の評価性能を得た。

This paper describes our systems that were submitted to the restricted translation task at WAT 2021. In this task, the systems are required to output translated sentences that contain all given word constraints. Our system combined input augmentation and constrained beam search algorithms. Through experiments, we found that this combination significantly improves translation accuracy and can save inference time while containing all the constraints in the output. For both En->Ja and Ja->En, our systems obtained the best evaluation performances in automatic evaluation.
翻訳日:2021-06-11 14:26:26 公開日:2021-06-10
# 低リソース・ファインチューニングのための変分情報基盤

Variational Information Bottleneck for Effective Low-Resource Fine-Tuning ( http://arxiv.org/abs/2106.05469v1 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, Yonatan Belinkov, James Henderson(参考訳) 大規模な事前訓練された言語モデルは、様々なタスクを微調整した時に印象的な結果を得たが、低リソースのシナリオでは過度に適合する。 このようなモデルは汎用的特徴抽出器であるため、これらの特徴の多くは、与えられた目標タスクに必然的に無関係である。 そこで本稿では,低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために変動情報ボット(VIB)を提案する。 さらに、我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つけ、ドメイン外データセットのより優れた一般化を得る。 異なるタスクにおける7つの低リソースデータセットの評価は、我々の手法が低リソースシナリオにおける転送学習を大幅に改善し、先行作業を上回っていることを示している。 さらに、15のドメイン外自然言語推論ベンチマークのうち13の一般化を改善している。 私たちのコードはhttps://github.com/r abeehk/vibert.comで公開されています。

While large-scale pretrained language models have obtained impressive results when fine-tuned on a wide variety of tasks, they still often suffer from overfitting in low-resource scenarios. Since such models are general-purpose feature extractors, many of these features are inevitably irrelevant for a given target task. We propose to use Variational Information Bottleneck (VIB) to suppress irrelevant features when fine-tuning on low-resource target tasks, and show that our method successfully reduces overfitting. Moreover, we show that our VIB model finds sentence representations that are more robust to biases in natural language inference datasets, and thereby obtains better generalization to out-of-domain datasets. Evaluation on seven low-resource datasets in different tasks shows that our method significantly improves transfer learning in low-resource scenarios, surpassing prior work. Moreover, it improves generalization on 13 out of 15 out-of-domain natural language inference benchmarks. Our code is publicly available in https://github.com/r abeehk/vibert.
翻訳日:2021-06-11 14:26:18 公開日:2021-06-10
# 畳み込みと自己認識:事前学習言語モデルにおける相対的位置の再解釈

Convolutions and Self-Attention: Re-interpreting Relative Positions in Pre-trained Language Models ( http://arxiv.org/abs/2106.05505v1 )

ライセンス: Link先を確認
Tyler A. Chang, Yifan Xu, Weijian Xu, and Zhuowen Tu(参考訳) 本稿では,自然言語処理における畳み込みと自己意識の関係を詳述する。 自己着脱層における相対的位置埋め込みは,最近提案されている動的軽量畳み込みと等価であり,畳み込みをトランスフォーマー自己着脱と統合する複数の新しい方法を検討する。 具体的には,畳み込みの枠組みで従来の相対位置埋め込み法を結合した複合注意法を提案する。 我々は、BERTを複合的な注意で訓練することで実験を行い、畳み込みが複数の下流タスクの性能を継続的に改善し、絶対位置埋め込みを置き換えることを発見した。 本研究は, 言語モデル事前学習において, 軽量な畳み込み, 動的畳み込み, 深度的に分離可能な畳み込みを比較し, 自己アテンション層における畳み込みに対する複数の注入点を考慮した結果を示す。

In this paper, we detail the relationship between convolutions and self-attention in natural language tasks. We show that relative position embeddings in self-attention layers are equivalent to recently-proposed dynamic lightweight convolutions, and we consider multiple new ways of integrating convolutions into Transformer self-attention. Specifically, we propose composite attention, which unites previous relative position embedding methods under a convolutional framework. We conduct experiments by training BERT with composite attention, finding that convolutions consistently improve performance on multiple downstream tasks, replacing absolute position embeddings. To inform future work, we present results comparing lightweight convolutions, dynamic convolutions, and depthwise-separable convolutions in language model pre-training, considering multiple injection points for convolutions in self-attention layers.
翻訳日:2021-06-11 14:26:03 公開日:2021-06-10
# CogAlign: 認知言語処理信号に適応したテキストニューラル表現の学習

CogAlign: Learning to Align Textual Neural Representations to Cognitive Language Processing Signals ( http://arxiv.org/abs/2106.05544v1 )

ライセンス: Link先を確認
Yuqi Ren and Deyi Xiong(参考訳) これまでの研究では、単語埋め込みと認知的特徴を直接結合することで、認知的言語処理信号(例えば視線追跡や脳波データ)を自然言語処理(nlp)のニューラルモデルに統合し、2つの様相(テキストと認知)と認知的特徴のノイズとのギャップを無視する。 本稿では,これらの問題に対して,文章的ニューラルネットワーク表現を認知的特徴に合わせることを学ぶための共利的なアプローチを提案する。 CogAlignでは、モダリティ判別器を備えた共有エンコーダを用いて、テキスト入力と認知入力を代わりに符号化し、それらの差分と共通点をキャプチャする。 さらに,タスク関連情報の検出と認知的特徴のノイズの回避を目的としたテキスト認識注意機構を提案する。 エンティティ認識、感情分析、関係抽出という3つのnlpタスクの実験結果は、公開データセットの最先端モデルよりも、複数の認知機能により、cogalignが大幅に改善されていることを示している。 さらに,本モデルでは,認知処理信号を持たない他のデータセットに認知情報を転送することができる。

Most previous studies integrate cognitive language processing signals (e.g., eye-tracking or EEG data) into neural models of natural language processing (NLP) just by directly concatenating word embeddings with cognitive features, ignoring the gap between the two modalities (i.e., textual vs. cognitive) and noise in cognitive features. In this paper, we propose a CogAlign approach to these issues, which learns to align textual neural representations to cognitive features. In CogAlign, we use a shared encoder equipped with a modality discriminator to alternatively encode textual and cognitive inputs to capture their differences and commonalities. Additionally, a text-aware attention mechanism is proposed to detect task-related information and to avoid using noise in cognitive features. Experimental results on three NLP tasks, namely named entity recognition, sentiment analysis and relation extraction, show that CogAlign achieves significant improvements with multiple cognitive features over state-of-the-art models on public datasets. Moreover, our model is able to transfer cognitive information to other datasets that do not have any cognitive processing signals.
翻訳日:2021-06-11 14:25:45 公開日:2021-06-10
# VT-SSum:ビデオトランスクリプトセグメンテーションと要約のためのベンチマークデータセット

VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and Summarization ( http://arxiv.org/abs/2106.05606v1 )

ライセンス: Link先を確認
Tengchao Lv, Lei Cui, Momcilo Vasilijevic, Furu Wei(参考訳) ビデオ書き起こし要約はビデオ理解の基本的なタスクである。 書き起こし要約のための従来のアプローチは、通常、ニュース記事などの書き言葉の要約データに基づいて構築されるが、ドメインの相違は、音声テキストのモデル性能を劣化させる可能性がある。 本稿では,9,616本のビデオから125Kのトランスクリプト-サマリーペアを含む音声言語を用いた音声合成と要約のためのベンチマークデータセットであるVT-SSumを提案する。 VT-SSumはVideoLectures.NETのビデオを利用して、スライドコンテンツを弱い監督力として利用し、ビデオ書き起こしの抽出要約を生成する。 最先端のディープラーニングアプローチによる実験では、VT-SSumでトレーニングされたモデルは、AMI音声テキスト要約ベンチマークに大幅に改善されている。 VT-SSumは、ビデオスクリプティングのセグメンテーションと要約タスクの将来の研究をサポートするために公開される。

Video transcript summarization is a fundamental task for video understanding. Conventional approaches for transcript summarization are usually built upon the summarization data for written language such as news articles, while the domain discrepancy may degrade the model performance on spoken text. In this paper, we present VT-SSum, a benchmark dataset with spoken language for video transcript segmentation and summarization, which includes 125K transcript-summary pairs from 9,616 videos. VT-SSum takes advantage of the videos from VideoLectures.NET by leveraging the slides content as the weak supervision to generate the extractive summary for video transcripts. Experiments with a state-of-the-art deep learning approach show that the model trained with VT-SSum brings a significant improvement on the AMI spoken text summarization benchmark. VT-SSum will be publicly available to support the future research of video transcript segmentation and summarization tasks.
翻訳日:2021-06-11 14:25:23 公開日:2021-06-10
# DT-grams:クロスランゲージオーサシップ属性のための構造化依存文法スティロメトリ

DT-grams: Structured Dependency Grammar Stylometry for Cross-Language Authorship Attribution ( http://arxiv.org/abs/2106.05677v1 )

ライセンス: Link先を確認
Benjamin Murauer and G\"unther Specht(参考訳) 言語間の著者関係の問題は、単一言語機能の使用を可能にするために翻訳に依存するか、言語に依存しない特徴抽出方法に依存する。 最近まで、この問題に対するデータセットの欠如は後者の開発を妨げ、機械翻訳コーパス上で単一言語ソリューションが実行されていた。 本稿では,文の係り受けグラフの特定の部分を選択することにより,dt-grams (dependency tree grams) と呼ばれる音声タグの係り受けグラフと普遍部分に基づく著者関係解析のための新しい言語非依存機能を提案する。 両言語著者の翻訳されていないデータセットに対する言語間オーサリングによるDT-gramの評価を行い、マクロ平均F1スコアが5つの異なる言語対で従来の手法よりも0.081高いことを実証した。 さらに、比較のための多様な機能セットの結果を提供することにより、未翻訳のクロスランゲージオーサシップ属性に関する未文書タスクのベースラインを提供する。

Cross-language authorship attribution problems rely on either translation to enable the use of single-language features, or language-independent feature extraction methods. Until recently, the lack of datasets for this problem hindered the development of the latter, and single-language solutions were performed on machine-translated corpora. In this paper, we present a novel language-independent feature for authorship analysis based on dependency graphs and universal part of speech tags, called DT-grams (dependency tree grams), which are constructed by selecting specific sub-parts of the dependency graph of sentences. We evaluate DT-grams by performing cross-language authorship attribution on untranslated datasets of bilingual authors, showing that, on average, they achieve a macro-averaged F1 score of 0.081 higher than previous methods across five different language pairs. Additionally, by providing results for a diverse set of features for comparison, we provide a baseline on the previously undocumented task of untranslated cross-language authorship attribution.
翻訳日:2021-06-11 14:25:07 公開日:2021-06-10
# Marginal Utility Diminishes: BERT知識蒸留のための最小限の知識を探る

Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation ( http://arxiv.org/abs/2106.05691v1 )

ライセンス: Link先を確認
Yuanxin Liu and Fandong Meng and Zheng Lin and Weiping Wang and Jie Zhou(参考訳) 近年,知識蒸留(KD)はBERT圧縮において大きな成功を収めている。 従来のkdのように教師のソフトラベルから学習する代わりに、研究者はバートの隠れた層に含まれる豊富な情報が生徒のパフォーマンスに反映されることを発見した。 隠れた知識をより効果的に活用するには、生徒にすべてのトークンの隠れた状態を層的な方法で深く模倣させることが一般的である。 しかし,本論文では,教師の隠れ状態知識(HSK)を蒸留することは有用であるが,HSKの蒸留量が増えるにつれて,性能向上(marginal utility)が急速に低下することが観察された。 この効果を理解するために、我々は一連の分析を行う。 具体的には,BERTのHSKを深さ,長さ,幅の3次元に分割する。 まず,各1次元の重要な知識を抽出し,その3次元を共同で圧縮する戦略について検討した。 このようにして,(1)重要なHSKを抽出,蒸留することにより,学生のパフォーマンスを向上し,(2)少量のHSKを使用すれば,広範なHSK蒸留と同じ性能が得られることを示す。 また,第2の発見に基づいて,生徒の訓練中に教師をロードする必要のないBERTを圧縮する効率的なKDパラダイムを提案する。 2種類の学生モデルとコンピュータデバイスに対して、提案されたKDパラダイムは2.7x〜3.4xのトレーニングスピードアップをもたらす。

Recently, knowledge distillation (KD) has shown great success in BERT compression. Instead of only learning from the teacher's soft label as in conventional KD, researchers find that the rich information contained in the hidden layers of BERT is conducive to the student's performance. To better exploit the hidden knowledge, a common practice is to force the student to deeply mimic the teacher's hidden states of all the tokens in a layer-wise manner. In this paper, however, we observe that although distilling the teacher's hidden state knowledge (HSK) is helpful, the performance gain (marginal utility) diminishes quickly as more HSK is distilled. To understand this effect, we conduct a series of analysis. Specifically, we divide the HSK of BERT into three dimensions, namely depth, length and width. We first investigate a variety of strategies to extract crucial knowledge for each single dimension and then jointly compress the three dimensions. In this way, we show that 1) the student's performance can be improved by extracting and distilling the crucial HSK, and 2) using a tiny fraction of HSK can achieve the same performance as extensive HSK distillation. Based on the second finding, we further propose an efficient KD paradigm to compress BERT, which does not require loading the teacher during the training of student. For two kinds of student models and computing devices, the proposed KD paradigm gives rise to training speedup of 2.7x ~ 3.4x.
翻訳日:2021-06-11 14:24:46 公開日:2021-06-10
# 方向依存語を用いた金融ドメインにおける文脈認識型感性辞書の自動構築

Automatic Construction of Context-Aware Sentiment Lexicon in the Financial Domain Using Direction-Dependent Words ( http://arxiv.org/abs/2106.05723v1 )

ライセンス: Link先を確認
Jihye Park, Hye Jin Lee, Sungzoon Cho(参考訳) 財務書類の感情分析に注目が集まっている。 そのような文書の最も人気のある例は、アナリストレポートと経済ニュースであり、その分析は市場の感情の傾向を捉えるために頻繁に使われている。 一方で、金融ドメインにおける感情分析の役割の重要性は、金融ドメイン固有の感情レキシコンを構築する努力のきっかけとなっている。 センティメント・レキシコンは、テキストデータの教師なし分類のような様々なテキストマイニングタスクを解決するのに役立ち、手動ラベリングに必要な人的労力を軽減する。 効果的な感情レキシコンを構築する際の課題の1つは、単語が現れる文脈によって意味的指向が変化する可能性があることである。 例えば、「非営利団体」という単語は通常ポジティブな感情を伝えるが、単語が別の単語「decrease」と混じり合うと、「非営利団体」という単語に関連付けられた感情は否定的になる。 したがって、ある単語の感情は、単語を取り巻く文脈を考慮し始めるにつれて変化するかもしれない。 本稿では,与えられたコーパスから感情語彙を構築する際に,文脈を組み込むことでこの問題に対処する。 具体的には、方向依存語と方向依存語のペアをそれぞれ表現する、方向依存語からなる感性語彙のためのSenti-DDという語彙を構築する。 実験の結果,senti-ddにより高い分類性能を達成し,金融領域における文脈認識型感情レキシコンの自動構築手法の有効性を実証した。

Increasing attention has been drawn to the sentiment analysis of financial documents. The most popular examples of such documents include analyst reports and economic news, the analysis of which is frequently used to capture the trends in market sentiments. On the other hand, the significance of the role sentiment analysis plays in the financial domain has given rise to the efforts to construct a financial domain-specific sentiment lexicon. Sentiment lexicons lend a hand for solving various text mining tasks, such as unsupervised classification of text data, while alleviating the arduous human labor required for manual labeling. One of the challenges in the construction of an effective sentiment lexicon is that the semantic orientation of a word may change depending on the context in which it appears. For instance, the word ``profit" usually conveys positive sentiments; however, when the word is juxtaposed with another word ``decrease," the sentiment associated with the phrase ``profit decreases" now becomes negative. Hence, the sentiment of a given word may shift as one begins to consider the context surrounding the word. In this paper, we address this issue by incorporating context when building sentiment lexicon from a given corpus. Specifically, we construct a lexicon named Senti-DD for the Sentiment lexicon composed of Direction-Dependent words, which expresses each term a pair of a directional word and a direction-dependent word. Experiment results show that higher classification performance is achieved with Senti-DD, proving the effectiveness of our method for automatically constructing a context-aware sentiment lexicon in the financial domain.
翻訳日:2021-06-11 14:24:23 公開日:2021-06-10
# SMM4H 2021における名前付きエンティティ認識のためのニューラルテキスト分類と重み付き異種埋め込み

Neural Text Classification and StackedHeterogeneous Embeddings for Named Entity Recognition in SMM4H 2021 ( http://arxiv.org/abs/2106.05823v1 )

ライセンス: Link先を確認
Usama Yaseen, Stefan Langer(参考訳) 本稿では,SMM4H共有タスク2021に参加することで得られた知見について述べる。 名前付きエンティティ認識(ner)とテキスト分類について論じた。 NERに対処するため,重み付き異種埋め込みと言語機能を用いたBiLSTM-CRFの探索を行った。 テキスト分類に対処するために,さまざまな機械学習アルゴリズム(論理回帰,サポートベクトルマシン(SVM),ニューラルネットワーク)について検討した。 提案手法は様々な言語に一般化することができ、英語とスペイン語で有効性を示した。 テキスト分類出願(team:MIC-NLP)は,ADE分類(Task 1a)とProfession分類(Task 7a)でそれぞれ0.46$と0.90$のF1スコアで競合性能を達成した。 NERの場合は, ADE Span Detection (Task 1b) と Profession Span Detection (Task 7b) でそれぞれ0.50$と0.82$のF1スコアを得た。

This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous Embeddings and linguistic features. We investigated various machine learning algorithms (logistic regression, Support Vector Machine (SVM) and Neural Networks) to address text classification. Our proposed approaches can be generalized to different languages and we have shown its effectiveness for English and Spanish. Our text classification submissions (team:MIC-NLP) have achieved competitive performance with F1-score of $0.46$ and $0.90$ on ADE Classification (Task 1a) and Profession Classification (Task 7a) respectively. In the case of NER, our submissions scored F1-score of $0.50$ and $0.82$ on ADE Span Detection (Task 1b) and Profession Span detection (Task 7b) respectively.
翻訳日:2021-06-11 14:23:56 公開日:2021-06-10
# 協調訓練による前処理防衛の白箱ロバスト性向上

Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training ( http://arxiv.org/abs/2106.05453v1 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Xinbo Gao, Bo Han, Jun Yu, Xiaoyu Wang, Tongliang Liu(参考訳) ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 入力前処理法がスケーラブルであり、dnnを安全に保護する可能性を示す敵のノイズの干渉を軽減するために、様々な敵の防御技術が提案されている。 しかし, 前処理法は, ホワイトボックス設定における対象モデルの対角的ロバスト性を改善するよりも, 防御性が低下するロバスト性劣化効果に悩まされる可能性がある。 この否定的な影響の潜在的原因は、敵のトレーニング例が静的であり、前処理モデルとは独立であることだ。 この問題を解決するため,本研究では,本モデルに反抗する全敵例の影響を調査し,防御のロバスト性に有意な影響を与えることを見出した。 さらに,前処理法における逆行訓練例の変更は,ロバストネス劣化効果を完全に緩和するものではないことがわかった。 これは、事前処理されたモデルが無視されるという敵意的なリスクのためであり、これはロバストネス劣化効果の別の原因である。 以上の分析から,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。 具体的には、特徴空間で見られる全対角的例を用いて、前処理モデルに対する特徴類似性に基づく対角的リスクを定式化する。 標準的な逆数トレーニングとは異なり、前処理モデルのみを更新し、モデル間転送性を改善するためにピクセルワイズロスを導入する。 次に,この全体リスクを最小限に抑えるために,前処理モデル上で協調的な敵意訓練を行う。 実験の結果,従来手法と比較して,異なる対象モデル間のロバスト性劣化効果を効果的に軽減できることがわかった。

Deep neural networks (DNNs) are vulnerable to adversarial noise. A range of adversarial defense techniques have been proposed to mitigate the interference of adversarial noise, among which the input pre-processing methods are scalable and show great potential to safeguard DNNs. However, pre-processing methods may suffer from the robustness degradation effect, in which the defense reduces rather than improving the adversarial robustness of a target model in a white-box setting. A potential cause of this negative effect is that adversarial training examples are static and independent to the pre-processing model. To solve this problem, we investigate the influence of full adversarial examples which are crafted against the full model, and find they indeed have a positive impact on the robustness of defenses. Furthermore, we find that simply changing the adversarial training examples in pre-processing methods does not completely alleviate the robustness degradation effect. This is due to the adversarial risk of the pre-processed model being neglected, which is another cause of the robustness degradation effect. Motivated by above analyses, we propose a method called Joint Adversarial Training based Pre-processing (JATP) defense. Specifically, we formulate a feature similarity based adversarial risk for the pre-processing model by using full adversarial examples found in a feature space. Unlike standard adversarial training, we only update the pre-processing model, which prompts us to introduce a pixel-wise loss to improve its cross-model transferability. We then conduct a joint adversarial training on the pre-processing model to minimize this overall risk. Empirical results show that our method could effectively mitigate the robustness degradation effect across different target models in comparison to previous state-of-the-art approaches.
翻訳日:2021-06-11 14:22:30 公開日:2021-06-10
# RLCorrector: コネクトロミクス画像セグメンテーションのための強化プロファイリング

RLCorrector: Reinforced Proofreading for Connectomics Image Segmentation ( http://arxiv.org/abs/2106.05487v1 )

ライセンス: Link先を確認
Khoa Tuan Nguyen, Ganghee Jang and Won-ki Jeong(参考訳) ナノスケール電子顕微鏡(em)像のセグメンテーションは、コネクトミクスでは極めて重要である。 近年のディープラーニングの進歩は,テラスケールEM画像の自動分割の可能性を示している。 しかしながら、既存のセグメンテーション手法はいずれもエラーのないものではなく、手動による対話的半自動プロセスとして実装される証明読出を必要とする。 本稿では,強化学習に基づく完全自動校正手法を提案する。 主なアイデアは、人間による判断過程のモデル化であり、完全自動的な証明読み出しを達成するために強化エージェントを使用する。 本研究では,複数の強化学習エージェントを階層的に組み合わせ,エージェント間の依存性を保ちながら,特定のタスクのみに焦点を当てたシステムの設計を行う。 さらに,強化学習の韻律的タスク設定は,入力に同時に提示されるマージエラーと分割エラーの組み合わせを効率的に管理できることを実証する。 各種試験例を用いて,最先端の実証読解手法と比較し,提案手法の有効性を示す。

The segmentation of nanoscale electron microscopy (EM) images is crucial but challenging in connectomics. Recent advances in deep learning have demonstrated the significant potential of automatic segmentation for tera-scale EM images. However, none of the existing segmentation methods are error-free, and they require proofreading, which is typically implemented as an interactive, semi-automatic process via manual intervention. Herein, we propose a fully automatic proofreading method based on reinforcement learning. The main idea is to model the human decision process in proofreading using a reinforcement agent to achieve fully automatic proofreading. We systematically design the proposed system by combining multiple reinforcement learning agents in a hierarchical manner, where each agent focuses only on a specific task while preserving dependency between agents. Furthermore, we also demonstrate that the episodic task setting of reinforcement learning can efficiently manage a combination of merge and split errors concurrently presented in the input. We demonstrate the efficacy of the proposed system by comparing it with state-of-the-art proofreading methods using various testing examples.
翻訳日:2021-06-11 14:22:02 公開日:2021-06-10
# AFAN:クロスドメインオブジェクト検出のための拡張機能アライメントネットワーク

AFAN: Augmented Feature Alignment Network for Cross-Domain Object Detection ( http://arxiv.org/abs/2106.05499v1 )

ライセンス: Link先を確認
Hongsong Wang, Shengcai Liao, and Ling Shao(参考訳) オブジェクト検出のための教師なしドメイン適応は、多くの現実世界アプリケーションにおいて難しい問題である。 残念なことに、監視対象検出よりもはるかに少ない注意を払っている。 この課題に対処しようとするモデルは、注釈付きトレーニングサンプルの不足に苦しむ傾向がある。 さらに、既存の特徴アライメントの方法は、ドメイン不変表現を学ぶのに十分ではない。 これらの制約に対処するために,中間領域画像生成とドメイン敵学習を統一フレームワークに統合した拡張機能アライメントネットワーク(afan)を提案する。 自動生成したソフトドメインラベルを用いたドメイン逆トレーニングにより機能アライメントを強化するために,中間領域画像生成器を提案する。 合成中間ドメイン画像は、段階的にドメインの発散を橋渡しし、注釈付きソースドメイントレーニングデータを増強する。 特徴ピラミッドアライメントを設計し、対応する特徴判別器を用いて、異なる意味レベルのマルチスケールの畳み込み特徴を調整する。 最後に、我々は、領域的特徴のアライメントと、オブジェクトの提案に対するドメイン不変機能を学ぶためのインスタンス判別子を紹介します。 提案手法は、類似および異種ドメイン適応の両方において、標準ベンチマークにおける最先端手法よりも大幅に優れている。 さらに広範な実験により、各コンポーネントの有効性を検証し、提案するネットワークがドメイン不変表現を学習可能であることを示す。

Unsupervised domain adaptation for object detection is a challenging problem with many real-world applications. Unfortunately, it has received much less attention than supervised object detection. Models that try to address this task tend to suffer from a shortage of annotated training samples. Moreover, existing methods of feature alignments are not sufficient to learn domain-invariant representations. To address these limitations, we propose a novel augmented feature alignment network (AFAN) which integrates intermediate domain image generation and domain-adversarial training into a unified framework. An intermediate domain image generator is proposed to enhance feature alignments by domain-adversarial training with automatically generated soft domain labels. The synthetic intermediate domain images progressively bridge the domain divergence and augment the annotated source domain training data. A feature pyramid alignment is designed and the corresponding feature discriminator is used to align multi-scale convolutional features of different semantic levels. Last but not least, we introduce a region feature alignment and an instance discriminator to learn domain-invariant features for object proposals. Our approach significantly outperforms the state-of-the-art methods on standard benchmarks for both similar and dissimilar domain adaptations. Further extensive experiments verify the effectiveness of each component and demonstrate that the proposed network can learn domain-invariant representations.
翻訳日:2021-06-11 14:21:46 公開日:2021-06-10
# アフィリエイトへの学習: ファウショット分類のための相互集中型学習

Learning to Affiliate: Mutual Centralized Learning for Few-shot Classification ( http://arxiv.org/abs/2106.05517v1 )

ライセンス: Link先を確認
Yang Liu, Weifeng Zhang, Chao Xiang, Tu Zheng, Deng Cai(参考訳) FSL(Few-shot Learning)は、トレーニング中に見えない新しいタスクに容易に適応できる分類器を学習することを目的としている。 限られたデータの問題を扱うために、最近の手法では、混合グローバル機能を使うのではなく、複数のローカル機能を使って画像を高密度に表現する傾向がある。 彼らは一般的に、FSLにおける一方向のクエリ・ツー・サポートパラダイムを探求し、例えば、各クエリ機能に最も近い/最適なサポート機能を見つけ、これらのローカルマッチを共同分類のために集約する。 本稿では,双方向パラダイムにおいて,密集した2つの集合をアフィリエイトする手法である相互集中学習(mcl)を提案する。 それぞれの局所特徴を, 離散的特徴空間内をアフィリエーションによって双方向にランダムに歩くことのできる粒子と関連付ける。 クラス確率を推定するために,マルコフプロセスにおいて,そのクラスのサポート機能への訪問回数を推定する特徴のアクセシビリティを提案する。 提案手法は,アフィリエイトネットワーク上の集中度を学習し,局所的な特徴を強調することにより既存の手法にプラグインできることを実証する。 実験の結果,本手法は miniImageNet と tieredImageNet の両面において最先端の手法を実現することがわかった。

Few-shot learning (FSL) aims to learn a classifier that can be easily adapted to accommodate new tasks not seen during training, given only a few examples. To handle the limited-data problem in few-shot regimes, recent methods tend to collectively use a set of local features to densely represent an image instead of using a mixed global feature. They generally explore a unidirectional query-to-support paradigm in FSL, e.g., find the nearest/optimal support feature for each query feature and aggregate these local matches for a joint classification. In this paper, we propose a new method Mutual Centralized Learning (MCL) to fully affiliate the two disjoint sets of dense features in a bidirectional paradigm. We associate each local feature with a particle that can bidirectionally random walk in a discrete feature space by the affiliations. To estimate the class probability, we propose the features' accessibility that measures the expected number of visits to the support features of that class in a Markov process. We relate our method to learning a centrality on an affiliation network and demonstrate its capability to be plugged in existing methods by highlighting centralized local features. Experiments show that our method achieves the state-of-the-art on both miniImageNet and tieredImageNet.
翻訳日:2021-06-11 14:21:28 公開日:2021-06-10
# Consistent Instance False Positiveは顔認識の公平性を向上する

Consistent Instance False Positive Improves Fairness in Face Recognition ( http://arxiv.org/abs/2106.05519v1 )

ライセンス: Link先を確認
Xingkun Xu, Yuge Huang, Pengcheng Shen, Shaoxin Li, Jilin Li, Feiyue Huang, Yong Li, Zhen Cui(参考訳) 人口統計バイアスは、実用的な顔認識システムにおいて重要な課題である。 既存の手法は正確な統計アノテーションに大きく依存している。 しかし、そのようなアノテーションは実際のシナリオでは利用できない。 さらに、これらの方法は一般的に特定の人口層向けに設計されており、一般には不十分である。 本稿では,False Positive Rate (FPR) の整合性を高め,顔認識バイアスを緩和する偽陽性率のペナルティ損失を提案する。 具体的には、まずインスタンスFPRを、統一しきい値以上の非ターゲット類似点の数と非ターゲット類似点の総数との比として定義する。 所定の総fprに対して統一閾値を推定する。 次に、ソフトマックスベース損失の分母に、例えばFPR全体のFPR比に比例した追加のペナルティ項を導入する。 FPRが大きければ大きいほど、ペナルティは大きくなる。 このような不平等な罰則により、FPRのインスタンスは一貫したものになる。 従来のdebiasing法と比較して,本手法は人口統計学的アノテーションを必要としない。 したがって、様々な属性で分類された集団間のバイアスを軽減でき、これらの属性はトレーニング中に予め定義しておく必要はない。 人気のあるベンチマークの広範な実験結果から、最先端の競合相手よりも優れた方法が示されている。 コードとトレーニングされたモデルはhttps://github.com/T encent/TFace.comで入手できる。

Demographic bias is a significant challenge in practical face recognition systems. Existing methods heavily rely on accurate demographic annotations. However, such annotations are usually unavailable in real scenarios. Moreover, these methods are typically designed for a specific demographic group and are not general enough. In this paper, we propose a false positive rate penalty loss, which mitigates face recognition bias by increasing the consistency of instance False Positive Rate (FPR). Specifically, we first define the instance FPR as the ratio between the number of the non-target similarities above a unified threshold and the total number of the non-target similarities. The unified threshold is estimated for a given total FPR. Then, an additional penalty term, which is in proportion to the ratio of instance FPR overall FPR, is introduced into the denominator of the softmax-based loss. The larger the instance FPR, the larger the penalty. By such unequal penalties, the instance FPRs are supposed to be consistent. Compared with the previous debiasing methods, our method requires no demographic annotations. Thus, it can mitigate the bias among demographic groups divided by various attributes, and these attributes are not needed to be previously predefined during training. Extensive experimental results on popular benchmarks demonstrate the superiority of our method over state-of-the-art competitors. Code and trained models are available at https://github.com/T encent/TFace.
翻訳日:2021-06-11 14:21:06 公開日:2021-06-10
# 教師なし特徴表現強調のための段階学習

Progressive Stage-wise Learning for Unsupervised Feature Representation Enhancement ( http://arxiv.org/abs/2106.05554v1 )

ライセンス: Link先を確認
Zefan Li, Chenxi Li, Alan Yuille, Bingbing Ni, Wenjun Zhang and Wen Gao(参考訳) 教師なし学習手法は、教師なし学習に対する競争力を示している。 通常、これらのメソッドは単一の目的を使ってネットワーク全体をトレーニングする。 しかし、教師なし学習よりも教師なし学習の明確な利点は、前者が目標を設計する上でより多様性と自由を持っていることである。 本研究では,progressive stage-wise learning(psl)フレームワークを提案することにより,教師なし学習の新しい次元を検討する。 教師なしのタスクでは、マルチレベルタスクを設計し、ディープネットワークのためのさまざまな学習ステージを定義します。 早期学習段階は低レベルのタスクに集中し、後期段階は難しいタスクを通じてより深い情報を抽出するために導かれる。 プログレッシブな段階学習によって,教師なし特徴表現を効果的に強化できることが分かる。 我々の広範な実験により、PSLは主要な教師なし学習手法の結果を一貫して改善することが示された。

Unsupervised learning methods have recently shown their competitiveness against supervised training. Typically, these methods use a single objective to train the entire network. But one distinct advantage of unsupervised over supervised learning is that the former possesses more variety and freedom in designing the objective. In this work, we explore new dimensions of unsupervised learning by proposing the Progressive Stage-wise Learning (PSL) framework. For a given unsupervised task, we design multilevel tasks and define different learning stages for the deep network. Early learning stages are forced to focus on lowlevel tasks while late stages are guided to extract deeper information through harder tasks. We discover that by progressive stage-wise learning, unsupervised feature representation can be effectively enhanced. Our extensive experiments show that PSL consistently improves results for the leading unsupervised learning methods.
翻訳日:2021-06-11 14:20:47 公開日:2021-06-10
# MiDeCon:Minutia検出信頼度に基づく指の非教師的かつ正確な品質評価

MiDeCon: Unsupervised and Accurate Fingerprint and Minutia Quality Assessment based on Minutia Detection Confidence ( http://arxiv.org/abs/2106.05601v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Andr\'e Boller, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 指紋認証システムにおいて高い精度を達成するための重要な要因は、そのサンプルの品質である。 従来の研究では, 指紋認識技術は検出されたminutiaeに基づいているにもかかわらず, 主にminutiae抽出過程を無視する画像特性に基づく教師付き解を提案した。 これにより、利用したミツバチ抽出装置が信頼できない情報を生成する場合でも、指紋画像を高品質に割り当てることができる。 そこで本研究では,minutia detection confidence (midecon) に基づいて,minutiaと指紋品質を評価する新しい概念を提案する。 MiDeConは任意の深層学習に基づく微栄養抽出器に適用でき、学習に品質ラベルを必要としない。 抽出されたミネシアの検出信頼性を品質指標として利用することを提案する。 最高のミネチア品質を組み合わせることで、mideconは完全な指紋の品質を正確に決定する。 FVC 2006の公開データベース上で実験が行われ、NISTの広く使われている指紋画像品質ソフトウェアNFIQ1やNFIQ2などのベースラインと比較される。 以上の結果から,提案するMiDeCon等級の品質評価性能は,栄養素レベルと指紋レベルの両方で有意に向上した。 実装は公開されている。

An essential factor to achieve high accuracies in fingerprint recognition systems is the quality of its samples. Previous works mainly proposed supervised solutions based on image properties that neglects the minutiae extraction process, despite that most fingerprint recognition techniques are based on detected minutiae. Consequently, a fingerprint image might be assigned a high quality even if the utilized minutia extractor produces unreliable information. In this work, we propose a novel concept of assessing minutia and fingerprint quality based on minutia detection confidence (MiDeCon). MiDeCon can be applied to an arbitrary deep learning based minutia extractor and does not require quality labels for learning. We propose using the detection reliability of the extracted minutia as its quality indicator. By combining the highest minutia qualities, MiDeCon also accurately determines the quality of a full fingerprint. Experiments are conducted on the publicly available databases of the FVC 2006 and compared against several baselines, such as NIST's widely-used fingerprint image quality software NFIQ1 and NFIQ2. The results demonstrate a significantly stronger quality assessment performance of the proposed MiDeCon-qualities as related works on both, minutia- and fingerprint-level. The implementation is publicly available.
翻訳日:2021-06-11 14:20:34 公開日:2021-06-10
# グラフニューラルネットワークを用いた空間不変非教師なし3次元オブジェクトセグメンテーション

Spatially Invariant Unsupervised 3D Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2106.05607v1 )

ライセンス: Link先を確認
Tianyu Wang, Kee Siong Ng, Miaomiao Liu(参考訳) 本稿では,RGB情報のない点群からの非教師なし3次元オブジェクトセグメンテーションの問題に取り組む。 特に,空間混合モデルとして点雲をモデル化し,変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習するフレームワークである~{\bf SPAIR3Dを提案する。 SPAIRに触発されて、各オブジェクトの位置を点雲全体ではなく、その局所的なボクセルグリッドセルに対して記述するオブジェクト固有化方式を採用した。 点雲上の空間混合モデルをモデル化するために、変分訓練パイプラインに自然に適合する--\emph{Chamfer Likelihood} を導出する。 さらに,VAE内のデコーダとして異なる数の3D点を生成するために,空間不変な新しいグラフニューラルネットワークを設計した。

In this paper, we tackle the problem of unsupervised 3D object segmentation from a point cloud without RGB information. In particular, we propose a framework,~{\bf SPAIR3D}, to model a point cloud as a spatial mixture model and jointly learn the multiple-object representation and segmentation in 3D via Variational Autoencoders (VAE). Inspired by SPAIR, we adopt an object-specification scheme that describes each object's location relative to its local voxel grid cell rather than the point cloud as a whole. To model the spatial mixture model on point clouds, we derive the~\emph{Chamfer Likelihood}, which fits naturally into the variational training pipeline. We further design a new spatially invariant graph neural network to generate a varying number of 3D points as a decoder within our VAE.~Experimental results demonstrate that~{\bf SPAIR3D} is capable of detecting and segmenting variable number of objects without appearance information across diverse scenes.
翻訳日:2021-06-11 14:20:15 公開日:2021-06-10
# 2021年ホテルID、人身売買競争データに対処

The 2021 Hotel-ID to Combat Human Trafficking Competition Dataset ( http://arxiv.org/abs/2106.05746v1 )

ライセンス: Link先を確認
Rashmi Kamath, Greg Rolwes, Samuel Black and Abby Stylianou(参考訳) ホテルの認識は、被害者がしばしばホテルの部屋で撮影されるため、人身売買調査にとって重要なタスクである。 これらのホテルの特定は、同一の場所に連れて行かれる可能性のある現在と将来の犠牲者を追跡できるため、トラクシング調査にとって不可欠である。 ホテル認識は、同じホテル内の異なる部屋間の類似性がほとんどなく、異なるホテル(特に同じチェーンの部屋)の部屋間の類似度が高いため、難易度の高い視覚的分類課題である。 人身売買と戦うホテルの認識は、しばしば調査用画像が品質が低く、珍しいカメラアングルが含まれており、非常に隠蔽されているため、さらなる課題をもたらす。 本稿では,この問題に対する認識を高め,新たなアプローチを生み出すための2021 Hotel-IDデータセットを提案する。 データセットは、TraffickCamモバイルアプリケーションを通じてクラウドソースされアップロードされたホテルのルームイメージで構成されている。 これらの画像の品質は調査画像と似ているため、これらの画像でトレーニングされたモデルが正しいホテルを正確に絞り込む可能性も高い。

Hotel recognition is an important task for human trafficking investigations since victims are often photographed in hotel rooms. Identifying these hotels is vital to trafficking investigations since they can help track down current and future victims who might be taken to the same places. Hotel recognition is a challenging fine grained visual classification task as there can be little similarity between different rooms within the same hotel, and high similarity between rooms from different hotels (especially if they are from the same chain). Hotel recognition to combat human trafficking poses additional challenges as investigative images are often low quality, contain uncommon camera angles and are highly occluded. Here, we present the 2021 Hotel-ID dataset to help raise awareness for this problem and generate novel approaches. The dataset consists of hotel room images that have been crowd-sourced and uploaded through the TraffickCam mobile application. The quality of these images is similar to investigative images and hence models trained on these images have good chances of accurately narrowing down on the correct hotel.
翻訳日:2021-06-11 14:19:56 公開日:2021-06-10
# アセンブリによる非教師なしコパートセグメンテーション

Unsupervised Co-part Segmentation through Assembly ( http://arxiv.org/abs/2106.05897v1 )

ライセンス: Link先を確認
Qingzhe Gao, Bin Wang, Libin Liu, Baoquan Chen(参考訳) コーパートセグメンテーションは、そのリッチなアプリケーションにとってコンピュータビジョンの重要な問題である。 画像からのコパートセグメンテーションのための教師なし学習手法を提案する。 学習段階では,映像に埋め込まれた動作情報を活用し,有意義な対象部分をセグメント化するために潜在表現を明示的に抽出する。 さらに, 部分集合の二重手続きを導入し, 部分集合による閉ループを形成し, 効果的な自己スーパービジョンを実現する。 我々は、人体、手、四足歩行、ロボットアームなど幅広い実験を行い、このアプローチの有効性を実証する。 提案手法は,多種多様なベンチマークにおいて有意義でコンパクトな部分分割が可能であり,最先端のアプローチよりも優れていることを示す。

Co-part segmentation is an important problem in computer vision for its rich applications. We propose an unsupervised learning approach for co-part segmentation from images. For the training stage, we leverage motion information embedded in videos and explicitly extract latent representations to segment meaningful object parts. More importantly, we introduce a dual procedure of part-assembly to form a closed loop with part-segmentation, enabling an effective self-supervision. We demonstrate the effectiveness of our approach with a host of extensive experiments, ranging from human bodies, hands, quadruped, and robot arms. We show that our approach can achieve meaningful and compact part segmentation, outperforming state-of-the-art approaches on diverse benchmarks.
翻訳日:2021-06-11 14:19:36 公開日:2021-06-10
# Implicit Feature Alignment: テキスト認識をテキストスポッターに変換することを学ぶ

Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter ( http://arxiv.org/abs/2106.05920v1 )

ライセンス: Link先を確認
Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Dezhi Peng, Zhe Li, Mengchao He, Yongpan Wang, Canjie Luo(参考訳) テキスト認識は、多くの関連する課題を持つ人気のある研究テーマである。 近年の進歩にもかかわらず、テキスト認識タスク自体は、刈り取られたテキスト画像を読み取るという問題を解決し、光学文字認識(OCR)システムのサブタスクとして機能するように制約されている。 その結果、最終的なテキスト認識結果は、テキスト検出器の性能によって制限される。 本稿では,現行のテキスト認識器に容易に統合可能な,シンプルでエレガントで効果的な特徴アライメント(ifa)と呼ばれるパラダイムを提案し,ifainferenceと呼ばれる新しい推論機構を提案する。 これにより、通常のテキスト認識者は、テキスト検出を完全に解放できるように、マルチラインテキストを処理できる。 具体的には、IFAを2つの一般的なテキスト認識ストリーム(アテンションベースとCTCベース)に統合し、注意誘導密度予測(ADP)と拡張CTC(ExCTC)を提案する。 さらに,wasserstein-based hollow aggregate cross-entropy (wh-ace) はadpとextcのトレーニングを支援する負の予測を抑制するために提案されている。 実験により,高速な文書認識作業において,IFAが最先端の文書認識タスクの最先端性能を実現し,ADPとExCTCがアプリケーションシナリオの観点で相互に補完することを示した。 コードはhttps://github.com/W angTianwei/Implicit- feature-alignmentで入手できる。

Text recognition is a popular research subject with many associated challenges. Despite the considerable progress made in recent years, the text recognition task itself is still constrained to solve the problem of reading cropped line text images and serves as a subtask of optical character recognition (OCR) systems. As a result, the final text recognition result is limited by the performance of the text detector. In this paper, we propose a simple, elegant and effective paradigm called Implicit Feature Alignment (IFA), which can be easily integrated into current text recognizers, resulting in a novel inference mechanism called IFAinference. This enables an ordinary text recognizer to process multi-line text such that text detection can be completely freed. Specifically, we integrate IFA into the two most prevailing text recognition streams (attention-based and CTC-based) and propose attention-guided dense prediction (ADP) and Extended CTC (ExCTC). Furthermore, the Wasserstein-based Hollow Aggregation Cross-Entropy (WH-ACE) is proposed to suppress negative predictions to assist in training ADP and ExCTC. We experimentally demonstrate that IFA achieves state-of-the-art performance on end-to-end document recognition tasks while maintaining the fastest speed, and ADP and ExCTC complement each other on the perspective of different application scenarios. Code will be available at https://github.com/W angTianwei/Implicit- feature-alignment.
翻訳日:2021-06-11 14:19:25 公開日:2021-06-10
# 画像品質予測における極めて効果的な特徴

Curiously Effective Features for Image Quality Prediction ( http://arxiv.org/abs/2106.05946v1 )

ライセンス: Link先を確認
S\"oren Becker, Thomas Wiegand, Sebastian Bosse(参考訳) 視覚品質予測モデルの性能は、知覚的に関連する画像の側面を捉える能力と密接に関連していると一般的に考えられている。 したがってモデルは、広範囲にわたるドメイン知識から慎重に設計された洗練された特徴抽出器に基づくか、あるいは機能学習を通じて最適化される。 これとは対照的に、ランダムノイズから構成された特徴抽出器は、人間の視覚的品質評価と高い相関性を持つ線形回帰モデルを学ぶのに十分である。 この興味深い結果を分析して,特徴抽出器の品質に加えて,その量が重要な役割を担っていることを示した。

The performance of visual quality prediction models is commonly assumed to be closely tied to their ability to capture perceptually relevant image aspects. Models are thus either based on sophisticated feature extractors carefully designed from extensive domain knowledge or optimized through feature learning. In contrast to this, we find feature extractors constructed from random noise to be sufficient to learn a linear regression model whose quality predictions reach high correlations with human visual quality ratings, on par with a model with learned features. We analyze this curious result and show that besides the quality of feature extractors also their quantity plays a crucial role - with top performances only being achieved in highly overparameterized models.
翻訳日:2021-06-11 14:19:00 公開日:2021-06-10
# コントラスト学習による単眼RGBからの自己監督型3Dハンドポース推定

Self-Supervised 3D Hand Pose Estimation from monocular RGB via Contrastive Learning ( http://arxiv.org/abs/2106.05953v1 )

ライセンス: Link先を確認
Adrian Spurr, Aneesh Dahiya, Xucong Zhang, Xi Wang, Otmar Hilliges(参考訳) 手振り推定のための正確な3Dアノテートデータを取得することは、非常に難しい問題である。 これは通常、複雑なマルチカメラのセットアップと制御条件を必要とするため、ドメイン間隙が生じ、完全に制約されていない設定に橋渡しすることが難しい。 画像分類タスクにおけるコントラスト学習の成功にともなって、3次元手ポーズ推定の構造化回帰タスクを自己指導する手法を提案する。 コントラスト学習は、学習した特徴表現が任意の画像変換の下で不変であることを奨励する損失定式化による表現学習のためにラベルのないデータを利用する。 3次元手のポーズ推定では、色ジッタのような外観変化にばらつきがあることも望ましい。 しかし、このタスクは回転や変換のようなアフィン変換の下での等価性を必要とする。 この問題に対処するために,同変コントラスト目標を提案し,その効果を3次元手形推定の文脈で実証する。 本研究では,不変および同変コントラスト目標の影響を実験的に検証し,学習同変特徴が3次元手ポーズ推定のタスクにより良い表現をもたらすことを示す。 さらに、追加のラベル付きデータに基づいてトレーニングされた標準ResNet-152は、FreiHAND上のPA-EPEで7.6\%の改善を実現し、タスク固有の特別なアーキテクチャを使わずに最先端のパフォーマンスを実現する。

Acquiring accurate 3D annotated data for hand pose estimation is a notoriously difficult problem. This typically requires complex multi-camera setups and controlled conditions, which in turn creates a domain gap that is hard to bridge to fully unconstrained settings. Encouraged by the success of contrastive learning on image classification tasks, we propose a new self-supervised method for the structured regression task of 3D hand pose estimation. Contrastive learning makes use of unlabeled data for the purpose of representation learning via a loss formulation that encourages the learned feature representations to be invariant under any image transformation. For 3D hand pose estimation, it too is desirable to have invariance to appearance transformation such as color jitter. However, the task requires equivariance under affine transformations, such as rotation and translation. To address this issue, we propose an equivariant contrastive objective and demonstrate its effectiveness in the context of 3D hand pose estimation. We experimentally investigate the impact of invariant and equivariant contrastive objectives and show that learning equivariant features leads to better representations for the task of 3D hand pose estimation. Furthermore, we show that a standard ResNet-152, trained on additional unlabeled data, attains an improvement of $7.6\%$ in PA-EPE on FreiHAND and thus achieves state-of-the-art performance without any task specific, specialized architectures.
翻訳日:2021-06-11 14:18:50 公開日:2021-06-10
# 逆運動モデリングによる半教師付きハンドポース推定

Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation ( http://arxiv.org/abs/2106.05954v1 )

ライセンス: Link先を確認
Adrian Spurr, Pavlo Molchanov, Umar Iqbal, Jan Kautz, Otmar Hilliges(参考訳) 手ポーズ推定は, 環境条件の相違, 対象, 自己排他, 手の形状や外観の多様性により困難である。 完全アノテートされたデータセットにおいて、この幅広い要因を徹底的にカバーすることは、教師付き手法の一般化に重大な課題を呈している。 本稿では,この課題に対処するために,対戦型トレーニングとモーションモデリングのアイデアを組み合わせて,ラベルのないビデオにタップすることを提案する。 そこで本研究では,まず,手の動きモデルが最良であることを示すとともに,非ラベル映像列に対する半教師付き学習により,逆定式化が手ポーズ推定器の一般化性の向上に繋がることを示す。 この設定では、ポーズ予測器は差別的敵によって決定されるように、有効なポーズのシーケンスを生成する必要がある。 この逆の理由は、構造と時間領域の両方に依存し、タスクの時空間構造を効果的に活用する。 このアプローチの主な利点は、ペア化されていないビデオとジョイントシーケンスデータを利用することができ、どちらもペア化トレーニングデータよりも達成が容易であることです。 本研究は,提案手法がポーズ推定精度を著しく向上させる2つの課題条件において,提案フレームワークに必要な必須成分を調査し,広範囲な評価を行い,実証的に実証する。 最も低いラベル設定では、絶対平均ジョイントエラーで$40\%$の改善を達成します。

Hand pose estimation is difficult due to different environmental conditions, object- and self-occlusion as well as diversity in hand shape and appearance. Exhaustively covering this wide range of factors in fully annotated datasets has remained impractical, posing significant challenges for generalization of supervised methods. Embracing this challenge, we propose to combine ideas from adversarial training and motion modelling to tap into unlabeled videos. To this end we propose what to the best of our knowledge is the first motion model for hands and show that an adversarial formulation leads to better generalization properties of the hand pose estimator via semi-supervised training on unlabeled video sequences. In this setting, the pose predictor must produce a valid sequence of hand poses, as determined by a discriminative adversary. This adversary reasons both on the structural as well as temporal domain, effectively exploiting the spatio-temporal structure in the task. The main advantage of our approach is that we can make use of unpaired videos and joint sequence data both of which are much easier to attain than paired training data. We perform extensive evaluation, investigating essential components needed for the proposed framework and empirically demonstrate in two challenging settings that the proposed approach leads to significant improvements in pose estimation accuracy. In the lowest label setting, we attain an improvement of $40\%$ in absolute mean joint error.
翻訳日:2021-06-11 14:18:28 公開日:2021-06-10
# カリ:カナリ/QCRIのInterSPEECH 2021インディアン言語コードスイッチングチャレンジのためのエンド・ツー・エンドシステム

KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian Languages Code-Switching Challenge ( http://arxiv.org/abs/2106.05885v1 )

ライセンス: Link先を確認
Amir Hussein, Shammur Chowdhury, Ahmed Ali(参考訳) 本稿では,カナリ/QCRI(Kanari/QCRI)システムと,低リソースインド言語に対するインタースペーチ2021コードスイッチング(CS)チャレンジに参加するためのモデリング戦略を提案する。 このサブタスクは、現実のシナリオで収集された2つのCSデータセット(ヒンディー語とベンガル語)の音声認識システムの開発に関わっている。 CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。 本研究では,低リソースcsデータに対する2段階トランスファー学習プロトコルの有効性について検討した。 音響モデリングのための変換器(Conformer)を開発した。 CSシナリオにおいて,各単言語データのパーセンテージの選択が,一方の言語文字を他方で使用する際のモデルバイアスに影響を与えることを示す。 精度の高い単言語データで事前訓練したモデルでは, セグメントと転写の不一致に対する堅牢性を示した。 最後に、単語レベルn-gram言語モデル(LM)を開発し、ASR認識を再スコア化する。

In this paper, we present the Kanari/QCRI (KARI) system and the modeling strategies used to participate in the Interspeech 2021 Code-switching (CS) challenge for low-resource Indian languages. The subtask involved developing a speech recognition system for two CS datasets: Hindi-English and Bengali-English, collected in a real-life scenario. To tackle the CS challenges, we use transfer learning for incorporating the publicly available monolingual Hindi, Bengali, and English speech data. In this work, we study the effectiveness of two steps transfer learning protocol for low-resourced CS data: monolingual pretraining, followed by fine-tuning. For acoustic modeling, we develop an end-to-end convolution-augmente d transformer (Conformer). We show that selecting the percentage of each monolingual data affects model biases towards using one language character set over the other in a CS scenario. The models pretrained on well-aligned and accurate monolingual data showed robustness against misalignment between the segments and the transcription. Finally, we develop word-level n-gram language models (LM) to rescore ASR recognition.
翻訳日:2021-06-11 14:18:04 公開日:2021-06-10
# 適応勾配法におけるルート平均角形に対する代替策の検討

Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods ( http://arxiv.org/abs/2106.05449v1 )

ライセンス: Link先を確認
Brett Daley and Christopher Amato(参考訳) Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。 最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。 しかしながら、Kingma and Ba (2015) が述べたように、任意の$L^p$正規化が可能であり、RMS は $p=2$ の特定の場合に対応する。 本研究では,適応勾配法に対する異なる$L^p$ノルムの影響を理論的,実証的に初めて特徴づける。 数学的には、$p$の選択がステップのサイズにどのように影響するかを示し、他の望ましい性質は影響しない。 ディープラーニングベンチマークスイート上でadamを様々な$l^p$ノルムで評価し,$p > 2$が学習速度と最終的なパフォーマンスを一貫して向上させることを確認した。 p=3$または$p=6$の選択は、すべての実験で最先端のメソッドにマッチするか、より優れています。

Adam is an adaptive gradient method that has experienced widespread adoption due to its fast and reliable training performance. Recent approaches have not offered significant improvement over Adam, often because they do not innovate upon one of its core features: normalization by the root mean square (RMS) of recent gradients. However, as noted by Kingma and Ba (2015), any number of $L^p$ normalizations are possible, with the RMS corresponding to the specific case of $p=2$. In our work, we theoretically and empirically characterize the influence of different $L^p$ norms on adaptive gradient methods for the first time. We show mathematically how the choice of $p$ influences the size of the steps taken, while leaving other desirable properties unaffected. We evaluate Adam with various $L^p$ norms on a suite of deep learning benchmarks, and find that $p > 2$ consistently leads to improved learning speed and final performance. The choices of $p=3$ or $p=6$ also match or outperform state-of-the-art methods in all of our experiments.
翻訳日:2021-06-11 14:17:12 公開日:2021-06-10
# Multi-VFL:複数データおよびラベル所有者のための垂直統合学習システム

Multi-VFL: A Vertical Federated Learning System for Multiple Data and Label Owners ( http://arxiv.org/abs/2106.05468v1 )

ライセンス: Link先を確認
Vaikkunth Mugunthan, Pawan Goyal and Lalana Kagal(参考訳) Vertical Federated Learning (VFL)は、データセットの特徴を複数のデータ所有者に分割し、ラベル情報は単一のデータ所有者が所有するデータセット上のモデルの協調的なトレーニングを指す。 本稿では,複数のデータとラベル所有者が存在する場合に,VFLモデルを学習するための新しい手法であるMulti-VFLを提案する。 当社のアプローチは、d$-dataオーナー(どの機能が配布されているか)と$k$-labelオーナー(どのラベルが配布されているか)が存在する設定を検討する最初の方法です。 この構成により、異なるエンティティがデータを共有することなく、最適なモデルをトレーニングし、学習することができる。 本フレームワークでは,スプリット学習と適応フェデレーションオプティマイザを用いてこの問題を解決する。 経験的評価のために、mnist と fashionmnist データセットで実験を行う。 モデルアグリゲーションのための適応最適化器は収束を加速し、精度を向上する。

Vertical Federated Learning (VFL) refers to the collaborative training of a model on a dataset where the features of the dataset are split among multiple data owners, while label information is owned by a single data owner. In this paper, we propose a novel method, Multi Vertical Federated Learning (Multi-VFL), to train VFL models when there are multiple data and label owners. Our approach is the first to consider the setting where $D$-data owners (across which features are distributed) and $K$-label owners (across which labels are distributed) exist. This proposed configuration allows different entities to train and learn optimal models without having to share their data. Our framework makes use of split learning and adaptive federated optimizers to solve this problem. For empirical evaluation, we run experiments on the MNIST and FashionMNIST datasets. Our results show that using adaptive optimizers for model aggregation fastens convergence and improves accuracy.
翻訳日:2021-06-11 14:16:54 公開日:2021-06-10
# ノード埋め込みのための学習に基づく近接行列分解

Learning Based Proximity Matrix Factorization for Node Embedding ( http://arxiv.org/abs/2106.05476v1 )

ライセンス: Link先を確認
Xingyi Zhang, Kun Xie, Sibo Wang, Zengfeng Huang(参考訳) ノード埋め込みはグラフの各ノードの低次元表現を学習する。 ノード埋め込みの最近の進歩は、近接行列因子化手法が、数百万のノードを持つ大規模グラフにスーパーブパフォーマンスとスケールをもたらすことを示している。 既存のアプローチは、まず近接行列を定義し、その後マトリックスの分解によって近接に適合する埋め込みを学習する。 既存の行列分解法の多くは、異なるタスクに対して同じ近接性を採用しているが、異なるタスクやデータセットは異なる近接性を必要とし、表現力を制限している。 そこで本研究では,学習可能な近接測度を持つフレームワークである {\em lemane} を提案する。 我々の手法はエンドツーエンドであり、パイプラインに微分可能なSVDを組み込んで、パラメータをバックプロパゲーションによってトレーニングすることができる。 しかし、この学習プロセスは大きなグラフではまだ高価である。 スケーラビリティを向上させるために,注意深い部分サンプリンググラフのみに近接測度を訓練し,学習した近接グラフを用いて標準近接行列分解を適用する。 注意すべきは、各ペアの学習された近位数を計算することは大きなグラフにとって依然として高価であり、既存の近位数を計算する技術は学習された近位数には適用されないことである。 そこで我々は,数百万のノードを持つ大規模グラフにソリューションをスケーラブルにするために,一般化されたプッシュ技術を提案する。 広範な実験により,提案手法は,ほぼすべてのデータセットにおけるリンク予測とノード分類タスクの両方において,既存のソリューションよりも優れていることが示された。

Node embedding learns a low-dimensional representation for each node in the graph. Recent progress on node embedding shows that proximity matrix factorization methods gain superb performance and scale to large graphs with millions of nodes. Existing approaches first define a proximity matrix and then learn the embeddings that fit the proximity by matrix factorization. Most existing matrix factorization methods adopt the same proximity for different tasks, while it is observed that different tasks and datasets may require different proximity, limiting their representation power. Motivated by this, we propose {\em Lemane}, a framework with trainable proximity measures, which can be learned to best suit the datasets and tasks at hand automatically. Our method is end-to-end, which incorporates differentiable SVD in the pipeline so that the parameters can be trained via backpropagation. However, this learning process is still expensive on large graphs. To improve the scalability, we train proximity measures only on carefully subsampled graphs, and then apply standard proximity matrix factorization on the original graph using the learned proximity. Note that, computing the learned proximities for each pair is still expensive for large graphs, and existing techniques for computing proximities are not applicable to the learned proximities. Thus, we present generalized push techniques to make our solution scalable to large graphs with millions of nodes. Extensive experiments show that our proposed solution outperforms existing solutions on both link prediction and node classification tasks on almost all datasets.
翻訳日:2021-06-11 14:16:36 公開日:2021-06-10
# タスク駆動データ品質管理のための統一フレームワーク

A Unified Framework for Task-Driven Data Quality Management ( http://arxiv.org/abs/2106.05484v1 )

ライセンス: Link先を確認
Tianhao Wang, Yi Zeng, Ming Jin, Ruoxi Jia(参考訳) 高性能データは、データ品質管理(DQM)の重要性を強調する、パフォーマンスのよい機械学習モデル(ML)のトレーニングに不可欠である。 既存のDQMスキームは、設計上、下流のMLタスクに難渋するため、MLパフォーマンスを満足して改善できないことが多い。 さらに、さまざまなデータ品質問題(特に敵攻撃による問題)に対処することができず、特定の種類のMLモデルに限られる。 近年、データ評価手法(例えばShapley値に基づく)がDQMの実行に活用されているが、実証的研究により、その性能は基礎となるデータとトレーニングプロセスに基づいて大きく異なることが確認されている。 本稿では、タスク駆動、多目的、モデル非依存のdqmフレームワーク、datasifterを提案する。これは、所定の下流mlタスクに最適化され、様々な欠陥のあるデータポイントを効果的に除去し、多様なモデルに適用することができる。 具体的には,dqmを最適化問題として定式化し,スケーラブルなアルゴリズムを考案する。 さらに,異なるDQM戦略の最悪の性能を比較するための理論的枠組みを提案する。 驚くべきことに、shapley値に基づく一般的な戦略は、特定の実用的なシナリオで最悪のデータサブセットを選択することになるかもしれません。 評価の結果,datasifterは,バックドア,毒物,ノイズ/ミスラベルデータ検出,データ要約,データデバイアスなど,幅広いdqmタスクにおいて最先端の性能を向上し,性能を著しく向上していることがわかった。

High-quality data is critical to train performant Machine Learning (ML) models, highlighting the importance of Data Quality Management (DQM). Existing DQM schemes often cannot satisfactorily improve ML performance because, by design, they are oblivious to downstream ML tasks. Besides, they cannot handle various data quality issues (especially those caused by adversarial attacks) and have limited applications to only certain types of ML models. Recently, data valuation approaches (e.g., based on the Shapley value) have been leveraged to perform DQM; yet, empirical studies have observed that their performance varies considerably based on the underlying data and training process. In this paper, we propose a task-driven, multi-purpose, model-agnostic DQM framework, DataSifter, which is optimized towards a given downstream ML task, capable of effectively removing data points with various defects, and applicable to diverse models. Specifically, we formulate DQM as an optimization problem and devise a scalable algorithm to solve it. Furthermore, we propose a theoretical framework for comparing the worst-case performance of different DQM strategies. Remarkably, our results show that the popular strategy based on the Shapley value may end up choosing the worst data subset in certain practical scenarios. Our evaluation shows that DataSifter achieves and most often significantly improves the state-of-the-art performance over a wide range of DQM tasks, including backdoor, poison, noisy/mislabel data detection, data summarization, and data debiasing.
翻訳日:2021-06-11 14:16:11 公開日:2021-06-10
# 自由エネルギーの最小化による距離計量学習

Distance Metric Learning through Minimization of the Free Energy ( http://arxiv.org/abs/2106.05495v1 )

ライセンス: Link先を確認
Dusan Stosic, Darko Stosic, Teresa B. Ludermir, Borko Stosic(参考訳) 過去数十年間、距離距離学習は機械学習とパターン認識の問題を解決することに多くの関心を寄せてきた。 本研究では,与えられた問題の最適距離計量を学ぶための統計物理学の概念に基づく単純なアプローチを提案する。 パターン間の距離は物理系の構成要素を表し、目的関数はエネルギーに対応する。 そして,この問題を,距離距離距離学習と等価な複素系の自由エネルギーの最小化として表現する。 物理学における多くの問題と同様に、我々はメトロポリス・モンテカルロに基づく最良の距離計量を求めるアプローチを提案する。 これは距離計量を学ぶ自然な方法であり、学習過程は幾らかのヒューリスティックが満たされるまで距離空間を伸ばして回転させるものとして直感的に見ることができる。 提案手法はスプリアス局所ミニマを含む幅広い制約を扱うことができる。 このアプローチは、近隣成分分析 (nca) の確率的近傍と驚くほどうまく機能する。 人工的および実世界のデータセットに対する実験結果から、近隣の分類のための最先端距離距離学習法よりも明らかな優位性を示した。

Distance metric learning has attracted a lot of interest for solving machine learning and pattern recognition problems over the last decades. In this work we present a simple approach based on concepts from statistical physics to learn optimal distance metric for a given problem. We formulate the task as a typical statistical physics problem: distances between patterns represent constituents of a physical system and the objective function corresponds to energy. Then we express the problem as a minimization of the free energy of a complex system, which is equivalent to distance metric learning. Much like for many problems in physics, we propose an approach based on Metropolis Monte Carlo to find the best distance metric. This provides a natural way to learn the distance metric, where the learning process can be intuitively seen as stretching and rotating the metric space until some heuristic is satisfied. Our proposed method can handle a wide variety of constraints including those with spurious local minima. The approach works surprisingly well with stochastic nearest neighbors from neighborhood component analysis (NCA). Experimental results on artificial and real-world data sets reveal a clear superiority over a number of state-of-the-art distance metric learning methods for nearest neighbors classification.
翻訳日:2021-06-11 14:15:44 公開日:2021-06-10
# バイアス分散トレードオフに基づくロバスト機械学習の数学的基礎

A Mathematical Foundation for Robust Machine Learning based on Bias-Variance Trade-off ( http://arxiv.org/abs/2106.05522v1 )

ライセンス: Link先を確認
Ou Wu and Weiyao Zhu and Yingjun Deng and Haixiang Zhang and Qinghu Hou(参考訳) 機械学習における一般的な仮定は、サンプルは独立して同じ分布(d)であるということである。 しかし、異なるサンプルの貢献はトレーニングにおいて同一ではない。 一部のサンプルは学習が困難であり、いくつかのサンプルはうるさい。 サンプルの不平等な貢献は、トレーニングパフォーマンスに大きな影響を与えます。 学習における不平等なサンプル貢献(例えば、簡単、困難、ノイズ)に焦点を当てた研究は通常、これらの貢献を堅牢な機械学習(RML)と呼ぶ。 ウィーディングと正規化はRMLの2つの一般的な手法である。 数多くの学習アルゴリズムが提案されているが、簡単な/ハード/ノイズのサンプルを扱う戦略は異なる学習アルゴリズムと異なる、あるいは矛盾する。 例えば、いくつかの戦略はまずハードサンプルを取るが、いくつかの戦略は最初は簡単である。 既存のRMLアルゴリズムと比較して異なるサンプルを扱うことは、RMLの統一的な理論的枠組みが欠如しているため困難である。 本研究ではバイアス分散トレードオフ理論に基づくRMLの数学的基礎の構築を試みる。 一連の定義と性質が提示され、証明される。 いくつかの古典的学習アルゴリズムも説明され、比較される。 比較により既存の方法の改善が得られた。 2つの古典的学習戦略を組み合わせた統一手法を提案する。

A common assumption in machine learning is that samples are independently and identically distributed (i.i.d). However, the contributions of different samples are not identical in training. Some samples are difficult to learn and some samples are noisy. The unequal contributions of samples has a considerable effect on training performances. Studies focusing on unequal sample contributions (e.g., easy, hard, noisy) in learning usually refer to these contributions as robust machine learning (RML). Weighing and regularization are two common techniques in RML. Numerous learning algorithms have been proposed but the strategies for dealing with easy/hard/noisy samples differ or even contradict with different learning algorithms. For example, some strategies take the hard samples first, whereas some strategies take easy first. Conducting a clear comparison for existing RML algorithms in dealing with different samples is difficult due to lack of a unified theoretical framework for RML. This study attempts to construct a mathematical foundation for RML based on the bias-variance trade-off theory. A series of definitions and properties are presented and proved. Several classical learning algorithms are also explained and compared. Improvements of existing methods are obtained based on the comparison. A unified method that combines two classical learning strategies is proposed.
翻訳日:2021-06-11 14:15:28 公開日:2021-06-10
# 自己監督による深層強化学習の簡易化

Simplifying Deep Reinforcement Learning via Self-Supervision ( http://arxiv.org/abs/2106.05526v1 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) デモに対する改善された回帰は、ディープポリシーネットワークをトレーニングするための安定した方法であることが示されている。 我々は、教師付き損失関数をフル活用して、より深い強化学習エージェントを安定的に訓練する方法について研究する。 政策改善を実現するためのトレーニングデータの収集方法が不明確であるため、これは難しい作業です。 本研究では、純粋に監督された損失を伴うポリシーを最適化するシンプルなアルゴリズムである自己改善強化学習(SSRL)を提案する。 政策勾配や価値推定がなければ, 「ラベル付け」データの反復的手順と教師付き回帰が, 安定した政策改善を促進するのに十分であることを示す。 トラジェクトリを高いエピソード報酬で選択し模倣することにより、SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合し、教師付き学習技術で強化学習を解く可能性を示している。 コードはhttps://github.com/d aochenzha/ssrlで入手できる。

Supervised regression to demonstrations has been demonstrated to be a stable way to train deep policy networks. We are motivated to study how we can take full advantage of supervised loss functions for stably training deep reinforcement learning agents. This is a challenging task because it is unclear how the training data could be collected to enable policy improvement. In this work, we propose Self-Supervised Reinforcement Learning (SSRL), a simple algorithm that optimizes policies with purely supervised losses. We demonstrate that, without policy gradient or value estimation, an iterative procedure of ``labeling" data and supervised regression is sufficient to drive stable policy improvement. By selecting and imitating trajectories with high episodic rewards, SSRL is surprisingly competitive to contemporary algorithms with more stable performance and less running time, showing the potential of solving reinforcement learning with supervised learning techniques. The code is available at https://github.com/d aochenzha/SSRL
翻訳日:2021-06-11 14:15:11 公開日:2021-06-10
# 共同チューニングハードウェアとハイパーパラメータの多目的視点

A multi-objective perspective on jointly tuning hardware and hyperparameters ( http://arxiv.org/abs/2106.05680v1 )

ライセンス: Link先を確認
David Salinas, Valerio Perrone, Olivier Cruchant, Cedric Archambeau(参考訳) 最高のモデルアーキテクチャとハイパーパラメータに加えて、完全なAutoMLソリューションでは、適切なハードウェアを自動的に選択する必要がある。 最高のハードウェア構成はひとつではなく、コストとランタイムの間に異なるトレードオフを達成するための最適なハードウェアセットのセットです。 実際には、過度にコストがかかるか、訓練に数日かかることもある。 この負担を軽減すべく、我々は、ニューラルネットワークとそのハイパーパラメータとともにハードウェア構成を自動的に選択し、適応する多目的アプローチを採用しています。 提案手法はHyperband上に構築し,2つの方法で拡張する。 まず、ハイパーバンドで使用される停止規則を非支配的なソートルールで置き換え、非プロミネーション構成を事前に停止する。 第2に,ランダム探索よりも有望な構成を見出すパレートフロントの確率的推定を構築することにより,トランスファー学習による関連タスクからのハイパーパラメータ評価を活用する。 我々はNASとHPOの広範な実験において、両者が精度にほとんど影響を与えず、大幅なスピードアップとコスト削減をもたらすことを示した。 ハイパーパラメータに加えてハードウェアが選択される3つのベンチマークでは、ランタイムとコストをそれぞれ5.8倍と8.8倍に削減する。 さらに,マルチオブジェクト法をハイパーパラメータのチューニングのみに適用すると,2つのNASベンチマークで同じ精度を維持しつつ,実行時の10倍の改善が得られる。

In addition to the best model architecture and hyperparameters, a full AutoML solution requires selecting appropriate hardware automatically. This can be framed as a multi-objective optimization problem: there is not a single best hardware configuration but a set of optimal ones achieving different trade-offs between cost and runtime. In practice, some choices may be overly costly or take days to train. To lift this burden, we adopt a multi-objective approach that selects and adapts the hardware configuration automatically alongside neural architectures and their hyperparameters. Our method builds on Hyperband and extends it in two ways. First, we replace the stopping rule used in Hyperband by a non-dominated sorting rule to preemptively stop unpromising configurations. Second, we leverage hyperparameter evaluations from related tasks via transfer learning by building a probabilistic estimate of the Pareto front that finds promising configurations more efficiently than random search. We show in extensive NAS and HPO experiments that both ingredients bring significant speed-ups and cost savings, with little to no impact on accuracy. In three benchmarks where hardware is selected in addition to hyperparameters, we obtain runtime and cost reductions of at least 5.8x and 8.8x, respectively. Furthermore, when applying our multi-objective method to the tuning of hyperparameters only, we obtain a 10\% improvement in runtime while maintaining the same accuracy on two popular NAS benchmarks.
翻訳日:2021-06-11 14:14:56 公開日:2021-06-10
# 部分ラベル学習における重み付き損失の活用

Leveraged Weighted Loss for Partial Label Learning ( http://arxiv.org/abs/2106.05731v1 )

ライセンス: Link先を確認
Hongwei Wen, Jingyi Cui, Hanyuan Hang, Jiabin Liu, Yisen Wang, Zhouchen Lin(参考訳) 弱い教師付き学習の重要な分野として、部分ラベル学習は、各インスタンスに候補ラベルのセットが割り当てられるデータを扱うが、そのうちの1つだけが真実である。 部分ラベルからの学習に関する多くの方法論研究にもかかわらず、相対的に弱い仮定の下でそれらのリスク一貫した性質に関する理論的理解はいまだに欠けている。 本稿では,部分ラベルの損失と非部分ラベルの損失のトレードオフを考えるために,レバレッジパラメータ$\beta$を導入することを目的とした,lwロスと呼ばれる損失関数の族を提案する。 理論的な側面から、部分ラベルから学習する際のLW損失に対するリスク一貫性の一般化結果が導出され、そこではレバレッジパラメータ $\beta$ の選択に関するガイダンスを提供する。 実験では,提案したLW損失が,他の最先端部分ラベル学習アルゴリズムと比較して,ベンチマークと実データの両方において高い有効性を示す。

As an important branch of weakly supervised learning, partial label learning deals with data where each instance is assigned with a set of candidate labels, whereas only one of them is true. Despite many methodology studies on learning from partial labels, there still lacks theoretical understandings of their risk consistent properties under relatively weak assumptions, especially on the link between theoretical results and the empirical choice of parameters. In this paper, we propose a family of loss functions named \textit{Leveraged Weighted} (LW) loss, which for the first time introduces the leverage parameter $\beta$ to consider the trade-off between losses on partial labels and non-partial ones. From the theoretical side, we derive a generalized result of risk consistency for the LW loss in learning from partial labels, based on which we provide guidance to the choice of the leverage parameter $\beta$. In experiments, we verify the theoretical guidance, and show the high effectiveness of our proposed LW loss on both benchmark and real datasets compared with other state-of-the-art partial label learning algorithms.
翻訳日:2021-06-11 14:14:34 公開日:2021-06-10
# 単純なグラフ畳み込みネットワーク

Simple Graph Convolutional Networks ( http://arxiv.org/abs/2106.05809v1 )

ライセンス: Link先を確認
Luca Pasa, Nicol\`o Navarin, Wolfgang Erb, Alessandro Sperduti(参考訳) グラフのための多くのニューラルネットワークは、10年以上前に提案されたグラフ畳み込み演算子に基づいている。 それ以来、モデルに複雑性(および非線形性)を加える傾向がある多くの代替定義が提案されている。 本稿では,単層グラフ畳み込みネットワークに実装可能な単純なグラフ畳み込み演算子を提案することにより,逆方向を追従する。 我々の畳み込み演算子は、文献における多くの提案よりも理論的に根拠があり、考慮されたベンチマークデータセットで最先端の予測性能を示す。

Many neural networks for graphs are based on the graph convolution operator, proposed more than a decade ago. Since then, many alternative definitions have been proposed, that tend to add complexity (and non-linearity) to the model. In this paper, we follow the opposite direction by proposing simple graph convolution operators, that can be implemented in single-layer graph convolutional networks. We show that our convolution operators are more theoretically grounded than many proposals in literature, and exhibit state-of-the-art predictive performance on the considered benchmark datasets.
翻訳日:2021-06-11 14:14:17 公開日:2021-06-10
# 都市移動度トレンドを同定する適応的起源分岐流クラスタ検出法

An adaptive Origin-Destination flows cluster-detecting method to identify urban mobility trends ( http://arxiv.org/abs/2106.05436v1 )

ライセンス: Link先を確認
Mengyuan Fang, Luliang Tang, Zihan Kan, Xue Yang, Tao Pei, Qingquan Li, Chaokui Li(参考訳) オブジェクトの運動や相互作用の抽象表現としてのオリジン・デスティネーション(od)フローは、都市移動と人間と土地の相互作用のパターンを明らかにするために使われてきた。 重要な空間分析手法として,ポイントイベントのクラスタリング手法をodフローに拡張し,都市移動の主な傾向と空間構造を同定した。 しかし,既存のODフロークラスタ検出法は,空間的不均一性下での複雑なODフローのクラスタリングでは困難であり,パラメータ設定の違いにより,空間的スケールと不確実性の両方に制限されている。 そこで本稿では,様々な集約スケールのodフロークラスタを識別可能な光学アルゴリズムに基づく新しいodフロークラスタ検出法を提案する。 この方法は、事前の知識や人工的な介入なしにデータセットからパラメータ値を適応的に決定することができる。 実験の結果,提案手法はより正確で完全でノイズが少ない3つの最先端手法より優れていた。 本研究では,都市交通データ中のODフロークラスタを検出することにより,公共交通機関設定の潜在的経路を特定する手法を提案する。

Origin-Destination (OD) flow, as an abstract representation of the object`s movement or interaction, has been used to reveal the urban mobility and human-land interaction pattern. As an important spatial analysis approach, the clustering methods of point events have been extended to OD flows to identify the dominant trends and spatial structures of urban mobility. However, the existing methods for OD flow cluster-detecting are limited both in specific spatial scale and the uncertain result due to different parameters setting, which is difficult for complicated OD flows clustering under spatial heterogeneity. To address these limitations, in this paper, we proposed a novel OD flows cluster-detecting method based on the OPTICS algorithm which can identify OD flow clusters with various aggregation scales. The method can adaptively determine parameter value from the dataset without prior knowledge and artificial intervention. Experiments indicated that our method outperformed three state-of-the-art methods with more accurate and complete of clusters and less noise. As a case study, our method is applied to identify the potential routes for public transport service settings by detecting OD flow clusters within urban travel data.
翻訳日:2021-06-11 14:11:40 公開日:2021-06-10
# Out-of-distribution Pose and Depth and In-distribution Segmentation Trainingを用いた関節鏡からの3次元意味マッピング

3D Semantic Mapping from Arthroscopy using Out-of-distribution Pose and Depth and In-distribution Segmentation Training ( http://arxiv.org/abs/2106.05525v1 )

ライセンス: Link先を確認
Yaqub Jonmohamadi, Shahnewaz Ali, Fengbei Liu, Jonathan Roberts, Ross Crawford, Gustavo Carneiro, Ajay K. Pandey(参考訳) 最小侵襲手術 (MIS) には多くの利点があるが, 現場との視覚的接触は限られている。 したがって、外科医が3Dセマンティックマップを作成できるようなナビゲートを助けるシステムは、上記の制限を補うことができる。 理論的には、ロボット工学のために開発された3Dセマンティックマッピング技術を借りることができるが、これは、1)セマンティックセグメンテーション、2)深さ推定、3)ポーズ推定といったMISの課題に対する解決策を見つける必要がある。 本稿では,上述の3つの課題を解決する膝関節鏡からの3次元意味マッピングシステムを提案する。 ポーズのラベル付けが可能な非分布型データセットを使用して,自己教師付きおよび教師付き損失を用いた深さ+位置推定器を共同で訓練する。 関節鏡視下画像画素を大腿骨, ACL, 半月板にラベル付けるために, 完全教師付きセマンティックセマンティックセマンティクスシステムを構築した。 人間の膝から画像をテストすることで、これらの2つのシステムの結果を組み合わせて、人間の膝の3Dセマンティックマップを自動的に作成する。 本研究の成果は,術中3次元意味マッピングの生成,術前データによる登録,ロボット支援関節鏡への道を開く。

Minimally invasive surgery (MIS) has many documented advantages, but the surgeon's limited visual contact with the scene can be problematic. Hence, systems that can help surgeons navigate, such as a method that can produce a 3D semantic map, can compensate for the limitation above. In theory, we can borrow 3D semantic mapping techniques developed for robotics, but this requires finding solutions to the following challenges in MIS: 1) semantic segmentation, 2) depth estimation, and 3) pose estimation. In this paper, we propose the first 3D semantic mapping system from knee arthroscopy that solves the three challenges above. Using out-of-distribution non-human datasets, where pose could be labeled, we jointly train depth+pose estimators using selfsupervised and supervised losses. Using an in-distribution human knee dataset, we train a fully-supervised semantic segmentation system to label arthroscopic image pixels into femur, ACL, and meniscus. Taking testing images from human knees, we combine the results from these two systems to automatically create 3D semantic maps of the human knee. The result of this work opens the pathway to the generation of intraoperative 3D semantic mapping, registration with pre-operative data, and robotic-assisted arthroscopy
翻訳日:2021-06-11 14:11:22 公開日:2021-06-10
# コントラスト表現学習を用いたマスキング識別のためのマルチデータセットベンチマーク

Multi-Dataset Benchmarks for Masked Identification using Contrastive Representation Learning ( http://arxiv.org/abs/2106.05596v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Nuran Kasthuriaarachchi, Sanka Rasnayaka(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で受け入れられた基準を大きく変えた。 過去1年間、マスクはウイルスの感染拡大を制限するための公衆衛生対策として利用されてきた。 この突然の変化は多くの顔認識ベースのアクセス制御、認証、監視システムが無効になった。 パスポート、運転免許証、国籍カードなどの公式文書には、完全な顔画像が登録されている。 しかし、現在のグローバルな状況では、顔マッチングシステムはこれらの参照画像とマスクされた顔画像とをマッチングできるはずである。 例えば、空港やセキュリティチェックポイントでは、マスクの取り外しを依頼するのではなく、識別文書の未マスク画像とマスク付き人物とを一致させる方が安全である。 現在の顔認識技術はこの形態の閉塞に対して堅牢ではない。 現在の状況によって提示されるこのユニークな要件に対処するため、研究者が使用するデータセットとベンチマークのセットを提案する。 また,マスクとマスクのない顔マッチングに特化した,視覚表現学習に基づく事前学習ワークフローを提案する。 様々なデータ収集シナリオにまたがる人々を区別するために、この手法が堅牢な特徴を学習することを保証する。 さまざまなデータセットをトレーニングし、さまざまなホールトアウトデータセットをテストすることで結果を検証することで、これを実現する。 本手法で訓練された特殊重みは,マスキング顔と未マスク顔のマッチングの標準顔認識機能よりも優れている。 提供される合成マスク生成コード、新しいトレーニングアプローチ、およびマスク付き顔モデルからトレーニングされた重量は、現在のグローバル環境での運用に既存の顔認識システムを採用するのに役立つと信じている。 研究コミュニティによる幅広い利用のために、すべてのコントリビューションをオープンソースにしています。

The COVID-19 pandemic has drastically changed accepted norms globally. Within the past year, masks have been used as a public health response to limit the spread of the virus. This sudden change has rendered many face recognition based access control, authentication and surveillance systems ineffective. Official documents such as passports, driving license and national identity cards are enrolled with fully uncovered face images. However, in the current global situation, face matching systems should be able to match these reference images with masked face images. As an example, in an airport or security checkpoint it is safer to match the unmasked image of the identifying document to the masked person rather than asking them to remove the mask. We find that current facial recognition techniques are not robust to this form of occlusion. To address this unique requirement presented due to the current circumstance, we propose a set of re-purposed datasets and a benchmark for researchers to use. We also propose a contrastive visual representation learning based pre-training workflow which is specialized to masked vs unmasked face matching. We ensure that our method learns robust features to differentiate people across varying data collection scenarios. We achieve this by training over many different datasets and validating our result by testing on various holdout datasets. The specialized weights trained by our method outperform standard face recognition features for masked to unmasked face matching. We believe the provided synthetic mask generating code, our novel training approach and the trained weights from the masked face models will help in adopting existing face recognition systems to operate in the current global environment. We open-source all contributions for broader use by the research community.
翻訳日:2021-06-11 14:10:58 公開日:2021-06-10
# プライバシーポリシーの完全性チェックのためのAI対応自動化

AI-enabled Automation for Completeness Checking of Privacy Policies ( http://arxiv.org/abs/2106.05688v1 )

ライセンス: Link先を確認
Orlando Amaral, Sallam Abualhaija, Damiano Torre, Mehrdad Sabetzadeh, Lionel C. Briand(参考訳) 情報共有の技術進歩は、データ保護に関する懸念を引き起こしている。 プライバシポリシには、個人の個人情報が組織やソフトウェアシステム(Webサービスやアプリなど)によってどのように扱われるかに関するプライバシー関連の要件が含まれている。 欧州では、プライバシーポリシーはGDPR(General Data Protection Regulation)に準拠している。 GDPRコンプライアンスチェックの前提条件は、GDPRの規定に従ってプライバシーポリシーの内容が完了したかどうかを検証することである。 不完全なプライバシーポリシーは、組織や不完全なプライバシー関連ソフトウェア仕様に違反する大きな罰金をもたらす可能性がある。 手動の完全性チェックは時間とエラーが発生しやすい。 本稿では,プライバシーポリシーの完全性チェックのためのAIベースの自動化を提案する。 体系的な定性的手法により,まず2つの成果物を構築し,gdprのプライバシー関連規定,すなわち概念モデルと完全性基準を特徴付ける。 そして、自然言語処理と教師付き機械学習の組み合わせを利用して、これらの成果物の上に自動化されたソリューションを開発する。 具体的には、プライバシーポリシーにおけるGDPR関連情報コンテンツを特定し、その後、完全性基準に対してチェックする。 当社のアプローチを評価するため、ファンド業界から234の実際のプライバシーポリシーを収集しました。 48件の未確認のプライバシポリシで, 完全性基準の違反件数334件中300件を検出し, 偽陽性件数は23件とした。 このアプローチの精度は92.9%、リコールは89.8%である。 キーワード検索のみを適用したベースラインと比較すると,精度が24.5%,リコール率が38%向上した。

Technological advances in information sharing have raised concerns about data protection. Privacy policies contain privacy-related requirements about how the personal data of individuals will be handled by an organization or a software system (e.g., a web service or an app). In Europe, privacy policies are subject to compliance with the General Data Protection Regulation (GDPR). A prerequisite for GDPR compliance checking is to verify whether the content of a privacy policy is complete according to the provisions of GDPR. Incomplete privacy policies might result in large fines on violating organization as well as incomplete privacy-related software specifications. Manual completeness checking is both time-consuming and error-prone. In this paper, we propose AI-based automation for the completeness checking of privacy policies. Through systematic qualitative methods, we first build two artifacts to characterize the privacy-related provisions of GDPR, namely a conceptual model and a set of completeness criteria. Then, we develop an automated solution on top of these artifacts by leveraging a combination of natural language processing and supervised machine learning. Specifically, we identify the GDPR-relevant information content in privacy policies and subsequently check them against the completeness criteria. To evaluate our approach, we collected 234 real privacy policies from the fund industry. Over a set of 48 unseen privacy policies, our approach detected 300 of the total of 334 violations of some completeness criteria correctly, while producing 23 false positives. The approach thus has a precision of 92.9% and recall of 89.8%. Compared to a baseline that applies keyword search only, our approach results in an improvement of 24.5% in precision and 38% in recall.
翻訳日:2021-06-11 14:10:12 公開日:2021-06-10
# 学術プラジャリズム検出のための非テキストコンテンツ要素の解析

Analyzing Non-Textual Content Elements to Detect Academic Plagiarism ( http://arxiv.org/abs/2106.05764v1 )

ライセンス: Link先を確認
Norman Meuschke(参考訳) 学術的盗作の特定は、特に研究機関、出版者、資金機関にとって差し迫った問題である。 これまで提案されてきた検出手法は、語彙、構文、意味的テキスト類似性を解析する。 これらのアプローチは、コピーされ、適度に書き直され、文字通り翻訳されたテキストを見つける。 しかし、強い言い回し、センス・フォー・センス翻訳、非テキストコンテンツやアイデアの再利用など、確実に偽装された盗作を検知することは、オープンな研究課題である。 この論文は、学術文書の非テクストコンテンツ、特に引用、画像、数学的内容を分析する、異なる概念を実装する盗作検出アプローチを提案することでこの問題に対処する。 提案手法の有効性を検証するため,本論文では学術的盗用事例と未知事例の探索的探索を用いた5つの評価を行った。 評価の結果、非テクストコンテンツ要素は、言語に依存しない高い意味情報を含み、一般的に著者が盗作を隠すために行う変更にほとんど不変であることが示された。 非テキストコンテンツの分析は、テキストベースの検出アプローチを補完し、特に偽装された学術プラジャリズムに対する検出効率を高める。 本論文は, 引用ベース, 画像ベース, 数学ベース, テキストベースの文書類似性の分析を統合した, 初歩的な盗作検出システムについて述べる。 システムのユーザインタフェースでは、ユーザがコンテンツ類似性を調べる時間と労力を大幅に削減する視覚化を採用している。

Identifying academic plagiarism is a pressing problem, among others, for research institutions, publishers, and funding organizations. Detection approaches proposed so far analyze lexical, syntactical, and semantic text similarity. These approaches find copied, moderately reworded, and literally translated text. However, reliably detecting disguised plagiarism, such as strong paraphrases, sense-for-sense translations, and the reuse of non-textual content and ideas, is an open research problem. The thesis addresses this problem by proposing plagiarism detection approaches that implement a different concept: analyzing non-textual content in academic documents, specifically citations, images, and mathematical content. To validate the effectiveness of the proposed detection approaches, the thesis presents five evaluations that use real cases of academic plagiarism and exploratory searches for unknown cases. The evaluation results show that non-textual content elements contain a high degree of semantic information, are language-independent , and largely immutable to the alterations that authors typically perform to conceal plagiarism. Analyzing non-textual content complements text-based detection approaches and increases the detection effectiveness, particularly for disguised forms of academic plagiarism. To demonstrate the benefit of combining non-textual and text-based detection methods, the thesis describes the first plagiarism detection system that integrates the analysis of citation-based, image-based, math-based, and text-based document similarity. The system's user interface employs visualizations that significantly reduce the effort and time users must invest in examining content similarity.
翻訳日:2021-06-11 14:09:47 公開日:2021-06-10
# スマートグリッドにおける適応クラスタリングに基づく顧客セグメンテーションによる需要応答の複数動的価格設定

Multiple Dynamic Pricing for Demand Response with Adaptive Clustering-based Customer Segmentation in Smart Grids ( http://arxiv.org/abs/2106.05905v1 )

ライセンス: Link先を確認
Fanlin Meng, Qian Ma, Zixu Liu, Xiao-Jun Zeng(参考訳) 本稿では,小売市場における需要応答に対する現実的な多重動的価格手法を提案する。 まず、アダプティブクラスタリングに基づく顧客セグメンテーションフレームワークを提案し、顧客を異なるグループに分類し、使用パターンの効果的な識別を可能にする。 第2に、価格と需要の関係を明確に把握する重要な市場制約を持つカスタマイズされた需要モデルを開発し、モデル精度を改善し、有意義な価格設定を可能にする。 第三に、複数の価格ベースの需要応答は、現実的な市場制約を受ける利益の最大化問題として定式化される。 提案手法の全体的な目的は、グリッドオペレーター、顧客、小売業者といったシステムの様々な利害関係者に利益をもたらすために、顧客にとって「正しい」価格を達成することである。 提案手法は,実世界のデータセットに基づくシミュレーションにより評価される。

In this paper, we propose a realistic multiple dynamic pricing approach to demand response in the retail market. First, an adaptive clustering-based customer segmentation framework is proposed to categorize customers into different groups to enable the effective identification of usage patterns. Second, customized demand models with important market constraints which capture the price-demand relationship explicitly, are developed for each group of customers to improve the model accuracy and enable meaningful pricing. Third, the multiple pricing based demand response is formulated as a profit maximization problem subject to realistic market constraints. The overall aim of the proposed scalable and practical method aims to achieve 'right' prices for 'right' customers so as to benefit various stakeholders in the system such as grid operators, customers and retailers. The proposed multiple pricing framework is evaluated via simulations based on real-world datasets.
翻訳日:2021-06-11 14:09:19 公開日:2021-06-10
# MusicBERT: 大規模事前学習によるシンボリック音楽理解

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training ( http://arxiv.org/abs/2106.05630v1 )

ライセンス: Link先を確認
Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie-Yan Liu(参考訳) シンボリック音楽理解 (symbolic music understanding) は、シンボリックデータ(例えばmidi形式だがオーディオではない)からの音楽の理解を指す用語であり、ジャンル分類、感情分類、楽曲マッチングなど多くの音楽応用をカバーしている。 これらの応用には良い音楽表現が有用であるが、トレーニングデータの欠如は表現学習を妨げる。 本稿では,自然言語処理における事前学習モデルの成功に触発されて,音楽理解のための大規模事前学習モデル musicbert を開発した。 この目的のために,100万曲以上の楽曲を含む大規模なシンボリック音楽コーパスを構築する。 シンボリック・ミュージックは、より構造的な(例えば、バー、位置)と多様な情報(例えば、テンポ、楽器、ピッチ)を含んでいるため、単にNLPからシンボリック・ミュージックへの事前学習技術を採用するだけで、限界利得しか得られない。 そこで我々は,OctupleMIDIエンコーディングやバーレベルのマスキング戦略を含むいくつかのメカニズムを設計し,シンボル音楽データによる事前学習を強化する。 実験は、メロディ補完、伴奏提案、ジャンル分類、スタイル分類を含む4つの音楽理解タスクにおけるMusicBERTの利点を示す。 また,MusicBERTにおけるOctupleMIDI符号化とバーレベルのマスキング戦略の有効性についても検討した。

Symbolic music understanding, which refers to the understanding of music from the symbolic data (e.g., MIDI format, but not audio), covers many music applications such as genre classification, emotion classification, and music pieces matching. While good music representations are beneficial for these applications, the lack of training data hinders representation learning. Inspired by the success of pre-training models in natural language processing, in this paper, we develop MusicBERT, a large-scale pre-trained model for music understanding. To this end, we construct a large-scale symbolic music corpus that contains more than 1 million music songs. Since symbolic music contains more structural (e.g., bar, position) and diverse information (e.g., tempo, instrument, and pitch), simply adopting the pre-training techniques from NLP to symbolic music only brings marginal gains. Therefore, we design several mechanisms, including OctupleMIDI encoding and bar-level masking strategy, to enhance pre-training with symbolic music data. Experiments demonstrate the advantages of MusicBERT on four music understanding tasks, including melody completion, accompaniment suggestion, genre classification, and style classification. Ablation studies also verify the effectiveness of our designs of OctupleMIDI encoding and bar-level masking strategy in MusicBERT.
翻訳日:2021-06-11 14:09:04 公開日:2021-06-10
# 準ニュートン法の局所収束のグローバル化:適応サンプルサイズアプローチ

Exploiting Local Convergence of Quasi-Newton Methods Globally: Adaptive Sample Size Approach ( http://arxiv.org/abs/2106.05445v1 )

ライセンス: Link先を確認
Qiujiang Jin, Aryan Mokhtari(参考訳) 本稿では,大規模なデータセット上で定義された経験的リスク最小化(ERM)問題に対する準ニュートン法の適用について検討する。 従来の決定論的および確率的準ニュートン法はそのような問題を解決するために実行することができるが、その大域収束率は一階法よりも良くなく、局所超線形収束は学習プロセスの終わりにのみ現れることが知られている。 本稿では,準ニュートン法の超線形収束を利用する適応的サンプルサイズスキームを用いて,学習過程全体を通して学習を行う。 提案する適応型サンプルサイズアルゴリズムの主な考え方は,まずデータポイントの小さなサブセットから出発し,その統計的精度で対応するEMM問題を解き,次いで,サンプルサイズを幾何的に拡大し,それに対応する問題の最適解を,その後のERM問題をより多くのサンプルで解くための初期点として利用することである。 初期サンプルサイズが十分に大きく、準ニュートン法を用いて各サブプロブレムを解くと、準ニュートン法が超直線的に収束する近傍で常にイテレートが維持されることを保証するため、サブプロブレムは超直線的に(少なくとも3回の反復で)解ける。 各種データセットの数値実験により理論的結果を確認し,提案手法の計算上の利点を実証した。

In this paper, we study the application of quasi-Newton methods for solving empirical risk minimization (ERM) problems defined over a large dataset. Traditional deterministic and stochastic quasi-Newton methods can be executed to solve such problems; however, it is known that their global convergence rate may not be better than first-order methods, and their local superlinear convergence only appears towards the end of the learning process. In this paper, we use an adaptive sample size scheme that exploits the superlinear convergence of quasi-Newton methods globally and throughout the entire learning process. The main idea of the proposed adaptive sample size algorithms is to start with a small subset of data points and solve their corresponding ERM problem within its statistical accuracy, and then enlarge the sample size geometrically and use the optimal solution of the problem corresponding to the smaller set as an initial point for solving the subsequent ERM problem with more samples. We show that if the initial sample size is sufficiently large and we use quasi-Newton methods to solve each subproblem, the subproblems can be solved superlinearly fast (after at most three iterations), as we guarantee that the iterates always stay within a neighborhood that quasi-Newton methods converge superlinearly. Numerical experiments on various datasets confirm our theoretical results and demonstrate the computational advantages of our method.
翻訳日:2021-06-11 14:06:34 公開日:2021-06-10
# BERTを用いた意味認識型バイナリコード表現

Semantic-aware Binary Code Representation with BERT ( http://arxiv.org/abs/2106.05478v1 )

ライセンス: Link先を確認
Hyungjoon Koo, Soyeon Park, Daejin Choi, Taesoo Kim(参考訳) バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。 近年,解析アルゴリズムの具体化を手作業で行うのではなく,バイナリのコード表現を自動的に再構築する機械学習に基づくバイナリ解析手法が提案されている。 しかし、機械学習を利用する既存のアプローチは、1つの領域の問題を解くのに特化しており、異なるタイプのバイナリ分析のためのモデルのレクリエーションを行っている。 本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。 そこで本研究では,オフオブボキャブラリー問題 (oov) を最小化しつつ,各命令に対して豊富な情報を保持する,バランスの取れた命令正規化を導入する。 DeepSemanticは、大量のバイナリを用いて、我々の研究に基づいて慎重に設計されている。 さらに、deepsemanticはbertアーキテクチャの本質を活用して、事前訓練されたジェネリックモデルを再提案し、ワンタイム処理として容易に利用し、その後、微調整プロセスで特定のダウンストリームタスクを迅速に適用する。 我々は、DeepSemanticを2つのダウンストリームタスク、すなわちバイナリ類似性比較とコンパイラ証明(コンパイラと最適化レベル)予測で実証する。 実験の結果,2値類似性モデルは,DeepBinDiffとSAFEの2つの最先端の2値類似性ツール,平均で49.84%,平均で15.83%を上回っていることがわかった。

A wide range of binary analysis applications, such as bug discovery, malware analysis and code clone detection, require recovery of contextual meanings on a binary code. Recently, binary analysis techniques based on machine learning have been proposed to automatically reconstruct the code representation of a binary instead of manually crafting specifics of the analysis algorithm. However, the existing approaches utilizing machine learning are still specialized to solve one domain of problems, rendering recreation of models for different types of binary analysis. In this paper, we propose DeepSemantic utilizing BERT in producing the semantic-aware code representation of a binary code. To this end, we introduce well-balanced instruction normalization that holds rich information for each of instructions yet minimizing an out-of-vocabulary (OOV) problem. DeepSemantic has been carefully designed based on our study with large swaths of binaries. Besides, DeepSemantic leverages the essence of the BERT architecture into re-purposing a pre-trained generic model that is readily available as a one-time processing, followed by quickly applying specific downstream tasks with a fine-tuning process. We demonstrate DeepSemantic with two downstream tasks, namely, binary similarity comparison and compiler provenance (i.e., compiler and optimization level) prediction. Our experimental results show that the binary similarity model outperforms two state-of-the-art binary similarity tools, DeepBinDiff and SAFE, 49.84% and 15.83% on average, respectively.
翻訳日:2021-06-11 14:06:09 公開日:2021-06-10
# 逆選択型階層的模倣学習

Adversarial Option-Aware Hierarchical Imitation Learning ( http://arxiv.org/abs/2106.05530v1 )

ライセンス: Link先を確認
Mingxuan Jing, Wenbing Huang, Fuchun Sun, Xiaojian Ma, Tao Kong, Chuang Gan, Lei Li(参考訳) 長期にわたる無注釈のデモンストレーションからエージェントのスキルを学ぶことは困難である。 階層的模倣学習(hil)のような既存のアプローチは、エラーや副最適解を複雑化する傾向がある。 本稿では,長距離学習のための新しい手法であるOption-GAILを提案する。 Option-GAILのキーとなるアイデアは、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーをトレーニングすることだ。 特に,期待最大化(em)方式のアルゴリズムを提案する。e-stepは現在の学習方針に基づく専門家の選択肢をサンプリングし,m-stepはエージェントの低レベルおよび高レベルポリシーを同時に更新し,新たに提案されたエキスパートとエージェント間のオプション占有率測定を最小化する。 提案するアルゴリズムの収束を理論的に証明する。 実験によると、option-gailはさまざまなタスクにおいて、他のオプションよりも優れています。

It has been a challenge to learning skills for an agent from long-horizon unannotated demonstrations. Existing approaches like Hierarchical Imitation Learning(HIL) are prone to compounding errors or suboptimal solutions. In this paper, we propose Option-GAIL, a novel method to learn skills at long horizon. The key idea of Option-GAIL is modeling the task hierarchy by options and train the policy via generative adversarial optimization. In particular, we propose an Expectation-Maximiza tion(EM)-style algorithm: an E-step that samples the options of expert conditioned on the current learned policy, and an M-step that updates the low- and high-level policies of agent simultaneously to minimize the newly proposed option-occupancy measurement between the expert and the agent. We theoretically prove the convergence of the proposed algorithm. Experiments show that Option-GAIL outperforms other counterparts consistently across a variety of tasks.
翻訳日:2021-06-11 14:05:44 公開日:2021-06-10
# 可変ロバストLQR層

Differentiable Robust LQR Layers ( http://arxiv.org/abs/2106.05535v1 )

ライセンス: Link先を確認
Ngo Anh Vien and Gerhard Neumann(参考訳) 本稿では,モデル不確実性と確率力学に基づく強化学習と模倣学習のための,微分可能な頑健なLQR層を提案する。 ロバストなlqr層はロバスト最適制御とモデルフリー学習の利点を活用できる。 制御系における確率性と不確実性モデリングのための新しいタイプの帰納バイアスを提供する。 特に,ロバストなlqr最適化プログラムを凸プログラムとして書き換えることで,効率的な識別手法を提案する。 最悪のケースコストの半確定プログラム)。 ニューラルネットワーク層の内部で凸最適化を使用することに関する最近の研究に基づいて、この最悪のコストを最適化する、完全に差別化可能なレイヤを開発する。 評価尺度 w.r.t の導出をモデルの未知パラメータ、モデル不確かさ、確率パラメータとして計算する。 確率的および不確実な領域における模倣学習と近似動的プログラミングの手法を実証する。 実験の結果,提案手法は不確定な状況下でロバストなポリシーを最適化でき,不確実性を直接モデル化しない既存の手法よりも大幅に優れた性能が得られることがわかった。

This paper proposes a differentiable robust LQR layer for reinforcement learning and imitation learning under model uncertainty and stochastic dynamics. The robust LQR layer can exploit the advantages of robust optimal control and model-free learning. It provides a new type of inductive bias for stochasticity and uncertainty modeling in control systems. In particular, we propose an efficient way to differentiate through a robust LQR optimization program by rewriting it as a convex program (i.e. semi-definite program) of the worst-case cost. Based on recent work on using convex optimization inside neural network layers, we develop a fully differentiable layer for optimizing this worst-case cost, i.e. we compute the derivative of a performance measure w.r.t the model's unknown parameters, model uncertainty and stochasticity parameters. We demonstrate the proposed method on imitation learning and approximate dynamic programming on stochastic and uncertain domains. The experiment results show that the proposed method can optimize robust policies under uncertain situations, and are able to achieve a significantly better performance than existing methods that do not model uncertainty directly.
翻訳日:2021-06-11 14:05:30 公開日:2021-06-10
# バックプロパゲーションの代わりにフロントコントリビューション

Front Contribution instead of Back Propagation ( http://arxiv.org/abs/2106.05569v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar(参考訳) Deep Learningのいくつかのドメインにわたる卓越したトラックレコードは、エラーバックプロパゲーション(BP)の使用に起因している。 しかし、いくつかの研究により、実際の脳でBPを実行することは不可能であることが示されている。 また、BPは依然としてメモリ使用量と速度の重要かつ未解決のボトルネックとして機能している。 本稿では,BPのコンパクトな代替として,シンプルで斬新なFront-Contributionアルゴリズムを提案する。 最終層重みに関する全ての重みの寄与は、トレーニング開始前に計算され、全ての寄与は最終層の重みに付加される。 このアルゴリズムはネットワークを本質的に崩壊させ、最終層ではなく全重みの重み上げの必要性を予知する。 このパラメータの削減により、メモリ使用量が減少し、トレーニング速度が向上する。 近年提案されているBP近似アルゴリズムとは対照的に,提案アルゴリズムはBPと全く同じ出力を生成する。 予備実験では,提案アルゴリズムの有効性を実証した。 私たちの研究は、現在未調査の"事前貢献"を効果的に活用するための基盤を提供し、次世代のトレーニングアルゴリズムを刺激するのに役立ちます。

Deep Learning's outstanding track record across several domains has stemmed from the use of error backpropagation (BP). Several studies, however, have shown that it is impossible to execute BP in a real brain. Also, BP still serves as an important and unsolved bottleneck for memory usage and speed. We propose a simple, novel algorithm, the Front-Contribution algorithm, as a compact alternative to BP. The contributions of all weights with respect to the final layer weights are calculated before training commences and all the contributions are appended to weights of the final layer, i.e., the effective final layer weights are a non-linear function of themselves. Our algorithm then essentially collapses the network, precluding the necessity for weight updation of all weights not in the final layer. This reduction in parameters results in lower memory usage and higher training speed. We show that our algorithm produces the exact same output as BP, in contrast to several recently proposed algorithms approximating BP. Our preliminary experiments demonstrate the efficacy of the proposed algorithm. Our work provides a foundation to effectively utilize these presently under-explored "front contributions", and serves to inspire the next generation of training algorithms.
翻訳日:2021-06-11 14:05:14 公開日:2021-06-10
# 機械学習によるマルウェアの検出と分類のための自動化パイプラインの提案

Towards an Automated Pipeline for Detecting and Classifying Malware through Machine Learning ( http://arxiv.org/abs/2106.05625v1 )

ライセンス: Link先を確認
Nicola Loi, Claudio Borile, Daniele Ucci(参考訳) マルウェアの数(コンピュータや情報ネットワークにとって潜在的に有害なソフトウェアやコードフラグメント)の絶え間ない増加と、高度な回避と難読化技術の使用は、古典的なシグネチャベースのアプローチをひどく妨げている。 一方で、機械学習技術に基づくマルウェア検出システムは、分析時間を劇的に短縮し、回避や難読化技術に対してより堅牢であることが判明した、標準的なアプローチに代わる有望な手段を提供し始めた。 本稿では,Windows Portable Executable File (PE) を分類できるマルウェア分類パイプラインを提案する。 入力PEサンプルが与えられた場合、悪意または良性のいずれかに分類される。 悪意のある場合、パイプラインは脅威タイプ、家族、行動(s)を確立するためにさらに分析する。 提案したパイプラインを,約100万個のPEサンプルを含むオープンソースのデータセットEMBERで静的解析により検証した。 得られたマルウェア検出結果は,現状の他の学術研究に匹敵するものであり,また,悪意のあるサンプルの詳細な分類も提供する。 パイプラインで使用されるモデルは解釈可能な結果を提供し、セキュリティアナリストが自動パイプラインによる決定をよりよく理解するのに役立つ。

The constant growth in the number of malware - software or code fragment potentially harmful for computers and information networks - and the use of sophisticated evasion and obfuscation techniques have seriously hindered classic signature-based approaches. On the other hand, malware detection systems based on machine learning techniques started offering a promising alternative to standard approaches, drastically reducing analysis time and turning out to be more robust against evasion and obfuscation techniques. In this paper, we propose a malware taxonomic classification pipeline able to classify Windows Portable Executable files (PEs). Given an input PE sample, it is first classified as either malicious or benign. If malicious, the pipeline further analyzes it in order to establish its threat type, family, and behavior(s). We tested the proposed pipeline on the open source dataset EMBER, containing approximately 1 million PE samples, analyzed through static analysis. Obtained malware detection results are comparable to other academic works in the current state of art and, in addition, we provide an in-depth classification of malicious samples. Models used in the pipeline provides interpretable results which can help security analysts in better understanding decisions taken by the automated pipeline.
翻訳日:2021-06-11 14:04:57 公開日:2021-06-10
# dFDA-VeD: ダイナミックな将来需要対応車間通信システム

dFDA-VeD: A Dynamic Future Demand Aware Vehicle Dispatching System ( http://arxiv.org/abs/2106.05737v1 )

ライセンス: Link先を確認
Yang Guo and Tarique Anwar and Jian Yang and Jia Wu(参考訳) スマートモビリティの需要が高まる中、ライドシェアサービスは都市部で人気が高まっている。 これらのサービスは、利用可能な車両をピックアップポイントに送付することで、到着した旅行要求をサービスするシステムを維持している。 プロセスは社会的に経済的に利益を上げる必要があるため、特に交通需要や交通状況が厳しいため、配車作業は非常に困難である。 交通需要の不均一な分布のため、異なる地域での運行中に多くのアイドル車両が生産された。 既存の車両派遣システムのほとんどは、アイドル車両の移転のために静的な移転センターを設計した。 しかし、交通条件や需要分布は時間とともに動的に変化するため、静的解は進化する状況に適合しない。 本稿では,動的な将来需要対応型配車システムを提案する。 移動需要と交通条件の両方を考慮して移動センターを動的に探索することができる。 実世界のデータセット上でシステム評価を行い、実験における既存の最先端手法と比較し、いくつかの標準評価指標と運用時間の観点から比較した。 実験により,提案方式は供用率を大幅に改善し,運用コストが極めて小さくなることを示した。

With the rising demand of smart mobility, ride-hailing service is getting popular in the urban regions. These services maintain a system for serving the incoming trip requests by dispatching available vehicles to the pickup points. As the process should be socially and economically profitable, the task of vehicle dispatching is highly challenging, specially due to the time-varying travel demands and traffic conditions. Due to the uneven distribution of travel demands, many idle vehicles could be generated during the operation in different subareas. Most of the existing works on vehicle dispatching system, designed static relocation centers to relocate idle vehicles. However, as traffic conditions and demand distribution dynamically change over time, the static solution can not fit the evolving situations. In this paper, we propose a dynamic future demand aware vehicle dispatching system. It can dynamically search the relocation centers considering both travel demand and traffic conditions. We evaluate the system on real-world dataset, and compare with the existing state-of-the-art methods in our experiments in terms of several standard evaluation metrics and operation time. Through our experiments, we demonstrate that the proposed system significantly improves the serving ratio and with a very small increase in operation cost.
翻訳日:2021-06-11 14:04:38 公開日:2021-06-10
# 重み付き雑音を用いた非スムース確率最適化のための近最適高確率複雑性境界

Near-Optimal High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise ( http://arxiv.org/abs/2106.05958v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Marina Danilova, Innokentiy Shibaev, Pavel Dvurechensky, Alexander Gasnikov(参考訳) データの実用的効率性とランダム性により、確率的一階法は大規模機械学習モデルのトレーニングに標準となっている。 ランダムな振る舞いはアルゴリズムの特定の実行を非常に最適でない目的値にさせるが、理論的な保証は通常目的値の期待に対して証明される。 したがって、アルゴリズムが小さな目標残差を高い確率で提供することを理論的に保証することが不可欠である。 既存の非滑らかな確率凸最適化の方法は、負のパワーまたは対数的な信頼度に依存するが、いくつかのNLPタスクのように実際には保持されない準ガウス雑音分布の仮定の下で、複雑性を持つ。 本稿では,この問題を解き,非ガウス雑音を用いた非滑らか凸確率確率最適化問題に対する信頼度に対数的依存を持つ最初の高確率収束結果を得る。 そこで本研究では,勾配クリッピングを用いた2つの確率的手法のステップサイズルールを提案する。 さらに,H\ より古い連続勾配を用いた一般化された滑らかな対象に対して解析を行い,両手法とも強い凸問題に対する拡張を提供する。 最後に,本研究では,第1の(加速)手法が,すべてのレジームにおいて最適な反復とoracleの複雑さを持ち,第2の手法が非スムース設定において最適であることを示す。

Thanks to their practical efficiency and random nature of the data, stochastic first-order methods are standard for training large-scale machine learning models. Random behavior may cause a particular run of an algorithm to result in a highly suboptimal objective value, whereas theoretical guarantees are usually proved for the expectation of the objective value. Thus, it is essential to theoretically guarantee that algorithms provide small objective residual with high probability. Existing methods for non-smooth stochastic convex optimization have complexity bounds with the dependence on the confidence level that is either negative-power or logarithmic but under an additional assumption of sub-Gaussian (light-tailed) noise distribution that may not hold in practice, e.g., in several NLP tasks. In our paper, we resolve this issue and derive the first high-probability convergence results with logarithmic dependence on the confidence level for non-smooth convex stochastic optimization problems with non-sub-Gaussian (heavy-tailed) noise. To derive our results, we propose novel stepsize rules for two stochastic methods with gradient clipping. Moreover, our analysis works for generalized smooth objectives with H\"older-continuous gradients, and for both methods, we provide an extension for strongly convex problems. Finally, our results imply that the first (accelerated) method we consider also has optimal iteration and oracle complexity in all the regimes, and the second one is optimal in the non-smooth setting.
翻訳日:2021-06-11 14:03:48 公開日:2021-06-10
# タンパク質工学のための適応機械学習

Adaptive machine learning for protein engineering ( http://arxiv.org/abs/2106.05466v1 )

ライセンス: Link先を確認
Brian L. Hie, Kevin K. Yang(参考訳) データから学習してタンパク質配列のエンコード機能を予測する機械学習モデルは、有用なタンパク質工学ツールとして登場しつつある。 しかし、これらのモデルを使って新しいタンパク質設計を提案する場合、タンパク質配列の膨大な組合せの複雑さに対処する必要がある。 本稿では,シーケンス・ツー・ファンクショナル・機械学習・サロゲートモデルを用いて,実験的な測定を行う。 まず,1ラウンドの機械学習最適化によるシーケンス選択について述べる。 次に、最適化されたシーケンスを発見し、複数のラウンドにわたるトレーニング、最適化、実験的な測定でモデルを改善することが目的であるシーケンシャル最適化について議論する。

Machine-learning models that learn from data to predict how protein sequence encodes function are emerging as a useful protein engineering tool. However, when using these models to suggest new protein designs, one must deal with the vast combinatorial complexity of protein sequences. Here, we review how to use a sequence-to-function machine-learning surrogate model to select sequences for experimental measurement. First, we discuss how to select sequences through a single round of machine-learning optimization. Then, we discuss sequential optimization, where the goal is to discover optimized sequences and improve the model across multiple rounds of training, optimization, and experimental measurement.
翻訳日:2021-06-11 14:02:43 公開日:2021-06-10
# 楕円型インタフェース問題に対する浅層ニューラルネットワークの不連続捕捉

A Discontinuity Capturing Shallow Neural Network for Elliptic Interface Problems ( http://arxiv.org/abs/2106.05587v1 )

ライセンス: Link先を確認
Wei-Fan Hu and Te-Sheng Lin and Ming-Chih Lai(参考訳) 本稿では,d$次元の区分的連続関数を近似し,楕円界面問題を解くための,新しい不連続な浅層ニューラルネットワーク(dcsnn)を開発した。 現在のネットワークには3つの新しい特徴がある: (i) ジャンプの不連続性を鋭く捉え、 (ii) 隠れた1つの層のみからなる完全に浅い、 (iii) 偏微分方程式(PDE)を解くために完全にメッシュフリーである。 まず,不連続関数をラベル付けするために1つの座標変数を拡大することにより,$d$次元のピースワイド連続関数を$(d+1)$次元空間で連続的に拡張し,さらに,この新たな拡張関数を表現するために浅いニューラルネットワークを構築した。 隠れた層が1つしかないため、トレーニングパラメータ(重みとバイアス)の数は、隠れた層で使用される次元とニューロンと線形にスケールする。 楕円界面方程式を解くために、ネットワークは、制御方程式の残差、境界条件、および界面跳躍条件からなる平均二乗誤差損失を最小化することによって訓練される。 本稿では,ネットワークの精度と効率を比較するために,一連の数値実験を行う。 我々のDCSNNモデルは、トレーニングされる必要のあるパラメータの適度な数だけ(ここではすべての数値例で使用される数百のパラメータ)のため、比較可能な効率がよい。 また,従来のグリッドベース没入インタフェース法 (IIM) による楕円型インタフェース問題に対する結果との比較を行った。 その結果,IIMの精度はIIMよりも高いことがわかった。 結論として,6次元問題を解くことで,現在のネットワークの高次元応用能力を示す。

In this paper, a new Discontinuity Capturing Shallow Neural Network (DCSNN) for approximating $d$-dimensional piecewise continuous functions and for solving elliptic interface problems is developed. There are three novel features in the present network; namely, (i) jump discontinuity is captured sharply, (ii) it is completely shallow consisting of only one hidden layer, (iii) it is completely mesh-free for solving partial differential equations (PDEs). We first continuously extend the $d$-dimensional piecewise continuous function in $(d+1)$-dimensional space by augmenting one coordinate variable to label the pieces of discontinuous function, and then construct a shallow neural network to express this new augmented function. Since only one hidden layer is employed, the number of training parameters (weights and biases) scales linearly with the dimension and the neurons used in the hidden layer. For solving elliptic interface equations, the network is trained by minimizing the mean squared error loss that consists of the residual of governing equation, boundary condition, and the interface jump conditions. We perform a series of numerical tests to compare the accuracy and efficiency of the present network. Our DCSNN model is comparably efficient due to only moderate number of parameters needed to be trained (a few hundreds of parameters used throughout all numerical examples here), and the result shows better accuracy (and less parameters) than other method using piecewise deep neural network in literature. We also compare the results obtained by the traditional grid-based immersed interface method (IIM) which is designed particularly for elliptic interface problems. Again, the present results show better accuracy than the ones obtained by IIM. We conclude by solving a six-dimensional problem to show the capability of the present network for high-dimensional applications.
翻訳日:2021-06-11 14:02:33 公開日:2021-06-10
# フェルミオン格子場理論のためのフローベースサンプリング

Flow-based sampling for fermionic lattice field theories ( http://arxiv.org/abs/2106.05934v1 )

ライセンス: Link先を確認
Michael S. Albergo, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Julian M. Urban, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Phiala E. Shanahan(参考訳) 正規化フローに基づくアルゴリズムは、漸近的に正確になる方法で複雑な確率分布をサンプリングする有望な機械学習アプローチとして登場している。 格子場理論の文脈において、原理実証研究はスカラー理論、ゲージ理論、統計システムに対するこのアプローチの有効性を実証している。 この研究は、粒子物理学の標準模型や多くの凝縮物質系の格子場理論の研究に適用するために必要とされる、動的フェルミオンを持つ理論のフローベースサンプリングを可能にするアプローチを開発する。 実演として, これらの手法は, 湯川相互作用を介してスカラー場に結合した無質量安定フェルミオンの2次元理論の場配置のサンプリングに応用される。

Algorithms based on normalizing flows are emerging as promising machine learning approaches to sampling complicated probability distributions in a way that can be made asymptotically exact. In the context of lattice field theory, proof-of-principle studies have demonstrated the effectiveness of this approach for scalar theories, gauge theories, and statistical systems. This work develops approaches that enable flow-based sampling of theories with dynamical fermions, which is necessary for the technique to be applied to lattice field theory studies of the Standard Model of particle physics and many condensed matter systems. As a practical demonstration, these methods are applied to the sampling of field configurations for a two-dimensional theory of massless staggered fermions coupled to a scalar field via a Yukawa interaction.
翻訳日:2021-06-11 14:02:02 公開日:2021-06-10
# 深層学習に基づく還元秩序モデルによるパラメータ依存流体のリアルタイムシミュレーション

Real-time simulation of parameter-dependent fluid flows through deep learning-based reduced order models ( http://arxiv.org/abs/2106.05722v1 )

ライセンス: Link先を確認
Stefania Fresca, Andrea Manzoni(参考訳) 異なる仮想シナリオにおける流体流動のシミュレーションは、エンジニアリングアプリケーションにおいて重要である。 しかし、例えば有限要素法に依拠する高忠実度フル次モデルでは、流体の流れをほぼリアルタイムにシミュレートしなければならないときは常に耐えられない。 例えば、適切な直交分解(POD)に依存する還元次数モデル(ROM)は、パラメータ依存の流体力学問題に対する高速な近似を提供する。 しかし、パラメータ化された非線形項を扱うための高価なハイパーリダクション戦略が必要であり、混合速度-圧力定式化が考慮された場合、リッチ化された縮小空間(あるいはペトロフ-ガレルキン射影)は、リアルタイムに信頼できる解の評価を妨げる可能性がある。 流体-構造相互作用の処理は、さらに高い困難を伴う。 提案したディープラーニング(DL)ベースのROMは、非線形トライアル多様体と還元力学の両方を非侵襲的に学習することで、これらの制限をすべて克服する。 そのためには、PODを通じて旧次元の縮小を実行し、トレーニング時間を実質的に向上させた後、ディープニューラルネットワークに依存する。 得られたPOD-DL-ROMは、シリンダーベンチマークの周りの流れ、固定された剛性ブロックに取り付けられた弾性ビームとラミナ非圧縮性フローの間の流体構造相互作用、大脳動脈瘤内の血流のほぼリアルタイムに正確な結果を提供する。

Simulating fluid flows in different virtual scenarios is of key importance in engineering applications. However, high-fidelity, full-order models relying, e.g., on the finite element method, are unaffordable whenever fluid flows must be simulated in almost real-time. Reduced order models (ROMs) relying, e.g., on proper orthogonal decomposition (POD) provide reliable approximations to parameter-dependent fluid dynamics problems in rapid times. However, they might require expensive hyper-reduction strategies for handling parameterized nonlinear terms, and enriched reduced spaces (or Petrov-Galerkin projections) if a mixed velocity-pressure formulation is considered, possibly hampering the evaluation of reliable solutions in real-time. Dealing with fluid-structure interactions entails even higher difficulties. The proposed deep learning (DL)-based ROMs overcome all these limitations by learning in a non-intrusive way both the nonlinear trial manifold and the reduced dynamics. To do so, they rely on deep neural networks, after performing a former dimensionality reduction through POD enhancing their training times substantially. The resulting POD-DL-ROMs are shown to provide accurate results in almost real-time for the flow around a cylinder benchmark, the fluid-structure interaction between an elastic beam attached to a fixed, rigid block and a laminar incompressible flow, and the blood flow in a cerebral aneurysm.
翻訳日:2021-06-11 14:01:51 公開日:2021-06-10