このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200303となっている論文です。

PDF登録状況(公開日: 20200303)

TitleAuthorsAbstract論文公表日・翻訳日
# Fusing Flow-to-Depth Proposals による映像深度推定

Video Depth Estimation by Fusing Flow-to-Depth Proposals ( http://arxiv.org/abs/1912.12874v2 )

ライセンス: Link先を確認
Jiaxin Xie, Chenyang Lei, Zhuwen Li, Li Erran Li and Qifeng Chen(参考訳) 単眼ビデオの奥行きは、1台のカメラで何十億ものデバイスやロボットが3dで世界を見ることができる。 本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なるアプローチを提案する。 このモデルは、フローツーディープ層、カメラポーズリファインメントモジュール、深度融合ネットワークから構成されている。 光フローとカメラのポーズが与えられると、このフローツーディープ層はエピポーラ幾何最適化問題を明示的に解いて奥行き提案と対応する信頼度マップを生成する。 当社のフロー・ツー・ディテール層は微分可能であり、カメラポーズリファインメントモジュールの信頼性を最大化することで、カメラポーズを洗練することができる。 我々の深度融合ネットワークは、隣接する異なるフレームから推定される深度提案と信頼マップを利用して最終深度マップを作成することができる。 さらに、この深度融合ネットワークは、他の手法によって生成された深度提案を取り入れて結果をさらに改善することができる。 3つの公開データセットに対する実験により、我々のアプローチは最先端の深度推定方法より優れており、合理的なクロスデータセットの一般化能力を持っていることが明らかとなった。

Depth from a monocular video can enable billions of devices and robots with a single camera to see the world in 3D. In this paper, we present an approach with a differentiable flow-to-depth layer for video depth estimation. The model consists of a flow-to-depth layer, a camera pose refinement module, and a depth fusion network. Given optical flow and camera pose, our flow-to-depth layer generates depth proposals and the corresponding confidence maps by explicitly solving an epipolar geometry optimization problem. Our flow-to-depth layer is differentiable, and thus we can refine camera poses by maximizing the aggregated confidence in the camera pose refinement module. Our depth fusion network can utilize depth proposals and their confidence maps inferred from different adjacent frames to produce the final depth map. Furthermore, the depth fusion network can additionally take the depth proposals generated by other methods to improve the results further. The experiments on three public datasets show that our approach outperforms state-of-the-art depth estimation methods, and has reasonable cross dataset generalization capability: our model trained on KITTI still performs well on the unseen Waymo dataset.
翻訳日:2023-01-17 02:43:38 公開日:2020-03-03
# 動的サンプリング適応SGD法による機械学習

A Dynamic Sampling Adaptive-SGD Method for Machine Learning ( http://arxiv.org/abs/1912.13357v2 )

ライセンス: Link先を確認
Achraf Bahamou, Donald Goldfarb(参考訳) 本研究では,予測値として表現された損失関数を最小化するための確率的最適化手法を提案し,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御し,学習速度を調整する必要をなくす。 提案手法は局所曲率情報を利用して, 探索方向が確率の高い降下方向であることを保証するとともに, 確率の高い自己一致関数の収束率を大域的に有する手法として使用できる。 数値実験により,この手法は最良の学習率を選択でき,ロジスティック回帰とdnnを訓練するための微調整sgdと比較できることがわかった。 また,基礎学習率の調整を不要とした適応型ADAMを提案し,DNNの訓練における微調整ADAMと比較した。 DNN実験では、DNNのステップ方向に沿った現在の時点で負の曲率に遭遇することは滅多にない。

We propose a stochastic optimization method for minimizing loss functions, expressed as an expected value, that adaptively controls the batch size used in the computation of gradient approximations and the step size used to move along such directions, eliminating the need for the user to tune the learning rate. The proposed method exploits local curvature information and ensures that search directions are descent directions with high probability using an acute-angle test and can be used as a method that has a global linear rate of convergence on self-concordant functions with high probability. Numerical experiments show that this method is able to choose the best learning rates and compares favorably to fine-tuned SGD for training logistic regression and DNNs. We also propose an adaptive version of ADAM that eliminates the need to tune the base learning rate and compares favorably to fine-tuned ADAM on training DNNs. In our DNN experiments, we rarely encountered negative curvature at the current point along the step direction in DNNs.
翻訳日:2023-01-16 20:34:16 公開日:2020-03-03
# distancenet-banditsによるテキスト分類のためのマルチソースドメイン適応

Multi-Source Domain Adaptation for Text Classification via DistanceNet-Bandits ( http://arxiv.org/abs/2001.04362v3 )

ライセンス: Link先を確認
Han Guo, Ramakanth Pasunuru, Mohit Bansal(参考訳) 対象領域における学習アルゴリズムのドメイン適応性能は、そのソース領域エラーの関数であり、これら2つの領域のデータ分布間の分岐測度である。 本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。 まず,これらの距離尺度のどれが同一領域と異なる領域のサンプルを最もよく区別できるか分析実験を行い,実験結果と相関した。 次に、タスクの損失関数と共同で最小化するための追加損失関数として、これらの距離測度、またはこれらの距離測度の混合を用いた距離ネットモデルを開発し、教師なしドメイン適応をより良くする。 最後に、このモデルをDistanceNet-Banditモデルに拡張し、マルチアームのBanditコントローラを用いて複数のソースドメインを動的に切り替え、低リソースターゲットドメインに転送するための最適軌道と混合領域を学習できるようにする。 我々は、様々なドメインを持つ一般的な感情分析データセットの実験を行い、DistanceNetモデルとその動的帯域変動は、教師なしドメイン適応の文脈における競争ベースラインよりも優れていることを示す。

Domain adaptation performance of a learning algorithm on a target domain is a function of its source domain error and a divergence measure between the data distribution of these two domains. We present a study of various distance-based measures in the context of NLP tasks, that characterize the dissimilarity between domains based on sample estimates. We first conduct analysis experiments to show which of these distance measures can best differentiate samples from same versus different domains, and are correlated with empirical results. Next, we develop a DistanceNet model which uses these distance measures, or a mixture of these distance measures, as an additional loss function to be minimized jointly with the task's loss function, so as to achieve better unsupervised domain adaptation. Finally, we extend this model to a novel DistanceNet-Bandit model, which employs a multi-armed bandit controller to dynamically switch between multiple source domains and allow the model to learn an optimal trajectory and mixture of domains for transfer to the low-resource target domain. We conduct experiments on popular sentiment analysis datasets with several diverse domains and show that our DistanceNet model, as well as its dynamic bandit variant, can outperform competitive baselines in the context of unsupervised domain adaptation.
翻訳日:2023-01-11 22:22:40 公開日:2020-03-03
# 線形フィルタアンサンブルを用いたCNNのプルーニング

Pruning CNN's with linear filter ensembles ( http://arxiv.org/abs/2001.08142v2 )

ライセンス: Link先を確認
Csan\'ad S\'andor, Szabolcs P\'avel, Lehel Csat\'o(参考訳) convolutional neural networks(cnns)の有望な成果にもかかわらず、リソースが限られているデバイスへの彼らの応用は依然として大きな課題である。 ネットワークサイズによって課される制限に対抗するために、pruningを使ってネットワークサイズを削減し、暗黙的に -- 浮動小数点演算(flops)の数を削減します。 ネットワーク・プルーニング(ネットワーク・プルーニング)で使用されるフィルタ・ノルム法とは対照的に、より小さいノルムが関連するコンポーネントに「無重要性」を意味するという仮定に基づいて、ネットワーク・アーキテクチャからコンポーネントの有無や削除による経験的損失の変化に基づく新しいフィルタ・重要度ノルムを開発する。 フィルタ構成には個別の可能性が多すぎるため、これらのアーキテクチャコンポーネントから繰り返しサンプリングし、各コンポーネントがアクティブまたは無効である状態におけるシステムパフォーマンスを測定します。 その結果は、フィルタアンサンブル -- フィルタマスク -- と関連するパフォーマンス値の集合である。 フィルタを線形および加法モデルに基づいてランク付けし,ネットワーク精度の低下を最小限に抑えるために最重要でないフィルタを除去した。 提案手法は,cifar-10データセット上でトレーニングされたresnetアーキテクチャと同様に,完全接続ネットワーク上で評価する。 プルーニング法を用いて、パラメータの60\%$とフロップの64\%$をresnetから、精度が0.6\%$未満で削除することに成功しました。

Despite the promising results of convolutional neural networks (CNNs), their application on devices with limited resources is still a big challenge; this is mainly due to the huge memory and computation requirements of the CNN. To counter the limitation imposed by the network size, we use pruning to reduce the network size and -- implicitly -- the number of floating point operations (FLOPs). Contrary to the filter norm method -- used in ``conventional`` network pruning -- based on the assumption that a smaller norm implies ``less importance'' to its associated component, we develop a novel filter importance norm that is based on the change in the empirical loss caused by the presence or removal of a component from the network architecture. Since there are too many individual possibilities for filter configuration, we repeatedly sample from these architectural components and measure the system performance in the respective state of components being active or disabled. The result is a collection of filter ensembles -- filter masks -- and associated performance values. We rank the filters based on a linear and additive model and remove the least important ones such that the drop in network accuracy is minimal. We evaluate our method on a fully connected network, as well as on the ResNet architecture trained on the CIFAR-10 dataset. Using our pruning method, we managed to remove $60\%$ of the parameters and $64\%$ of the FLOPs from the ResNet with an accuracy drop of less than $0.6\%$.
翻訳日:2023-01-07 17:44:31 公開日:2020-03-03
# MagNet:ニューラルネットワークを用いたマルチエージェントインタラクションダイナミクスの発見

MagNet: Discovering Multi-agent Interaction Dynamics using Neural Network ( http://arxiv.org/abs/2001.09001v2 )

ライセンス: Link先を確認
Priyabrata Saha, Arslan Ali, Burhan A. Mudassar, Yun Long, and Saibal Mukhopadhyay(参考訳) 我々は、ニューラルネットワークに基づくマルチエージェントインタラクションモデルであるMagNetを紹介し、複雑なマルチエージェントシステムの制御ダイナミクスを発見し、観察から進化を予測する。 我々は,一般常微分方程式(ODE)に基づく状態進化と結合した非線形ネットワークとして多エージェント系を定式化し,時間分散モデルのニューラルネットワークに基づく実現法を開発した。 MagNetは、観察からマルチエージェントシステムのコアダイナミクスを発見するように訓練され、エージェントの物理的またはリレーショナルな属性やエージェントの数の変化を正確に予測するために、エージェント固有の動的パラメータをオンラインで学習するように調整された。 従来の深層学習モデルよりも予測精度が格段に向上したことを示す2次元空間における点質量系のMagNet, 倉本位相同期ダイナミクス, 捕食者相互作用ダイナミクスについて検討した。

We present the MagNet, a neural network-based multi-agent interaction model to discover the governing dynamics and predict evolution of a complex multi-agent system from observations. We formulate a multi-agent system as a coupled non-linear network with a generic ordinary differential equation (ODE) based state evolution, and develop a neural network-based realization of its time-discretized model. MagNet is trained to discover the core dynamics of a multi-agent system from observations, and tuned on-line to learn agent-specific parameters of the dynamics to ensure accurate prediction even when physical or relational attributes of agents, or number of agents change. We evaluate MagNet on a point-mass system in two-dimensional space, Kuramoto phase synchronization dynamics and predator-swarm interaction dynamics demonstrating orders of magnitude improvement in prediction accuracy over traditional deep learning models.
翻訳日:2023-01-07 05:07:29 公開日:2020-03-03
# 野生における2ストリーム音声・視覚的影響分析

Two-Stream Aural-Visual Affect Analysis in the Wild ( http://arxiv.org/abs/2002.03399v2 )

ライセンス: Link先を確認
Felix Kuhnke, Lars Rumberg, J\"orn Ostermann(参考訳) 人間の感情認識は、人間とコンピュータの相互作用の重要な部分である。 しかし、現在の手法はまだ初期段階にあり、特にwildデータの場合である。 本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020コンペティションについて紹介する。 映像から感情行動を認識するための2ストリーム聴覚・視覚分析モデルを提案する。 音声と画像ストリームは、最初に別々に処理され、畳み込みニューラルネットワークに供給される。 時間分析に再帰的アーキテクチャを適用する代わりに、時間的畳み込みのみを使う。 さらに、モデルには、顔のアライメント中に抽出された追加機能へのアクセスが与えられる。 トレーニング時には、異なる感情表現間の相関を利用してパフォーマンスを向上させる。 我々のモデルは、挑戦的なAff-Wild2データベース上で有望な結果を得る。

Human affect recognition is an essential part of natural human-computer interaction. However, current methods are still in their infancy, especially for in-the-wild data. In this work, we introduce our submission to the Affective Behavior Analysis in-the-wild (ABAW) 2020 competition. We propose a two-stream aural-visual analysis model to recognize affective behavior from videos. Audio and image streams are first processed separately and fed into a convolutional neural network. Instead of applying recurrent architectures for temporal analysis we only use temporal convolutions. Furthermore, the model is given access to additional features extracted during face-alignment. At training time, we exploit correlations between different emotion representations to improve performance. Our model achieves promising results on the challenging Aff-Wild2 database.
翻訳日:2023-01-02 14:06:31 公開日:2020-03-03
# SPAN: 確率的予測型近似ニュートン法

SPAN: A Stochastic Projected Approximate Newton Method ( http://arxiv.org/abs/2002.03687v2 )

ライセンス: Link先を確認
Xunpeng Huang, Xianfeng Liang, Zhengyang Liu, Yitan Li, Linyun Yu, Yue Yu, Lei Li(参考訳) 二階最適化は望ましい収束特性を持つ。 しかし、正確なニュートン法はヘッセンとその逆数に対する高価な計算を必要とする。 本稿では,新しい近似的かつ高速なニュートン法であるSPANを提案する。 SPANはローランク近似と確率的ヘッセンベクトル積を通じてヘッセン行列の逆を計算する。 複数のベンチマークデータセットを用いた実験により,spanは壁時間収束の観点から,既存の一階および二階最適化手法よりも優れていることが示された。 さらに, 点数毎の複雑性, 近似誤差, 収束率に関する理論的解析を行った。 理論解析と実験の結果から,提案手法はコンバージェンス率とイテレーション効率のトレードオフが良好であることが判明した。

Second-order optimization methods have desirable convergence properties. However, the exact Newton method requires expensive computation for the Hessian and its inverse. In this paper, we propose SPAN, a novel approximate and fast Newton method. SPAN computes the inverse of the Hessian matrix via low-rank approximation and stochastic Hessian-vector products. Our experiments on multiple benchmark datasets demonstrate that SPAN outperforms existing first-order and second-order optimization methods in terms of the convergence wall-clock time. Furthermore, we provide a theoretical analysis of the per-iteration complexity, the approximation error, and the convergence rate. Both the theoretical analysis and experimental results show that our proposed method achieves a better trade-off between the convergence rate and the per-iteration efficiency.
翻訳日:2023-01-02 09:37:47 公開日:2020-03-03
# プライバシ保存ゲノム解析のための高性能ロジスティック回帰

High Performance Logistic Regression for Privacy-Preserving Genome Analysis ( http://arxiv.org/abs/2002.05377v2 )

ライセンス: Link先を確認
Martine De Cock and Rafael Dowsley and Anderson C. A. Nascimento and Davis Railsback and Jianwei Shen and Ariel Todoki(参考訳) 本稿では,活性化関数をセキュアに計算するための新しいサブプロトコルを用いて,安全なロジスティック回帰トレーニングプロトコルとその実装を提案する。 本稿では,局所ネットワークに分散した高次元ゲノムデータ上でロジスティック回帰モデルをトレーニングするための,高速でセキュアなマルチパーティ計算手法を提案する。

In this paper, we present a secure logistic regression training protocol and its implementation, with a new subprotocol to securely compute the activation function. To the best of our knowledge, we present the fastest existing secure Multi-Party Computation implementation for training logistic regression models on high dimensional genome data distributed across a local area network.
翻訳日:2023-01-01 13:38:09 公開日:2020-03-03
# ヘイト音声認識におけるマルチ言語Twitterコーパスとデモグラフィックバイアス評価基準

Multilingual Twitter Corpus and Baselines for Evaluating Demographic Bias in Hate Speech Recognition ( http://arxiv.org/abs/2002.10361v2 )

ライセンス: Link先を確認
Xiaolei Huang, Linzi Xing, Franck Dernoncourt, Michael J. Paul(参考訳) 文献分類モデルの公平性評価に関する最近の研究は、著者の属性に根拠のない合成単言語データを用いている。 本研究では,年齢,国,性別,人種/民族性という4つの要因を推定したヘイトスピーチ検出タスクのための多言語twitterコーパスを収集し,公開する。 英語、イタリア語、ポーランド語、ポルトガル語、スペイン語の5言語をカバーしている。 私たちはクラウドソーシングプラットフォームである図8を使って、推定された人口統計ラベルを評価します。 偏見を生じさせる要因を検討するため,英文コーパスにおける人口統計学的予測可能性の実証分析を行った。 4種類の人気文書分類器の性能を計測し,著者単位の属性に対する基準分類器の公平性とバイアスを評価した。

Existing research on fairness evaluation of document classification models mainly uses synthetic monolingual data without ground truth for author demographic attributes. In this work, we assemble and publish a multilingual Twitter corpus for the task of hate speech detection with inferred four author demographic factors: age, country, gender and race/ethnicity. The corpus covers five languages: English, Italian, Polish, Portuguese and Spanish. We evaluate the inferred demographic labels with a crowdsourcing platform, Figure Eight. To examine factors that can cause biases, we take an empirical analysis of demographic predictability on the English corpus. We measure the performance of four popular document classifiers and evaluate the fairness and bias of the baseline classifiers on the author-level demographic attributes.
翻訳日:2022-12-29 03:56:05 公開日:2020-03-03
# Stanford Question Answering Dataset v2.0におけるBERTパラメータの探索

Exploring BERT Parameter Efficiency on the Stanford Question Answering Dataset v2.0 ( http://arxiv.org/abs/2002.10670v2 )

ライセンス: Link先を確認
Eric Hulburd(参考訳) 本稿では,SQuAD2.0(Stanford Question Answering dataset)のバージョン2.0におけるBERT arXiv:1810.04805のパラメータ効率について検討する。 本稿では, BERT のパラメータ効率を arXiv:1902.00751 で提案したアダプタ層を含む最終変圧器層を凍結しながら評価する。 さらに、arXiv:1709.08294v3に記載されているように、文脈認識畳み込みフィルタ(CACNN)をSQuAD2.0タスクの最終的な拡張層として使用する実験を行った。 この調査の動機の一部はarxiv:1907.10597であり、資源効率の様々な尺度を含むために人工知能モデルの評価基準を広げる説得力のあるケースとなった。 arxiv:1907.10597で提案されているような浮動小数点演算効率に基づく評価は行わないが、トレーニング時間、推論時間、モデルパラメータの総数に関して効率性を検討する。 また, 適応モジュールに対するarXiv:1902.00751と, 文脈認識型畳み込みフィルタの追加によるF1スコアのゲインは, トレーニングや推論時間の増加により実用的ではないことを示した。

In this paper we explore the parameter efficiency of BERT arXiv:1810.04805 on version 2.0 of the Stanford Question Answering dataset (SQuAD2.0). We evaluate the parameter efficiency of BERT while freezing a varying number of final transformer layers as well as including the adapter layers proposed in arXiv:1902.00751. Additionally, we experiment with the use of context-aware convolutional (CACNN) filters, as described in arXiv:1709.08294v3, as a final augmentation layer for the SQuAD2.0 tasks. This exploration is motivated in part by arXiv:1907.10597, which made a compelling case for broadening the evaluation criteria of artificial intelligence models to include various measures of resource efficiency. While we do not evaluate these models based on their floating point operation efficiency as proposed in arXiv:1907.10597, we examine efficiency with respect to training time, inference time, and total number of model parameters. Our results largely corroborate those of arXiv:1902.00751 for adapter modules, while also demonstrating that gains in F1 score from adding context-aware convolutional filters are not practical due to the increase in training and inference time.
翻訳日:2022-12-28 20:16:42 公開日:2020-03-03
# 弱教師付き物体定位への道の再考

Rethinking the Route Towards Weakly Supervised Object Localization ( http://arxiv.org/abs/2002.11359v2 )

ライセンス: Link先を確認
Chen-Lin Zhang, Yun-Hao Cao, Jianxin Wu(参考訳) weakly supervised object localization (wsol) は、画像レベルのラベルだけでオブジェクトをローカライズすることを目的としている。 従来の手法では、画像レベルのアノテーションを使ってオブジェクトを間接的にローカライズするために、特徴マップと分類重みを利用する場合が多い。 本稿では,弱教師付きオブジェクトローカライゼーションをクラス非依存オブジェクトローカライゼーションとオブジェクト分類の2つの部分に分けるべきであることを示す。 クラスに依存しないオブジェクトローカライゼーションでは、クラスに依存しないメソッドを使ってノイズの多い擬似アノテーションを生成し、クラスラベルなしでバウンディングボックスレグレッションを実行すべきです。 疑似教師付きオブジェクトローカライゼーション(PSOL)法をWSOLの新たな解決法として提案する。 我々のPSOLモデルは、微調整なしで異なるデータセット間で良好な転送性を持つ。 生成した擬似バウンディングボックスでは、ImageNet上で58.00%のローカライズ精度、CUB-200上で74.97%のローカライズ精度を実現している。

Weakly supervised object localization (WSOL) aims to localize objects with only image-level labels. Previous methods often try to utilize feature maps and classification weights to localize objects using image level annotations indirectly. In this paper, we demonstrate that weakly supervised object localization should be divided into two parts: class-agnostic object localization and object classification. For class-agnostic object localization, we should use class-agnostic methods to generate noisy pseudo annotations and then perform bounding box regression on them without class labels. We propose the pseudo supervised object localization (PSOL) method as a new way to solve WSOL. Our PSOL models have good transferability across different datasets without fine-tuning. With generated pseudo bounding boxes, we achieve 58.00% localization accuracy on ImageNet and 74.97% localization accuracy on CUB-200, which have a large edge over previous models.
翻訳日:2022-12-28 15:08:43 公開日:2020-03-03
# 地盤テクスチャに基づく局在化の特徴 ---調査-

Features for Ground Texture Based Localization -- A Survey ( http://arxiv.org/abs/2002.11948v2 )

ライセンス: Link先を確認
Jan Fabian Schmid, Stephan F. Simon, Rudolf Mester(参考訳) 機能ベース手法を用いた地盤テクスチャに基づく車両位置推定は、インフラストラクチャフリーな高精度位置推定を実現するための有望なアプローチである。 本稿では,この課題に対して,合成変換と分離した画像対を用いて,利用可能な特徴抽出手法の広範な評価を行う。 我々は、AkaZE, SURF, CenSurEを最高のキーポイント検出器として同定し、CenSurEとORB, BRIEF, LATCH特徴記述子をペアリングして、インクリメンタルローカライゼーションで最大の成功率を達成する。

Ground texture based vehicle localization using feature-based methods is a promising approach to achieve infrastructure-free high-accuracy localization. In this paper, we provide the first extensive evaluation of available feature extraction methods for this task, using separately taken image pairs as well as synthetic transformations. We identify AKAZE, SURF and CenSurE as best performing keypoint detectors, and find pairings of CenSurE with the ORB, BRIEF and LATCH feature descriptors to achieve greatest success rates for incremental localization, while SIFT stands out when considering severe synthetic transformations as they might occur during absolute localization.
翻訳日:2022-12-28 09:17:45 公開日:2020-03-03
# クラッタ環境におけるリーチ計画

Human-like Planning for Reaching in Cluttered Environments ( http://arxiv.org/abs/2002.12738v2 )

ライセンス: Link先を確認
Mohamed Hasan, Matthew Warburton, Wisdom C. Agboh, Mehmet R. Dogar, Matteo Leonetti, He Wang, Faisal Mushtaq, Mark Mon-Williams and Anthony G. Cohn(参考訳) ロボットに比べて人間は、散らかった環境で物体に手を伸ばすのに非常に適している。 既存の最高のロボットプランナーは、構成空間のランダムサンプリングに基づいており、多数のオブジェクトで過度に高次元になる。 その結果、ほとんどのプランナーはそのような環境で効率的にオブジェクト操作計画を見つけるのに失敗する。 そこで我々は,ロボットプランナに高いレベルの操作計画を特定することで,この問題に対処した。 仮想現実(virtual reality, vr)を使って、障害物で散らばったテーブル上のターゲットオブジェクトに手を伸ばす人間の参加者を捉えました。 そこで我々は,障害の数に関係なく,意思決定を抽象化するために,タスク空間の質的な表現を考案した。 この表現に基づいて、人間のデモは分割され、決定分類器の訓練に使用された。 これらの分類器を用いて、我々のプランナーはタスク空間内のウェイポイントのリストを作成しました。 これらのwaypointsは、任意のロボットモデルに転送し、局所軌道最適化を初期化するために使用できる高レベルな計画を提供した。 私たちはこのアプローチを、目に見えない人間のvrデータ、物理ベースのロボットシミュレーション、実際のロボット(データセットとコードは公開されている)のテストを通じて評価した。 人間のようなプランナーは最先端の標準軌道最適化アルゴリズムよりも優れており、環境中の障害物の数に関係なく、迅速な計画のための効果的な戦略を作成できた。

Humans, in comparison to robots, are remarkably adept at reaching for objects in cluttered environments. The best existing robot planners are based on random sampling of configuration space -- which becomes excessively high-dimensional with large number of objects. Consequently, most planners often fail to efficiently find object manipulation plans in such environments. We addressed this problem by identifying high-level manipulation plans in humans, and transferring these skills to robot planners. We used virtual reality to capture human participants reaching for a target object on a tabletop cluttered with obstacles. From this, we devised a qualitative representation of the task space to abstract the decision making, irrespective of the number of obstacles. Based on this representation, human demonstrations were segmented and used to train decision classifiers. Using these classifiers, our planner produced a list of waypoints in task space. These waypoints provided a high-level plan, which could be transferred to an arbitrary robot model and used to initialise a local trajectory optimiser. We evaluated this approach through testing on unseen human VR data, a physics-based robot simulation, and a real robot (dataset and code are publicly available). We found that the human-like planner outperformed a state-of-the-art standard trajectory optimisation algorithm, and was able to generate effective strategies for rapid planning -- irrespective of the number of obstacles in the environment.
翻訳日:2022-12-28 02:49:27 公開日:2020-03-03
# 一般一階法の推定誤差

The estimation error of general first order methods ( http://arxiv.org/abs/2002.12903v2 )

ライセンス: Link先を確認
Michael Celentano, Andrea Montanari, Yuchen Wu(参考訳) 現代の大規模統計モデルは数千から数百万のパラメータを推定する必要がある。 これはしばしば勾配降下、投影勾配降下、またはそれらの加速バージョンのような反復アルゴリズムによって達成される。 これらのアプローチの基本的な制限は何か? この質問は、基礎となる目的が凸であるときの最適化の観点からよく理解されている。 この領域での作業は、反復数の関数として、大域的最適性へのギャップを特徴づける。 しかし、これらの結果は統計的最適性とのギャップの観点からのみ間接的な意味を持つ。 本稿では,高次元回帰と低ランク行列推定という2つの高次元推定問題について考察し,基礎となるパラメータを効率的に推定することを目的とした「一般一階法」のクラスを導入する。 このアルゴリズムのクラスは古典的な一階最適化(凸や非凸の目的のために)を含むのに十分広く、他の種類のアルゴリズムも含む。 ランダムな設計仮定の下では、観測数とパラメータ数の両方が分岐する高次元漸近現象において保持される推定誤差の下位境界を導出する。 これらの下界は、推定誤差が下界と漸近的に無視可能な項に一致するアルゴリズムが存在するという意味で最適である。 我々は, 主成分分析とスパース位相検索の応用により, 汎用的な結果を示す。

Modern large-scale statistical models require to estimate thousands to millions of parameters. This is often accomplished by iterative algorithms such as gradient descent, projected gradient descent or their accelerated versions. What are the fundamental limits to these approaches? This question is well understood from an optimization viewpoint when the underlying objective is convex. Work in this area characterizes the gap to global optimality as a function of the number of iterations. However, these results have only indirect implications in terms of the gap to statistical optimality. Here we consider two families of high-dimensional estimation problems: high-dimensional regression and low-rank matrix estimation, and introduce a class of `general first order methods' that aim at efficiently estimating the underlying parameters. This class of algorithms is broad enough to include classical first order optimization (for convex and non-convex objectives), but also other types of algorithms. Under a random design assumption, we derive lower bounds on the estimation error that hold in the high-dimensional asymptotics in which both the number of observations and the number of parameters diverge. These lower bounds are optimal in the sense that there exist algorithms whose estimation error matches the lower bounds up to asymptotically negligible terms. We illustrate our general results through applications to sparse phase retrieval and sparse principal component analysis.
翻訳日:2022-12-28 01:55:54 公開日:2020-03-03
# 確率最適化のための共役勾配型adamとその深層学習への応用

Conjugate-gradient-based Adam for stochastic optimization and its application to deep learning ( http://arxiv.org/abs/2003.00231v2 )

ライセンス: Link先を確認
Yu Kobayashi and Hideaki Iiduka(参考訳) 本稿では,Adamを非線形共役勾配法と混合した共役勾配に基づくAdamアルゴリズムを提案する。 テキスト分類と画像分類に関する数値実験により,提案アルゴリズムは,既存の適応確率最適化アルゴリズムよりも少ない時間でディープニューラルネットワークモデルを訓練できることを示した。

This paper proposes a conjugate-gradient-based Adam algorithm blending Adam with nonlinear conjugate gradient methods and shows its convergence analysis. Numerical experiments on text classification and image classification show that the proposed algorithm can train deep neural network models in fewer epochs than the existing adaptive stochastic optimization algorithms can.
翻訳日:2022-12-27 21:02:04 公開日:2020-03-03
# TAdam:ロバストな確率勾配最適化器

TAdam: A Robust Stochastic Gradient Optimizer ( http://arxiv.org/abs/2003.00179v2 )

ライセンス: Link先を確認
Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi, and Kenji Sugimoto(参考訳) 機械学習アルゴリズムは、特にロボット分野において、いくつかのノイズを含むかもしれない観察からパターンを見つけることを目的としている。 このようなノイズにうまく対処するためには、外乱を検知し、必要に応じて破棄できると期待している。 そこで本研究では,頑健な学生分布を中心となる概念として,アルゴリズムに頑健性を直接組み込んだ確率勾配最適化手法を提案する。 一般的な最適化手法であるAdamは我々の手法で修正され、結果の最適化であるTAdamは、回帰や分類から強化学習問題まで多種多様なタスクにおけるノイズに対する頑健性において、Adamを効果的に上回ります。 アルゴリズムの実装はhttps://github.com/Mahoumaru/TAdam.gitで確認できます。

Machine learning algorithms aim to find patterns from observations, which may include some noise, especially in robotics domain. To perform well even with such noise, we expect them to be able to detect outliers and discard them when needed. We therefore propose a new stochastic gradient optimization method, whose robustness is directly built in the algorithm, using the robust student-t distribution as its core idea. Adam, the popular optimization method, is modified with our method and the resultant optimizer, so-called TAdam, is shown to effectively outperform Adam in terms of robustness against noise on diverse task, ranging from regression and classification to reinforcement learning problems. The implementation of our algorithm can be found at https://github.com/Mahoumaru/TAdam.git
翻訳日:2022-12-27 20:06:53 公開日:2020-03-03
# そのモデルだ! 信頼されたMLモデル取引プロトコル

Gimme That Model!: A Trusted ML Model Trading Protocol ( http://arxiv.org/abs/2003.00610v2 )

ライセンス: Link先を確認
Laia Amor\'os, Syed Mahbub Hafiz, Keewoo Lee, and M. Caner Tol(参考訳) mlモデルを取引するためのheベースのプロトコルを提案し、全体的なトランザクションをより効率的かつ安全にするためのプロトコルの改善について説明する。

We propose a HE-based protocol for trading ML models and describe possible improvements to the protocol to make the overall transaction more efficient and secure.
翻訳日:2022-12-27 13:20:40 公開日:2020-03-03
# 簡潔TSKファジィ回帰モデルのためのMBGD-RDAトレーニングとルールプランニング

MBGD-RDA Training and Rule Pruning for Concise TSK Fuzzy Regression Models ( http://arxiv.org/abs/2003.00608v2 )

ライセンス: Link先を確認
Dongrui Wu(参考訳) 回帰問題に対する高木・スゲノカン(TSK)ファジィシステムを効果的に訓練するために, 正規化, DropRule および AdaBound (MBGD-RDA) アルゴリズムを提案する。 優れた性能を示しているが、例えば、ユーザーがルールの数を直接指定することができず、ガウス MF のみが使用できるといった制限もある。 本稿では, MBGD-RDA の2つの変種を提案し, 従来の MBGD-RDA アルゴリズムと古典的 ANFIS アルゴリズムを同じルール数で上回っていることを示す。 さらに,回帰性能を著しく犠牲にすることなくルール数を削減するtskファジィシステムのルールプルーニングアルゴリズムを提案する。 実験の結果、特にガウス MF が用いられる場合、プルーニングから得られるルールは、スクラッチから直接トレーニングするよりも概して優れていることがわかった。

To effectively train Takagi-Sugeno-Kang (TSK) fuzzy systems for regression problems, a Mini-Batch Gradient Descent with Regularization, DropRule, and AdaBound (MBGD-RDA) algorithm was recently proposed. It has demonstrated superior performances; however, there are also some limitations, e.g., it does not allow the user to specify the number of rules directly, and only Gaussian MFs can be used. This paper proposes two variants of MBGD-RDA to remedy these limitations, and show that they outperform the original MBGD-RDA and the classical ANFIS algorithms with the same number of rules. Furthermore, we also propose a rule pruning algorithm for TSK fuzzy systems, which can reduce the number of rules without significantly sacrificing the regression performance. Experiments showed that the rules obtained from pruning are generally better than training them from scratch directly, especially when Gaussian MFs are used.
翻訳日:2022-12-27 12:46:25 公開日:2020-03-03
# ロボットシステムのためのマルチエージェント強化学習のスケールアップ:適応スパース通信グラフの学習

Scaling Up Multiagent Reinforcement Learning for Robotic Systems: Learn an Adaptive Sparse Communication Graph ( http://arxiv.org/abs/2003.01040v2 )

ライセンス: Link先を確認
Chuangchuang Sun, Macheng Shen, and Jonathan P. How(参考訳) 多エージェントシステムにおけるマルチエージェント強化学習(MARL)の複雑さはエージェント数に対して指数関数的に増加する。 このスケーラビリティの問題により、MARLは大規模マルチエージェントシステムに適用できない。 しかし、しばしば無視されるMARLの1つの重要な特徴は、エージェント間の相互作用がかなり疎いことである。 この疎結合構造を利用せずに、既存の作業はすべてのエージェントから情報を集約し、高いサンプル複雑さを持つ。 そこで本研究では,スパース性誘導活性化機能を一般化した適応的スパース注意機構を提案する。 そして、この新たな注意機構に基づいて、MARL内のスパース通信グラフをグラフニューラルネットワークによって学習する。 この空間構造を通して、エージェントは最も重要なエージェントに選択的に出席するだけで、効果的かつ効率的な方法で通信することができるため、MARL問題のスケールは、最適性を損なうことなく低減される。 比較の結果,本アルゴリズムは解釈可能なスパース構造を学習でき,大規模マルチエージェントシステムを含むアプリケーションにおいて,先行研究を著しく上回っていることがわかった。

The complexity of multiagent reinforcement learning (MARL) in multiagent systems increases exponentially with respect to the agent number. This scalability issue prevents MARL from being applied in large-scale multiagent systems. However, one critical feature in MARL that is often neglected is that the interactions between agents are quite sparse. Without exploiting this sparsity structure, existing works aggregate information from all of the agents and thus have a high sample complexity. To address this issue, we propose an adaptive sparse attention mechanism by generalizing a sparsity-inducing activation function. Then a sparse communication graph in MARL is learned by graph neural networks based on this new attention mechanism. Through this sparsity structure, the agents can communicate in an effective as well as efficient way via only selectively attending to agents that matter the most and thus the scale of the MARL problem is reduced with little optimality compromised. Comparative results show that our algorithm can learn an interpretable sparse structure and outperforms previous works by a significant margin on applications involving a large-scale multiagent system.
翻訳日:2022-12-27 06:00:58 公開日:2020-03-03
# 電波干渉計の確率校正

Stochastic Calibration of Radio Interferometers ( http://arxiv.org/abs/2003.00986v2 )

ライセンス: Link先を確認
Sarod Yatawatta(参考訳) LOFARのような現代の電波望遠鏡やSKAのような将来の望遠鏡が生み出すデータレートの増加とともに、多くのデータ処理ステップは、限られた計算資源を使って扱う必要があるデータ量に圧倒される。 キャリブレーションは、データ処理全体の計算コストを支配するような操作の1つだが、それでも多くの科学目標を達成するためには必須の操作である。 キャリブレーションアルゴリズムは、配列のステーション数と方向のキャリブレーションの回数によく合致する。 しかし、残りのボトルネックは、ベースライン数に比例してスケールし、ステーション数の二乗に比例する生データボリュームである。 そこで我々は,キャリブレーションされたデータの全バッチを読み取るのではなく,キャリブレーションソリューションを得るために,データのミニバッチのみを読み込む「確率的」キャリブレーション戦略を提案する。 それにもかかわらず、我々は全データのバッチで有効なソリューションを得る。 通常、データはキャリブレーション前に平均化され、サイズ制限の計算メモリに格納される。 確率的キャリブレーションは、キャリブレーションが行われる前にデータ平均化の必要性を克服し、かすかな電波干渉の緩和、データからの強い天体源の除去の改善、高速無線トランジェントの検出と空間的局在の改善など、多くの利点を提供している。

With ever increasing data rates produced by modern radio telescopes like LOFAR and future telescopes like the SKA, many data processing steps are overwhelmed by the amount of data that needs to be handled using limited compute resources. Calibration is one such operation that dominates the overall data processing computational cost, nonetheless, it is an essential operation to reach many science goals. Calibration algorithms do exist that scale well with the number of stations of an array and the number of directions being calibrated. However, the remaining bottleneck is the raw data volume, which scales with the number of baselines, and which is proportional to the square of the number of stations. We propose a 'stochastic' calibration strategy where we only read in a mini-batch of data for obtaining calibration solutions, as opposed to reading the full batch of data being calibrated. Nonetheless, we obtain solutions that are valid for the full batch of data. Normally, data need to be averaged before calibration is performed to accommodate the data in size-limited compute memory. Stochastic calibration overcomes the need for data averaging before any calibration can be performed, and offers many advantages including: enabling the mitigation of faint radio frequency interference; better removal of strong celestial sources from the data; and better detection and spatial localization of fast radio transients.
翻訳日:2022-12-27 05:52:18 公開日:2020-03-03
# 触覚の感覚を得る。 ソフトグリッパーとニューラルネットワークを用いた物理パラメータ推定

Gaining a Sense of Touch. Physical Parameters Estimation using a Soft Gripper and Neural Networks ( http://arxiv.org/abs/2003.00784v2 )

ライセンス: Link先を確認
Micha{\l} Bednarek, Piotr Kicki, Jakub Bednarek, Krzysztof Walas(参考訳) ソフトグリッパーは弾性物体の操作において大きな注目を集めており、変形に弱い柔らかく非構造な物体を扱う必要がある。 重要な問題は、操作手順を調整するために絞られた物体の物理的パラメータを推定することであり、これは重要な課題と考えられている。 著者の知識を最大限に活用するには,ロボットグリッパーを用いた物体との直接インタラクションによる測定における深層学習アルゴリズムを用いた物理パラメータ推定に関する研究が不十分である。 本研究では,剛性係数の回帰をトレーニング可能なシステムを提案し,物理シミュレータ環境を用いた広範な実験を行った。 さらに,実世界のシナリオで動作するアプリケーションを用意した。 本システムでは,指に装着した慣性測定ユニット(imus)からの読みに基づいて,ヤールハンドソフトグリッパーを用いて物体の剛性を確実に推定する。 さらに、実験中に3つの信号のデータセットを用意しました。2つはシミュレーション環境で作成され、もう1つは実際のデータで構成されています。

Soft grippers are gaining significant attention in the manipulation of elastic objects, where it is required to handle soft and unstructured objects which are vulnerable to deformations. A crucial problem is to estimate the physical parameters of a squeezed object to adjust the manipulation procedure, which is considered as a significant challenge. To the best of the authors' knowledge, there is not enough research on physical parameters estimation using deep learning algorithms on measurements from direct interaction with objects using robotic grippers. In our work, we proposed a trainable system for the regression of a stiffness coefficient and provided extensive experiments using the physics simulator environment. Moreover, we prepared the application that works in the real-world scenario. Our system can reliably estimate the stiffness of an object using the Yale OpenHand soft gripper based on readings from Inertial Measurement Units (IMUs) attached to its fingers. Additionally, during the experiments, we prepared three datasets of signals gathered while squeezing objects -- two created in the simulation environment and one composed of real data.
翻訳日:2022-12-27 05:49:48 公開日:2020-03-03
# 距離依存特徴抽出を用いたLiDARデータからの3次元物体検出

3D Object Detection From LiDAR Data Using Distance Dependent Feature Extraction ( http://arxiv.org/abs/2003.00888v2 )

ライセンス: Link先を確認
Guus Engels, Nerea Aranjuelo, Ignacio Arganda-Carreras, Marcos Nieto and Oihana Otaegui(参考訳) 本稿では,LiDARセンサで得られたデータの特性を利用した3次元物体検出手法を提案する。 最先端検出器は、カメラ画像に有効な仮定に基づいてニューラルネットワークアーキテクチャを使用する。 しかし、LiDARから得られる点雲は基本的に異なる。 ほとんどの検出器は共有フィルタカーネルを使用して、ポイントクラウドの特徴の範囲に依存しない特徴を抽出している。 これを示すために、異なる検出器はKITTIデータセットの2つの分割(LiDARから最大25メートルの範囲)と長距離で訓練される。 トップビュー画像は、ネットワークの入力としてポイントクラウドから生成される。 合計結果は、単一のバックボーンでフルデータセットでトレーニングされたベースラインネットワークを上回る。 追加の研究は、点雲を画像に変換する際に異なる入力特徴を使用することの効果を比較する。 その結果,ネットワークは入力の正確な値ではなく,オブジェクトの形状と構造に注目していることがわかった。 本研究では,lidar点雲の遠距離特性を考慮した3次元物体検出器の改良を提案する。 その結果、近距離および長距離オブジェクトのための個別ネットワークのトレーニングは、すべてのKITTIベンチマークの困難さに対するパフォーマンスを高めることが示された。

This paper presents a new approach to 3D object detection that leverages the properties of the data obtained by a LiDAR sensor. State-of-the-art detectors use neural network architectures based on assumptions valid for camera images. However, point clouds obtained from LiDAR are fundamentally different. Most detectors use shared filter kernels to extract features which do not take into account the range dependent nature of the point cloud features. To show this, different detectors are trained on two splits of the KITTI dataset: close range (objects up to 25 meters from LiDAR) and long-range. Top view images are generated from point clouds as input for the networks. Combined results outperform the baseline network trained on the full dataset with a single backbone. Additional research compares the effect of using different input features when converting the point cloud to image. The results indicate that the network focuses on the shape and structure of the objects, rather than exact values of the input. This work proposes an improvement for 3D object detectors by taking into account the properties of LiDAR point clouds over distance. Results show that training separate networks for close-range and long-range objects boosts performance for all KITTI benchmark difficulties.
翻訳日:2022-12-27 05:23:05 公開日:2020-03-03
# Learn2Perturb: 対向ロバスト性を改善するエンドツーエンド機能摂動学習

Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve Adversarial Robustness ( http://arxiv.org/abs/2003.01090v2 )

ライセンス: Link先を確認
Ahmadreza Jeddi, Mohammad Javad Shafiee, Michelle Karg, Christian Scharfenberger and Alexander Wong(参考訳) ディープニューラルネットワークは、さまざまなアプリケーションで最先端のパフォーマンスを達成しているが、敵の攻撃に対する脆弱性は、安全クリティカルなアプリケーションへの展開を制限している。 研究されている他の敵防衛アプローチとともに、訓練過程における摂動の導入を通じて、ディープニューラルネットワークにおける敵の堅牢性を改善することに非常に関心が寄せられている。 しかし、そのような手法は固定された事前定義された摂動を利用し、大きなハイパーパラメータチューニングを必要とするため、一般的な方法での活用は非常に困難である。 本研究では,深層ニューラルネットワークの対角的堅牢性を改善するために,エンドツーエンドの機能摂動学習アプローチであるLearner2Perturbを紹介する。 より具体的には、各層に組み込まれた新しい摂動射出モジュールを導入し、特徴空間を摂動させ、ネットワーク内の不確実性を高める。 この特徴の摂動はトレーニングと推論の両方の段階で行われる。 さらに、予測最大化にヒントを得て、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムを導入する。 CIFAR-10とCIFAR-100データセットによる実験結果から、提案したLearner2Perturbメソッドは、$l_{\infty}$ FGSMとPDGの敵攻撃に対して4~7倍の堅牢性を持つディープニューラルネットワークを実現し、$l_2$C\&W$攻撃に対する最先端の攻撃と、広く知られたブラックボックス攻撃を著しく上回ります。

While deep neural networks have been achieving state-of-the-art performance across a wide variety of applications, their vulnerability to adversarial attacks limits their widespread deployment for safety-critical applications. Alongside other adversarial defense approaches being investigated, there has been a very recent interest in improving adversarial robustness in deep neural networks through the introduction of perturbations during the training process. However, such methods leverage fixed, pre-defined perturbations and require significant hyper-parameter tuning that makes them very difficult to leverage in a general fashion. In this study, we introduce Learn2Perturb, an end-to-end feature perturbation learning approach for improving the adversarial robustness of deep neural networks. More specifically, we introduce novel perturbation-injection modules that are incorporated at each layer to perturb the feature space and increase uncertainty in the network. This feature perturbation is performed at both the training and the inference stages. Furthermore, inspired by the Expectation-Maximization, an alternating back-propagation training algorithm is introduced to train the network and noise parameters consecutively. Experimental results on CIFAR-10 and CIFAR-100 datasets show that the proposed Learn2Perturb method can result in deep neural networks which are $4-7\%$ more robust on $l_{\infty}$ FGSM and PDG adversarial attacks and significantly outperforms the state-of-the-art against $l_2$ $C\&W$ attack and a wide range of well-known black-box attacks.
翻訳日:2022-12-27 04:56:41 公開日:2020-03-03
# 単眼内視鏡画像による手術用ロボットのシャフトの単発ポーズ推定

Single-Shot Pose Estimation of Surgical Robot Instruments' Shafts from Monocular Endoscopic Images ( http://arxiv.org/abs/2003.01267v1 )

ライセンス: Link先を確認
Masakazu Yoshimura, Murilo M. Marinho, Kanako Harada, Mamoru Mitsuishi(参考訳) 手術ロボットは、最小限の侵襲的な手術を行い、外科医に課される負担の多くを軽減するために使用される。 当科では,鼻孔を介し頭蓋底の腫瘍除去を支援する手術ロボットを開発した。 患者を負傷させるのを避けるために、機器のシャフトのポーズの正確なモデルを持つことに依存する衝突回避アルゴリズムを用いる。 楽器と他の乱れとの相互作用によってモデルのパラメータが時間とともに変化するので、楽器のシャフトのポーズのオンライン推定が不可欠である。 そこで本研究では,単眼内視鏡を用いて手術器具の軸の形状を推定する新しい方法を提案する。 提案手法は,自動アノテーション付きトレーニングデータセットと,ポーズ推定深層学習アーキテクチャの改良に基づく。 予備実験では, 人工画像を用いて, 55%の位置推定精度, ピッチ64%, ヤウ69%の誤差低減を実現するため, 目視に基づくマーカレスポーズ推定手法の状態を超過できることを示す。

Surgical robots are used to perform minimally invasive surgery and alleviate much of the burden imposed on surgeons. Our group has developed a surgical robot to aid in the removal of tumors at the base of the skull via access through the nostrils. To avoid injuring the patients, a collision-avoidance algorithm that depends on having an accurate model for the poses of the instruments' shafts is used. Given that the model's parameters can change over time owing to interactions between instruments and other disturbances, the online estimation of the poses of the instrument's shaft is essential. In this work, we propose a new method to estimate the pose of the surgical instruments' shafts using a monocular endoscope. Our method is based on the use of an automatically annotated training dataset and an improved pose-estimation deep-learning architecture. In preliminary experiments, we show that our method can surpass state of the art vision-based marker-less pose estimation techniques (providing an error decrease of 55% in position estimation, 64% in pitch, and 69% in yaw) by using artificial images.
翻訳日:2022-12-26 23:38:26 公開日:2020-03-03
# 不整形表面登録による形状解析

Shape analysis via inconsistent surface registration ( http://arxiv.org/abs/2003.01357v1 )

ライセンス: Link先を確認
Gary P. T. Choi, Di Qiu, Lok Ming Lui(参考訳) 本研究では,不整合面マッピングを用いた形状解析のためのフレームワークを開発する。 伝統的なランドマークに基づく幾何学的形態計測法は制限された自由度に苦しむ一方で、より高度な非剛性表面マッピング法は、2つの曲面の全体的一貫性の強い仮定に依存している。 実用的な観点からは、2つの解剖学的面に顕著な特徴のあるランドマークが与えられると、2つの表面の最も関連性の高い部分を自動的に検出し、それらの部分間の最適なランドマークマッチングアライメントを見つける方法がより望ましい。 本手法は準共形理論に基づく不整合な表面登録を用いてこの問題を解くことができる。 さらに、準等角歪みと平均およびガウス曲率の差を用いて2つの形状の相似性を定量化し、形状分類の自然な方法を提供する。 プラチリン臼歯の実験は,本法の有効性を示し,自然界における機能と形状の相互作用に光を当てた。

In this work, we develop a framework for shape analysis using inconsistent surface mapping. Traditional landmark-based geometric morphometrics methods suffer from the limited degrees of freedom, while most of the more advanced non-rigid surface mapping methods rely on a strong assumption of the global consistency of two surfaces. From a practical point of view, given two anatomical surfaces with prominent feature landmarks, it is more desirable to have a method that automatically detects the most relevant parts of the two surfaces and finds the optimal landmark-matching alignment between those parts, without assuming any global 1-1 correspondence between the two surfaces. Our method is capable of solving this problem using inconsistent surface registration based on quasi-conformal theory. It further enables us to quantify the dissimilarity of two shapes using quasi-conformal distortion and differences in mean and Gaussian curvatures, thereby providing a natural way for shape classification. Experiments on Platyrrhine molars demonstrate the effectiveness of our method and shed light on the interplay between function and shape in nature.
翻訳日:2022-12-26 23:38:07 公開日:2020-03-03
# オンラインメタ学習によるチャンネルモデルのない通信リンクのエンドツーエンド学習

End-to-End Fast Training of Communication Links Without a Channel Model via Online Meta-Learning ( http://arxiv.org/abs/2003.01479v1 )

ライセンス: Link先を確認
Sangwoo Park, Osvaldo Simeone, Joonhyuk Kang(参考訳) チャネルモデルが利用できない場合、フェーディングノイズチャネル上のエンコーダとデコーダのエンドツーエンドのトレーニングは、一般的にチャネルとフィードバックリンクの繰り返しの使用を必要とする。 アプローチの重要な制限は、トレーニングを新しいチャネル毎にスクラッチから行うべきだ、ということです。 この問題に対処するため、プリエントワークは複数のチャネル上での合同トレーニングを検討し、一つのエンコーダとデコーダのペアを見つけることを目的としている。 本稿では,メタラーニングによるジョイントトレーニングの限界を回避することを提案する。 提案手法は,オンライン勾配に基づくデコーダのメタ学習と,パイロットの伝達とフィードバックリンクの利用によるエンコーダの合同トレーニングとを結合したメタトレーニングフェーズに基づいている。 メタトレーニングフェーズにおけるチャネルの変動を考慮し,フィードバックリンクが実行時ではなくメタトレーニングでのみ使用可能な従来の方法と比較して,パイロット数の観点からメタ学習の利点を実証する。

When a channel model is not available, the end-to-end training of encoder and decoder on a fading noisy channel generally requires the repeated use of the channel and of a feedback link. An important limitation of the approach is that training should be generally carried out from scratch for each new channel. To cope with this problem, prior works considered joint training over multiple channels with the aim of finding a single pair of encoder and decoder that works well on a class of channels. In this paper, we propose to obviate the limitations of joint training via meta-learning. The proposed approach is based on a meta-training phase in which the online gradient-based meta-learning of the decoder is coupled with the joint training of the encoder via the transmission of pilots and the use of a feedback link. Accounting for channel variations during the meta-training phase, this work demonstrates the advantages of meta-learning in terms of number of pilots as compared to conventional methods when the feedback link is only available for meta-training and not at run time.
翻訳日:2022-12-26 23:37:14 公開日:2020-03-03
# watch and learn --物理原理によるディープニューラルネットワークにおけるトランスファー可能な学習の一般化アプローチ

Watch and learn -- a generalized approach for transferrable learning in deep neural networks via physical principles ( http://arxiv.org/abs/2003.02647v1 )

ライセンス: Link先を確認
Kyle Sprague and Juan Carrasquilla and Steve Whitelam and Isaac Tamblyn(参考訳) 転送学習とは、機械学習タスクを解き、密接に関連する問題の解にそれを適用する際に得られる知識の使用を指す。 このようなアプローチはコンピュータビジョンや自然言語処理において科学的なブレークスルーを可能にしており、最先端のモデルで学んだ重みを他のタスクのモデルの初期化に利用することで、パフォーマンスを劇的に改善し、計算時間を節約することができる。 本稿では,統計物理学における諸問題に対する完全転送可能な学習を実現する基本物理原理を付加した教師なし学習手法を示す。 逐次ニューラルネットワークに基づくシーケンスモデルを広範囲のディープニューラルネットワークに結合することにより、古典的な統計力学系の平衡確率分布と粒子間相互作用モデルを学ぶことができる。 我々のアプローチである分布一貫性学習(DCL)は、様々な標準統計力学モデル(IsingとPotts)と、乱れた(スピングラス)相互作用ポテンシャルのために機能する一般的な戦略である。 1組の観測条件から収集されたデータを用いて、DCLは全ての温度、熱力学的位相をうまく外挿し、異なる長さスケールに適用できる。 これは、一般化可能なアプローチで完全に変換可能な物理ベースの学習を構成する。

Transfer learning refers to the use of knowledge gained while solving a machine learning task and applying it to the solution of a closely related problem. Such an approach has enabled scientific breakthroughs in computer vision and natural language processing where the weights learned in state-of-the-art models can be used to initialize models for other tasks which dramatically improve their performance and save computational time. Here we demonstrate an unsupervised learning approach augmented with basic physical principles that achieves fully transferrable learning for problems in statistical physics across different physical regimes. By coupling a sequence model based on a recurrent neural network to an extensive deep neural network, we are able to learn the equilibrium probability distributions and inter-particle interaction models of classical statistical mechanical systems. Our approach, distribution-consistent learning, DCL, is a general strategy that works for a variety of canonical statistical mechanical models (Ising and Potts) as well as disordered (spin-glass) interaction potentials. Using data collected from a single set of observation conditions, DCL successfully extrapolates across all temperatures, thermodynamic phases, and can be applied to different length-scales. This constitutes a fully transferrable physics-based learning in a generalizable approach.
翻訳日:2022-12-26 23:35:58 公開日:2020-03-03
# CNNベースの生成型ニューラルネットワークはスペクトル分布を再現できない

Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions ( http://arxiv.org/abs/2003.01826v1 )

ライセンス: Link先を確認
Ricard Durall and Margret Keuper and Janis Keuper(参考訳) 一般的なGANアーキテクチャのような生成的畳み込みディープニューラルネットワークは、画像やビデオシーケンスのような非スカラー出力を生成するために畳み込みに基づくアップサンプリング手法に依存している。 本稿では,アップコンボリューション(up-convolution)やトランスポステッドコンボリューション(transposed convolution)として知られる一般的なアップサンプリング手法が,自然学習データのスペクトル分布を正しく再現できないことを明らかにする。 この効果は基盤となるアーキテクチャとは独立しており、公開ベンチマークで最大100%の精度でディープフェイクのような生成データを容易に検出できることを示す。 そこで本稿では,現在の生成モデルの欠点を克服するために,新しいスペクトル正規化項を学習最適化目標に追加する。 提案手法は,周波数誤差を回避したスペクトル一貫したGANの訓練を可能にする。 また、周波数スペクトルの正確な近似は、生成ネットワークのトレーニング安定性と出力品質に正の影響を及ぼすことを示す。

Generative convolutional deep neural networks, e.g. popular GAN architectures, are relying on convolution based up-sampling methods to produce non-scalar outputs like images or video sequences. In this paper, we show that common up-sampling methods, i.e. known as up-convolution or transposed convolution, are causing the inability of such models to reproduce spectral distributions of natural training data correctly. This effect is independent of the underlying architecture and we show that it can be used to easily detect generated data like deepfakes with up to 100% accuracy on public benchmarks. To overcome this drawback of current generative models, we propose to add a novel spectral regularization term to the training optimization objective. We show that this approach not only allows to train spectral consistent GANs that are avoiding high frequency errors. Also, we show that a correct approximation of the frequency spectrum has positive effects on the training stability and output quality of generative networks.
翻訳日:2022-12-26 23:29:34 公開日:2020-03-03
# elixirnet: 医療病変検出のためのリレーションアウェアネットワークアーキテクチャ適応

ElixirNet: Relation-aware Network Architecture Adaptation for Medical Lesion Detection ( http://arxiv.org/abs/2003.08770v1 )

ライセンス: Link先を確認
Chenhan Jiang, Shaoju Wang, Hang Xu, Xiaodan Liang, Nong Xiao(参考訳) 医学的病変検出ネットワークのほとんどの進歩は、自然画像用に設計された従来の検出ネットワークの微妙な修正に限られている。 しかし、医療画像と自然画像の間には、高い病変・背景類似性、支配的小病変、重度の階級不均衡など、いくつかのドメイン固有の課題がしばしば発生する領域ギャップが存在する。 自然画像に適した手作り検出ネットワークは、明らかな医学的病巣領域よりも十分なものなのだろうか? 発見すべき医学的病変検出問題に適合する、より強力な操作、フィルタ、サブネットワークがありますか? 本稿では,3つのコンポーネントを含む新しいElixirNetを紹介する。 1)TrncatedRPNは、偽陽性減少のための正と負のデータバランスをとる。 2) 自己回帰ブロックは, 地域提案間の関係認識操作を取り入れた医用画像に自動的にカスタマイズされ, より適切かつ効率的な分類とローカライゼーションを実現する。 3)関係伝達モジュールは意味的関係を取り入れ,関連する文脈情報を解釈可能なグラフで伝達することにより,あらゆる種類の病変に対するアノテーションの欠如の問題を軽減する。 DeepLesionとKits19の実験では、ElixirNetの有効性が証明され、パラメータが少なくてFPNよりも感度と精度が向上した。

Most advances in medical lesion detection network are limited to subtle modification on the conventional detection network designed for natural images. However, there exists a vast domain gap between medical images and natural images where the medical image detection often suffers from several domain-specific challenges, such as high lesion/background similarity, dominant tiny lesions, and severe class imbalance. Is a hand-crafted detection network tailored for natural image undoubtedly good enough over a discrepant medical lesion domain? Is there more powerful operations, filters, and sub-networks that better fit the medical lesion detection problem to be discovered? In this paper, we introduce a novel ElixirNet that includes three components: 1) TruncatedRPN balances positive and negative data for false positive reduction; 2) Auto-lesion Block is automatically customized for medical images to incorporate relation-aware operations among region proposals, and leads to more suitable and efficient classification and localization. 3) Relation transfer module incorporates the semantic relationship and transfers the relevant contextual information with an interpretable the graph thus alleviates the problem of lack of annotations for all types of lesions. Experiments on DeepLesion and Kits19 prove the effectiveness of ElixirNet, achieving improvement of both sensitivity and precision over FPN with fewer parameters.
翻訳日:2022-12-26 23:29:14 公開日:2020-03-03
# Deep denoisingが反復位相検索に合うとき

When deep denoising meets iterative phase retrieval ( http://arxiv.org/abs/2003.01792v1 )

ライセンス: Link先を確認
Yaotian Wang, Xiaohang Sun and Jason W. Fleischer(参考訳) フーリエ強度からの信号の回収は、レンズレスイメージングや散乱媒体によるイメージングなど、多くの重要な応用の基盤となっている。 従来の位相の検索アルゴリズムはノイズが存在する場合に苦しむが、クリーンなデータを与えると世界収束を示す。 ニューラルネットワークはアルゴリズムの堅牢性を改善するために使われてきたが、現在までの努力は初期条件に敏感であり、一貫性のない性能を与える。 本稿では,位相検索からの反復的手法と深いデノイザからの画像統計を,正則化とデノイジングで組み合わせる。 その結果、各手法の利点を継承し、他のノイズロバスト位相検索アルゴリズムを上回った。 本研究は,従来のアルゴリズムに機械学習制約を組み込んだハイブリッドイメージング手法を提案する。

Recovering a signal from its Fourier intensity underlies many important applications, including lensless imaging and imaging through scattering media. Conventional algorithms for retrieving the phase suffer when noise is present but display global convergence when given clean data. Neural networks have been used to improve algorithm robustness, but efforts to date are sensitive to initial conditions and give inconsistent performance. Here, we combine iterative methods from phase retrieval with image statistics from deep denoisers, via regularization-by-denoising. The resulting methods inherit the advantages of each approach and outperform other noise-robust phase retrieval algorithms. Our work paves the way for hybrid imaging methods that integrate machine-learned constraints in conventional algorithms.
翻訳日:2022-12-26 23:28:54 公開日:2020-03-03
# 近似するときのslaq: webスケールグラフの正確なスペクトル距離

Just SLaQ When You Approximate: Accurate Spectral Distances for Web-Scale Graphs ( http://arxiv.org/abs/2003.01282v1 )

ライセンス: Link先を確認
Anton Tsitsulin, Marina Munkhoeva, Bryan Perozzi(参考訳) グラフ比較はデータマイニングと情報検索の基本的な操作である。 グラフの組合せ的性質から、類似度尺度の表現性とその拡張性をバランスさせることは困難である。 スペクトル分析はグラフのマルチスケール構造を研究するための重要なツールを提供し、グラフ間の差異を推論するのに適した基礎である。 しかし、大きなグラフの完全スペクトルの計算は計算が禁じられているため、スペクトルグラフ比較法は誤差保証の弱い粗い近似手法に依存することが多い。 本研究では,数十億のノードとエッジを持つグラフ間のスペクトル距離を計算するための効率的かつ効率的な近似手法であるslaqを提案する。 対応する誤差境界を導出し、グラフエッジ数で時間線形に正確な計算が可能であることを実証する。 徹底的な実験評価により,slaqは既存の手法よりも優れており,近似精度では数桁の精度で精度が向上し,性能も同等であり,1台のマシンで数分間で100万のグラフを比較することができることを示した。

Graph comparison is a fundamental operation in data mining and information retrieval. Due to the combinatorial nature of graphs, it is hard to balance the expressiveness of the similarity measure and its scalability. Spectral analysis provides quintessential tools for studying the multi-scale structure of graphs and is a well-suited foundation for reasoning about differences between graphs. However, computing full spectrum of large graphs is computationally prohibitive; thus, spectral graph comparison methods often rely on rough approximation techniques with weak error guarantees. In this work, we propose SLaQ, an efficient and effective approximation technique for computing spectral distances between graphs with billions of nodes and edges. We derive the corresponding error bounds and demonstrate that accurate computation is possible in time linear in the number of graph edges. In a thorough experimental evaluation, we show that SLaQ outperforms existing methods, oftentimes by several orders of magnitude in approximation accuracy, and maintains comparable performance, allowing to compare million-scale graphs in a matter of minutes on a single machine.
翻訳日:2022-12-26 23:28:41 公開日:2020-03-03
# 画像ベースソフトウェアアーチファクトにおける伝達学習の有効性を探る

Exploring the Efficacy of Transfer Learning in Mining Image-Based Software Artifacts ( http://arxiv.org/abs/2003.01627v1 )

ライセンス: Link先を確認
Natalie Best, Jordan Ott, Erik Linstead(参考訳) トランスファーラーニングにより、以前トレーニングされた既存のモデルを活用して、利用可能なデータ量が制限されている場合でも、大量の学習パラメータを必要とするディープアーキテクチャをトレーニングすることができます。 本稿では,ソフトウェアuml図の分類問題に適用可能な非ソフトウェア工学データを用いたモデルを用いたトランスファー学習の適用性について検討する。 実験の結果,事前学習したモデルがソフトウェアドメインのトレーニングインスタンスに公開されなかった場合でも,サンプルサイズに関連する学習の伝達に正の反応を示した。 我々は、トランスファーネットワークを他のネットワークと比較し、異なるサイズのトレーニングセットにおいてそのアドバンテージを示し、大量のトレーニングデータが利用できない場合、トランスファー学習はカスタムディープアーキテクチャに等しく有効であることを示す。

Transfer learning allows us to train deep architectures requiring a large number of learned parameters, even if the amount of available data is limited, by leveraging existing models previously trained for another task. Here we explore the applicability of transfer learning utilizing models pre-trained on non-software engineering data applied to the problem of classifying software UML diagrams. Our experimental results show training reacts positively to transfer learning as related to sample size, even though the pre-trained model was not exposed to training instances from the software domain. We contrast the transferred network with other networks to show its advantage on different sized training sets, which indicates that transfer learning is equally effective to custom deep architectures when large amounts of training data is not available.
翻訳日:2022-12-26 23:27:22 公開日:2020-03-03
# 量子分類器のためのロバストデータ符号化

Robust data encodings for quantum classifiers ( http://arxiv.org/abs/2003.01695v1 )

ライセンス: Link先を確認
Ryan LaRose, Brian Coyle(参考訳) データ表現は、機械学習モデルの成功に不可欠である。 短期量子コンピュータを用いた量子機械学習の文脈では、データを効率的に入力(エンコード)し、ノイズを効果的に処理する方法について、同様に重要な考慮が生じる。 本研究では,二項量子分類のためのデータ符号化について検討し,その特性をノイズの有無を問わず検討する。 提案する共通分類器では,符号化が学習可能な決定境界のクラスと,ノイズの存在下で同じ分類を保った点の集合を決定することを示す。 ロバストなデータエンコーディングの概念を定義した後、異なるチャネルのロバスト性に関するいくつかの結果を示し、ロバストエンコーディングの存在を議論し、ノイズとノイズのない状態の間のフィダリティの観点からロバストな点の数の上限を証明した。 本研究の成果を裏付けるために,いくつかの実装の数値的な結果を提供する。

Data representation is crucial for the success of machine learning models. In the context of quantum machine learning with near-term quantum computers, equally important considerations of how to efficiently input (encode) data and effectively deal with noise arise. In this work, we study data encodings for binary quantum classification and investigate their properties both with and without noise. For the common classifier we consider, we show that encodings determine the classes of learnable decision boundaries as well as the set of points which retain the same classification in the presence of noise. After defining the notion of a robust data encoding, we prove several results on robustness for different channels, discuss the existence of robust encodings, and prove an upper bound on the number of robust points in terms of fidelities between noisy and noiseless states. Numerical results for several example implementations are provided to reinforce our findings.
翻訳日:2022-12-26 23:27:10 公開日:2020-03-03
# 子どもの音声におけるリアルタイム誤認識検出に向けて

Towards Real-time Mispronunciation Detection in Kids' Speech ( http://arxiv.org/abs/2003.01765v1 )

ライセンス: Link先を確認
Peter Plantinga, Eric Fosler-Lussier(参考訳) 現代の誤発音検出・診断システムでは,ディープラーニングの導入により精度が著しく向上している。 しかし、これらのシステムは、迅速なフィードバックを提供するアプリケーションにおいて重要な要素であるリアルタイムに実行される能力について評価されていない。 特に、最先端技術は双方向のリカレントネットワークを使用し、一方向ネットワークの方が適切かもしれない。 教師-学生学習は、一方向モデルを改善するための自然なアプローチであるが、CTCの目的を使用する場合、これは証拠に対する出力の整合性の低下によって制限される。 モデルのアライメントを改善するために2つの損失項を試すことにより、この制限に対処する。 1つの損失は、特徴が沈黙に似ていない場合にのみ出力を奨励する「割当損失」の用語である。 もう1つの損失項は、双方向モデルを調整するために教師モデルとして一方向モデルを用いる。 提案モデルでは,教師モデルとして2方向モデルを用いた。 CSLUキッズコーパスの実験では,これらの変化によって出力の遅延が減少し,検出速度が向上し,目標間のトレードオフが見られた。

Modern mispronunciation detection and diagnosis systems have seen significant gains in accuracy due to the introduction of deep learning. However, these systems have not been evaluated for the ability to be run in real-time, an important factor in applications that provide rapid feedback. In particular, the state-of-the-art uses bi-directional recurrent networks, where a uni-directional network may be more appropriate. Teacher-student learning is a natural approach to use to improve a uni-directional model, but when using a CTC objective, this is limited by poor alignment of outputs to evidence. We address this limitation by trying two loss terms for improving the alignments of our models. One loss is an "alignment loss" term that encourages outputs only when features do not resemble silence. The other loss term uses a uni-directional model as teacher model to align the bi-directional model. Our proposed model uses these aligned bi-directional models as teacher models. Experiments on the CSLU kids' corpus show that these changes decrease the latency of the outputs, and improve the detection rates, with a trade-off between these goals.
翻訳日:2022-12-26 23:20:17 公開日:2020-03-03
# 並列音声データを用いた音声強調のための音声フィードバック

Phonetic Feedback for Speech Enhancement With and Without Parallel Speech Data ( http://arxiv.org/abs/2003.01769v1 )

ライセンス: Link先を確認
Peter Plantinga, Deblin Bagchi, Eric Fosler-Lussier(参考訳) ディープラーニングシステムは、音声強調研究において重要な基盤を築いているが、これらのシステムは、高レベルなフィードバックを提供するために、ディープラーニングシステムの潜在能力を完全に活用していない。 特に音声フィードバックは、貴重なトップダウン情報を含むにもかかわらず、音声強調研究ではまれである。 模擬損失の手法を用いて音素フィードバックをオフザシェルフ・エンハンスメント・システムに提供し,CHiME-4データに対する客観的インテリジェンススコアの利得を求める。 本手法は, 並列音声データがない場合でも, クリーン音声で学習した凍結音響モデルを用いて拡張モデルに貴重なフィードバックを与える。 我々の研究は、並列音声データのないニューラルエンハンスメントシステムのインテリジェンス向上を示す最初の試みの1つであり、音声フィードバックは、並列音声データで訓練された最先端のニューラルエンハンスメントシステムを改善することができることを示す。

While deep learning systems have gained significant ground in speech enhancement research, these systems have yet to make use of the full potential of deep learning systems to provide high-level feedback. In particular, phonetic feedback is rare in speech enhancement research even though it includes valuable top-down information. We use the technique of mimic loss to provide phonetic feedback to an off-the-shelf enhancement system, and find gains in objective intelligibility scores on CHiME-4 data. This technique takes a frozen acoustic model trained on clean speech to provide valuable feedback to the enhancement model, even in the case where no parallel speech data is available. Our work is one of the first to show intelligibility improvement for neural enhancement systems without parallel speech data, and we show phonetic feedback can improve a state-of-the-art neural enhancement system trained with parallel speech data.
翻訳日:2022-12-26 23:19:58 公開日:2020-03-03
# 3次元CT画像からの腸管領域分割による回腸の診断支援のための大腸の可視化

Visualizing intestines for diagnostic assistance of ileus based on intestinal region segmentation from 3D CT images ( http://arxiv.org/abs/2003.01290v1 )

ライセンス: Link先を確認
Hirohisa Oda, Kohei Nishio, Takayuki Kitasaka, Hizuru Amano, Aitaro Takimoto, Hiroo Uchida, Kojiro Suzuki, Hayato Itoh, Masahiro Oda, Kensaku Mori(参考訳) 小腸(小腸および大腸)領域の可視化法として,CTボリュームによるイレウスによる狭窄部位の可視化を行った。 非専門医では狭窄部位の発見が困難であるため,小腸とその狭窄部位を直感的に視覚化する必要がある。 さらにイレウス症例の腸管領域は, 分節化が困難である。 提案法は腸管領域を3D FCN (3D U-Net) で分割する。 腸内は流体で満たされているため,腸領域は回腸で分節化することが極めて困難である。 これらの流体は3次元CTで腸壁と同様の強度を有する。 弱アノテーションで訓練した3D U-Netを用いて腸管領域を分節する。 弱アノテーションにより、3D U-Net を手動でラベル画像でトレーニングすることができる。 これにより、長い曲がりくねった形状の腸の注釈ラベルを多数準備することを避けることができる。 各腸管セグメントはボリュームレンダリングのエンドポイントからの距離に基づいてボリュームレンダリングされ、色付けされる。 このような可視化では、ステノシド部分(腸セグメントのディスジョイントポイント)を容易に識別できる。 実験の結果,ステンソス部は赤か青で彩色された分割領域の終端として直感的に可視化された。

This paper presents a visualization method of intestine (the small and large intestines) regions and their stenosed parts caused by ileus from CT volumes. Since it is difficult for non-expert clinicians to find stenosed parts, the intestine and its stenosed parts should be visualized intuitively. Furthermore, the intestine regions of ileus cases are quite hard to be segmented. The proposed method segments intestine regions by 3D FCN (3D U-Net). Intestine regions are quite difficult to be segmented in ileus cases since the inside the intestine is filled with fluids. These fluids have similar intensities with intestinal wall on 3D CT volumes. We segment the intestine regions by using 3D U-Net trained by a weak annotation approach. Weak-annotation makes possible to train the 3D U-Net with small manually-traced label images of the intestine. This avoids us to prepare many annotation labels of the intestine that has long and winding shape. Each intestine segment is volume-rendered and colored based on the distance from its endpoint in volume rendering. Stenosed parts (disjoint points of an intestine segment) can be easily identified on such visualization. In the experiments, we showed that stenosed parts were intuitively visualized as endpoints of segmented regions, which are colored by red or blue.
翻訳日:2022-12-26 23:19:40 公開日:2020-03-03
# DDU-Nets:3次元MRI脳腫瘍分離のための分散Dense Model

DDU-Nets: Distributed Dense Model for 3D MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2003.01337v1 )

ライセンス: Link先を確認
Hanxiao Zhang, Jingxiong Li, Mali Shen, Yaqi Wang and Guang-Zhong Yang(参考訳) 脳腫瘍とその亜領域の分離は、その弱い特徴と変形可能な形状のために難しい課題である。 本稿では,ネットワークの主要層間のトンネルを構築することにより,cnnの特徴的再利用と伝播を促進するため,分散密結合(ddc)の3つのパターン(cross-skip,skip-1,skip-2)を提案する。 マルチモーダル3次元MR画像から脳腫瘍をよりよく検出・分画するために、DDC(DDU-Nets)に埋め込まれたCNNベースのモデルは、限られた数のパラメータでピクセルからピクセルへ効率的に訓練される。 その後、偽陽性サンプルを減らしてセグメンテーション結果を洗練するために後処理を適用する。 提案手法はBraTS 2019データセット上で評価され,計算コストの低減とDDU-Netの有効性が示された。

Segmentation of brain tumors and their subregions remains a challenging task due to their weak features and deformable shapes. In this paper, three patterns (cross-skip, skip-1 and skip-2) of distributed dense connections (DDCs) are proposed to enhance feature reuse and propagation of CNNs by constructing tunnels between key layers of the network. For better detecting and segmenting brain tumors from multi-modal 3D MR images, CNN-based models embedded with DDCs (DDU-Nets) are trained efficiently from pixel to pixel with a limited number of parameters. Postprocessing is then applied to refine the segmentation results by reducing the false-positive samples. The proposed method is evaluated on the BraTS 2019 dataset with results demonstrating the effectiveness of the DDU-Nets while requiring less computational cost.
翻訳日:2022-12-26 23:19:20 公開日:2020-03-03
# CNNと通信システムとの関係はどうなっていますか?

What's the relationship between CNNs and communication systems? ( http://arxiv.org/abs/2003.01413v1 )

ライセンス: Link先を確認
Hao Ge, Xiaoguang Tu, Yanxiang Gong, Mei Xie, Zheng Ma(参考訳) 畳み込みニューラルネットワーク(CNN)の解釈可能性は、コンピュータビジョンの分野で重要なトピックである。 近年では、CNNの内部メカニズムを明らかにするために、この分野での作業が一般的に成熟したモデルを採用しており、CNNの理解に役立っている。 本稿では,cnnの動作メカニズムを,通信システムとcnnを比較することで,全く異なる解釈によって明らかにできると主張する。 本稿では,2つのモジュール間の対応関係をうまく把握し,実験との対応関係の合理性を検証した。 最後に、ニューラルネットワークに関する最先端の研究の分析を通して、これらの2つのタスク間の固有の関係は、これらの研究を合理的に説明し、ニューラルネットワークの正しい研究方向を見つけるのに役立つ。

The interpretability of Convolutional Neural Networks (CNNs) is an important topic in the field of computer vision. In recent years, works in this field generally adopt a mature model to reveal the internal mechanism of CNNs, helping to understand CNNs thoroughly. In this paper, we argue the working mechanism of CNNs can be revealed through a totally different interpretation, by comparing the communication systems and CNNs. This paper successfully obtained the corresponding relationship between the modules of the two, and verified the rationality of the corresponding relationship with experiments. Finally, through the analysis of some cutting-edge research on neural networks, we find the inherent relation between these two tasks can be of help in explaining these researches reasonably, as well as helping us discover the correct research direction of neural networks.
翻訳日:2022-12-26 23:18:48 公開日:2020-03-03
# 深部画像とPCANetに基づくロバスト不均衡SAR画像変化検出手法

A Robust Imbalanced SAR Image Change Detection Approach Based on Deep Difference Image and PCANet ( http://arxiv.org/abs/2003.01768v1 )

ライセンス: Link先を確認
Xinzheng Zhang, Hang Su, Ce Zhang, Peter M. Atkinson, Xiaoheng Tan, Xiaoping Zeng and Xin Jian(参考訳) 本研究では,ディープラーニングに基づく不均衡多時間合成開口レーダ(sar)画像に対して,新しいロバストな変化検出手法を提案する。 我々の主な貢献は、差分画像を生成する新しい方法と並列ファジィc-means(FCM)クラスタリング法を開発することである。 提案手法の主なステップは以下の通りである。 1) 深層学習における畳み込みとプーリングにインスパイアされたDDI(Deep difference image)がパラメータ化プーリングに基づいて得られ, 従来の差分画像よりもスペックル抑制と特徴強調が向上した。 2) 2つの異なるパラメータSigmoid非線形マッピングをDDIに適用し、2つのDDIをマッピングした。 これら2つのマップ化されたDDIに並列FCMを用い、3種類の擬似ラベル画素、すなわち変化画素、変化画素、中間画素を得る。 3)サポートベクタマシン(SVM)を備えたPCANetをトレーニングし、中間画素の変更や変更を分類する。 変化検出実験には3つの不均衡多時間SAR画像セットが使用される。 実験の結果,提案手法は不均衡なSARデータに対して有効で頑健であり,ほとんどの最先端手法よりも99.52%変化検出精度を実現していることがわかった。

In this research, a novel robust change detection approach is presented for imbalanced multi-temporal synthetic aperture radar (SAR) image based on deep learning. Our main contribution is to develop a novel method for generating difference image and a parallel fuzzy c-means (FCM) clustering method. The main steps of our proposed approach are as follows: 1) Inspired by convolution and pooling in deep learning, a deep difference image (DDI) is obtained based on parameterized pooling leading to better speckle suppression and feature enhancement than traditional difference images. 2) Two different parameter Sigmoid nonlinear mapping are applied to the DDI to get two mapped DDIs. Parallel FCM are utilized on these two mapped DDIs to obtain three types of pseudo-label pixels, namely, changed pixels, unchanged pixels, and intermediate pixels. 3) A PCANet with support vector machine (SVM) are trained to classify intermediate pixels to be changed or unchanged. Three imbalanced multi-temporal SAR image sets are used for change detection experiments. The experimental results demonstrate that the proposed approach is effective and robust for imbalanced SAR data, and achieve up to 99.52% change detection accuracy superior to most state-of-the-art methods.
翻訳日:2022-12-26 23:18:14 公開日:2020-03-03
# ブレグジットが金融市場、特にGBP/EUR為替レートに与える影響を調査する

Investigating the influence Brexit had on Financial Markets, in particular the GBP/EUR exchange rate ( http://arxiv.org/abs/2003.05895v1 )

ライセンス: Link先を確認
Michael Filletti(参考訳) 2016年6月23日、イギリスの有権者の51.9%が欧州連合(eu)離脱を投票し、英国がeuを離脱する過程と出来事を引き起こした。 本稿では、このプロセス全体が通貨市場、特にGDPP/EUR為替レートに与える影響について検討する。 金融市場はニュース記事やメディアに敏感であることが知られており、本研究の目的は関連する出来事の影響の大きさと、gbpへの影響が肯定的か否定的かを評価することである。

On 23rd June 2016, 51.9% of British voters voted to leave the European Union, triggering a process and events that have led to the United Kingdom leaving the EU, an event that has become known as 'Brexit'. In this piece of research, we investigate the effects of this entire process on the currency markets, specifically the GBP/EUR exchange rate. Financial markets are known to be sensitive to news articles and media, and the aim of this research is to evaluate the magnitude of impact of relevant events, as well as whether the impact was positive or negative for the GBP.
翻訳日:2022-12-26 23:11:26 公開日:2020-03-03
# Digital Collaborator: 人工知能を用いた可視化設計におけるタスク抽象化の強化

Digital Collaborator: Augmenting Task Abstraction in Visualization Design with Artificial Intelligence ( http://arxiv.org/abs/2003.01304v1 )

ライセンス: Link先を確認
Aditeya Pandey, Yixuan Zhang, John A. Guerra-Gomez, Andrea G. Parker, Michelle A. Borkin(参考訳) ビジュアライゼーション設計プロセスのタスク抽象化フェーズでは、"デザインスタディ"で観察されたドメインゴールを視覚化理論を用いて一般化可能な抽象タスクにマッピングし、ユーザニーズをよりよく理解し、対処する。 この手動のタスク抽象化プロセスは、設計者のバイアスとドメインのバックグラウンドと知識の欠如によってエラーを起こしやすいと主張する。 このような状況下で、共同作業者は、この重要なタスク抽象化の段階で、ビジュアライゼーション実践者に健全性チェックの検証と提供を支援します。 しかし、人間の協力者を持つことは必ずしも実現可能ではなく、同じバイアスや落とし穴を被る可能性がある。 本稿では,まずタスクの抽象化に関する課題について述べる。 次に,課題抽象化の出力を検証・判断する能力を高めることで,実践者の可視化を支援する人工知能システムであるDigital Collaboratorを提案する。 このようなシステムの設計と実装に関するいくつかの実践的設計課題についても論じる。

In the task abstraction phase of the visualization design process, including in "design studies", a practitioner maps the observed domain goals to generalizable abstract tasks using visualization theory in order to better understand and address the users needs. We argue that this manual task abstraction process is prone to errors due to designer biases and a lack of domain background and knowledge. Under these circumstances, a collaborator can help validate and provide sanity checks to visualization practitioners during this important task abstraction stage. However, having a human collaborator is not always feasible and may be subject to the same biases and pitfalls. In this paper, we first describe the challenges associated with task abstraction. We then propose a conceptual Digital Collaborator: an artificial intelligence system that aims to help visualization practitioners by augmenting their ability to validate and reason about the output of task abstraction. We also discuss several practical design challenges of designing and implementing such systems
翻訳日:2022-12-26 23:11:15 公開日:2020-03-03
# AIシステムの公正性を促進するための証拠に基づく説明

Evidence-based explanation to promote fairness in AI systems ( http://arxiv.org/abs/2003.01525v1 )

ライセンス: Link先を確認
Juliana Jansen Ferreira and Mateus de Souza Monteiro(参考訳) 人工知能(AI)技術があらゆるシステムとより絡み合うようになるにつれ、人々はAIを使って日々の活動を決定している。 Netflixのレコメンデーションのような単純なコンテキストや、司法シナリオのようなより複雑なコンテキストでは、AIは人々の決定の一部です。 人は意思決定をし、通常、自分の決定を他の人や何かに説明する必要があります。 人間の専門知識が意思決定の中心である文脈では特に重要である。 AIサポートによる意思決定を説明するには、AIがその決定の一部となっているかを理解する必要がある。 公平さという側面を考慮すると、決定を下すプロセスにおいてAIが果たす役割は、決定を下す人々の公正さと責任に影響を与えるため、さらに敏感になる。 我々は,「意思決定の物語を解き明かす」ためのエビデンスベースの説明設計アプローチを模索してきた。 本稿では,公平性に敏感な事例を用いたaiシステムに対するアプローチについて文献で論じる。

As Artificial Intelligence (AI) technology gets more intertwined with every system, people are using AI to make decisions on their everyday activities. In simple contexts, such as Netflix recommendations, or in more complex context like in judicial scenarios, AI is part of people's decisions. People make decisions and usually, they need to explain their decision to others or in some matter. It is particularly critical in contexts where human expertise is central to decision-making. In order to explain their decisions with AI support, people need to understand how AI is part of that decision. When considering the aspect of fairness, the role that AI has on a decision-making process becomes even more sensitive since it affects the fairness and the responsibility of those people making the ultimate decision. We have been exploring an evidence-based explanation design approach to 'tell the story of a decision'. In this position paper, we discuss our approach for AI systems using fairness sensitive cases in the literature.
翻訳日:2022-12-26 23:10:58 公開日:2020-03-03
# aiモデルのマーケットプレース

Marketplace for AI Models ( http://arxiv.org/abs/2003.01593v1 )

ライセンス: Link先を確認
Abhishek Kumar, Benjamin Finley, Tristan Braud, Sasu Tarkoma, Pan Hui(参考訳) 人工知能は、医療や輸送といった分野における、多くの実用的な社会問題を解くことを約束している。 しかし、Githubのコードリポジトリ、学術プロジェクトWebページ、商用AIマーケットプレースといった現在のAIモデルの拡散メカニズムには、例えば、収益化メソッドの欠如、モデルのトレーサビリティ、モデルの監査性など、いくつかの制限がある。 本稿では,分散オンライン市場に基づく新しいai拡散手法のガイドラインをスケッチする。 このような市場の技術的、経済的、規制的な側面には、これらの領域における問題の解決に関する議論が含まれる。 最後に、現在利用可能または開発中のいくつかのAIマーケットプレースの比較分析を含める。 これらのマーケットプレースのほとんどは、比較的少ないモデルで中央集権的な商用マーケットプレースです。

Artificial intelligence shows promise for solving many practical societal problems in areas such as healthcare and transportation. However, the current mechanisms for AI model diffusion such as Github code repositories, academic project webpages, and commercial AI marketplaces have some limitations; for example, a lack of monetization methods, model traceability, and model auditabilty. In this work, we sketch guidelines for a new AI diffusion method based on a decentralized online marketplace. We consider the technical, economic, and regulatory aspects of such a marketplace including a discussion of solutions for problems in these areas. Finally, we include a comparative analysis of several current AI marketplaces that are already available or in development. We find that most of these marketplaces are centralized commercial marketplaces with relatively few models.
翻訳日:2022-12-26 23:10:42 公開日:2020-03-03
# EXPLAIN-IT:教師なしネットワークトラフィック分析のための説明可能なAIを目指して

EXPLAIN-IT: Towards Explainable AI for Unsupervised Network Traffic Analysis ( http://arxiv.org/abs/2003.01670v1 )

ライセンス: Link先を確認
Andrea Morichetta, Pedro Casas, Marco Mellia(参考訳) 教師なし学習アプローチ,特にクラスタリング手法の適用は,ネットワーク計測の分析において強力な探索手段となる。 基盤となるデータ特性を発見し、同様の測定結果をグループ化し、最終的な関心パターンを特定することは、クラスタリングを通じて取り組めるアプリケーションの一部です。 クラスタリングは教師なしであるため、特に入力データ構造と分布が複雑で把握が難しい場合、生成した出力に関する正確な洞察を必ずしも提供しない。 本稿では,ラベルのないデータを扱う方法であるresolve-itを紹介し,有意義なクラスタを作成し,エンドユーザのクラスタリング結果を説明する。 EXPLAIN-ITは、新しい説明可能な人工知能(AI)アプローチに依存しており、教師なし学習ベースモデルの特定の決定に繋がる理由を理解し、さらにそのアプリケーションを教師なし学習ドメインに拡張する。 暗号化されたトラフィックシナリオ下でのYouTubeビデオ品質分類の問題に対してEXPLAIN-ITを適用し,有望な結果を示す。

The application of unsupervised learning approaches, and in particular of clustering techniques, represents a powerful exploration means for the analysis of network measurements. Discovering underlying data characteristics, grouping similar measurements together, and identifying eventual patterns of interest are some of the applications which can be tackled through clustering. Being unsupervised, clustering does not always provide precise and clear insight into the produced output, especially when the input data structure and distribution are complex and difficult to grasp. In this paper we introduce EXPLAIN-IT, a methodology which deals with unlabeled data, creates meaningful clusters, and suggests an explanation to the clustering results for the end-user. EXPLAIN-IT relies on a novel explainable Artificial Intelligence (AI) approach, which allows to understand the reasons leading to a particular decision of a supervised learning-based model, additionally extending its application to the unsupervised learning domain. We apply EXPLAIN-IT to the problem of YouTube video quality classification under encrypted traffic scenarios, showing promising results.
翻訳日:2022-12-26 23:10:31 公開日:2020-03-03
# データネットワークのためのAI4NETS-AI/MLの2年 - 課題と研究の方向性

Two Decades of AI4NETS-AI/ML for Data Networks: Challenges & Research Directions ( http://arxiv.org/abs/2003.04080v1 )

ライセンス: Link先を確認
Pedro Casas(参考訳) 人工知能(AI)と、AIへのアプローチとしての機械学習(ML)の人気は、画像、オーディオ、自然言語処理など、さまざまな領域で卓越したパフォーマンスのため、ここ数年で劇的に増加した。 これらの領域では、AIの成功例が応用分野を強化している。 データ通信ネットワーク(AI4NETS)のAI/MLに関しては、ネットワークを学習エージェントにしようとする試みが数多くあるが、ネットワークにおけるAI/MLの成功した応用は限られている。 AI/MLベースのソリューションには強い抵抗があり、広範な学術研究と、運用環境におけるこのようなAI/MLベースのシステムの実際の展開との間には、大きなギャップがある。 事実、AI/MLによるネットワークデータの解析にまつわる、未解決の複雑な課題がまだたくさんある。 本稿では、AI4NETSにおける最も重要なショーストッパーについて詳しく述べ、これらの課題に対処するための研究課題を提示し、ネットワークにAI/MLを自然に採用できるようにする。 特に、ai4netsの3つの主要な柱に関する今後の研究に焦点を当てます。 i)AI/MLを効果的な学習の概念を通じてネットワーク問題に即時に適用し、複雑なデータ駆動ネットワーク問題に対処するための有用で信頼性の高い方法に変えること。 (二)インターネットパラダイム自体から学び、インターネット自体の分散トポロジカルな原則と操作を模倣した新奇で階層的な学習アプローチを考案し、大規模にAI/MLの採用を促進すること。 3)AI/ML定義ネットワーク(AI/ML-Defined Networks, AIDN)は,新たな知識配信ネットワーク(KDNs)を通じて,知識の分散生成と再利用に依存している。

The popularity of Artificial Intelligence (AI) -- and of Machine Learning (ML) as an approach to AI, has dramatically increased in the last few years, due to its outstanding performance in various domains, notably in image, audio, and natural language processing. In these domains, AI success-stories are boosting the applied field. When it comes to AI/ML for data communication Networks (AI4NETS), and despite the many attempts to turn networks into learning agents, the successful application of AI/ML in networking is limited. There is a strong resistance against AI/ML-based solutions, and a striking gap between the extensive academic research and the actual deployments of such AI/ML-based systems in operational environments. The truth is, there are still many unsolved complex challenges associated to the analysis of networking data through AI/ML, which hinders its acceptability and adoption in the practice. In this positioning paper I elaborate on the most important show-stoppers in AI4NETS, and present a research agenda to tackle some of these challenges, enabling a natural adoption of AI/ML for networking. In particular, I focus the future research in AI4NETS around three major pillars: (i) to make AI/ML immediately applicable in networking problems through the concepts of effective learning, turning it into a useful and reliable way to deal with complex data-driven networking problems; (ii) to boost the adoption of AI/ML at the large scale by learning from the Internet-paradigm itself, conceiving novel distributed and hierarchical learning approaches mimicking the distributed topological principles and operation of the Internet itself; and (iii) to exploit the softwarization and distribution of networks to conceive AI/ML-defined Networks (AIDN), relying on the distributed generation and re-usage of knowledge through novel Knowledge Delivery Networks (KDNs).
翻訳日:2022-12-26 23:10:13 公開日:2020-03-03
# 実時間変動予測と拡散検出のための制御可能な時間遅延変換器

Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection ( http://arxiv.org/abs/2003.01309v1 )

ライセンス: Link先を確認
Qian Chen, Mengzhe Chen, Bo Li, Wen Wang(参考訳) 近年、自動音声認識(asr)の応用が増加しているため、自動的に句読点を挿入し、書き起こしのばらつきを除去し、書き起こしの可読性を向上させるとともに、機械翻訳、対話システムなどその後のアプリケーションの性能を向上させることが不可欠である。 本稿では,句読点の予測と不整合検出タスクを同時処理する制御可能なタイムデレイトランス(ct-transformer)モデルを提案する。 ct-transformerモデルは、制御可能な時間遅延で部分出力を凍結し、その後のアプリケーションに必要な部分復号のリアルタイム制約を満たす。 さらに,競合性能を維持しつつ遅延を最小限に抑えるための高速復号戦略を提案する。 IWSLT2011ベンチマークデータセットと社内の中国の注釈データセットの実験結果から、提案手法は従来のFスコアの最先端モデルよりも優れ、競合する推論速度を達成することが示された。

With the increased applications of automatic speech recognition (ASR) in recent years, it is essential to automatically insert punctuation marks and remove disfluencies in transcripts, to improve the readability of the transcripts as well as the performance of subsequent applications, such as machine translation, dialogue systems, and so forth. In this paper, we propose a Controllable Time-delay Transformer (CT-Transformer) model that jointly completes the punctuation prediction and disfluency detection tasks in real time. The CT-Transformer model facilitates freezing partial outputs with controllable time delay to fulfill the real-time constraints in partial decoding required by subsequent applications. We further propose a fast decoding strategy to minimize latency while maintaining competitive performance. Experimental results on the IWSLT2011 benchmark dataset and an in-house Chinese annotated dataset demonstrate that the proposed approach outperforms the previous state-of-the-art models on F-scores and achieves a competitive inference speed.
翻訳日:2022-12-26 23:09:08 公開日:2020-03-03
# 深層多モード集合

Deep Multi-Modal Sets ( http://arxiv.org/abs/2003.01607v1 )

ライセンス: Link先を確認
Austin Reiter, Menglin Jia, Pu Yang, Ser-Nam Lim(参考訳) 多くの視覚関連タスクは、堅牢な埋め込み空間を学習するために、データの相補的なビューを活用するために複数のモダリティに対する推論の恩恵を受ける。 深層学習に基づくほとんどの手法は、複数の特徴型をエンコードして連結し、マルチ層パーセプトロン(MLP)が融合した埋め込みを組み合わせて予測を行う、後期融合技術に依存している。 これは、全ての特徴が常に存在するという不自然な強制や、任意の時間における特徴モダリティの一定数の発生のみを制限するようないくつかの制限がある。 さらに、より多くのモダリティが追加されると、連結埋め込みは増加する。 そこで本研究では,長きにわたる固定サイズのベクトルではなく,非順序集合として特徴の集合を表現する手法である深層マルチモーダル集合を提案する。 集合は、特徴モダリティの置換と集合の濃度の両方に不変性を持つように構成される。 また、モデルアーキテクチャの特定の選択において、推論時間中に、予測に最も寄与するモダリティを観察できるような、解釈可能な機能パフォーマンスが得られることも示します。このことを念頭に置いて、さまざまなモダリティを理由として、さまざまな種類のタスクを学習するスケーラブルでマルチモダリティフレームワークを実演します。 本稿では,2つのマルチモーダルデータセット(Ads-Parallelity [34] と MM-IMDb [1])上での最先端性能を示す。

Many vision-related tasks benefit from reasoning over multiple modalities to leverage complementary views of data in an attempt to learn robust embedding spaces. Most deep learning-based methods rely on a late fusion technique whereby multiple feature types are encoded and concatenated and then a multi layer perceptron (MLP) combines the fused embedding to make predictions. This has several limitations, such as an unnatural enforcement that all features be present at all times as well as constraining only a constant number of occurrences of a feature modality at any given time. Furthermore, as more modalities are added, the concatenated embedding grows. To mitigate this, we propose Deep Multi-Modal Sets: a technique that represents a collection of features as an unordered set rather than one long ever-growing fixed-size vector. The set is constructed so that we have invariance both to permutations of the feature modalities as well as to the cardinality of the set. We will also show that with particular choices in our model architecture, we can yield interpretable feature performance such that during inference time we can observe which modalities are most contributing to the prediction.With this in mind, we demonstrate a scalable, multi-modal framework that reasons over different modalities to learn various types of tasks. We demonstrate new state-of-the-art performance on two multi-modal datasets (Ads-Parallelity [34] and MM-IMDb [1]).
翻訳日:2022-12-26 23:02:51 公開日:2020-03-03
# 電線フレーム解析法

Holistically-Attracted Wireframe Parsing ( http://arxiv.org/abs/2003.01663v1 )

ライセンス: Link先を確認
Nan Xue and Tianfu Wu and Song Bai and Fu-Dong Wang and Gui-Song Xia and Liangpei Zhang and Philip H.S. Torr(参考訳) 本稿では,入力画像中のベクトル化ワイヤフレームを1つのフォワードパスで高精度かつ堅牢に検出する,高速で相似な解析手法を提案する。 提案手法は,3成分からなるエンドツーエンド・トレーサブルである。 (i)線分及び接合提案生成方法 (ii)線分と接合部マッチング、及び (iii)線分と接合確認。 ラインセグメントの提案を計算するために,ラインセグメントの擬似幾何再パラメータ化を利用して,入力画像の全体的4次元アトラクション場マップを形成する,新しい2重表現を提案する。 接合はアトラクション場の「ベース」として扱うことができる。 提案手法はHuristically-Attracted Wireframe Parser (HAWP)と呼ばれる。 実験では、提案手法をWireframeデータセットと YorkUrbanデータセットの2つのベンチマークで検証した。 どちらのベンチマークでも、精度と効率の観点から最先端のパフォーマンスが得られる。 例えば、ワイヤフレームデータセットでは、以前の最先端のl-cnnと比較して、挑戦的な平均構造平均精度(msap)を大きなマージン(2.8\%$ absolute improvement)で改善し、シングルgpu上で29.5fps(89.%$相対的改善)を達成する。 提案手法をさらに正当化するために系統的アブレーション研究を行う。

This paper presents a fast and parsimonious parsing method to accurately and robustly detect a vectorized wireframe in an input image with a single forward pass. The proposed method is end-to-end trainable, consisting of three components: (i) line segment and junction proposal generation, (ii) line segment and junction matching, and (iii) line segment and junction verification. For computing line segment proposals, a novel exact dual representation is proposed which exploits a parsimonious geometric reparameterization for line segments and forms a holistic 4-dimensional attraction field map for an input image. Junctions can be treated as the "basins" in the attraction field. The proposed method is thus called Holistically-Attracted Wireframe Parser (HAWP). In experiments, the proposed method is tested on two benchmarks, the Wireframe dataset, and the YorkUrban dataset. On both benchmarks, it obtains state-of-the-art performance in terms of accuracy and efficiency. For example, on the Wireframe dataset, compared to the previous state-of-the-art method L-CNN, it improves the challenging mean structural average precision (msAP) by a large margin ($2.8\%$ absolute improvements) and achieves 29.5 FPS on single GPU ($89\%$ relative improvement). A systematic ablation study is performed to further justify the proposed method.
翻訳日:2022-12-26 23:02:08 公開日:2020-03-03
# TimeConvNets:リアルタイム映像表情認識のためのDeep Time Windowed Convolution Neural Network設計

TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for Real-time Video Facial Expression Recognition ( http://arxiv.org/abs/2003.01791v1 )

ライセンス: Link先を確認
James Ren Hou Lee and Alexander Wong(参考訳) 自閉症スペクトラム障害(asd)患者の大多数が直面する中核的な課題は、表情に基づいて他人の感情を推測する能力の低下である。 近年の機械学習の進歩により、社会的孤立による孤独感や抑うつのリスクを減らし、表情をよりよく認識する技術を活用するための潜在的なアプローチは、コンピュータビジョンによる表情認識システムの設計である。 この社会的ニーズと、そのようなシステムの低レイテンシ要求により、リアルタイムな映像表情認識を目的とした、新しいディープタイムウィンドウ付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。 より具体的には、時間窓付きビデオフレームの時空間符号化のための効率的な畳み込み型ディープニューラルネットワークの設計と、速度と精度のバランスについて検討する。 さらに,提案したTimeConvNetの設計を評価するために,拡張された Cohn-Kanade (CK+), BAUM-1, eNTERFACE の公開データセットを集約した BigFaceX という,より難しいデータセットを導入する。 異なるバックボーンネットワークアーキテクチャを持つTimeConvNet設計の異なるバリエーションを,他のネットワーク設計と併用して時空間情報を取得することで評価し,実験結果から,TimeConvNetsは表情の過渡的なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を向上させることができることを示した。

A core challenge faced by the majority of individuals with Autism Spectrum Disorder (ASD) is an impaired ability to infer other people's emotions based on their facial expressions. With significant recent advances in machine learning, one potential approach to leveraging technology to assist such individuals to better recognize facial expressions and reduce the risk of possible loneliness and depression due to social isolation is the design of computer vision-driven facial expression recognition systems. Motivated by this social need as well as the low latency requirement of such systems, this study explores a novel deep time windowed convolutional neural network design (TimeConvNets) for the purpose of real-time video facial expression recognition. More specifically, we explore an efficient convolutional deep neural network design for spatiotemporal encoding of time windowed video frame sub-sequences and study the respective balance between speed and accuracy. Furthermore, to evaluate the proposed TimeConvNet design, we introduce a more difficult dataset called BigFaceX, composed of a modified aggregation of the extended Cohn-Kanade (CK+), BAUM-1, and the eNTERFACE public datasets. Different variants of the proposed TimeConvNet design with different backbone network architectures were evaluated using BigFaceX alongside other network designs for capturing spatiotemporal information, and experimental results demonstrate that TimeConvNets can better capture the transient nuances of facial expressions and boost classification accuracy while maintaining a low inference time.
翻訳日:2022-12-26 23:01:30 公開日:2020-03-03
# ソーシャルアイデンティティをツイートから発見する:コンテンツに基づくアプローチ

Discover Your Social Identity from What You Tweet: a Content Based Approach ( http://arxiv.org/abs/2003.01797v1 )

ライセンス: Link先を確認
Binxuan Huang and Kathleen M. Carley(参考訳) アイデンティティとは、個人やグループが高度に分化した現代社会で果たす役割をいう。 本稿では,twitterのユーザを役割のアイデンティティに基づいて分類することを目的とする。 まず、粗粒のパブリックフィギュアデータセットを自動で収集し、さらに詳細なIDデータセットを手作業でラベル付けします。 本稿では,Twitterユーザロール識別のための階層型自己認識ニューラルネットワークを提案する。 本実験は,提案モデルが複数のベースラインを著しく上回ることを示す。 さらに,モデルの性能を大きなマージンで向上させる転送学習方式を提案する。 このような伝達学習は、大量の人間のラベル付きデータの必要性を大幅に減らす。

An identity denotes the role an individual or a group plays in highly differentiated contemporary societies. In this paper, our goal is to classify Twitter users based on their role identities. We first collect a coarse-grained public figure dataset automatically, then manually label a more fine-grained identity dataset. We propose a hierarchical self-attention neural network for Twitter user role identity classification. Our experiments demonstrate that the proposed model significantly outperforms multiple baselines. We further propose a transfer learning scheme that improves our model's performance by a large margin. Such transfer learning also greatly reduces the need for a large amount of human labeled data.
翻訳日:2022-12-26 22:59:58 公開日:2020-03-03
# ナノワイヤネットワークにおける深層学習

Deep Learning in Memristive Nanowire Networks ( http://arxiv.org/abs/2003.02642v1 )

ライセンス: Link先を確認
Jack D. Kendall, Ross D. Pantone, and Juan C. Nino(参考訳) ニューラルネットワークのトレーニングと推論を加速するアナログクロスバーアーキテクチャは、ここ数年で大きな進歩を遂げている。 これらのアーキテクチャは、約1000ニューロン未満の密集層に理想的である。 しかし、大きなスパース層では、クロスバーアーキテクチャは非常に非効率である。 mn3(memristive nanowire neural network)と呼ばれる新しいハードウェアアーキテクチャは、最近、層当たり数百万のニューロンの順に、非常に広くスパースなニューラルネットワーク層をシミュレートする効率的なアーキテクチャとして記述された。 MN3は高密度の誘電性ナノワイヤメッシュを使用して、多数のシリコンニューロンを変更可能な重量で効率的に接続する。 本稿では,深層ニューラルネットワークとして機能するmn3の能力を検討するために,深層mn3モデルの学習アルゴリズムと2つの深層学習タスクにおけるアーキテクチャのベンチマークシミュレーションについて述べる。 我々は, ランダム化ナノワイヤアーキテクチャにおいて, トレーニングが可能であることを示すため, 単純な分割線形メムリスタモデルを利用する。 今後の研究では,より現実的なmemristorモデルを活用することを目指しており,提案アルゴリズムを適切に適用する。 mn3は構成,勾配伝播,重み更新を行うことができ,ディープニューラルネットワークとして機能する。 mn3ネットワークを用いたシミュレーション多層パーセプトロン (mlp) は, 一般的なmnistデータセット上で1.61%の誤差率が得られることを示した。 この研究は著者の知る限り、バックプロパゲーションアルゴリズムを再現できる最初のランダム化ナノワイヤアーキテクチャである。

Analog crossbar architectures for accelerating neural network training and inference have made tremendous progress over the past several years. These architectures are ideal for dense layers with fewer than roughly a thousand neurons. However, for large sparse layers, crossbar architectures are highly inefficient. A new hardware architecture, dubbed the MN3 (Memristive Nanowire Neural Network), was recently described as an efficient architecture for simulating very wide, sparse neural network layers, on the order of millions of neurons per layer. The MN3 utilizes a high-density memristive nanowire mesh to efficiently connect large numbers of silicon neurons with modifiable weights. Here, in order to explore the MN3's ability to function as a deep neural network, we describe one algorithm for training deep MN3 models and benchmark simulations of the architecture on two deep learning tasks. We utilize a simple piecewise linear memristor model, since we seek to demonstrate that training is, in principle, possible for randomized nanowire architectures. In future work, we intend on utilizing more realistic memristor models, and we will adapt the presented algorithm appropriately. We show that the MN3 is capable of performing composition, gradient propagation, and weight updates, which together allow it to function as a deep neural network. We show that a simulated multilayer perceptron (MLP), built from MN3 networks, can obtain a 1.61% error rate on the popular MNIST dataset, comparable to equivalently sized software-based network. This work represents, to the authors' knowledge, the first randomized nanowire architecture capable of reproducing the backpropagation algorithm.
翻訳日:2022-12-26 22:53:45 公開日:2020-03-03
# STDPを用いた閉ループ神経ロボット実験における前庭眼適応の探索 シミュレーション研究

Exploring vestibulo-ocular adaptation in a closed-loop neuro-robotic experiment using STDP. A simulation study ( http://arxiv.org/abs/2003.01445v1 )

ライセンス: Link先を確認
Francisco Naveros, Jesus A. Garrido, Angelo Arleo, Eduardo Ros, Niceto R. Luque(参考訳) ニューラルネットワークの計算プリミティブを研究し、理解するには、多種多様な補完的なテクニックが必要である。 本研究は,小脳分子層と前庭核に存在する2つのSTDP機構を介する前庭眼小脳適応Ion(Vestibulo-ocular reflex, VOR)を評価するために神経ロボティック・プラットフォーム(NRP)を用いた。 本研究は、特定の小脳特性(分散STDP、神経特性、コーディング小脳トポロジーなど)のr-VOR適応への寄与をよりよく理解するために、神経科学者が広く使用している実験装置(回転VOR)を採用する。 本研究は、シミュレーションされたヒューマノイドロボット(iCub)を、NRPによりスパイキング小脳モデルで支持し、このヒューマノイドをr-VORタスクに直面するエボディメントソリューションを提案し、記述する。 その結果,シミュレーション型icubロボットを用いた知覚動作閉ループ(r-vor)におけるスパイキング小脳モデル(stdp)の適応性が検証された。

Studying and understanding the computational primitives of our neural system requires for a diverse and complementary set of techniques. In this work, we use the Neuro-robotic Platform (NRP)to evaluate the vestibulo ocular cerebellar adaptatIon (Vestibulo-ocular reflex, VOR)mediated by two STDP mechanisms located at the cerebellar molecular layer and the vestibular nuclei respectively. This simulation study adopts an experimental setup (rotatory VOR)widely used by neuroscientists to better understand the contribution of certain specific cerebellar properties (i.e. distributed STDP, neural properties, coding cerebellar topology, etc.)to r-VOR adaptation. The work proposes and describes an embodiment solution for which we endow a simulated humanoid robot (iCub)with a spiking cerebellar model by means of the NRP, and we face the humanoid to an r-VOR task. The results validate the adaptive capabilities of the spiking cerebellar model (with STDP)in a perception-action closed-loop (r- VOR)causing the simulated iCub robot to mimic a human behavior.
翻訳日:2022-12-26 22:53:20 公開日:2020-03-03
# ノイズアノテートによる耐雑音物体検出に向けて

Towards Noise-resistant Object Detection with Noisy Annotations ( http://arxiv.org/abs/2003.01285v1 )

ライセンス: Link先を確認
Junnan Li, Caiming Xiong, Richard Socher, Steven Hoi(参考訳) ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を備えた、相当量の人間の注釈画像が必要である。 ノイズの多いアノテーションは、ずっと簡単にアクセスできますが、学習に不利なものです。 ノイズにはラベルノイズとバウンディングボックスノイズが混在しているため,ノイズに制約のあるアノテーションを用いた物体検出の訓練が困難である。 本稿では,物体ラベル,境界ボックス座標,モデルパラメータを交互に最適化する学習フレームワークを提案する。 ラベルノイズとバウンディングボックスノイズを分離するために,二段階雑音補正法を提案する。 第1ステップは、分類器の不一致を最小化し、領域の目的性を最大化することにより、クラス非依存境界ボックス補正を行う。 第2のステップは、ソフトラベル補正とクラス固有のバウンディングボックスリファインメントのための二重検出ヘッドからの知識を区別する。 我々はPASCAL VOCとMS-COCOデータセットの合成ノイズと機械生成ノイズの両方を用いて実験を行った。 本手法は,ラベルノイズとバウンディングボックスノイズの両方を効果的に浄化し,最先端の性能を実現する。 すべての結果を再現するコードがリリースされる。

Training deep object detectors requires significant amount of human-annotated images with accurate object labels and bounding box coordinates, which are extremely expensive to acquire. Noisy annotations are much more easily accessible, but they could be detrimental for learning. We address the challenging problem of training object detectors with noisy annotations, where the noise contains a mixture of label noise and bounding box noise. We propose a learning framework which jointly optimizes object labels, bounding box coordinates, and model parameters by performing alternating noise correction and model training. To disentangle label noise and bounding box noise, we propose a two-step noise correction method. The first step performs class-agnostic bounding box correction by minimizing classifier discrepancy and maximizing region objectness. The second step distils knowledge from dual detection heads for soft label correction and class-specific bounding box refinement. We conduct experiments on PASCAL VOC and MS-COCO dataset with both synthetic noise and machine-generated noise. Our method achieves state-of-the-art performance by effectively cleaning both label noise and bounding box noise. Code to reproduce all results will be released.
翻訳日:2022-12-26 22:52:57 公開日:2020-03-03
# ゲーティングネットワークを用いた物体検出のための訓練モデル融合

Trained Model Fusion for Object Detection using Gating Network ( http://arxiv.org/abs/2003.01288v1 )

ライセンス: Link先を確認
Tetsuo Inoshita, Yuichi Nakatani, Katsuhiko Takahashi, Asuka Ishii, Gaku Nakano(参考訳) コンピュータビジョンにおけるトランスファー学習の主なアプローチは、ソースドメインを1対1のターゲットドメインに適応させようとしている。 しかし、このシナリオはビデオ監視システムのような実際の応用には適用が難しい。 これらのシステムにはソースドメインと見なされる各場所に多数のカメラがインストールされているため、適切なソースドメインを特定することは困難である。 本稿では,映像監視システムの統合を前提に,さまざまなソースドメインと1つのターゲットドメインを持つ新しいトランスファー学習シナリオを提案する。 また,様々なソース領域で学習したモデルを用いて高精度モデルを自動的に生成する手法を提案する。 特に、オブジェクト検出タスクにソースドメインをフューズするためにゲーティングネットワークを適用する方法を示し、これは新しいアプローチである。 交通監視データセットを用いた実験により,本手法の有効性を実証する。

The major approaches of transfer learning in computer vision have tried to adapt the source domain to the target domain one-to-one. However, this scenario is difficult to apply to real applications such as video surveillance systems. As those systems have many cameras installed at each location regarded as source domains, it is difficult to identify the proper source domain. In this paper, we introduce a new transfer learning scenario that has various source domains and one target domain, assuming video surveillance system integration. Also, we propose a novel method for automatically producing a high accuracy model by fusing models trained at various source domains. In particular, we show how to apply a gating network to fuse source domains for object detection tasks, which is a new approach. We demonstrate the effectiveness of our method through experiments on traffic surveillance datasets.
翻訳日:2022-12-26 22:52:40 公開日:2020-03-03
# 実用的なブラックボックス攻撃のためのデータフリー・アドバイサル摂動

Data-Free Adversarial Perturbations for Practical Black-Box Attack ( http://arxiv.org/abs/2003.01295v1 )

ライセンス: Link先を確認
ZhaoXin Huan, Yulong Wang, Xiaolu Zhang, Lin Shang, Chilin Fu, Jun Zhou(参考訳) ニューラルネットワークは、事前訓練されたモデルを騙すために作られた悪意のある入力である敵の例に弱い。 敵の例はしばしばブラックボックス攻撃の転送可能性を示し、あるモデルのために作られた敵の例が別のモデルを騙すことができる。 しかし、既存のブラックボックス攻撃手法では、異なるモデルにまたがる攻撃例の転送性を改善するために、トレーニングデータ分布からのサンプルが必要である。 データ依存のため、逆転摂動の愚かな能力は、トレーニングデータにアクセス可能な場合にのみ適用できる。 本稿では,訓練データ分布を知らずに対象モデルを騙すことができる逆摂動を作成するためのデータフリーな手法を提案する。 攻撃者がターゲットモデルやトレーニングデータにアクセスできないブラックボックス攻撃シナリオの実用的設定において,本手法はターゲットモデルに対する高い騙し率を達成し,他の普遍的敵対的摂動法よりも優れる。 本手法は,攻撃者が訓練データにアクセスできない場合でも,現在のディープラーニングモデルはまだ危険であることを示す。

Neural networks are vulnerable to adversarial examples, which are malicious inputs crafted to fool pre-trained models. Adversarial examples often exhibit black-box attacking transferability, which allows that adversarial examples crafted for one model can fool another model. However, existing black-box attack methods require samples from the training data distribution to improve the transferability of adversarial examples across different models. Because of the data dependence, the fooling ability of adversarial perturbations is only applicable when training data are accessible. In this paper, we present a data-free method for crafting adversarial perturbations that can fool a target model without any knowledge about the training data distribution. In the practical setting of a black-box attack scenario where attackers do not have access to target models and training data, our method achieves high fooling rates on target models and outperforms other universal adversarial perturbation methods. Our method empirically shows that current deep learning models are still at risk even when the attackers do not have access to training data.
翻訳日:2022-12-26 22:52:26 公開日:2020-03-03
# 再サンプリング検出のためのマルチパッチ集約モデル

multi-patch aggregation models for resampling detection ( http://arxiv.org/abs/2003.01364v1 )

ライセンス: Link先を確認
Mohit Lamba, Kaushik Mitra(参考訳) 現在撮影されている画像は、スマートフォンやDSLRで利用可能な画像解像度のリストから選択できる様々な次元のものである。 したがって、様々な次元の画像に対してよくスケールするために再サンプリング検出などの法医学的アルゴリズムには必須である。 しかし,本実験では,多くの最先端の法医学アルゴリズムが画像サイズに敏感であり,様々な次元の画像に対して複数の画像サイズを用いて再学習しても,その性能は急速に低下することがわかった。 この問題に対処するため,ITERATIVE POOLINGと呼ばれる新しいプール方式を提案する。 このプーリング戦略は、ROI Max-poolingのように情報を失うことなく、離散的に入力テンソルを動的に調整することができる。 このプーリング戦略は、既存のディープモデルでも利用可能であり、画像操作に必要な画像の基本的な操作を再サンプリングする場合に、Resnet-18でその実用性を示す。 既存の戦略やMax-poolingと比較して、公開データセットは最大7~8%改善されている。

Images captured nowadays are of varying dimensions with smartphones and DSLR's allowing users to choose from a list of available image resolutions. It is therefore imperative for forensic algorithms such as resampling detection to scale well for images of varying dimensions. However, in our experiments, we observed that many state-of-the-art forensic algorithms are sensitive to image size and their performance quickly degenerates when operated on images of diverse dimensions despite re-training them using multiple image sizes. To handle this issue, we propose a novel pooling strategy called ITERATIVE POOLING. This pooling strategy can dynamically adjust input tensors in a discrete without much loss of information as in ROI Max-pooling. This pooling strategy can be used with any of the existing deep models and for demonstration purposes, we show its utility on Resnet-18 for the case of resampling detection a fundamental operation for any image sought of image manipulation. Compared to existing strategies and Max-pooling it gives up to 7-8% improvement on public datasets.
翻訳日:2022-12-26 22:52:08 公開日:2020-03-03
# 合成深度データを用いた高密度物体記述子を用いたロープ操作の学習

Learning Rope Manipulation Policies Using Dense Object Descriptors Trained on Synthetic Depth Data ( http://arxiv.org/abs/2003.01835v1 )

ライセンス: Link先を確認
Priya Sundaresan, Jennifer Grannen, Brijen Thananjeyan, Ashwin Balakrishna, Michael Laskey, Kevin Stone, Joseph E. Gonzalez, Ken Goldberg(参考訳) ロープ、ケーブル、ホースなどの変形可能な1次元物体のロボット操作は、高忠実度解析モデルや大きな構成空間が欠如しているため困難である。 さらに、画像と物理的相互作用から直接エンドツーエンドの操作ポリシーを学習するには、ロボットにかなりの時間を要するため、タスクをまたいだ一般化に失敗する可能性がある。 ロープの深い視覚表現を用いてこれらの課題に対処し、ロボット操作のための高密度オブジェクト記述子に関する最近の研究を継続する。 これにより、学習した表現の上に構築された解釈可能かつ伝達可能な幾何学的ポリシーの設計が容易になり、視覚的推論と制御を分離する。 合成深度画像からのシミュレーションにおいて,初期とゴールのロープ構成間の点対対応を暗黙的に符号化する手法を提案する。 本研究では, 深度オブジェクト記述子(DDOD)の学習表現を用いて実ロープを, 実演から学習するか, 解釈可能な幾何学的ポリシーを用いて, 様々な配置で操作できることを実証する。 ABB YuMi Robotによるノットタイリングタスクの50回の試行では、これまで見つからなかった構成から66%のノットタイリング成功率を達成した。 補足資料とビデオはhttps://tinyurl.com/rope-learningを参照。

Robotic manipulation of deformable 1D objects such as ropes, cables, and hoses is challenging due to the lack of high-fidelity analytic models and large configuration spaces. Furthermore, learning end-to-end manipulation policies directly from images and physical interaction requires significant time on a robot and can fail to generalize across tasks. We address these challenges using interpretable deep visual representations for rope, extending recent work on dense object descriptors for robot manipulation. This facilitates the design of interpretable and transferable geometric policies built on top of the learned representations, decoupling visual reasoning and control. We present an approach that learns point-pair correspondences between initial and goal rope configurations, which implicitly encodes geometric structure, entirely in simulation from synthetic depth images. We demonstrate that the learned representation -- dense depth object descriptors (DDODs) -- can be used to manipulate a real rope into a variety of different arrangements either by learning from demonstrations or using interpretable geometric policies. In 50 trials of a knot-tying task with the ABB YuMi Robot, the system achieves a 66% knot-tying success rate from previously unseen configurations. See https://tinyurl.com/rope-learning for supplementary material and videos.
翻訳日:2022-12-26 22:45:34 公開日:2020-03-03
# ランダム初期化による確率勾配降下による深部ニューラルネットワークの学習における総合誤差解析

Overall error analysis for the training of deep neural networks via stochastic gradient descent with random initialisation ( http://arxiv.org/abs/2003.01291v1 )

ライセンス: Link先を確認
Arnulf Jentzen and Timo Welti(参考訳) 深層学習に基づくアルゴリズムが多くの応用で達成され、非常に幅広い研究の関心が集まっているにもかかわらず、そのようなアルゴリズムが特定の状況で有用な結果をもたらす理由について厳密な理解はいまだにない。 深層学習に基づくアルゴリズムの数学的解析は、理解を改善し、その実装をより効果的かつ効率的にするために重要であると考えられる。 本稿では,確率的に強い意味での二次損失関数を用いた経験的リスク最小化を用いた,確率的勾配降下とランダム初期化を用いて深層ニューラルネットワークを訓練する深層ニューラルネットワークの数学的厳密な完全誤り解析を提案する。 我々が得る収束速度はおそらく最適とは程遠いものであり、次元の呪いに苦しむ。 しかし,我々の知識を最大限に活用するために,確率的に強い意味での深層学習に基づくアルゴリズムの科学的文献における最初の完全な誤差解析と,ランダム初期化を伴う確率的勾配降下が採用される深層学習に基づくアルゴリズムの科学的文献における最初の完全な誤差解析を定式化する。

In spite of the accomplishments of deep learning based algorithms in numerous applications and very broad corresponding research interest, at the moment there is still no rigorous understanding of the reasons why such algorithms produce useful results in certain situations. A thorough mathematical analysis of deep learning based algorithms seems to be crucial in order to improve our understanding and to make their implementation more effective and efficient. In this article we provide a mathematically rigorous full error analysis of deep learning based empirical risk minimisation with quadratic loss function in the probabilistically strong sense, where the underlying deep neural networks are trained using stochastic gradient descent with random initialisation. The convergence speed we obtain is presumably far from optimal and suffers under the curse of dimensionality. To the best of our knowledge, we establish, however, the first full error analysis in the scientific literature for a deep learning based algorithm in the probabilistically strong sense and, moreover, the first full error analysis in the scientific literature for a deep learning based algorithm where stochastic gradient descent with random initialisation is the employed optimisation method.
翻訳日:2022-12-26 22:45:11 公開日:2020-03-03
# 文脈認識型音声言語理解のためのトランスファー学習

Transfer Learning for Context-Aware Spoken Language Understanding ( http://arxiv.org/abs/2003.01305v1 )

ライセンス: Link先を確認
Qian Chen, Zhu Zhuo, Wen Wang, Qiuyun Xu(参考訳) 音声言語理解(SLU)はタスク指向対話システムの主要な構成要素である。 SLUは自然言語のユーザ発話をセマンティックフレームに解析する。 前回の研究では、コンテキスト情報を組み込むことでマルチターン対話のslu性能が大幅に向上することが示されている。 しかし,対象ドメインに対する大規模人ラベル多元対話コーパスの収集は複雑でコストがかかる。 コレクションやアノテーションへの依存を減らすため,SLU の様々なコンテキスト情報を利用した CELT (Context Encoding Language Transformer) モデルを提案する。 データ収集やアノテーションへの依存を減らすために,さまざまなトランスファー学習手法を検討する。 ウィキペディアのような大規模汎用未ラベルコーパスを用いた教師なし事前学習に加えて、他のドメイン内およびドメイン外対話コーパスの恩恵を受けるために、トランスファーラーニングのための教師なしおよび教師なし適応トレーニングアプローチを検討する。 実験により,2つの大規模単ターン対話ベンチマークと1つの大規模多ターン対話ベンチマークにおいて,提案手法によるSLUの性能向上が得られた。

Spoken language understanding (SLU) is a key component of task-oriented dialogue systems. SLU parses natural language user utterances into semantic frames. Previous work has shown that incorporating context information significantly improves SLU performance for multi-turn dialogues. However, collecting a large-scale human-labeled multi-turn dialogue corpus for the target domains is complex and costly. To reduce dependency on the collection and annotation effort, we propose a Context Encoding Language Transformer (CELT) model facilitating exploiting various context information for SLU. We explore different transfer learning approaches to reduce dependency on data collection and annotation. In addition to unsupervised pre-training using large-scale general purpose unlabeled corpora, such as Wikipedia, we explore unsupervised and supervised adaptive training approaches for transfer learning to benefit from other in-domain and out-of-domain dialogue corpora. Experimental results demonstrate that the proposed model with the proposed transfer learning approaches achieves significant improvement on the SLU performance over state-of-the-art models on two large-scale single-turn dialogue benchmarks and one large-scale multi-turn dialogue benchmark.
翻訳日:2022-12-26 22:44:51 公開日:2020-03-03
# 低リソースクロスランガルエンティティリンクのための候補生成の改善

Improving Candidate Generation for Low-resource Cross-lingual Entity Linking ( http://arxiv.org/abs/2003.01343v1 )

ライセンス: Link先を確認
Shuyan Zhou and Shruti Rijhwani and John Wieting and Jaime Carbonell and Graham Neubig(参考訳) XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。 X)EL の最初のステップは候補生成であり、各言及毎にターゲット言語KB から有望な候補エンティティのリストを取得する。 Wikipediaのリソースに基づくアプローチは、比較的高リソース言語(HRL)の領域で成功裏に証明されているが、これらは低リソース言語(LRL)にはあまり及ばず、ウィキペディアのページはほとんどない。 近年, 転送学習手法は, 近縁言語における資源の活用によってLRLの資源需要を減少させることが示されているが, その性能は, 高リソース言語よりもはるかに遅れている。 本稿では、まず、低リソースxelにおける現在のエンティティ候補生成手法が直面する問題を評価し、(1)エンティティ参照とkbエントリの切り離しを削減し、(2)低リソースシナリオに対するモデルの堅牢性を改善するための3つの改善を提案する。 提案手法は単純だが有効である。我々は7つのXELデータセットを用いて我々のアプローチを実験し、Top-30金候補リコールの平均利得が16.9%であることを発見した。 改良モデルでは,エンド・ツー・エンドXELのKB内精度が平均7.9%向上した。

Cross-lingual entity linking (XEL) is the task of finding referents in a target-language knowledge base (KB) for mentions extracted from source-language texts. The first step of (X)EL is candidate generation, which retrieves a list of plausible candidate entities from the target-language KB for each mention. Approaches based on resources from Wikipedia have proven successful in the realm of relatively high-resource languages (HRL), but these do not extend well to low-resource languages (LRL) with few, if any, Wikipedia pages. Recently, transfer learning methods have been shown to reduce the demand for resources in the LRL by utilizing resources in closely-related languages, but the performance still lags far behind their high-resource counterparts. In this paper, we first assess the problems faced by current entity candidate generation methods for low-resource XEL, then propose three improvements that (1) reduce the disconnect between entity mentions and KB entries, and (2) improve the robustness of the model to low-resource scenarios. The methods are simple, but effective: we experiment with our approach on seven XEL datasets and find that they yield an average gain of 16.9% in Top-30 gold candidate recall, compared to state-of-the-art baselines. Our improved model also yields an average gain of 7.9% in in-KB accuracy of end-to-end XEL.
翻訳日:2022-12-26 22:44:10 公開日:2020-03-03
# 固有終端応答選択のための逐次ニューラルネットワーク

Sequential Neural Networks for Noetic End-to-End Response Selection ( http://arxiv.org/abs/2003.02126v1 )

ライセンス: Link先を確認
Qian Chen, Wen Wang(参考訳) 第7回対話システム技術チャレンジ(DSTC7)の1トラックとして、参加者が正しい次の発話を選択する必要がある実世界の目標指向対話システムにおいて、発話分類の最先端を推し進めることを目的としている。 本稿では,この課題において,集中型および小規模(管理型)とより多様で大規模(ubuntu)の2つのデータセットにおいて,上位1位にランクされたシステムを提案する。 従来の最先端モデルは、階層ベースの(発話レベルとトークンレベル)ニューラルネットワークを使用して、コンテキストモデリングのために異なるターンの発話間のインタラクションを明示的にモデル化する。 本稿では,マルチターン応答選択のための連鎖列のみに基づく逐次マッチングモデルについて検討する。 その結果, 逐次マッチングアプローチのポテンシャルは, マルチターン応答選択にはまだ十分に活用されていないことがわかった。 チャレンジの上位1位に加え、提案されたモデルは2つの大規模パブリックマルチターン応答選択ベンチマークデータセットで、最先端の階層ベースモデルを含む、以前のすべてのモデルを上回る。

The noetic end-to-end response selection challenge as one track in the 7th Dialog System Technology Challenges (DSTC7) aims to push the state of the art of utterance classification for real world goal-oriented dialog systems, for which participants need to select the correct next utterances from a set of candidates for the multi-turn context. This paper presents our systems that are ranked top 1 on both datasets under this challenge, one focused and small (Advising) and the other more diverse and large (Ubuntu). Previous state-of-the-art models use hierarchy-based (utterance-level and token-level) neural networks to explicitly model the interactions among different turns' utterances for context modeling. In this paper, we investigate a sequential matching model based only on chain sequence for multi-turn response selection. Our results demonstrate that the potentials of sequential matching approaches have not yet been fully exploited in the past for multi-turn response selection. In addition to ranking top 1 in the challenge, the proposed model outperforms all previous models, including state-of-the-art hierarchy-based models, on two large-scale public multi-turn response selection benchmark datasets.
翻訳日:2022-12-26 22:42:11 公開日:2020-03-03
# 目標指向参照経路を持つ制約環境における効率的な探索

Efficient Exploration in Constrained Environments with Goal-Oriented Reference Path ( http://arxiv.org/abs/2003.01641v1 )

ライセンス: Link先を確認
Kei Ota, Yoko Sasaki, Devesh K. Jha, Yusuke Yoshiyasu, and Asako Kanezaki(参考訳) 本稿では,制約のある環境で効率的にナビゲートを学習できる学習エージェントの構築の問題について考察する。 主な目的は、高次元入力(2次元マップ)を用いて異なる環境への理解と一般化を効率的に学習できるエージェントを設計することであり、障害物分散環境の障害物を避けるための実現可能な経路に従うことである。 これを実現するために,従来の経路計画アルゴリズム,教師付き学習アルゴリズム,強化学習アルゴリズムを相乗的に活用する。 重要なアイデアは、ナビゲーション問題を計画と制御に分離することであり、前者は教師付き学習によって達成され、後者は強化学習によって達成される。 具体的には、環境のマップに基づいて衝突のない経路を予測できる深い畳み込みネットワークを訓練する。 これにより、訓練されたエージェントはより速く学習しながら、優れた一般化を達成することができる。 提案手法を最近提案したセーフティガイムスイートを用いて,学習エージェントのトレーニング中に安全制約のテストを可能にする。 提案手法を既存の手法と比較し,新しい環境へのサンプル効率と一般化能力を一貫して改善することを示す。

In this paper, we consider the problem of building learning agents that can efficiently learn to navigate in constrained environments. The main goal is to design agents that can efficiently learn to understand and generalize to different environments using high-dimensional inputs (a 2D map), while following feasible paths that avoid obstacles in obstacle-cluttered environment. To achieve this, we make use of traditional path planning algorithms, supervised learning, and reinforcement learning algorithms in a synergistic way. The key idea is to decouple the navigation problem into planning and control, the former of which is achieved by supervised learning whereas the latter is done by reinforcement learning. Specifically, we train a deep convolutional network that can predict collision-free paths based on a map of the environment-- this is then used by a reinforcement learning algorithm to learn to closely follow the path. This allows the trained agent to achieve good generalization while learning faster. We test our proposed method in the recently proposed Safety Gym suite that allows testing of safety-constraints during training of learning agents. We compare our proposed method with existing work and show that our method consistently improves the sample efficiency and generalization capability to novel environments.
翻訳日:2022-12-26 22:36:17 公開日:2020-03-03
# マルチサービスネットワークにおけるQoS制約資源配分のための深層強化学習

Deep Reinforcement Learning for QoS-Constrained Resource Allocation in Multiservice Networks ( http://arxiv.org/abs/2003.02643v1 )

ライセンス: Link先を確認
Juno V. Saraiva, Iran M. Braga Jr., Victor F. Monteiro, F. Rafael M. Lima, Tarcisio F. Maciel, Walter C. Freitas Jr. and F. Rodrigo P. Cavalcanti(参考訳) 本稿では,マルチサービス無線システムにおける満足度保証に基づくスペクトル効率を最大化することを目的とした,非凸最適化問題として定式化された無線資源割り当て(rra)について検討する。 この問題はすでに文献で研究されており、効率的なヒューリスティックスが提案されている。 しかし、RRAの文脈で最適化問題を解く際に機械学習(ML)アルゴリズムの性能を評価するために、その問題を再検討し、強化学習(RL)フレームワークに基づく解決策を提案する。 具体的には,マルチエージェントのdeep rlに基づく分散最適化手法を開発し,各エージェントが収束するまで,局所環境と相互作用して方針を見出す決定を下す。 そこで本論文では,RLの適用に焦点をあて,本提案では,RRAと共同で扱うための深層RLベースのアプローチ,満足度保証,マルチサービスセルラーネットワークにおけるQuality of Service(QoS)制約について述べる。 最後に,計算シミュレーションにより,文献の最先端の解を提案手法と比較し,スループットと停止率の観点から,後者の最適性能を示す。

In this article, we study a Radio Resource Allocation (RRA) that was formulated as a non-convex optimization problem whose main aim is to maximize the spectral efficiency subject to satisfaction guarantees in multiservice wireless systems. This problem has already been previously investigated in the literature and efficient heuristics have been proposed. However, in order to assess the performance of Machine Learning (ML) algorithms when solving optimization problems in the context of RRA, we revisit that problem and propose a solution based on a Reinforcement Learning (RL) framework. Specifically, a distributed optimization method based on multi-agent deep RL is developed, where each agent makes its decisions to find a policy by interacting with the local environment, until reaching convergence. Thus, this article focuses on an application of RL and our main proposal consists in a new deep RL based approach to jointly deal with RRA, satisfaction guarantees and Quality of Service (QoS) constraints in multiservice celular networks. Lastly, through computational simulations we compare the state-of-art solutions of the literature with our proposal and we show a near optimal performance of the latter in terms of throughput and outage rate.
翻訳日:2022-12-26 22:35:03 公開日:2020-03-03
# 不変音声認識におけるアンタングリング

Untangling in Invariant Speech Recognition ( http://arxiv.org/abs/2003.01787v1 )

ライセンス: Link先を確認
Cory Stephenson, Jenelle Feather, Suchismita Padhy, Oguz Elibol, Hanlin Tang, Josh McDermott, SueYeon Chung(参考訳) 様々な視覚タスクにおけるディープニューラルネットワークの成功によって、多くの理論的および実験的研究が視覚ネットワークの動作の理解と解釈を目的としている。 一方、ディープニューラルネットワークは、より大きなシステムのサブコンポーネントや、それ自体で完全なエンドツーエンドシステムとして、オーディオ処理アプリケーションでも優れたパフォーマンスを実現している。 経験的な成功にもかかわらず、これらのオーディオモデルがどのようにこれらのタスクを達成するかについては、比較的理解されていない。 本研究では,ネットワーク表現の幾何学的性質とクラス分離性を結びつける統計力学理論を用いて,音声認識を訓練したニューラルネットワーク内で情報がどのように絡み合っていないかを探究する。 話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、単語や音素などのタスク関連特性は後続の層で解消される。 部分分割やコンテキスト依存といった高レベルな概念も、ネットワークの後期層に現れる。 最後に,計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことを示す。 これらの結果は、深層聴覚モデルがどのように時間依存入力信号を処理し、不変な音声認識を実現し、ネットワークの層を通して異なる概念が現れるかを示す。

Encouraged by the success of deep neural networks on a variety of visual tasks, much theoretical and experimental work has been aimed at understanding and interpreting how vision networks operate. Meanwhile, deep neural networks have also achieved impressive performance in audio processing applications, both as sub-components of larger systems and as complete end-to-end systems by themselves. Despite their empirical successes, comparatively little is understood about how these audio models accomplish these tasks. In this work, we employ a recently developed statistical mechanical theory that connects geometric properties of network representations and the separability of classes to probe how information is untangled within neural networks trained to recognize speech. We observe that speaker-specific nuisance variations are discarded by the network's hierarchy, whereas task-relevant properties such as words and phonemes are untangled in later layers. Higher level concepts such as parts-of-speech and context dependence also emerge in the later layers of the network. Finally, we find that the deep representations carry out significant temporal untangling by efficiently extracting task-relevant features at each time step of the computation. Taken together, these findings shed light on how deep auditory models process time dependent input signals to achieve invariant speech recognition, and show how different concepts emerge through the layers of the network.
翻訳日:2022-12-26 22:34:43 公開日:2020-03-03
# 人間の行動認識におけるグラフに基づく入力データのood検出原理

Image-based OoD-Detector Principles on Graph-based Input Data in Human Action Recognition ( http://arxiv.org/abs/2003.01719v1 )

ライセンス: Link先を確認
Jens Bayer and David M\"unch and Michael Arens(参考訳) 私たちのような複雑な世界に生きることは、機械学習システムの実践的な実装がクローズドな世界を前提とすることを容認できない。 したがって、現実世界の環境においてこのような学習ベースシステムが必要であり、特にサンプルが基礎となる分布によって説明できない場合、その能力や限界を認識し、推論の信頼性と信頼できない結果を区別することができる。 この知識は、自動運転車や医療アプリケーションなど、安全クリティカルな環境やタスクにおいて特に不可欠です。 この目的に向けて,画像ベースアウト・オブ・ディストリビューション(ood)手法をグラフベースデータに転送し,行動認識への適用性を示す。 この作品の貢献は (i)グラフに基づく入力データに対する最近の画像に基づくood検出器の可搬性の検討 (ii)ood-samples検出のためのメトリック学習に基づくアプローチ (iii)新規な半合成行動認識データセットの導入。 画像に基づくood手法がグラフデータに適用可能であることを示す。 さらに、イントラクラスとイントラデータセットの結果には、パフォーマンスのギャップがある。 検査基準線またはODINとしての最初の方法は妥当な結果をもたらす。 イメージベースのアプリケーションとは対照的に、より洗練されたネットワークアーキテクチャは、データセット内比較で比較され、さらに分類精度が低下した。

Living in a complex world like ours makes it unacceptable that a practical implementation of a machine learning system assumes a closed world. Therefore, it is necessary for such a learning-based system in a real world environment, to be aware of its own capabilities and limits and to be able to distinguish between confident and unconfident results of the inference, especially if the sample cannot be explained by the underlying distribution. This knowledge is particularly essential in safety-critical environments and tasks e.g. self-driving cars or medical applications. Towards this end, we transfer image-based Out-of-Distribution (OoD)-methods to graph-based data and show the applicability in action recognition. The contribution of this work is (i) the examination of the portability of recent image-based OoD-detectors for graph-based input data, (ii) a Metric Learning-based approach to detect OoD-samples, and (iii) the introduction of a novel semi-synthetic action recognition dataset. The evaluation shows that image-based OoD-methods can be applied to graph-based data. Additionally, there is a gap between the performance on intraclass and intradataset results. First methods as the examined baseline or ODIN provide reasonable results. More sophisticated network architectures - in contrast to their image-based application - were surpassed in the intradataset comparison and even lead to less classification accuracy.
翻訳日:2022-12-26 22:33:26 公開日:2020-03-03
# 実世界攻撃下における深層学習型レーン維持システムのセキュリティ

Security of Deep Learning based Lane Keeping System under Physical-World Adversarial Attack ( http://arxiv.org/abs/2003.01782v1 )

ライセンス: Link先を確認
Takami Sato, Junjie Shen, Ningfei Wang, Yunhan Jack Jia, Xue Lin and Qi Alfred Chen(参考訳) Lane-Keeping Assistance System (LKAS) は現在、便利で広く利用可能であるが、非常に安全性と安全性が重要である。 本研究では,実世界のDNNベースのLKASeを攻撃するための最初の体系的アプローチを設計し,実装する。 汚い道路パッチを,実用性とステルスネスのための新規かつドメイン固有の脅威モデルとして同定する。 我々は,この攻撃を最適化問題として定式化し,連続するカメラフレームに対する攻撃間の相互依存性から課題に取り組む。 現状のLKASに対する我々のアプローチを評価し、予備的な結果から、我々の攻撃は1.3秒以内で車線境界を逸脱させることに成功した。

Lane-Keeping Assistance System (LKAS) is convenient and widely available today, but also extremely security and safety critical. In this work, we design and implement the first systematic approach to attack real-world DNN-based LKASes. We identify dirty road patches as a novel and domain-specific threat model for practicality and stealthiness. We formulate the attack as an optimization problem, and address the challenge from the inter-dependencies among attacks on consecutive camera frames. We evaluate our approach on a state-of-the-art LKAS and our preliminary results show that our attack can successfully cause it to drive off lane boundaries within as short as 1.3 seconds.
翻訳日:2022-12-26 22:33:03 公開日:2020-03-03
# 教師付き学習ネットワークにおける神経入力表現の評価指標

A Metric for Evaluating Neural Input Representation in Supervised Learning Networks ( http://arxiv.org/abs/2003.01588v1 )

ライセンス: Link先を確認
Richard R Carrillo, Francisco Naveros, Eduardo Ros, Niceto R Luque(参考訳) 教師付き学習は長い間、脳内のいくつかのフィードフォワード神経回路に起因しており、小脳の顆粒層に注意が払われている。 本研究の目的は,これらのフィードフォワードニューラルネットワークの入力アクティビティ表現を評価することである。 小脳顆粒細胞の活性は平行繊維によって伝達され、小脳皮質の唯一の出力であるPurkinje細胞活性に変換される。 このパラレルファイバーからプルキンエ細胞への接続における学習プロセスにより、プルキンエ細胞は特定の時間内の顆粒細胞活動によって決定される特定の小脳の状態に対して敏感になる。 パーキンジェセルは、各ニューラル入力状態に敏感になり、そのネットワークは、教師付き学習により提供される各入力に対して所望の出力を生成する機能として機能する。 しかしながら、ネットワーク自身の制限(ネットワーク神経生物学基板に根ざした)のため、すべてのプルキンエ細胞応答が任意の入力状態に割り当てられる訳ではなく、全ての入力出力マッピングが学習できるわけではない。 制限因子は、顆粒細胞活性による入力状態の表現である。 この表現の質は、様々な出力の集合を学習するネットワークの能力を決定する。 本研究では、シミュレーションやネットワークトレーニングを実際に行うことなく、その表現(顆粒細胞活性化パターン)に応じて、与えられた小脳状態間の互換性/干渉のレベルを定量的に評価するアルゴリズムを提案する。 アルゴリズム入力は、各状態におけるすべての顆粒細胞の活性レベルを成す実数行列からなる。 様々な出力集合を生成するこの表現の能力は幾何学的に評価され、その結果、表現の良さを評価する実数となる。

Supervised learning has long been attributed to several feed-forward neural circuits within the brain, with attention being paid to the cerebellar granular layer. The focus of this study is to evaluate the input activity representation of these feed-forward neural networks. The activity of cerebellar granule cells is conveyed by parallel fibers and translated into Purkinje cell activity; the sole output of the cerebellar cortex. The learning process at this parallel-fiber-to-Purkinje-cell connection makes each Purkinje cell sensitive to a set of specific cerebellar states, determined by the granule-cell activity during a certain time window. A Purkinje cell becomes sensitive to each neural input state and, consequently, the network operates as a function able to generate a desired output for each provided input by means of supervised learning. However, not all sets of Purkinje cell responses can be assigned to any set of input states due to the network's own limitations (inherent to the network neurobiological substrate), that is, not all input-output mapping can be learned. A limiting factor is the representation of the input states through granule-cell activity. The quality of this representation will determine the capacity of the network to learn a varied set of outputs. In this study we present an algorithm for evaluating quantitatively the level of compatibility/interference amongst a set of given cerebellar states according to their representation (granule-cell activation patterns) without the need for actually conducting simulations and network training. The algorithm input consists of a real-number matrix that codifies the activity level of every considered granule-cell in each state. The capability of this representation to generate a varied set of outputs is evaluated geometrically, thus resulting in a real number that assesses the goodness of the representation
翻訳日:2022-12-26 22:27:13 公開日:2020-03-03
# インタラクティブな生成芸術における創造者の選好の予測

Predicting A Creator's Preferences In, and From, Interactive Generative Art ( http://arxiv.org/abs/2003.01274v1 )

ライセンス: Link先を確認
Devi Parikh(参考訳) 在職ユーザーがインタラクティブな生成的アートツールを使ってアート作品を作るとき、何があっても、彼らがそれらとその好みについて教えてくれますか? これらの嗜好は、特定の生成芸術形式(例えば、色パレット、作品の密度、作品のどのラインの厚みや曲率も)であり、それらを予測することでよりスマートなインタラクティブなツールに繋がる可能性がある。 あるいは、他の生活様式(音楽、ファッション、食べ物、インテリアデザイン、絵画など)や個人の属性(パーソナリティタイプ、性別、芸術的インクリメントなど)の好みになる可能性があり、それらを予測することで、製品や経験に対するパーソナライズドレコメンデーションが改善される可能性がある。 本研究は, 特定の生成芸術形態と他の生活様式の両方において, 311人の被験者の嗜好を収集するものである。 我々は、好みを分析し、機械学習モデルを訓練し、残りの好みのサブセットを予測する。 私たちが研究した生成的芸術形態の選好は、偶然よりも他の人生における選好を予測できない(そしてその逆も)。 しかし、生成芸術形式内の嗜好は互いに確実に予測可能である。

As a lay user creates an art piece using an interactive generative art tool, what, if anything, do the choices they make tell us about them and their preferences? These preferences could be in the specific generative art form (e.g., color palettes, density of the piece, thickness or curvatures of any lines in the piece); predicting them could lead to a smarter interactive tool. Or they could be preferences in other walks of life (e.g., music, fashion, food, interior design, paintings) or attributes of the person (e.g., personality type, gender, artistic inclinations); predicting them could lead to improved personalized recommendations for products or experiences. To study this research question, we collect preferences from 311 subjects, both in a specific generative art form and in other walks of life. We analyze the preferences and train machine learning models to predict a subset of preferences from the remaining. We find that preferences in the generative art form we studied cannot predict preferences in other walks of life better than chance (and vice versa). However, preferences within the generative art form are reliably predictive of each other.
翻訳日:2022-12-26 22:26:45 公開日:2020-03-03
# Convo: 会話型プログラミングには何が必要ですか? 機械学習インタフェース設計の探索

Convo: What does conversational programming need? An exploration of machine learning interface design ( http://arxiv.org/abs/2003.01318v1 )

ライセンス: Link先を確認
Jessica Van Brummelen, Kevin Weng, Phoebe Lin, Catherine Yeo(参考訳) 自然言語理解と音声認識の大幅な改善は、コンピュータとの対話の道を開いた。 会話エージェントは、しばしば短い目標指向ダイアログに使用されるが、コンピュータプログラムを開発するエージェントについてはほとんど知られていない。 プログラミングにおける自然言語の有用性を探るために,我々は,様々な入力方法と会話型プログラミングシステムを比較した研究を行った(n$=45)。 参加者は音声ベース、テキストベース、音声またはテキストベースのシステムを使用して、初心者および高度なタスクを完了した。 各システムの側面(音声入力効率、テキスト入力精度など)が評価され、初心者は高度なユーザよりも音声入力を使ったプログラミングに楽観的であった。 この結果から,将来の対話型プログラミングツールは,ユーザのプログラミング体験に合わせて,ユーザが好みの入力モードを選択できることが示唆された。 認知負荷を減らすために、将来のインターフェイスは視覚化を取り入れ、プログラミングのためのカスタム自然言語理解と音声認識モデルを持つことができる。

Vast improvements in natural language understanding and speech recognition have paved the way for conversational interaction with computers. While conversational agents have often been used for short goal-oriented dialog, we know little about agents for developing computer programs. To explore the utility of natural language for programming, we conducted a study ($n$=45) comparing different input methods to a conversational programming system we developed. Participants completed novice and advanced tasks using voice-based, text-based, and voice-or-text-based systems. We found that users appreciated aspects of each system (e.g., voice-input efficiency, text-input precision) and that novice users were more optimistic about programming using voice-input than advanced users. Our results show that future conversational programming tools should be tailored to users' programming experience and allow users to choose their preferred input mode. To reduce cognitive load, future interfaces can incorporate visualizations and possess custom natural language understanding and speech recognition models for programming.
翻訳日:2022-12-26 22:26:24 公開日:2020-03-03
# 人工膵におけるニューラルネットワーク政策のmpc誘導模倣学習

MPC-guided Imitation Learning of Neural Network Policies for the Artificial Pancreas ( http://arxiv.org/abs/2003.01283v1 )

ライセンス: Link先を確認
Hongkai Chen, Nicola Paoletti, Scott A. Smolka, Shan Lin(参考訳) モデル予測制御(MPC)は、現在、人工膵臓(AP)におけるインスリン制御の主要なアルゴリズムであるが、通常は複雑なオンライン最適化を必要とする。 MPCは通常、エラーを起こしやすいプロセスである状態推定に依存する。 本稿では,模倣学習を用いてmpcを用いた実験からニューラルネットワークインスリンポリシを合成する新しいap制御手法を提案する。 このようなポリシーは計算効率が良く、訓練時間にmpcを完全な状態情報で計測することで、最適な治療決定に直接測定をマッピングできるため、状態推定を回避できる。 我々はモンテカルロ・ドロップアウトによるベイズ推定を学習ポリシーに適用し、予測の不確実性を定量化し、より安全な治療決定を導出する。 特定の患者モデルの下で訓練されたコントロールポリシーは,患者コホートに対して容易に(モデルパラメータや外乱分布の観点から)一般化し,従来型MPCの状態を常に上回ることを示す。

Even though model predictive control (MPC) is currently the main algorithm for insulin control in the artificial pancreas (AP), it usually requires complex online optimizations, which are infeasible for resource-constrained medical devices. MPC also typically relies on state estimation, an error-prone process. In this paper, we introduce a novel approach to AP control that uses Imitation Learning to synthesize neural-network insulin policies from MPC-computed demonstrations. Such policies are computationally efficient and, by instrumenting MPC at training time with full state information, they can directly map measurements into optimal therapy decisions, thus bypassing state estimation. We apply Bayesian inference via Monte Carlo Dropout to learn policies, which allows us to quantify prediction uncertainty and thereby derive safer therapy decisions. We show that our control policies trained under a specific patient model readily generalize (in terms of model parameters and disturbance distributions) to patient cohorts, consistently outperforming traditional MPC with state estimation.
翻訳日:2022-12-26 22:26:08 公開日:2020-03-03
# 不均一グラフ変換器

Heterogeneous Graph Transformer ( http://arxiv.org/abs/2003.01332v1 )

ライセンス: Link先を確認
Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun(参考訳) 近年、構造化データモデリングにおけるグラフニューラルネットワーク(GNN)の成功が目覚ましい。 しかし、ほとんどのgnnは均質グラフのために設計されており、全てのノードとエッジは同じ型に属しており、異質な構造を表現することができない。 本稿では,webスケールの異種グラフをモデル化するためのヘテロジニアスグラフトランスフォーマ(hgt)アーキテクチャを提案する。 不均一性をモデル化するために,ノード型およびエッジ型依存パラメータを設計し,各エッジ上での不均一な注意を特徴付ける。 動的ヘテロジニアスグラフを扱うために,HGTに相対時間符号化手法を導入する。 Web スケールのグラフデータを扱うため,ヘテロジニアスなミニバッチグラフサンプリングアルゴリズム--HGSampling--を設計し,効率的かつスケーラブルなトレーニングを行う。 1億7900万ノードと20億エッジのオープンアカデミックグラフに関する広範な実験により、提案されているhgtモデルは、さまざまな下流タスクにおいて、最先端のgnnベースラインを9%から21%も上回っています。

Recent years have witnessed the emerging success of graph neural networks (GNNs) for modeling structured data. However, most GNNs are designed for homogeneous graphs, in which all nodes and edges belong to the same types, making them infeasible to represent heterogeneous structures. In this paper, we present the Heterogeneous Graph Transformer (HGT) architecture for modeling Web-scale heterogeneous graphs. To model heterogeneity, we design node- and edge-type dependent parameters to characterize the heterogeneous attention over each edge, empowering HGT to maintain dedicated representations for different types of nodes and edges. To handle dynamic heterogeneous graphs, we introduce the relative temporal encoding technique into HGT, which is able to capture the dynamic structural dependency with arbitrary durations. To handle Web-scale graph data, we design the heterogeneous mini-batch graph sampling algorithm---HGSampling---for efficient and scalable training. Extensive experiments on the Open Academic Graph of 179 million nodes and 2 billion edges show that the proposed HGT model consistently outperforms all the state-of-the-art GNN baselines by 9%--21% on various downstream tasks.
翻訳日:2022-12-26 22:25:29 公開日:2020-03-03
# 生成逆ネットを用いた時系列条件付きグラフ生成の学習

Learn to Generate Time Series Conditioned Graphs with Generative Adversarial Nets ( http://arxiv.org/abs/2003.01436v1 )

ライセンス: Link先を確認
Shanchao Yang, Jing Liu, Kai Wu and Mingming Li(参考訳) ディープラーニングベースのアプローチは、近年、異なる分布のグラフのモデル化と生成に利用されている。 しかし、それらは典型的には教師なしの学習ベースと無条件の生成モデルであり、グラフレベルのコンテキストにのみ条件付けされている。 入力された多変量時系列を与えられた場合、各時系列に対応する各ノードとの時系列間の相互関係をモデル化する対象関係グラフを推定することを目的としている。 例えば、時系列として記録された遺伝子発現データに基づいて、特定の疾患の遺伝子制御ネットワークにおける遺伝子間の相互関係を研究することができる。 そこで本稿では,グラフと時系列の類似性を直接測定し,リッチなノードレベルのコンテキスト構造を条件付けすることの課題に対処する,時系列条件付きグラフ生成・生成適応ネットワーク(TSGG-GAN)を提案する。 合成および実単語遺伝子制御ネットワークデータセットの広範な実験は、提案したTSGG-GANの有効性と一般化性を実証している。

Deep learning based approaches have been utilized to model and generate graphs subjected to different distributions recently. However, they are typically unsupervised learning based and unconditioned generative models or simply conditioned on the graph-level contexts, which are not associated with rich semantic node-level contexts. Differently, in this paper, we are interested in a novel problem named Time Series Conditioned Graph Generation: given an input multivariate time series, we aim to infer a target relation graph modeling the underlying interrelationships between time series with each node corresponding to each time series. For example, we can study the interrelationships between genes in a gene regulatory network of a certain disease conditioned on their gene expression data recorded as time series. To achieve this, we propose a novel Time Series conditioned Graph Generation-Generative Adversarial Networks (TSGG-GAN) to handle challenges of rich node-level context structures conditioning and measuring similarities directly between graphs and time series. Extensive experiments on synthetic and real-word gene regulatory networks datasets demonstrate the effectiveness and generalizability of the proposed TSGG-GAN.
翻訳日:2022-12-26 22:25:10 公開日:2020-03-03
# SELD-TCN:時間畳み込みネットワークによる音事象の定位と検出

SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks ( http://arxiv.org/abs/2003.01609v1 )

ライセンス: Link先を確認
Karim Guirguis, Christoph Schorn, Andre Guntoro, Sherif Abdulatif, Bin Yang(参考訳) 周囲の環境を理解することは、自動運転車のような自律ロボットシステムにおいて重要な役割を果たす。 視覚知覚に関する広範な研究が行われている。 しかし、環境に対するより完全な認識を得るためには、未来の自律システムは音響情報も考慮する必要がある。 最近の音事象の局所化と検出(SELD)フレームワークは畳み込みリカレントニューラルネットワーク(CRNN)を利用している。 しかし,CRNNの繰り返しの性質を考えると,組込みハードウェア上で効率よく実装することは困難である。 彼らの計算は並列化に強いだけでなく、高いメモリ帯域幅と大きなメモリバッファも必要である。 本研究では,時間的畳み込みネットワーク(TCN)に基づく,より堅牢でハードウェアに優しい新しいアーキテクチャを開発する。 提案したフレームワーク(SELD-TCN)は、4つの異なるデータセット上での最先端のSELDnet性能を上回っている。 さらに、SELD-TCNは、通常のグラフィックス処理ユニット(GPU)において、エポック毎の4倍高速なトレーニング時間と40倍高速な推論時間を達成する。

The understanding of the surrounding environment plays a critical role in autonomous robotic systems, such as self-driving cars. Extensive research has been carried out concerning visual perception. Yet, to obtain a more complete perception of the environment, autonomous systems of the future should also take acoustic information into account. Recent sound event localization and detection (SELD) frameworks utilize convolutional recurrent neural networks (CRNNs). However, considering the recurrent nature of CRNNs, it becomes challenging to implement them efficiently on embedded hardware. Not only are their computations strenuous to parallelize, but they also require high memory bandwidth and large memory buffers. In this work, we develop a more robust and hardware-friendly novel architecture based on a temporal convolutional network(TCN). The proposed framework (SELD-TCN) outperforms the state-of-the-art SELDnet performance on four different datasets. Moreover, SELD-TCN achieves 4x faster training time per epoch and 40x faster inference time on an ordinary graphics processing unit (GPU).
翻訳日:2022-12-26 22:24:34 公開日:2020-03-03
# グラフニューラルネットワークにおけるgraphonプーリング

Graphon Pooling in Graph Neural Networks ( http://arxiv.org/abs/2003.01795v1 )

ライセンス: Link先を確認
Alejandro Parada-Mayorga, Luana Ruiz and Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、グラフによってモデル化された不規則構造上の信号の処理を含む様々なアプリケーションで効果的に使用されている。 シフト不変グラフフィルタの使用により、GNNはグラフへの畳み込みの操作を拡張する。 しかしながら、プーリングとサンプリングの操作は未だ明確に定義されておらず、文献で提案されているアプローチは、そのスペクトル特性を保たない方法でグラフ構造を変更するか、どのノードを保持するかを選択するポリシーを定義する必要がある。 本研究では,グラフのスペクトル特性を保存したグラフオンを用いて,GNNのプールとサンプリングを行う新しい手法を提案する。 そのため、GNNのグラフ層は、グラフロンに収束するグラフ列の要素であると考える。 このようにして、ある層から別の層に信号をマッピングするときのノードラベリングのあいまいさや、その層全体にわたって一貫したスペクトル表現は持たない。 我々は,この戦略を,特に層間寸法減少比が大きい場合において,グラノンプールGNNが他のプール技術よりも過度に適合し改善しにくいことを示す,合成および実世界の数値実験で評価した。

Graph neural networks (GNNs) have been used effectively in different applications involving the processing of signals on irregular structures modeled by graphs. Relying on the use of shift-invariant graph filters, GNNs extend the operation of convolution to graphs. However, the operations of pooling and sampling are still not clearly defined and the approaches proposed in the literature either modify the graph structure in a way that does not preserve its spectral properties, or require defining a policy for selecting which nodes to keep. In this work, we propose a new strategy for pooling and sampling on GNNs using graphons which preserves the spectral properties of the graph. To do so, we consider the graph layers in a GNN as elements of a sequence of graphs that converge to a graphon. In this way we have no ambiguity in the node labeling when mapping signals from one layer to the other and a spectral representation that is consistent throughout the layers. We evaluate this strategy in a synthetic and a real-world numerical experiment where we show that graphon pooling GNNs are less prone to overfitting and improve upon other pooling techniques, especially when the dimensionality reduction ratios between layers is large.
翻訳日:2022-12-26 22:19:03 公開日:2020-03-03
# 糖尿病網膜症検出のための深層学習アプローチ

Deep Learning Approach to Diabetic Retinopathy Detection ( http://arxiv.org/abs/2003.02261v1 )

ライセンス: Link先を確認
Borys Tymchenko, Philip Marchenko and Dmitry Spodarets(参考訳) 糖尿病網膜症は糖尿病の最も危険な合併症の1つである。 重要な課題の1つは早期発見であり、治療の成功にとって非常に重要である。 残念ながら、糖尿病網膜症ステージの正確な同定はトリッキーで、基礎画像の人間による解釈を必要とする。 検出ステップの簡略化は不可欠であり、何百万人もの人に役立つ。 convolutional neural networks (cnn) は糖尿病網膜症自体の診断に有用である。 しかし、大きなラベル付きデータセットの高コストと、異なる医師間の不整合は、これらの手法の性能を阻害する。 本稿では,ヒトの眼底写真による糖尿病網膜症のステージ検出のための,ディープラーニングによる自動検出手法を提案する。 さらに,ラベルの異なる類似したデータセットを利用するトランスファー学習の多段階的アプローチを提案する。 本方法は, 感度と特異度が0.99の糖尿病網膜症の早期発見のためのスクリーニング法として用いることができ, aptos 2019 blindness detection dataset (13000イメージ) において, 2943 の競合法 (quadratic weighted kappa score of 0.925466) のうち54 位にランクされる。

Diabetic retinopathy is one of the most threatening complications of diabetes that leads to permanent blindness if left untreated. One of the essential challenges is early detection, which is very important for treatment success. Unfortunately, the exact identification of the diabetic retinopathy stage is notoriously tricky and requires expert human interpretation of fundus images. Simplification of the detection step is crucial and can help millions of people. Convolutional neural networks (CNN) have been successfully applied in many adjacent subjects, and for diagnosis of diabetic retinopathy itself. However, the high cost of big labeled datasets, as well as inconsistency between different doctors, impede the performance of these methods. In this paper, we propose an automatic deep-learning-based method for stage detection of diabetic retinopathy by single photography of the human fundus. Additionally, we propose the multistage approach to transfer learning, which makes use of similar datasets with different labeling. The presented method can be used as a screening method for early detection of diabetic retinopathy with sensitivity and specificity of 0.99 and is ranked 54 of 2943 competing methods (quadratic weighted kappa score of 0.925466) on APTOS 2019 Blindness Detection Dataset (13000 images).
翻訳日:2022-12-26 22:18:41 公開日:2020-03-03
# 動的高調波探索に基づくCBC指標による鉄欠乏性貧血とB-サラセミアの識別の新しいメタヒューリスティックモデル

Novel Meta-Heuristic Model for Discrimination between Iron Deficiency Anemia and B-Thalassemia with CBC Indices Based on Dynamic Harmony Search ( http://arxiv.org/abs/2004.00480v1 )

ライセンス: Link先を確認
Sultan Noman Qasem and Amir Mosavi(参考訳) 近年では、タラス血症スクリーニングや鉄欠乏性貧血(IDA)の予測など、さまざまな医学目的の貧血分類に注目が向けられている。 本研究では, IDA と \b{eta}-thalassemia trait (\b{eta}-TT) の鑑別試験に成功した。 この手法は動的調和探索 (Dynamic Harmony Search, DHS) に基づいている。 システム入力には、迅速で安価な実験室試験である完全血液計(CBC)が用いられる。 非線形関数フィッティング(stroganoff)、ニューラルネットワーク(ann)、適応型ニューロファジー推論システム(anfis)、サポートベクターマシン(svm)、k-nearest neighbor(knn)、ある種の伝統的な手法における遺伝的アルゴリズムの構造化表現(structured representation on genetic algorithm in non-linear function fitting、stroganoff)と呼ばれる他のモデルと比較する。

In recent decades, attention has been directed at anemia classification for various medical purposes, such as thalassemia screening and predicting iron deficiency anemia (IDA). In this study, a new method has been successfully tested for discrimination between IDA and \b{eta}-thalassemia trait (\b{eta}-TT). The method is based on a Dynamic Harmony Search (DHS). Complete blood count (CBC), a fast and inexpensive laboratory test, is used as the input of the system. Other models, such as a genetic programming method called structured representation on genetic algorithm in non-linear function fitting (STROGANOFF), an artificial neural network (ANN), an adaptive neuro-fuzzy inference system (ANFIS), a support vector machine (SVM), k-nearest neighbor (KNN), and certain traditional methods, are compared with the proposed method.
翻訳日:2022-12-26 22:18:19 公開日:2020-03-03
# deepsperm:密集した精液ビデオにおける強固でリアルタイムな牛精子細胞検出

DeepSperm: A robust and real-time bull sperm-cell detection in densely populated semen videos ( http://arxiv.org/abs/2003.01395v1 )

ライセンス: Link先を確認
Priyanto Hidayatullah, Xueting Wang, Toshihiko Yamasaki, Tati L.E.R. Mengko, Rinaldi Munir, Anggraini Barlian, Eros Sukmawati, Supraptono Supraptono(参考訳) 背景と対象: 物体検出はコンピュータビジョンの主要な研究分野である。 密集した牛精液観察ビデオにおける精子細胞の検出は、部分的閉塞、単一のビデオフレーム内の膨大な数の物体、物体のサイズ、人工物、低コントラスト、そして精子細胞の急速な移動のためにぼやけた物体などの課題を示している。 本研究では,前述の課題を解決し,最先端アーキテクチャよりも正確かつ高速なアーキテクチャであるdeepspermを提案する。 メソッド:提案したアーキテクチャでは、小さなオブジェクト検出に特有の1つの検出層のみを使用します。 オーバーフィッティング処理と精度向上のために,ネットワーク解像度を高く設定し,ドロップアウト層を使用し,色調,彩度,露出に関するデータ拡張を行う。 いくつかのハイパーパラメータは、より良いパフォーマンスを達成するために調整される。 提案手法を従来の画像処理に基づく物体検出法と比較し,1回だけ(YOLOv3)とマスク領域に基づく畳み込みニューラルネットワーク(Mask R-CNN)を比較した。 結果: 実験では, テストデータセット上で86.91 mAP, 処理速度50.3 fpsを達成した。 YOLOv3と比較して、テストでは16.66 mAPポイント、テストでは3.26倍高速、トレーニングでは40の動画フレームを含む小さなトレーニングデータセットで1.4倍高速となる。 ファイルサイズも大幅に縮小され、YOLOv3より16.94x小さくなった。 さらに、YOLOv3よりも1.3倍少ないグラフィカル処理ユニット(GPU)メモリを必要とする。 結論:本研究は、牛精子をリアルタイムで堅牢に検出するハイパーパラメータと構成を備えた、シンプルで効果的で効率的なアーキテクチャであるDeepSpermを提案する。 実験では,精度,速度,資源ニーズの観点から,技術の現状を超越した。

Background and Objective: Object detection is a primary research interest in computer vision. Sperm-cell detection in a densely populated bull semen microscopic observation video presents challenges such as partial occlusion, vast number of objects in a single video frame, tiny size of the object, artifacts, low contrast, and blurry objects because of the rapid movement of the sperm cells. This study proposes an architecture, called DeepSperm, that solves the aforementioned challenges and is more accurate and faster than state-of-the-art architectures. Methods: In the proposed architecture, we use only one detection layer, which is specific for small object detection. For handling overfitting and increasing accuracy, we set a higher network resolution, use a dropout layer, and perform data augmentation on hue, saturation, and exposure. Several hyper-parameters are tuned to achieve better performance. We compare our proposed method with those of a conventional image processing-based object-detection method, you only look once (YOLOv3), and mask region-based convolutional neural network (Mask R-CNN). Results: In our experiment, we achieve 86.91 mAP on the test dataset and a processing speed of 50.3 fps. In comparison with YOLOv3, we achieve an increase of 16.66 mAP point, 3.26 x faster on testing, and 1.4 x faster on training with a small training dataset, which contains 40 video frames. The weights file size was also reduced significantly, with 16.94 x smaller than that of YOLOv3. Moreover, it requires 1.3 x less graphical processing unit (GPU) memory than YOLOv3. Conclusions: This study proposes DeepSperm, which is a simple, effective, and efficient architecture with its hyper-parameters and configuration to detect bull sperm cells robustly in real time. In our experiment, we surpass the state of the art in terms of accuracy, speed, and resource needs.
翻訳日:2022-12-26 22:17:20 公開日:2020-03-03
# XAI可視化による感性予測機構の解明

Understanding the Prediction Mechanism of Sentiments by XAI Visualization ( http://arxiv.org/abs/2003.01425v1 )

ライセンス: Link先を確認
Chaehan So(参考訳) 人々はしばしば購入決定をオンラインレビューに頼っている。 本研究の目的は、オンラインホテルレビューから抽出した感情を、説明可能なAI(XAI)手法で可視化することで、機械学習モデルの予測メカニズムを理解することである。 研究1では、抽出した感情を、5つの機械学習アルゴリズム(knn、CART決定木、サポートベクターマシン、ランダムフォレスト、勾配向上マシン)によるレビュー評価を予測する機能として使用し、ランダムフォレストを最適なアルゴリズムとして同定した。 研究2では,ランダムフォレストモデルを特徴量で分析し,最も予測的な特徴として,喜び感,嫌悪感,肯定感,否定感を明らかにした。 さらに, 加法変数属性の可視化と予測分布は, 5星評価では正しい方向と効果の大きさを示したが, 1星評価では部分的に誤り, 効果サイズが不十分であった。 これらの予測の詳細は、4つのトップ機能のwhat-if分析によって裏付けられた。 結論として、機械学習モデルの予測機構は、特定の観測の可視化によって明らかにされる。 対照的な基底真理値の比較例は、予測機構の差分図を描き、モデル改善のための決定を通知することができる。

People often rely on online reviews to make purchase decisions. The present work aimed to gain an understanding of a machine learning model's prediction mechanism by visualizing the effect of sentiments extracted from online hotel reviews with explainable AI (XAI) methodology. Study 1 used the extracted sentiments as features to predict the review ratings by five machine learning algorithms (knn, CART decision trees, support vector machines, random forests, gradient boosting machines) and identified random forests as best algorithm. Study 2 analyzed the random forests model by feature importance and revealed the sentiments joy, disgust, positive and negative as the most predictive features. Furthermore, the visualization of additive variable attributions and their prediction distribution showed correct prediction in direction and effect size for the 5-star rating but partially wrong direction and insufficient effect size for the 1-star rating. These prediction details were corroborated by a what-if analysis for the four top features. In conclusion, the prediction mechanism of a machine learning model can be uncovered by visualization of particular observations. Comparing instances of contrasting ground truth values can draw a differential picture of the prediction mechanism and inform decisions for model improvement.
翻訳日:2022-12-26 22:15:30 公開日:2020-03-03
# グローバルコンテキスト予測による自己教師付きグラフ表現学習

Self-Supervised Graph Representation Learning via Global Context Prediction ( http://arxiv.org/abs/2003.01604v1 )

ライセンス: Link先を確認
Zhen Peng, Yixiang Dong, Minnan Luo, Xiao-Ming Wu, Qinghua Zheng(参考訳) 本稿では,グラフ表現学習のための新しい自己教師あり戦略を提案する。 人間の社会的行動に触発されて、各ノードのグローバルコンテキストは、連結ネットワーク内の2つの任意のエンティティが異なる長さの経路を介して相互に相互作用できるため、グラフ内のすべてのノードで構成されると仮定する。 そこで本研究では,グローバルコンテキストが有用なノード表現を学習するための,自由かつ効果的な監視信号の源となるかどうかを考察する。 具体的には、グラフ内のノードのペアをランダムに選択し、よく設計されたニューラルネットをトレーニングし、一方のノードの位置を他方と相対的に予測する。 我々の仮説は、そのようなグラフ内コンテキストから得られた表現は、グラフのグローバルなトポロジを捉え、様々な下流学習タスクに導かれるノード間の類似性と区別を微妙に特徴づける、というものである。 ノード分類,クラスタリング,リンク予測などの広範囲なベンチマーク実験により,提案手法は最先端の非教師付き手法よりも優れており,時には教師付き手法の性能を上回ることさえあることが示された。

To take full advantage of fast-growing unlabeled networked data, this paper introduces a novel self-supervised strategy for graph representation learning by exploiting natural supervision provided by the data itself. Inspired by human social behavior, we assume that the global context of each node is composed of all nodes in the graph since two arbitrary entities in a connected network could interact with each other via paths of varying length. Based on this, we investigate whether the global context can be a source of free and effective supervisory signals for learning useful node representations. Specifically, we randomly select pairs of nodes in a graph and train a well-designed neural net to predict the contextual position of one node relative to the other. Our underlying hypothesis is that the representations learned from such within-graph context would capture the global topology of the graph and finely characterize the similarity and differentiation between nodes, which is conducive to various downstream learning tasks. Extensive benchmark experiments including node classification, clustering, and link prediction demonstrate that our approach outperforms many state-of-the-art unsupervised methods and sometimes even exceeds the performance of supervised counterparts.
翻訳日:2022-12-26 22:09:29 公開日:2020-03-03
# データからハイパーパラメータへのマッピング発見に基づくハイパーパラメータの自動最適化

Automatic Hyper-Parameter Optimization Based on Mapping Discovery from Data to Hyper-Parameters ( http://arxiv.org/abs/2003.01751v1 )

ライセンス: Link先を確認
Bozhou Chen, Kaixin Zhang, Longshen Ou, Chenmin Ba, Hongzhi Wang and Chunnan Wang (Habin Institute of Technology)(参考訳) 機械学習アルゴリズムは人工知能の分野で大きな成果を上げている。 しかし、ほとんどの機械学習アルゴリズムはハイパーパラメータに敏感である。 ハイパーパラメータの手動最適化は、ハイパーパラメータチューニングの一般的な方法である。 しかし、高価で経験的に依存している。 自動過パラメータ最適化(autoHPO)はその有効性から好まれる。 しかし、現在のautoHPO法は特定の問題に対してのみ有効であり、時間的コストが高い。 本稿では,データから対応するハイパーパラメータへのマッピングに基づく,効率的な自動パラメータ最適化手法を提案する。 このようなマッピングを説明するために,我々は高度なネットワーク構造を提案する。 このようなマッピングを得るために,効率的なネットワーク構成アルゴリズムを開発した。 また、マッピングの適用中に結果を最適化するための戦略も設計します。 大規模な実験結果から,提案手法は最先端のアポラッチを大きく上回った。

Machine learning algorithms have made remarkable achievements in the field of artificial intelligence. However, most machine learning algorithms are sensitive to the hyper-parameters. Manually optimizing the hyper-parameters is a common method of hyper-parameter tuning. However, it is costly and empirically dependent. Automatic hyper-parameter optimization (autoHPO) is favored due to its effectiveness. However, current autoHPO methods are usually only effective for a certain type of problems, and the time cost is high. In this paper, we propose an efficient automatic parameter optimization approach, which is based on the mapping from data to the corresponding hyper-parameters. To describe such mapping, we propose a sophisticated network structure. To obtain such mapping, we develop effective network constrution algorithms. We also design strategy to optimize the result futher during the application of the mapping. Extensive experimental results demonstrate that the proposed approaches outperform the state-of-the-art apporaches significantly.
翻訳日:2022-12-26 22:07:48 公開日:2020-03-03
# 深層環境を考慮した移動行動認識と未知コンテキスト発見のための不確実性定量化

Uncertainty Quantification for Deep Context-Aware Mobile Activity Recognition and Unknown Context Discovery ( http://arxiv.org/abs/2003.01753v1 )

ライセンス: Link先を確認
Zepeng Huo, Arash PakBin, Xiaohan Chen, Nathan Hurley, Ye Yuan, Xiaoning Qian, Zhangyang Wang, Shuai Huang, Bobak Mortazavi(参考訳) ウェアラブルコンピューティングにおけるアクティビティ認識には2つの課題がある。 一 活動特性は、状況に依存して、異なる状況又は状況において変化することができる。 二 未知の文脈及び活動は、たまに発生し、そのアルゴリズムの柔軟性及び適応性を必要とする。 我々は,人間の活動認識性能を高めるために,最大エントロピーに基づく不確実性定量化(UQ)と組み合わさったディープモデルのコンテキスト認識混合を開発する。 データ駆動型モデル開発における高レベルのコンテキストを特定し,精度とFスコアを10%向上させる。 トレーニングの安定性を確保するため、パブリックデータセットと社内データセットの両方でクラスタリングベースの事前トレーニングを行い、未知のコンテキスト発見による精度の向上を実証した。

Activity recognition in wearable computing faces two key challenges: i) activity characteristics may be context-dependent and change under different contexts or situations; ii) unknown contexts and activities may occur from time to time, requiring flexibility and adaptability of the algorithm. We develop a context-aware mixture of deep models termed the {\alpha}-\b{eta} network coupled with uncertainty quantification (UQ) based upon maximum entropy to enhance human activity recognition performance. We improve accuracy and F score by 10% by identifying high-level contexts in a data-driven way to guide model development. In order to ensure training stability, we have used a clustering-based pre-training in both public and in-house datasets, demonstrating improved accuracy through unknown context discovery.
翻訳日:2022-12-26 22:07:38 公開日:2020-03-03
# FLAME:不均一なモバイルプロセッサのための自己適応型自動ラベルシステム

FLAME: A Self-Adaptive Auto-labeling System for Heterogeneous Mobile Processors ( http://arxiv.org/abs/2003.01762v1 )

ライセンス: Link先を確認
Jie Liu, Jiawen Liu, Zhen Xie, Dong Li(参考訳) モバイルデバイス上でデータを正確かつ効率的にラベル付けする方法は、モバイルデバイス上で機械学習モデルをトレーニングする成功に不可欠である。 通常、データは徐々に生成され、未知のラベルを持つ可能性があるため、モバイルデバイス上のデータの自動ラベル付けは困難である。 さらに、モバイルデバイス上のリッチなハードウェアの不均一性は、自動ラベリングワークロードを効率的に実行する上での課題を生み出します。 本稿では,非定常データを未知のラベルでラベル付けできる自動ラベル付けシステムであるFlameを紹介する。 flameには、ヘテロジニアスなモバイルプロセッサ上で自動ラベル処理を効率的にスケジュールし実行するランタイムシステムが含まれている。 スマートフォン上で8つのデータセットでFlameを評価することで、高いラベル付け精度と高いパフォーマンスで自動ラベル付けを可能にすることを示す。

How to accurately and efficiently label data on a mobile device is critical for the success of training machine learning models on mobile devices. Auto-labeling data on mobile devices is challenging, because data is usually incrementally generated and there is possibility of having unknown labels. Furthermore, the rich hardware heterogeneity on mobile devices creates challenges on efficiently executing auto-labeling workloads. In this paper, we introduce Flame, an auto-labeling system that can label non-stationary data with unknown labels. Flame includes a runtime system that efficiently schedules and executes auto-labeling workloads on heterogeneous mobile processors. Evaluating Flame with eight datasets on a smartphone, we demonstrate that Flame enables auto-labeling with high labeling accuracy and high performance.
翻訳日:2022-12-26 22:07:23 公開日:2020-03-03
# 高次元における残差検定を用いたサンプル外予測誤差の推定における誤差境界

Error bounds in estimating the out-of-sample prediction error using leave-one-out cross validation in high-dimensions ( http://arxiv.org/abs/2003.01770v1 )

ライセンス: Link先を確認
Kamiar Rahnama Rad and Wenda Zhou and Arian Maleki(参考訳) 我々は,サンプルサイズ$n$ と機能数 $p$ の両方が大きく,かつ $n/p$ が 1 未満であるような高次元環境において,サンプル外リスク推定の問題を考察する。 広範囲な実証的証拠は、サンプル外リスク推定のためのremove-one-out cross validation(lo)の正確性を確認する。 しかし、高次元問題におけるLOの精度の統一理論的評価は未解決の問題のままである。 本稿では,一般化線形族におけるペナル化回帰のギャップを埋めることを目的とする。 データ生成過程に関する小さな仮定と回帰係数に関するスパース性仮定を伴わずに、我々の理論解析は、サンプル外誤差を推定する際のLOの期待二乗誤差に関する有限サンプル上限を求める。 我々の境界は、この誤差が、特徴ベクトルの次元$p$がサンプルサイズ$n$より大きい場合でも、$n,p \rightarrow \infty$としてゼロになることを示している。 この理論の技術的利点の1つは、スケーラブルな近似loに関する最近の文献からいくつかの結果を明確化し、結びつけることができることである。

We study the problem of out-of-sample risk estimation in the high dimensional regime where both the sample size $n$ and number of features $p$ are large, and $n/p$ can be less than one. Extensive empirical evidence confirms the accuracy of leave-one-out cross validation (LO) for out-of-sample risk estimation. Yet, a unifying theoretical evaluation of the accuracy of LO in high-dimensional problems has remained an open problem. This paper aims to fill this gap for penalized regression in the generalized linear family. With minor assumptions about the data generating process, and without any sparsity assumptions on the regression coefficients, our theoretical analysis obtains finite sample upper bounds on the expected squared error of LO in estimating the out-of-sample error. Our bounds show that the error goes to zero as $n,p \rightarrow \infty$, even when the dimension $p$ of the feature vectors is comparable with or greater than the sample size $n$. One technical advantage of the theory is that it can be used to clarify and connect some results from the recent literature on scalable approximate LO.
翻訳日:2022-12-26 22:07:09 公開日:2020-03-03
# DETECT: 移動行動分析のための深部軌道クラスタリング

DETECT: Deep Trajectory Clustering for Mobility-Behavior Analysis ( http://arxiv.org/abs/2003.01351v1 )

ライセンス: Link先を確認
Mingxuan Yue, Yaguang Li, Haoze Yang, Ritesh Ahuja, Yao-Yi Chiang, Cyrus Shahabi(参考訳) 豊かな軌跡データにおける移動行動の同定は、都市計画、マーケティング、インテリジェンスなど様々な用途において経済的、社会的に大きな関心を持つ。 軌道クラスタリングに関する既存の研究は、しばしば軌道の生の空間的および/または時間的情報を利用する類似度測定に依存している。 これらの測定は、時空間の異なる動き尺度を示す同様の動きの挙動を識別することができない。 さらに、大量の軌道データをラベル付けする費用は、教師あり学習モデルの障壁となる。 これらの課題に対処するために,Deep Embedded TrajEctory ClusTering Network (DETECT) と呼ばれる,移動行動クラスタリングのための教師なしニューラルネットワークを提案する。 DETECTは3つの部分で機能する: まず、重要な部分を要約し、地理的局所性(例えば、ガゼッタのPOIを使用して)から派生した文脈で拡張することで軌道を変換する。 第2部では、潜在的な動作空間における軌道の強力な表現を学習し、クラスタ関数($k$-means など)を適用可能にする。 最後に、クラスタリング指向の損失が組み込み機能に直接組み込まれ、機能改善とクラスタ割り当てを共同で行うことにより、モビリティ動作間の分離性が向上する。 実世界の2つのデータセットの定量的および定性的実験により,移動行動解析における我々のアプローチの有効性が示された。

Identifying mobility behaviors in rich trajectory data is of great economic and social interest to various applications including urban planning, marketing and intelligence. Existing work on trajectory clustering often relies on similarity measurements that utilize raw spatial and/or temporal information of trajectories. These measures are incapable of identifying similar moving behaviors that exhibit varying spatio-temporal scales of movement. In addition, the expense of labeling massive trajectory data is a barrier to supervised learning models. To address these challenges, we propose an unsupervised neural approach for mobility behavior clustering, called the Deep Embedded TrajEctory ClusTering network (DETECT). DETECT operates in three parts: first it transforms the trajectories by summarizing their critical parts and augmenting them with context derived from their geographical locality (e.g., using POIs from gazetteers). In the second part, it learns a powerful representation of trajectories in the latent space of behaviors, thus enabling a clustering function (such as $k$-means) to be applied. Finally, a clustering oriented loss is directly built on the embedded features to jointly perform feature refinement and cluster assignment, thus improving separability between mobility behaviors. Exhaustive quantitative and qualitative experiments on two real-world datasets demonstrate the effectiveness of our approach for mobility behavior analyses.
翻訳日:2022-12-26 22:00:01 公開日:2020-03-03
# インターネット広告キャンペーンにおけるオンライン共同予算最適化

Online Joint Bid/Daily Budget Optimization of Internet Advertising Campaigns ( http://arxiv.org/abs/2003.01452v1 )

ライセンス: Link先を確認
Alessandro Nuara, Francesco Trov\`o, Nicola Gatti and Marcello Restelli(参考訳) ペイ・パー・クリック広告には様々なフォーマット(例えば、検索、コンテクスト、ソーシャル)が含まれ、全世界で年間2000億米ドル以上を投資している。 広告主には、広告、ターゲット、チャンネルを主に区別する、数千、数千以上のキャンペーンを割り当てる日々の予算が与えられる。 さらに、パブリッシャーは、広告の表示方法とオークションの仕組みを用いて、広告主が各キャンペーンに毎日設定する入札方法を選択し、支払いたいクリックあたりの最大金額と、投資する日々の予算のごく一部に対応する。 本稿では,複数チャンネルにわたるクリック単価広告キャンペーンのオンライン共同入札/デイリー予算最適化の自動化に関する課題について検討する。 我々は、この問題を組合せ半帯域問題として定式化し、これは毎日、多重ホイス・クナプサック問題の特別なケースを解く必要がある。 さらに,各キャンペーンにおいて,ガウス的プロセスによる入札数と日々の予算の依存性を把握し,これらの機能の規則性に対する軽度な仮定を要求できる。 我々は4つのアルゴリズムを設計し、Tが学習過程の時間的地平線であるO(sqrt{T})として高い確率で上限付けられた後悔に苦しむことを示す。 我々は,Yahoo!の実際のデータから生成した合成セッティングを用いて,我々のアルゴリズムを実験的に評価し,本アルゴリズムを実世界のアプリケーションに導入した結果を1年以上にわたって平均1000ユーロで評価した。

Pay-per-click advertising includes various formats (\emph{e.g.}, search, contextual, social) with a total investment of more than 200 billion USD per year worldwide. An advertiser is given a daily budget to allocate over several, even thousands, campaigns, mainly distinguishing for the ad, target, or channel. Furthermore, publishers choose the ads to display and how to allocate them employing auctioning mechanisms, in which every day the advertisers set for each campaign a bid corresponding to the maximum amount of money per click they are willing to pay and the fraction of the daily budget to invest. In this paper, we study the problem of automating the online joint bid/daily budget optimization of pay-per-click advertising campaigns over multiple channels. We formulate our problem as a combinatorial semi-bandit problem, which requires solving a special case of the Multiple-Choice Knapsack problem every day. Furthermore, for every campaign, we capture the dependency of the number of clicks on the bid and daily budget by Gaussian Processes, thus requiring mild assumptions on the regularity of these functions. We design four algorithms and show that they suffer from a regret that is upper bounded with high probability as O(sqrt{T}), where T is the time horizon of the learning process. We experimentally evaluate our algorithms with synthetic settings generated from real data from Yahoo!, and we present the results of the adoption of our algorithms in a real-world application with a daily average spent of 1,000 Euros for more than one year.
翻訳日:2022-12-26 21:59:07 公開日:2020-03-03
# 異なる因果的バックドア発見

Differentiable Causal Backdoor Discovery ( http://arxiv.org/abs/2003.01461v1 )

ライセンス: Link先を確認
Limor Gultchin, Matt J. Kusner, Varun Kanade, Ricardo Silva(参考訳) 意思決定の因果効果を発見することは、ほぼすべての形態の意思決定に不可欠である。 特に、医薬品開発、政府の政策構築、現実世界の機械学習システムの実装において重要な量である。 観察データだけを考えると、共同設立者はしばしば真の因果効果を曖昧にする。 幸運なことに、ある観測変数を用いて共同創設者の効果を調整することにより因果効果を回復できる場合もある。 しかし、真の因果モデルにアクセスできなければ、この調整を見つけるにはブルートフォース探索が必要である。 本稿では,勾配に基づく最適化手法による適切な調整を求めるために,楽器と同様の補助変数を利用するアルゴリズムを提案する。 完全な因果グラフを知らずに、真の因果効果を推定する実践的な代替案を上回ることを実証する。

Discovering the causal effect of a decision is critical to nearly all forms of decision-making. In particular, it is a key quantity in drug development, in crafting government policy, and when implementing a real-world machine learning system. Given only observational data, confounders often obscure the true causal effect. Luckily, in some cases, it is possible to recover the causal effect by using certain observed variables to adjust for the effects of confounders. However, without access to the true causal model, finding this adjustment requires brute-force search. In this work, we present an algorithm that exploits auxiliary variables, similar to instruments, in order to find an appropriate adjustment by a gradient-based optimization method. We demonstrate that it outperforms practical alternatives in estimating the true causal effect, without knowledge of the full causal graph.
翻訳日:2022-12-26 21:58:38 公開日:2020-03-03
# 中期負荷予測のためのパターン類似性に基づく機械学習手法の比較研究

Pattern Similarity-based Machine Learning Methods for Mid-term Load Forecasting: A Comparative Study ( http://arxiv.org/abs/2003.01475v1 )

ライセンス: Link先を確認
Grzegorz Dudek, Pawe{\l} Pe{\l}ka(参考訳) パターン類似性に基づく手法は分類や回帰問題で広く使われている。 季節の時系列で観測される類似した周期は、予測にこれらの方法を適用することを奨励する。 本稿では,季節性を表す毎月の電力需要予測のためのパターン類似性に基づく手法を提案する。 モデルの不可欠な部分は、時系列シーケンスのパターンを用いた時系列表現である。 パターン表現は、トレンドフィルタリングと分散等化による入出力データの統一を保証する。 その結果、パターン表現は予測問題を単純化し、パターン類似性に基づいたモデルの使用を可能にする。 近距離近傍モデル,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークの4つのモデルを検討した。 回帰関数は、入力パターン間の類似度に依存する重みを持つ集約出力パターンによって構成される。 提案モデルの利点は、演算の明確な原理、最適化手順の調整のための少数のパラメータ、最適化能力の向上、再学習なしに最新のデータに取り組むこと、入力変数の欠如に対する堅牢性、出力としてベクトルを生成することである。 実験で提案されたモデルは、欧州35カ国の毎月の需要予測に使用された。 モデル性能は、ARIMAのような古典モデルの性能と指数的滑らか化、および多層パーセプトロン、ニューロファジィシステム、長期記憶モデルといった最先端モデルと比較した。 その結果,提案モデルの精度,簡易性,最適化の容易さにおいて,比較モデルに匹敵する性能が得られた。

Pattern similarity-based methods are widely used in classification and regression problems. Repeated, similar-shaped cycles observed in seasonal time series encourage to apply these methods for forecasting. In this paper we use the pattern similarity-based methods for forecasting monthly electricity demand expressing annual seasonality. An integral part of the models is the time series representation using patterns of time series sequences. Pattern representation ensures the input and output data unification through trend filtering and variance equalization. Consequently, pattern representation simplifies the forecasting problem and allows us to use models based on pattern similarity. We consider four such models: nearest neighbor model, fuzzy neighborhood model, kernel regression model and general regression neural network. A regression function is constructed by aggregation output patterns with weights dependent on the similarity between input patterns. The advantages of the proposed models are: clear principle of operation, small number of parameters to adjust, fast optimization procedure, good generalization ability, working on the newest data without retraining, robustness to missing input variables, and generating a vector as an output. In the experimental part of the work the proposed models were used to forecasting the monthly demand for 35 European countries. The model performances were compared with the performances of the classical models such as ARIMA and exponential smoothing as well as state-of-the-art models such as multilayer perceptron, neuro-fuzzy system and long short-term memory model. The results show high performance of the proposed models which outperform the comparative models in accuracy, simplicity and ease of optimization.
翻訳日:2022-12-26 21:58:28 公開日:2020-03-03
# ランダム化平滑化防御における精度損失の解析

Analyzing Accuracy Loss in Randomized Smoothing Defenses ( http://arxiv.org/abs/2003.01595v1 )

ライセンス: Link先を確認
Yue Gao, Harrison Rosenberg, Kassem Fawaz, Somesh Jha, Justin Hsu(参考訳) 機械学習(ML)アルゴリズム、特にディープニューラルネットワーク(DNN)の最近の進歩は、顔や音声認識を含むいくつかのタスクにおいて顕著な成功(時には人間レベルのパフォーマンスを超える)を見せている。 しかし、MLアルゴリズムはテスト時間、トレーニング時間、バックドアアタックのような \emph{adversarial attack} に対して脆弱である。 テストタイムアタックでは、敵対的な工芸者は、入力例に追加されると機械学習モデルに与えられた入力例の誤分類を強制する、人間に知覚できない摂動を特殊に作っている。 敵の例は、情報セキュリティや自動運転など、MLアルゴリズムを重要なコンテキストにデプロイする際の懸念点である。 研究者たちは多数の防御策を講じた。 有望な防御の一つは \emph{randomized smoothing} であり、分類したい入力例にランダムノイズを追加して分類器の予測を平滑化させる。 本稿では,ランダムな平滑化を理論的・実験的に検討する。 本研究では,ランダム化平滑化が実現可能な仮説空間に与える影響について検討し,ノイズレベルによっては平滑化によって実現可能な縮小となる仮説の集合が平滑化後に自然精度が低下する理由の一つを示す。 そこで本研究では,ノイズの正確な分布など,特定の特徴を抽象化するランダムな平滑化モデルを提案する。 我々は理論結果を広範な実験で補完する。

Recent advances in machine learning (ML) algorithms, especially deep neural networks (DNNs), have demonstrated remarkable success (sometimes exceeding human-level performance) on several tasks, including face and speech recognition. However, ML algorithms are vulnerable to \emph{adversarial attacks}, such test-time, training-time, and backdoor attacks. In test-time attacks an adversary crafts adversarial examples, which are specially crafted perturbations imperceptible to humans which, when added to an input example, force a machine learning model to misclassify the given input example. Adversarial examples are a concern when deploying ML algorithms in critical contexts, such as information security and autonomous driving. Researchers have responded with a plethora of defenses. One promising defense is \emph{randomized smoothing} in which a classifier's prediction is smoothed by adding random noise to the input example we wish to classify. In this paper, we theoretically and empirically explore randomized smoothing. We investigate the effect of randomized smoothing on the feasible hypotheses space, and show that for some noise levels the set of hypotheses which are feasible shrinks due to smoothing, giving one reason why the natural accuracy drops after smoothing. To perform our analysis, we introduce a model for randomized smoothing which abstracts away specifics, such as the exact distribution of the noise. We complement our theoretical results with extensive experiments.
翻訳日:2022-12-26 21:58:00 公開日:2020-03-03
# VQ-DRAW:シークエンシャルディスクVAE

VQ-DRAW: A Sequential Discrete VAE ( http://arxiv.org/abs/2003.01599v1 )

ライセンス: Link先を確認
Alex Nichol(参考訳) 本稿では,データの離散表現を学習するアルゴリズムであるVQ-DRAWを提案する。 VQ-DRAWはベクトル量子化効果を利用して、DRAWの逐次生成スキームを離散潜在変数に適応させる。 VQ-DRAWは、様々な共通データセットから画像の圧縮を効果的に学べるだけでなく、これらのデータセットからリアルなサンプルを生成することができる。

In this paper, I present VQ-DRAW, an algorithm for learning compact discrete representations of data. VQ-DRAW leverages a vector quantization effect to adapt the sequential generation scheme of DRAW to discrete latent variables. I show that VQ-DRAW can effectively learn to compress images from a variety of common datasets, as well as generate realistic samples from these datasets with no help from an autoregressive prior.
翻訳日:2022-12-26 21:57:36 公開日:2020-03-03
# 密度マップを用いたドローンによる高密度群衆の検出と監視

Dense Crowds Detection and Surveillance with Drones using Density Maps ( http://arxiv.org/abs/2003.08766v1 )

ライセンス: Link先を確認
Javier Gonzalez-Trejo, Diego Mercado-Ravell(参考訳) 移動中のドローンから人の群衆を検知し、カウントすることは、画像の視点やカメラの角度が一定に変化することから生じる問題である。 本稿では,ベイズ損失関数で訓練されたvgg19による密度マップ生成と,resnet50-fpnをバックボーンとするfasterrcnnによる検出-then-countの2つの手法をテストし,ドローン飛行で異なるシナリオの人物を計測・検出するための精度の比較を行った。 本研究では,両手法が地上付近の群集において特に有意な検出・カウントを行うことを示す。 しかしながら、VGG19はFasterRCNNよりも軽量でありながら、両方のタスクでより良い精度を提供する。 さらに、vgg19は、密集した群衆による死亡時のrcnnよりも高速で、より堅牢なトスケールのバリエーションと強い閉塞性を示し、ドローンを用いた監視用途に適している。

Detecting and Counting people in a human crowd from a moving drone present challenging problems that arisefrom the constant changing in the image perspective andcamera angle. In this paper, we test two different state-of-the-art approaches, density map generation with VGG19 trainedwith the Bayes loss function and detect-then-count with FasterRCNN with ResNet50-FPN as backbone, in order to comparetheir precision for counting and detecting people in differentreal scenarios taken from a drone flight. We show empiricallythat both proposed methodologies perform especially well fordetecting and counting people in sparse crowds when thedrone is near the ground. Nevertheless, VGG19 provides betterprecision on both tasks while also being lighter than FasterRCNN. Furthermore, VGG19 outperforms Faster RCNN whendealing with dense crowds, proving to be more robust toscale variations and strong occlusions, being more suitable forsurveillance applications using drones
翻訳日:2022-12-26 21:51:10 公開日:2020-03-03
# adwpnas: ニューラルアーキテクチャ探索のためのアーキテクチャ駆動重量予測

ADWPNAS: Architecture-Driven Weight Prediction for Neural Architecture Search ( http://arxiv.org/abs/2003.01335v1 )

ライセンス: Link先を確認
XuZhang, ChenjunZhou, BoGu(参考訳) モデルの真の強みを迅速かつ正確に発見し評価する方法は、neural architecture search(nas)の重要な課題の1つだ。 この問題に対処するために,ニューラルアーキテクチャ探索(NAS)のためのアーキテクチャ駆動重み予測(ADWP)アプローチを提案する。 提案手法では,まずアーキテクチャ集約型検索空間を設計し,次に確率的符号化アーキテクチャパラメータを入力してHyperNetworkを訓練する。 訓練されたハイパーネットワークでは、畳み込み核の重み付けは探索空間のニューラルネットワークに対してよく予測できる。 その結果、ターゲットアーキテクチャは微調整なしで効率よく評価できるため、macro-search (macro-search) の探索が可能となる。 実実験により,提案するad-wpnasによるモデルの性能評価を行い,cifar-10では4.0gpu時間で1つの探索手続きを完了できることを示した。 さらに,既存のモデルよりも優れたパラメータが1.52Mしかない場合,2.41%の試験誤差が得られた。

How to discover and evaluate the true strength of models quickly and accurately is one of the key challenges in Neural Architecture Search (NAS). To cope with this problem, we propose an Architecture-Driven Weight Prediction (ADWP) approach for neural architecture search (NAS). In our approach, we first design an architecture-intensive search space and then train a HyperNetwork by inputting stochastic encoding architecture parameters. In the trained HyperNetwork, weights of convolution kernels can be well predicted for neural architectures in the search space. Consequently, the target architectures can be evaluated efficiently without any finetuning, thus enabling us to search fortheoptimalarchitectureinthespaceofgeneralnetworks (macro-search). Through real experiments, we evaluate the performance of the models discovered by the proposed AD-WPNAS and results show that one search procedure can be completed in 4.0 GPU hours on CIFAR-10. Moreover, the discovered model obtains a test error of 2.41% with only 1.52M parameters which is superior to the best existing models.
翻訳日:2022-12-26 21:50:51 公開日:2020-03-03
# 階層的コンテキスト拡張マルチドメイン対話システムによるマルチドメインタスク補完

Hierarchical Context Enhanced Multi-Domain Dialogue System for Multi-domain Task Completion ( http://arxiv.org/abs/2003.01338v1 )

ライセンス: Link先を確認
Jingyuan Yang, Guang Liu, Yuzhao Mao, Zhiwei Zhao, Weiguo Gao, Xuan Li, Haiqin Yang, Jianping Shen(参考訳) dstc8-track1チャレンジのタスク1は、観光情報デスクの設定下で複雑なユーザの目標を達成するためにエンドツーエンドのマルチドメイン対話システムを開発することを目的としている。 本稿では,提案手法である階層型文脈拡張対話システム(HCEDS)について述べる。 本システムの主な動機は,複雑な対話を十分に理解するための階層的文脈の可能性を包括的に探求することである。 具体的には、BERTを用いてトークンレベルの情報をキャプチャし、アテンションメカニズムを用いて文レベルの情報をキャプチャする。 その結果,本システムは自動評価において第1位,人的評価では第2位となることがわかった。

Task 1 of the DSTC8-track1 challenge aims to develop an end-to-end multi-domain dialogue system to accomplish complex users' goals under tourist information desk settings. This paper describes our submitted solution, Hierarchical Context Enhanced Dialogue System (HCEDS), for this task. The main motivation of our system is to comprehensively explore the potential of hierarchical context for sufficiently understanding complex dialogues. More specifically, we apply BERT to capture token-level information and employ the attention mechanism to capture sentence-level information. The results listed in the leaderboard show that our system achieves first place in automatic evaluation and the second place in human evaluation.
翻訳日:2022-12-26 21:50:33 公開日:2020-03-03
# urduテキスト文書分類のための機械学習と深層学習に基づく手法のベンチマーク性能

Benchmark Performance of Machine And Deep Learning Based Methodologies for Urdu Text Document Classification ( http://arxiv.org/abs/2003.01345v1 )

ライセンス: Link先を確認
Muhammad Nabeel Asim, Muhammad Usman Ghani, Muhammad Ali Ibrahim, Sheraz Ahmad, Waqar Mahmood, Andreas Dengel(参考訳) Urduテキスト文書分類のためのベンチマーク性能を提供するため,本論文の貢献は多様体である。 まず、手動で6つのクラスにタグ付けされた公開ベンチマークデータセットをプロビデントする。 第2に、他の言語で広く使われている10のフィルタに基づく特徴選択アルゴリズムを組み込むことにより、従来の機械学習に基づくurduテキスト文書分類手法の性能への影響について検討する。 第三に、ウルドゥのテキスト文書分類のための様々なディープラーニングベースの方法論のパフォーマンスを初めて取り上げている。 そこで本研究では,英語テキストの分類に最適な性能指標を導出する10の深層学習分類手法を提案する。 第4に,ウルドゥー語のトランスフォーマーアプローチによる双方向エンコーダ表現を活用し,トランスファー学習の性能への影響についても検討した。 第5に、従来の機械学習ベースの機能エンジニアリングとディープラーニングベースの自動機能エンジニアリングを組み合わせたハイブリッドアプローチの完全性を評価する。 実験の結果,2つのクローズドソースベンチマークデータセット cle urdu digest 1000k と cle urdu digest 1million をそれぞれ32%,サポートベクターマシンと共に正規化 dif-ference measure と名づける特徴選択手法が,それぞれ 13% のマージン率で達成された。 通常のDiffer-ence Measureは他のフィルタベースの特徴選択アルゴリズムよりも優れており、採用されている機械学習、ディープラーニング、ハイブリッドアプローチのパフォーマンスを大幅に向上させる。 ソースコードとデータセットはGithubリポジトリで公開されている。

In order to provide benchmark performance for Urdu text document classification, the contribution of this paper is manifold. First, it pro-vides a publicly available benchmark dataset manually tagged against 6 classes. Second, it investigates the performance impact of traditional machine learning based Urdu text document classification methodologies by embedding 10 filter-based feature selection algorithms which have been widely used for other languages. Third, for the very first time, it as-sesses the performance of various deep learning based methodologies for Urdu text document classification. In this regard, for experimentation, we adapt 10 deep learning classification methodologies which have pro-duced best performance figures for English text classification. Fourth, it also investigates the performance impact of transfer learning by utiliz-ing Bidirectional Encoder Representations from Transformers approach for Urdu language. Fifth, it evaluates the integrity of a hybrid approach which combines traditional machine learning based feature engineering and deep learning based automated feature engineering. Experimental results show that feature selection approach named as Normalised Dif-ference Measure along with Support Vector Machine outshines state-of-the-art performance on two closed source benchmark datasets CLE Urdu Digest 1000k, and CLE Urdu Digest 1Million with a significant margin of 32%, and 13% respectively. Across all three datasets, Normalised Differ-ence Measure outperforms other filter based feature selection algorithms as it significantly uplifts the performance of all adopted machine learning, deep learning, and hybrid approaches. The source code and presented dataset are available at Github repository.
翻訳日:2022-12-26 21:50:01 公開日:2020-03-03
# 暗黙モデルによる回帰と最適輸送コスト最小化

Regression via Implicit Models and Optimal Transport Cost Minimization ( http://arxiv.org/abs/2003.01296v1 )

ライセンス: Link先を確認
Saurav Manchanda and Khoa Doan and Pranjul Yadav and S. Sathiya Keerthi(参考訳) 本稿では、回帰の古典的な問題に対処し、写像の帰納的学習を$y=f(x,z)$, $z$ denoting noise, $f:\mathbb{R}^n\times \mathbb{R}^k \rightarrow \mathbb{R}^m$とする。 近年、条件付きGAN(CGAN)が回帰に応用され、複雑なノイズ形式を暗黙的にモデル化できることから、ガウス過程回帰のような他の標準手法よりも有利であることが示されている。 しかし、現在のレグレッションのためのCGAN実装では、従来のジェネレータ-差別化アーキテクチャとミニマックス最適化アプローチを使用している。 本稿では、雑音を暗黙的にモデル化する回帰モデルに向けて、真確率分布$p(y|x)$と推定分布$\hat{p}(y|x)$との間の最適な輸送コストを直接最適化する解を提案し、ミニマックスアプローチに関連する問題に悩まされない。 様々な合成および実世界のデータセットに基づいて,提案手法は最先端の結果を得る。 この論文に付随するコードは"https://github.com/gurdaspuriya/ot_regression"で入手できる。

This paper addresses the classic problem of regression, which involves the inductive learning of a map, $y=f(x,z)$, $z$ denoting noise, $f:\mathbb{R}^n\times \mathbb{R}^k \rightarrow \mathbb{R}^m$. Recently, Conditional GAN (CGAN) has been applied for regression and has shown to be advantageous over the other standard approaches like Gaussian Process Regression, given its ability to implicitly model complex noise forms. However, the current CGAN implementation for regression uses the classical generator-discriminator architecture with the minimax optimization approach, which is notorious for being difficult to train due to issues like training instability or failure to converge. In this paper, we take another step towards regression models that implicitly model the noise, and propose a solution which directly optimizes the optimal transport cost between the true probability distribution $p(y|x)$ and the estimated distribution $\hat{p}(y|x)$ and does not suffer from the issues associated with the minimax approach. On a variety of synthetic and real-world datasets, our proposed solution achieves state-of-the-art results. The code accompanying this paper is available at "https://github.com/gurdaspuriya/ot_regression".
翻訳日:2022-12-26 21:49:06 公開日:2020-03-03
# オンライン強化学習による身体的シナプス塑性

Embodied Synaptic Plasticity with Online Reinforcement learning ( http://arxiv.org/abs/2003.01431v1 )

ライセンス: Link先を確認
Jacques Kaiser, Michael Hoff, Andreas Konle, J. Camilo Vasquez Tieck, David Kappel, Daniel Reichard, Anand Subramoney, Robert Legenstein, Arne Roennau, Wolfgang Maass, Rudiger Dillmann(参考訳) 脳を理解するための努力には、複数の共同研究分野が含まれる。 古典的に、理論神経科学者によって導かれるシナプス可塑性規則は、パターン分類タスクにおいて孤立的に評価される。 これは、クローズドループで身体を制御することを目的とした生物学的脳とは対照的である。 本稿では,これら2つの分野からオープンソースソフトウェアコンポーネントを統合することにより,計算神経科学とロボティクスの分野を連携させることに寄与する。 このフレームワークにより、クローズドループロボット環境における生物学的プラシブ可塑性モデルの妥当性を評価することができる。 本稿では,オンライン強化学習(SPORE)によるシナプス塑性評価の枠組みについて述べる。 両タスクのシミュレーション時間内にSPOREがポリシーを学習できることを示す。 仮パラメータ探索は、シナプス学習ダイナミクスを支配する確率過程を駆動する学習速度と温度は、パフォーマンス改善を維持するために調整される必要があることを示している。 最後に,visoomotorタスクにおけるsporeの機能向上に有効な最近の深層強化学習手法について考察した。

The endeavor to understand the brain involves multiple collaborating research fields. Classically, synaptic plasticity rules derived by theoretical neuroscientists are evaluated in isolation on pattern classification tasks. This contrasts with the biological brain which purpose is to control a body in closed-loop. This paper contributes to bringing the fields of computational neuroscience and robotics closer together by integrating open-source software components from these two fields. The resulting framework allows to evaluate the validity of biologically-plausibe plasticity models in closed-loop robotics environments. We demonstrate this framework to evaluate Synaptic Plasticity with Online REinforcement learning (SPORE), a reward-learning rule based on synaptic sampling, on two visuomotor tasks: reaching and lane following. We show that SPORE is capable of learning to perform policies within the course of simulated hours for both tasks. Provisional parameter explorations indicate that the learning rate and the temperature driving the stochastic processes that govern synaptic learning dynamics need to be regulated for performance improvements to be retained. We conclude by discussing the recent deep reinforcement learning techniques which would be beneficial to increase the functionality of SPORE on visuomotor tasks.
翻訳日:2022-12-26 21:42:29 公開日:2020-03-03
# 並列制約政策最適化による自動車の安全強化学習

Safe Reinforcement Learning for Autonomous Vehicles through Parallel Constrained Policy Optimization ( http://arxiv.org/abs/2003.01303v1 )

ライセンス: Link先を確認
Lu Wen, Jingliang Duan, Shengbo Eben Li, Shaobing Xu, Huei Peng(参考訳) 強化学習(rl)は、複雑な分類や制御問題を解決する可能性から、自動運転への関心が高まっている。 しかし、既存のrlアルゴリズムは2つの主要な問題に対して実車に適用されることは滅多にない: 振る舞いは説明不能であり、新しいシナリオでは安全性を保証できない。 本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全なRLアルゴリズムを提案する。 PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してそれぞれポリシー関数、値関数、新たに追加されたリスク関数を近似する。 一方、単調改善条件を破ることなく大きな更新ステップを可能にするために、信頼領域制約を追加する。 安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。 自動運転車の2つのシナリオのシミュレーションでは、高速な学習をしながら安全性を確保することができる。

Reinforcement learning (RL) is attracting increasing interests in autonomous driving due to its potential to solve complex classification and control problems. However, existing RL algorithms are rarely applied to real vehicles for two predominant problems: behaviours are unexplainable, and they cannot guarantee safety under new scenarios. This paper presents a safe RL algorithm, called Parallel Constrained Policy Optimization (PCPO), for two autonomous driving tasks. PCPO extends today's common actor-critic architecture to a three-component learning framework, in which three neural networks are used to approximate the policy function, value function and a newly added risk function, respectively. Meanwhile, a trust region constraint is added to allow large update steps without breaking the monotonic improvement condition. To ensure the feasibility of safety constrained problems, synchronized parallel learners are employed to explore different state spaces, which accelerates learning and policy-update. The simulations of two scenarios for autonomous vehicles confirm we can ensure safety while achieving fast learning.
翻訳日:2022-12-26 21:41:08 公開日:2020-03-03