このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200410となっている論文です。

PDF登録状況(公開日: 20200410)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダウ・デヴォンシャー模型におけるフェルミオン誘起量子臨界点

Fermion-induced quantum critical point in the Landau-Devonshire model ( http://arxiv.org/abs/2001.05823v2 )

ライセンス: Link先を確認
Shuai Yin, Zhi-Yao Zuo(参考訳) ゆらぎは相転移特性を大きく変えることができる。 例えば、フェルミオン誘起量子臨界点 (FIQCP) では、質量を持たないディラックフェルミオンのゆらぎがランダウ・ド・ジェンヌ第一次相転移 (Landau-de Gennes second-order phase transition, FOPT) を、立方体ボソン相互作用を連続的な状態に変換する。 しかし、他の非常に大きなFOPTのクラスを特徴づけるランダウ・デヴォンシャー理論では、余分なゆらぎとの結合の下での運命は明らかにされていない。 ここでは、ダイラックフェルミオンがランダウ-デボンシャー FOPT 付近で連続的な相転移を起こす新しいタイプのFIQCPを発見する。 機能的再正規化群分析を用いて, このfiqcpの出現条件を決定する。 さらに、現在のFIQCPは超対称性臨界点である可能性があることを指摘した。 最後に, 低温相図はfiqcpを検出するための異なる実験的な証拠を与えることができることを示した。

Fluctuations can change the phase transition properties drastically. An example is the fermion-induced quantum critical point (FIQCP), in which fluctuations of the massless Dirac fermions turn a putative Landau-de Gennes first-order phase transition (FOPT) with a cubic boson interaction into a continuous one. However, for the Landau-Devonshire theory, which characterizes another very large class of FOPTs, its fate under the coupling with extra fluctuations has not been explored. Here, we discover a new type of FIQCP, in which the Dirac fermion fluctuations round the boson Landau-Devonshire FOPT into a continuous phase transition. By using the functional renormalization group analyses, we determine the condition for the appearance of this FIQCP. Moreover, we point out that the present FIQCP can be a supersymmetric critical point. We finally show that the low-temperature phase diagram can provide distinct experimental evidences to detect this FIQCP.
翻訳日:2023-01-11 01:14:36 公開日:2020-04-10
# バイナリネットワークのための学習アーキテクチャ

Learning Architectures for Binary Networks ( http://arxiv.org/abs/2002.06963v2 )

ライセンス: Link先を確認
Dahyun Kim, Kunal Pratap Singh, Jonghyun Choi(参考訳) ほとんどのバイナリネットワークのバックボーンアーキテクチャは、resnetファミリのようなよく知られた浮動小数点アーキテクチャである。 浮動小数点ネットワーク用に設計されたアーキテクチャがバイナリネットワークにとって最善ではないという疑問に対して,我々は,バイナリアーキテクチャの新しい検索空間と新たな検索目的を定義することにより,バイナリネットワーク (bnas) の検索アーキテクチャを提案する。 具体的には,このセルベース探索法に基づいて,バイナリ層タイプの新たな検索空間を定義し,新しいセルテンプレートを設計し,それをプレースホルダとして使用する代わりにゼロイズ層の有用性を再発見し,提案する。 新しい検索目的は、より優れたバイナリアーキテクチャを学ぶために、早期検索を多様化する。 提案手法は,バイナリネットワーク固有の量子化誤差にもかかわらず,安定なトレーニング曲線を持つアーキテクチャを探索する。 定量的分析により,検索したアーキテクチャは最先端のバイナリネットワークで使用されるアーキテクチャよりも優れており,アーキテクチャの変更以外の様々な技術を用いた最先端のバイナリネットワークに匹敵する性能を示す。

Backbone architectures of most binary networks are well-known floating point architectures such as the ResNet family. Questioning that the architectures designed for floating point networks would not be the best for binary networks, we propose to search architectures for binary networks (BNAS) by defining a new search space for binary architectures and a novel search objective. Specifically, based on the cell based search method, we define the new search space of binary layer types, design a new cell template, and rediscover the utility of and propose to use the Zeroise layer instead of using it as a placeholder. The novel search objective diversifies early search to learn better performing binary architectures. We show that our proposed method searches architectures with stable training curves despite the quantization error inherent in binary networks. Quantitative analyses demonstrate that our searched architectures outperform the architectures used in state-of-the-art binary networks and outperform or perform on par with state-of-the-art binary networks that employ various techniques other than architectural changes.
翻訳日:2022-12-31 12:16:26 公開日:2020-04-10
# 360$^o$ビデオキャッシングのためのviewport-aware deep reinforcement learningアプローチ

Viewport-Aware Deep Reinforcement Learning Approach for 360$^o$ Video Caching ( http://arxiv.org/abs/2003.08473v2 )

ライセンス: Link先を確認
Pantelis Maniotis and Nikolaos Thomos(参考訳) 360$^o$ videoは、没入型体験を提供するvr/ar/mrシステムの必須コンポーネントである。 しかし、360$^o$ビデオは高い帯域幅要件と関連している。 ビデオシーンの一部だけを見ることに関心があり、ユーザが相互に重複するビューポートを要求するという事実を活用することで、必要な帯域幅を削減できる。 本稿では,360$o$の動画をキャッシュする代わりに,エッジサーバに動画タイルをキャッシュするメリットを示す最近の研究成果に触発されて,オリジナルのビューポートと同一数のタイルを持つ仮想ビューポートの概念を紹介した。 これらのビューポートを形成するタイルは、各ビデオで最も人気のあるタイルであり、ユーザの要求によって決定される。 次に,未知のビデオやビューポートの人気を想定した積極的なキャッシング方式を提案する。 提案手法は,ビデオごとの最適な仮想ビューポートとして,どの動画をキャッシュするかを決定する。 仮想ビューポートにより、キャッシュ最適化問題の次元性が低下する。 そこで我々はまず,エッジキャッシュネットワークにおける360$^o$ビデオのコンテンツ配置をMarkov Decision Process (MDP) として定式化し,次にDeep Q-Network (DQN) アルゴリズムを用いて最適なキャッシュ配置を決定する。 提案手法は,高画質の仮想ビューポートとともに,最も人気のある360$^o$ビデオをベース品質でキャッシュすることで,エンドユーザに配信される360$^o$ビデオの全体的な品質を最大化する。 提案システムの性能を広範に評価し,LFU,LRU,FIFOなどの既知のシステムと比較した。 その結果、レンダリングされたビューポートの全体的な品質、キャッシュヒット率、サービスコストの観点から、オリジナルのビューポートではなく、仮想ビューポートのアクティブキャッシュによる大きなメリットが明らかになった。

360$^o$ video is an essential component of VR/AR/MR systems that provides immersive experience to the users. However, 360$^o$ video is associated with high bandwidth requirements. The required bandwidth can be reduced by exploiting the fact that users are interested in viewing only a part of the video scene and that users request viewports that overlap with each other. Motivated by the findings of recent works where the benefits of caching video tiles at edge servers instead of caching entire 360$^o$ videos were shown, in this paper, we introduce the concept of virtual viewports that have the same number of tiles with the original viewports. The tiles forming these viewports are the most popular ones for each video and are determined by the users' requests. Then, we propose a proactive caching scheme that assumes unknown videos' and viewports' popularity. Our scheme determines which videos to cache as well as which is the optimal virtual viewport per video. Virtual viewports permit to lower the dimensionality of the cache optimization problem. To solve the problem, we first formulate the content placement of 360$^o$ videos in edge cache networks as a Markov Decision Process (MDP), and then we determine the optimal caching placement using the Deep Q-Network (DQN) algorithm. The proposed solution aims at maximizing the overall quality of the 360$^o$ videos delivered to the end-users by caching the most popular 360$^o$ videos at base quality along with a virtual viewport in high quality. We extensively evaluate the performance of the proposed system and compare it with that of known systems such as LFU, LRU, FIFO, over both synthetic and real 360$^o$ video traces. The results reveal the large benefits coming from proactive caching of virtual viewports instead of the original ones in terms of the overall quality of the rendered viewports, the cache hit ratio, and the servicing cost.
翻訳日:2022-12-22 13:26:04 公開日:2020-04-10
# 人物の姿勢推定のための多視点画像を用いたウェアラブルIMUの幾何学的アプローチ

Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometric Approach ( http://arxiv.org/abs/2003.11163v2 )

ライセンス: Link先を確認
Zhe Zhang, Chunyu Wang, Wenhu Qin, Wenjun Zeng(参考訳) 多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。 まず2つの信号から2dのポーズを検出し、それからそれを3dの空間に持ち上げる。 IMUに基づいて各関節の視覚的特徴を強化するための幾何学的手法を提案する。 これにより、特に片方の関節が閉塞された場合、特に2次元ポーズ推定精度が向上する。 このアプローチを Orientation Regularized Network (ORN) と呼ぶ。 次に、3dポーズと2dポーズの投影誤差と3dポーズとimmオリエンテーションとの差を共同で最小化する向き合わせ正規化画像構造モデル(orpsm)により、マルチビュー2dポーズを3d空間に持ち上げる。 単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。 私たちのコードはhttps://github.com/chunyuwang/imu-human-pose-pytorchでリリースされる。

We propose to estimate 3D human pose from multi-view images and a few IMUs attached at person's limbs. It operates by firstly detecting 2D poses from the two signals, and then lifting them to the 3D space. We present a geometric approach to reinforce the visual features of each pair of joints based on the IMUs. This notably improves 2D pose estimation accuracy especially when one joint is occluded. We call this approach Orientation Regularized Network (ORN). Then we lift the multi-view 2D poses to the 3D space by an Orientation Regularized Pictorial Structure Model (ORPSM) which jointly minimizes the projection error between the 3D and 2D poses, along with the discrepancy between the 3D pose and IMU orientations. The simple two-step approach reduces the error of the state-of-the-art by a large margin on a public dataset. Our code will be released at https://github.com/CHUNYUWANG/imu-human-pose-pytorch.
翻訳日:2022-12-20 03:24:51 公開日:2020-04-10
# 報酬シェーピングを用いた強化学習による障害物回避とナビゲーション

Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with Reward Shaping ( http://arxiv.org/abs/2003.12863v2 )

ライセンス: Link先を確認
Daniel Zhang, Colleen P. Bailey(参考訳) 本稿では,ロボット制御領域における障害物回避とナビゲーション問題について検討する。 このような問題を解決するために,改良された報酬形成手法を用いて,DDPG(Deep Deterministic Policy Gradient)とPximal Policy Optimizationアルゴリズムを提案する。 本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。

In this paper, we investigate the obstacle avoidance and navigation problem in the robotic control area. For solving such a problem, we propose revised Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization algorithms with an improved reward shaping technique. We compare the performances between the original DDPG and PPO with the revised version of both on simulations with a real mobile robot and demonstrate that the proposed algorithms achieve better results.
翻訳日:2022-12-19 00:01:54 公開日:2020-04-10
# 汎用ゼロショット学習のためのドメイン対応ビジュアルバイアス除去

Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2003.13261v2 )

ライセンス: Link先を確認
Shaobo Min, Hantao Yao, Hongtao Xie, Chaoqun Wang, Zheng-Jun Zha, and Yongdong Zhang(参考訳) 近年の手法では,2つの領域間で知識を伝達する統合的セマンティック・アラインな視覚表現の学習に焦点が当てられている。 本稿では,2つの相補的な視覚表現(意味-自由と意味-アライメント)を構築する新しいドメイン認識型視覚バイアス除去(dvbe)ネットワークを提案する。 具体的には,セマンティックフリー表現のコンパクト化と,クラス間差異を最大化するための適応的マージンであるSoftmaxの設計について検討する。 したがって、セマンティックフリー表現は、目に見えるクラスを正確に予測するだけでなく、予測されたクラスエントロピーに基づいて、未確認の画像、すなわちドメイン検出をフィルタリングするほど差別的になる。 未確認画像に対しては、手動設計ではなく、最適なセマンティック・視覚アライメントアーキテクチャを自動で探索し、未確認のクラスを予測する。 正確なドメイン検出では、観測領域に対するバイアス認識問題は大幅に減少する。 分類とセグメンテーションのための5つのベンチマークの実験では、DVBEは既存の手法よりも平均5.7%向上している。

Recent methods focus on learning a unified semantic-aligned visual representation to transfer knowledge between two domains, while ignoring the effect of semantic-free visual representation in alleviating the biased recognition problem. In this paper, we propose a novel Domain-aware Visual Bias Eliminating (DVBE) network that constructs two complementary visual representations, i.e., semantic-free and semantic-aligned, to treat seen and unseen domains separately. Specifically, we explore cross-attentive second-order visual statistics to compact the semantic-free representation, and design an adaptive margin Softmax to maximize inter-class divergences. Thus, the semantic-free representation becomes discriminative enough to not only predict seen class accurately but also filter out unseen images, i.e., domain detection, based on the predicted class entropy. For unseen images, we automatically search an optimal semantic-visual alignment architecture, rather than manual designs, to predict unseen classes. With accurate domain detection, the biased recognition problem towards the seen domain is significantly reduced. Experiments on five benchmarks for classification and segmentation show that DVBE outperforms existing methods by averaged 5.7% improvement.
翻訳日:2022-12-18 07:55:34 公開日:2020-04-10
# 細粒度視覚認識のための多目的行列正規化

Multi-Objective Matrix Normalization for Fine-grained Visual Recognition ( http://arxiv.org/abs/2003.13272v2 )

ライセンス: Link先を確認
Shaobo Min, Hantao Yao, Hongtao Xie, Zheng-Jun Zha, and Yongdong Zhang(参考訳) 双線形プールは細粒度視覚認識(FGVC)において大きな成功を収めている。 最近の手法では、行列パワー正規化は双線形特徴の2次情報を安定化することができるが、冗長情報や過度適合といったいくつかの問題は解決されない。 本稿では,二線形表現を平方根,低ランク,スパーシティで同時に正規化できる効率的な多目的行列正規化(momn)法を提案する。 これら3つの正規化器は二階情報の安定化だけでなく、双線型特徴のコンパクト化やモデル一般化の促進も可能である。 MOMNの中核的な課題は、異なる凸特性の3つの非滑らかな正則化器を共同で最適化する方法である。 この目的のために、mominはまずそれらを近似正規化制約付き拡張ラグランジュ公式に定式化する。 次に、異なる制約を緩和するために補助変数を導入し、各正規化器を交互に解けるようにする。 最後に、一貫した収束と効率的な実装を得るために、勾配勾配に基づくいくつかの更新戦略を設計する。 これにより、MOMNはGPUアクセラレーションによく適合する行列乗法のみで実装され、正規化された双線形特徴は安定して識別される。 FGVCの5つの公開ベンチマーク実験により、提案したMOMNは精度と効率の両面で既存の正規化に基づく手法よりも優れていることが示された。 コードはhttps://github.com/mboboGO/MOMN.comで入手できる。

Bilinear pooling achieves great success in fine-grained visual recognition (FGVC). Recent methods have shown that the matrix power normalization can stabilize the second-order information in bilinear features, but some problems, e.g., redundant information and over-fitting, remain to be resolved. In this paper, we propose an efficient Multi-Objective Matrix Normalization (MOMN) method that can simultaneously normalize a bilinear representation in terms of square-root, low-rank, and sparsity. These three regularizers can not only stabilize the second-order information, but also compact the bilinear features and promote model generalization. In MOMN, a core challenge is how to jointly optimize three non-smooth regularizers of different convex properties. To this end, MOMN first formulates them into an augmented Lagrange formula with approximated regularizer constraints. Then, auxiliary variables are introduced to relax different constraints, which allow each regularizer to be solved alternately. Finally, several updating strategies based on gradient descent are designed to obtain consistent convergence and efficient implementation. Consequently, MOMN is implemented with only matrix multiplication, which is well-compatible with GPU acceleration, and the normalized bilinear features are stabilized and discriminative. Experiments on five public benchmarks for FGVC demonstrate that the proposed MOMN is superior to existing normalization-based methods in terms of both accuracy and efficiency. The code is available: https://github.com/mboboGO/MOMN.
翻訳日:2022-12-18 07:54:13 公開日:2020-04-10
# 背景マットリング:世界はあなたのグリーンスクリーンです

Background Matting: The World is Your Green Screen ( http://arxiv.org/abs/2004.00626v2 )

ライセンス: Link先を確認
Soumyadip Sengupta, Vivek Jayaram, Brian Curless, Steve Seitz, and Ira Kemelmacher-Shlizerman(参考訳) ハンドヘルドカメラを用いて日常的に写真やビデオを撮影することで、人物のマット(画素毎のフォアグラウンドカラーとアルファ)を作成する方法を提案する。 既存のマットングメソッドの多くは、良いマットを生成するために、グリーンスクリーンの背景や手動で作成したトリマップを必要とする。 自動でトリマップのないメソッドが現れるが、同等の品質ではない。 trimapフリーのアプローチでは、撮影時に被写体なしで背景の写真を撮影するようユーザに求めます。 このステップでは、ほんの少しのforesightが必要ですが、トリマップの作成よりもはるかに時間がかかります。 我々は、マットを予測するために敵の損失を伴うディープネットワークを訓練する。 まず,合成複合材料を用いた地盤真理データに教師付き損失を伴うマットリングネットワークを訓練する。 ラベリングなしでドメインギャップを実画像に橋渡しするために、第1のネットワークと複合物の品質を判断する判別器によって誘導される別のマットリングネットワークを訓練する。 さまざまな写真やビデオで結果を実証し,その状況に対して顕著な改善が見られた。

We propose a method for creating a matte -- the per-pixel foreground color and alpha -- of a person by taking photos or videos in an everyday setting with a handheld camera. Most existing matting methods require a green screen background or a manually created trimap to produce a good matte. Automatic, trimap-free methods are appearing, but are not of comparable quality. In our trimap free approach, we ask the user to take an additional photo of the background without the subject at the time of capture. This step requires a small amount of foresight but is far less time-consuming than creating a trimap. We train a deep network with an adversarial loss to predict the matte. We first train a matting network with supervised loss on ground truth data with synthetic composites. To bridge the domain gap to real imagery with no labeling, we train another matting network guided by the first network and by a discriminator that judges the quality of composites. We demonstrate results on a wide variety of photos and videos and show significant improvement over the state of the art.
翻訳日:2022-12-17 19:14:03 公開日:2020-04-10
# CNN2Gate:FPGA上での畳み込みニューラルネットワーク実装のための汎用フレームワーク設計に向けて

CNN2Gate: Toward Designing a General Framework for Implementation of Convolutional Neural Networks on FPGA ( http://arxiv.org/abs/2004.04641v2 )

ライセンス: Link先を確認
Alireza Ghaffari, Yvon Savaria(参考訳) 畳み込みニューラルネットワーク(CNN)は、それらが提供する多数のサービスによって、私たちの社会に大きな影響を与えます。 一方、それらはかなりの計算能力を必要とする。 これらの要件を満たすため、グラフィック処理ユニット(GPU)を使用することができる。 しかし、高消費電力と限られた外部IOは、産業およびミッションクリティカルなシナリオにおけるユーザビリティと適合性を制限している。 近年,FPGAを用いてCNNを実装する研究が急速に増えている。 これは、これらのプラットフォームが提供する電力消費の低減と簡単に再設定できるためである。 アーキテクチャ、合成、最適化といったトピックの研究により、このようなハードウェアソリューションを高レベルの機械学習ソフトウェアライブラリに統合する新たな課題が生まれている。 本稿ではFPGAターゲットに対するCNNモデルのコンパイルをサポートする統合フレームワーク(CNN2Gate)を提案する。 CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。 CNN2Gateは、Keras、Pytorch、Caffe2といった人気の高い機械学習ライブラリからCNNモデルを解析することができる。 CNN2Gateは重みとバイアスに加えて層の計算フローを抽出し、"given"固定点量子化を適用する。 さらに、この情報はOpenCL合成ツールの適切なフォーマットで記述され、FPGA上でプロジェクトを構築し実行するために使用される。 CNN2Gateは強化学習エージェントを用いて設計空間の探索を行い、論理資源に制限のある異なるFPGAに自動的に適合する。 本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。 CNN2Gateは、VGG-16で205ms、FPGAでAlexNetで18msのレイテンシを実現する。

Convolutional Neural Networks (CNNs) have a major impact on our society because of the numerous services they provide. On the other hand, they require considerable computing power. To satisfy these requirements, it is possible to use graphic processing units (GPUs). However, high power consumption and limited external IOs constrain their usability and suitability in industrial and mission-critical scenarios. Recently, the number of researches that utilize FPGAs to implement CNNs are increasing rapidly. This is due to the lower power consumption and easy reconfigurability offered by these platforms. Because of the research efforts put into topics such as architecture, synthesis and optimization, some new challenges are arising to integrate such hardware solutions to high-level machine learning software libraries. This paper introduces an integrated framework (CNN2Gate) that supports compilation of a CNN model for an FPGA target. CNN2Gate exploits the OpenCL synthesis workflow for FPGAs offered by commercial vendors. CNN2Gate is capable of parsing CNN models from several popular high-level machine learning libraries such as Keras, Pytorch, Caffe2 etc. CNN2Gate extracts computation flow of layers, in addition to weights and biases and applies a "given" fixed-point quantization. Furthermore, it writes this information in the proper format for OpenCL synthesis tools that are then used to build and run the project on FPGA. CNN2Gate performs design-space exploration using a reinforcement learning agent and fits the design on different FPGAs with limited logic resources automatically. This paper reports results of automatic synthesis and design-space exploration of AlexNet and VGG-16 on various Intel FPGA platforms. CNN2Gate achieves a latency of 205 ms for VGG-16 and 18 ms for AlexNet on the FPGA.
翻訳日:2022-12-16 06:27:45 公開日:2020-04-10
# 医用画像分割のための拡張畳み込みを用いたu-net

U-Net Using Stacked Dilated Convolutions for Medical Image Segmentation ( http://arxiv.org/abs/2004.03466v2 )

ライセンス: Link先を確認
Shuhang Wang, Szu-Yeu Hu, Eugene Cheah, Xiaohong Wang, Jingchao Wang, Lei Chen, Masoud Baikpour, Arinc Ozturk, Qian Li, Shinn-Huey Chou, Constance D. Lehman, Viksit Kumar, Anthony Samir(参考訳) 本稿では,医用画像分割のための拡張畳み込みを用いた新しいU-Net変種を提案する。 SDU-Netは、エンコーダとデコーダ操作を変更するバニラU-Netのアーキテクチャを採用する(操作は、同じ解像度のフィーチャーマップの全ての処理を示す)。 各エンコーダ/デコーダ操作に2つの標準畳み込みを組み込んだバニラU-Netとは異なり、SDU-Netは1つの標準畳み込みと複数の拡張畳み込みを使い、次の操作への入力として全ての拡張畳み込み出力を連結する。 実験の結果、SDU-NetはバニラU-Netの約40%、AttU-Netの17%、R2U-Netの15%をパラメータとして使用しながら、4つのテストセグメンテーションタスクにおいて、バニラU-Net、注意U-Net(AttU-Net)、繰り返し残るU-Net(R2U-Net)を上回った。

This paper proposes a novel U-Net variant using stacked dilated convolutions for medical image segmentation (SDU-Net). SDU-Net adopts the architecture of vanilla U-Net with modifications in the encoder and decoder operations (an operation indicates all the processing for feature maps of the same resolution). Unlike vanilla U-Net which incorporates two standard convolutions in each encoder/decoder operation, SDU-Net uses one standard convolution followed by multiple dilated convolutions and concatenates all dilated convolution outputs as input to the next operation. Experiments showed that SDU-Net outperformed vanilla U-Net, attention U-Net (AttU-Net), and recurrent residual U-Net (R2U-Net) in all four tested segmentation tasks while using parameters around 40% of vanilla U-Net's, 17% of AttU-Net's, and 15% of R2U-Net's.
翻訳日:2022-12-15 23:30:17 公開日:2020-04-10
# スライシングとディクシングサッカー--時空間データによる複合イベントの自動検出

Slicing and dicing soccer: automatic detection of complex events from spatio-temporal data ( http://arxiv.org/abs/2004.04147v2 )

ライセンス: Link先を確認
Lia Morra, Francesco Manigrasso, Giuseppe Canto, Claudio Gianfrate, Enrico Guarino, Fabrizio Lamberti(参考訳) スポーツビデオにおけるイベントの自動検出は、データ分析やブロードキャストやメディア企業への不適合な応用である。 本稿では, サッカー映像における多種多様な複合イベントをデテクトする包括的アプローチについて述べる。 event detectorは、atomicandcomplexイベントを検出する2層システムとして設計されている。 原子イベントは、検出された物体の時間的および論理的組み合わせ、相対距離、速度と加速のような時空間的特徴に基づいて検出される。 複素事象は、原子と複素事象の時間的および論理的なコンビネーションとして定義され、宣言的区間時間論理(itl)によって表現される。 提案手法の有効性は,タックルやフィルタリングパスなどの複雑な状況を含む16種類のイベントに対して実証された。 原則的 ITL に基づくイベントを形式化することにより、どのパスをパスするか、それともクロスするかを理解するなど、容易に推論タスクを実行できる。 適切なアノテートされた公開データセットの欠如に対処するため、我々はオープンソースのサッカーシミュレーションエンジンを用いて、1.6ミリイオン以上の原子イベントと9000以上の複雑なイベントに対する完全な位置データとアノテーションを含む合成SocER(Soccer Event Recognition)データセットを再リースした。 データセットとコードはhttps://gitlab.com/grains2/slicing-and-dicing-soccerで利用可能である。

The automatic detection of events in sport videos has im-portant applications for data analytics, as well as for broadcasting andmedia companies. This paper presents a comprehensive approach for de-tecting a wide range of complex events in soccer videos starting frompositional data. The event detector is designed as a two-tier system thatdetectsatomicandcomplex events. Atomic events are detected basedon temporal and logical combinations of the detected objects, their rel-ative distances, as well as spatio-temporal features such as velocity andacceleration. Complex events are defined as temporal and logical com-binations of atomic and complex events, and are expressed by meansof a declarative Interval Temporal Logic (ITL). The effectiveness of theproposed approach is demonstrated over 16 different events, includingcomplex situations such as tackles and filtering passes. By formalizingevents based on principled ITL, it is possible to easily perform reason-ing tasks, such as understanding which passes or crosses result in a goalbeing scored. To counterbalance the lack of suitable, annotated publicdatasets, we built on an open source soccer simulation engine to re-lease the synthetic SoccER (Soccer Event Recognition) dataset, whichincludes complete positional data and annotations for more than 1.6 mil-lion atomic events and 9,000 complex events. The dataset and code areavailable at https://gitlab.com/grains2/slicing-and-dicing-soccer
翻訳日:2022-12-15 09:40:15 公開日:2020-04-10
# アーチ : 衣服の人間像の再構築

ARCH: Animatable Reconstruction of Clothed Humans ( http://arxiv.org/abs/2004.04572v2 )

ライセンス: Link先を確認
Zeng Huang, Yuanlu Xu, Christoph Lassner, Hao Li, Tony Tung(参考訳) 本稿では,モノクロ画像からアニメーション対応の3D衣服を正確に再現するための,新しいエンドツーエンドフレームワークであるARCH(Animatable Reconstruction of Clothed Humans)を提案する。 既存の3D人間のデジタル化アプローチでは、ポーズのバリエーションや詳細の復元に苦労している。 また、アニメーションの準備ができているモデルも生成しない。 対照的に、ARCHは学習されたポーズ認識モデルであり、単一の制約のないRGB画像から詳細な3Dリップされたフルボディアバターを生成する。 パラメトリック3Dボディ推定器を用いて、セマンティック空間とセマンティック変形場を作成する。 2d/3dの服を着た人間の正準空間への変換を可能にし、トレーニングデータのポーズの変化やオクルージョンによる幾何学の曖昧さを減らす。 空間的局所的特徴を持つ暗黙の関数表現を用いて、詳細な表面形状と外観を学習する。 さらに,不透明な識別可能なレンダリングを用いた3次元再構成における画素単位の監視を提案する。 我々の実験は、ARCHが再建された人間の忠実度を高めることを示唆している。 公開データセットの最先端手法と比較して,標準メトリクスの復元誤差が50%以上低い。 また,これまでの文献にない,アニメーションで高品質なアバターの質的例も数多く紹介している。

In this paper, we propose ARCH (Animatable Reconstruction of Clothed Humans), a novel end-to-end framework for accurate reconstruction of animation-ready 3D clothed humans from a monocular image. Existing approaches to digitize 3D humans struggle to handle pose variations and recover details. Also, they do not produce models that are animation ready. In contrast, ARCH is a learned pose-aware model that produces detailed 3D rigged full-body human avatars from a single unconstrained RGB image. A Semantic Space and a Semantic Deformation Field are created using a parametric 3D body estimator. They allow the transformation of 2D/3D clothed humans into a canonical space, reducing ambiguities in geometry caused by pose variations and occlusions in training data. Detailed surface geometry and appearance are learned using an implicit function representation with spatial local features. Furthermore, we propose additional per-pixel supervision on the 3D reconstruction using opacity-aware differentiable rendering. Our experiments indicate that ARCH increases the fidelity of the reconstructed humans. We obtain more than 50% lower reconstruction errors for standard metrics compared to state-of-the-art methods on public datasets. We also show numerous qualitative examples of animated, high-quality reconstructed avatars unseen in the literature so far.
翻訳日:2022-12-15 08:46:31 公開日:2020-04-10
# FLIVVER:フライロブラの視覚的速度推定とラング

FLIVVER: Fly Lobula Inspired Visual Velocity Estimation & Ranging ( http://arxiv.org/abs/2004.05247v1 )

ライセンス: Link先を確認
Bryson Lingenfelter, Arunava Nag, and Floris van Breugel(参考訳) 小さな昆虫や昆虫サイズのロボットが、その絶対速度と近くの物体までの距離を推定するメカニズムはまだ不明だ。 しかし、この能力は飛行中の風向を推定する必要のある行動、例えば臭気・プルーム追跡に不可欠である。 昆虫による神経科学と行動研究は、相対運動を推定するために、画像の動きや光の流れの知覚に依存することを示しており、これは世界の物体に対する速度と距離の比に相当する。 したがって、鍵となるオープンな課題は、これらの2つの状態とその比率の単一の測定から切り離すことである。 現代のSLAM(Simultaneous Localization and Mapping)法は、ロボットシステムにおいてこの問題に対する解決策を提供するが、これらの手法は一般的に、昆虫が複数の視覚的特徴を同時に追跡したり、世界の3Dマップを記憶したり、反復アルゴリズムを用いて非線形最適化問題を解くなど、実行できない可能性のある計算に依存する。 本稿では,動的前方運動の幾何学と昆虫の視覚処理からのインスピレーションを組み合わせた新しいアルゴリズムFLIVVERと,光学フローと加速度情報の組合せから絶対接地速度を推定する。 本アルゴリズムは,昆虫が絶対速度を推定する方法に関する明確な仮説と,昆虫サイズのロボットに適用可能な効率的な状態推定のための高速アナログ回路を設計するための理論的枠組みを提供する。

The mechanism by which a tiny insect or insect-sized robot could estimate its absolute velocity and distance to nearby objects remains unknown. However, this ability is critical for behaviors that require estimating wind direction during flight, such as odor-plume tracking. Neuroscience and behavior studies with insects have shown that they rely on the perception of image motion, or optic flow, to estimate relative motion, equivalent to a ratio of their velocity and distance to objects in the world. The key open challenge is therefore to decouple these two states from a single measurement of their ratio. Although modern SLAM (Simultaneous Localization and Mapping) methods provide a solution to this problem for robotic systems, these methods typically rely on computations that insects likely cannot perform, such as simultaneously tracking multiple individual visual features, remembering a 3D map of the world, and solving nonlinear optimization problems using iterative algorithms. Here we present a novel algorithm, FLIVVER, which combines the geometry of dynamic forward motion with inspiration from insect visual processing to \textit{directly} estimate absolute ground velocity from a combination of optic flow and acceleration information. Our algorithm provides a clear hypothesis for how insects might estimate absolute velocity, and also provides a theoretical framework for designing fast analog circuitry for efficient state estimation, which could be applied to insect-sized robots.
翻訳日:2022-12-14 21:36:39 公開日:2020-04-10
# フィードバックデジタル顕微鏡における畳み込みニューラルネットワークによるリアルタイム局在と分類

Convolutional Neural Networks for Real-Time Localization and Classification in Feedback Digital Microscopy ( http://arxiv.org/abs/2004.05243v1 )

ライセンス: Link先を確認
Martin Fr\"anzl, Frank Cichos(参考訳) 光学顕微鏡における粒子のリアルタイムな局在化と分類のための単一ショット畳み込みニューラルネットワーク(YOLOv2)を提案する。 先行研究と比較して,フィードバック制御の助けを借りて,大規模不均質アンサンブルにおける微視的物体の操作を可能にするリアルタイム検出機能に着目した。 推定時間約10msの416x416ピクセルに対して,非常に低い信号対雑音比でも,数百個の微小物体の局所化と分類が可能であり,レーザー誘起自己熱泳動による活性粒子の操作によるリアルタイム検出性能を実証する。 フレームワークを他の人に簡単に使えるようにするため、すべてのスクリプトとソースコードを提供しています。 ネットワークはTensorFlowバックエンドを使用してPython/Kerasで実装されている。 リアルタイム推論のためにGPUをサポートするCライブラリを提供する。

We present an adapted single-shot convolutional neural network (YOLOv2) for the real-time localization and classification of particles in optical microscopy. As compared to previous works, we focus on the real-time detection capabilities of the system to allow for manipulation of microscopic objects in large heterogeneous ensembles with the help of feedback control. The network is capable of localizing and classifying several hundreds of microscopic objects even at very low signal-to-noise ratios for images as large as 416x416 pixels with an inference time of about 10 ms. We demonstrate the real-time detection performance by manipulating active particles propelled by laser-induced self-thermophoresis. In order to make our framework readily available for others, we provide all scripts and source code. The network is implemented in Python/Keras using the TensorFlow backend. A C library supporting GPUs is provided for the real-time inference.
翻訳日:2022-12-14 21:36:15 公開日:2020-04-10
# モダンIDEにおけるコード補完のためのシーケンスモデル設計

Sequence Model Design for Code Completion in the Modern IDE ( http://arxiv.org/abs/2004.05249v1 )

ライセンス: Link先を確認
Gareth Ari Aye and Gail E. Kaiser(参考訳) コード補完は現代の統合開発環境(ide)において重要な役割を果たす。 機械学習は、類似の自然言語の書き込みや検索ソフトウェアで広く普及し、より関連性の高いオートコンプリートや検索提案を、より少ないキーストロークで実現している。 以前の研究では、ソースコードをモデリングするための高精度でディープニューラルネットワークのトレーニングが報告されていたが、インタラクティブな開発ツールが課す実践的な制約にはほとんど注意が払われていない。 特に、深層ニューラルネットワークで記述されているように、ソースコードモデリングのためのニューラルネットワークモデルは、ソースコードをコード補完を中心にモデル化するのに最適な選択であるが、次の予測の精度は報告するしかない。 しかし、言語モデル(lm)が実世界のコード補完システムでうまく機能するためには、コード補完をサポートするための型チェックのような有効なコードを生成するための提案を常に行わなければならない。 これらの追加要件を満たすために,静的解析のすべての有効なキーワードとスコープ内識別子を列挙する能力と,それらの上に確率分布を置く言語モデルの能力を組み合わせた,トップkの次のトークンを予測する新しい設計を提案する。 我々のモデルは,文字レベルの入力表現とトークン出力を混合し,語彙外トークン(OOV)を有意に表現し,予測遅延を最小化する。 OOVトークンは、ソフトウェアに共通する局所的な繰り返しを検出することによって予測できる。 この設計は、ソースコードモデリングにおける最先端の精度を実現し、現代のIDEにおける実世界のコード補完実装によって課される制約に適合する。

Code completion plays a prominent role in modern integrated development environments (IDEs). Machine learning has become ubiquitous in analogous natural language writing and search software, surfacing more relevant autocompletions and search suggestions in fewer keystrokes. Prior research has reported training high-accuracy, deep neural networks for modeling source code, but little attention has been given to the practical constraints imposed by interactive developer tools. In particular, neural language models for source code modeling like the one described in Maybe Deep Neural Networks are the Best Choice for Modeling Source Code are framed around code completion, but only report accuracy of next-token prediction. However, in order for a language model (LM) to work well within real-world code completion systems, it must also always make suggestions that produce valid code that typechecks to support code completion's role in correctness-checking; return instantaneous results to help programmers code more efficiently in fewer keystrokes; and be small enough to fit comfortably on disk and in memory on developer workstations, since virtually all modern IDEs run locally and support offline usage. To meet these additional requirements, we propose a novel design for predicting top-k next tokens that combines static analysis' ability to enumerate all valid keywords and in-scope identifiers with the ability of a language model to place a probability distribution over them. Our model mixes character-level input representation with token output to represent out-of-vocabulary (OOV) tokens meaningfully and minimize prediction latency. OOV tokens can be predicted through detection of local repetition common in software. This design achieves state-of-art accuracy in source code modeling and fits the constraints imposed by real-world code completion implementations in modern IDEs.
翻訳日:2022-12-14 21:35:59 公開日:2020-04-10
# シグマさん、コロナウイルスはありますか。 新型コロナウイルス(covid-19)パンデミックに対応する医療従事者支援のための新しい人工知能アプローチの提案

Hi Sigma, do I have the Coronavirus?: Call for a New Artificial Intelligence Approach to Support Health Care Professionals Dealing With The COVID-19 Pandemic ( http://arxiv.org/abs/2004.06510v1 )

ライセンス: Link先を確認
Brian Subirana, Ferran Hueto, Prithvi Rajasekaran, Jordi Laguarta, Susana Puig, Josep Malvehy, Oriol Mitja, Antoni Trilla, Carlos Iv\'an Moreno, Jos\'e Francisco Mu\~noz Valle, Ana Esther Mercado Gonz\'alez, Barbara Vizmanos, Sanjay Sarma(参考訳) スマートフォンが混み合った空間で再生している曲を検知できるのと同じように、coough phone recordingsでトレーニングされた人工知能転送学習アルゴリズムが新型コロナウイルスの診断テストに繋がることを示している。 医療コミュニティに採用されるためには,臨床治験の結果と,メキシコ,スペイン,米国における他の3つの会場について検証する。 しかし、他の臨床試験やボランティアのデータがあれば、もっと多くのことができるでしょう。 例えば、在宅で確認された新型コロナウイルス患者に対しては、コンタクト・ウィズ・ホスピタル・レコメンデーションを決定するための縦方向オーディオテストが開発され、最も重要な患者に対しては、患者の臨床データを含む成功率予測テストがICUアロケーションの優先順位付けに使用される。 エンジニアリングコミュニティと臨床試験の文脈における課題として、著者らは、他のトライアルやクラウドソーシングのユーザーがより多くのデータに貢献することを願って、毎日コークスを配布することを推奨している。 複雑なAIタスクに対するこれまでのアプローチは、静的データセットを使ったり、大企業が主導したプライベートな取り組みだった。 既存の新型コロナウイルス(COVID-19)の治験もこのパラダイムに従っている。 代わりに、大規模リアルタイム医療AIに対する新しいオープン集団アプローチを提案する。 アップデートはhttps://opensigma.mit.edu.comで公開します。 私たちの個人的な見解は、大規模なパンデミックには私たちのアプローチが正しいので、ここに留まりましょう – 参加して頂けますか?

Just like your phone can detect what song is playing in crowded spaces, we show that Artificial Intelligence transfer learning algorithms trained on cough phone recordings results in diagnostic tests for COVID-19. To gain adoption by the health care community, we plan to validate our results in a clinical trial and three other venues in Mexico, Spain and the USA . However, if we had data from other on-going clinical trials and volunteers, we may do much more. For example, for confirmed stay-at-home COVID-19 patients, a longitudinal audio test could be developed to determine contact-with-hospital recommendations, and for the most critical COVID-19 patients a success ratio forecast test, including patient clinical data, to prioritize ICU allocation. As a challenge to the engineering community and in the context of our clinical trial, the authors suggest distributing cough recordings daily, hoping other trials and crowdsourcing users will contribute more data. Previous approaches to complex AI tasks have either used a static dataset or were private efforts led by large corporations. All existing COVID-19 trials published also follow this paradigm. Instead, we suggest a novel open collective approach to large-scale real-time health care AI. We will be posting updates at https://opensigma.mit.edu. Our personal view is that our approach is the right one for large scale pandemics, and therefore is here to stay - will you join?
翻訳日:2022-12-14 21:35:24 公開日:2020-04-10
# straggler-aware distributed learning: 通信計算のレイテンシトレードオフ

Straggler-aware Distributed Learning: Communication Computation Latency Trade-off ( http://arxiv.org/abs/2004.04948v1 )

ライセンス: Link先を確認
Emre Ozfatura, Sennur Ulukus, Deniz Gunduz(参考訳) 大規模機械学習問題に対して、勾配降下(GD)を多くの並列ワーカーにスケールすると、その定位演算時間はストラグリングワーカーによって制限される。 ストリングワーカーは、データと計算をまたいで冗長な計算とコーディングを割り当てることで許容されるが、既存のほとんどのスキームでは、ストリング作業者は、すべての計算を完了した後に、反復毎に1つのメッセージをパラメータサーバ(ps)に送信する。 このような制限を課すことで、ストラグリング動作の不正確な予測による過剰計算と、ストラグラー/非ストラグラーとして労働者を扱い、トラグラーによって実行される部分計算を破棄するアンダーユースという2つの主な欠点が生じる。 本稿では,これらの欠点を克服するために,各作業者から繰り返し毎に複数の計算を伝達できるマルチメッセージ通信(MMC)と,それに伴うストラグラー回避手法を提案する。 次に,提案手法を効果的に活用し,計算と通信遅延のバランスを求め,全体のレイテンシを最小化する。 さらに,Amazon EC2サーバ上でのモデルベースおよび実実装の広範なシミュレーションを通じて,これらの設計の利点とデメリットを異なる設定で識別し,MCCが既存のストラグラー回避スキームを改善することを実証する。

When gradient descent (GD) is scaled to many parallel workers for large scale machine learning problems, its per-iteration computation time is limited by the straggling workers. Straggling workers can be tolerated by assigning redundant computations and coding across data and computations, but in most existing schemes, each non-straggling worker transmits one message per iteration to the parameter server (PS) after completing all its computations. Imposing such a limitation results in two main drawbacks; over-computation due to inaccurate prediction of the straggling behaviour, and under-utilization due to treating workers as straggler/non-straggler and discarding partial computations carried out by stragglers. In this paper, to overcome these drawbacks, we consider multi-message communication (MMC) by allowing multiple computations to be conveyed from each worker per iteration, and design straggler avoidance techniques accordingly. Then, we analyze how the proposed designs can be employed efficiently to seek a balance between the computation and communication latency to minimize the overall latency. Furthermore, through extensive simulations, both model-based and real implementation on Amazon EC2 servers, we identify the advantages and disadvantages of these designs in different settings, and demonstrate that MMC can help improve upon existing straggler avoidance schemes.
翻訳日:2022-12-14 21:34:58 公開日:2020-04-10
# ニューラルネットワークの非同期分散学習

Asynchronous Decentralized Learning of a Neural Network ( http://arxiv.org/abs/2004.05082v1 )

ライセンス: Link先を確認
Xinyue Liang, Alireza M. Javid, Mikael Skoglund, Saikat Chatterjee(参考訳) 本研究では、ARockと呼ばれる非同期コンピューティングフレームワークを利用して、分散シナリオで自己サイズ推定フィードフォワードニューラルネットワーク(SSFN)と呼ばれるディープニューラルネットワークを学習する。 このアルゴリズム,すなわち非同期分散SSFN (dSSFN) を用いて,特定の技術的前提の下で集中的な等価解を提供する。 非同期dSSFNは1ノードのアクティベーションと一方の通信を可能にすることで通信ボトルネックを緩和し、通信オーバーヘッドを大幅に低減し、学習速度を向上する。 実験結果において、非同期dSSFNと従来の同期dSSFNを比較し、特に通信ネットワークが疎い場合に、非同期dSSFNの競合性能を示す。

In this work, we exploit an asynchronous computing framework namely ARock to learn a deep neural network called self-size estimating feedforward neural network (SSFN) in a decentralized scenario. Using this algorithm namely asynchronous decentralized SSFN (dSSFN), we provide the centralized equivalent solution under certain technical assumptions. Asynchronous dSSFN relaxes the communication bottleneck by allowing one node activation and one side communication, which reduces the communication overhead significantly, consequently increasing the learning speed. We compare asynchronous dSSFN with traditional synchronous dSSFN in the experimental results, which shows the competitive performance of asynchronous dSSFN, especially when the communication network is sparse.
翻訳日:2022-12-14 21:30:13 公開日:2020-04-10
# モバイルプラットフォームにおける畳み込みニューラルネットワークのエネルギー予測モデル

Energy Predictive Models for Convolutional Neural Networks on Mobile Platforms ( http://arxiv.org/abs/2004.05137v1 )

ライセンス: Link先を確認
Crefeda Faviola Rodrigues, Graham Riley, Mikel Lujan(参考訳) モバイルおよび組み込みプラットフォームにディープラーニングモデルをデプロイする場合、エネルギー利用は重要な関心事である。 最近の研究では、応用レベルの特徴に基づくエネルギー予測モデルを開発し、研究者がディープラーニングモデルのエネルギー消費を推定する方法を提供している。 この情報は、ハードウェアリソースを効率的に利用するためのリソースアウェアモデルを構築するのに役立ちます。 しかし、予測モデリングに関する以前の研究は、最終的な予測モデルの正確さとモデルの複雑さに関する特徴の選択に関わるトレードオフについてほとんど洞察を与えていない。 この問題を解決するために,我々は,synergyフレームワークから収集した経験的測定に基づいて,モバイルデバイス上のディープラーニングのための回帰に基づく予測モデルの構築に関する包括的な分析を行う。予測モデリング戦略は,文献で使用される2種類の予測モデルに基づいている。 予測モデルの解析により,従来のアプローチで採用したより複雑な特徴を用いた予測モデルと比較して,畳み込み層予測において,単純な層型特徴が4~32倍のモデル複雑性を実現することが示された。 本研究では,Jetson TX1 と Snapdragon 820using ソフトウェアバックエンドである OpenBLAS,Eigen,CuDNN 上に,12 のConvolutional NeuralNetworks (ConvNets) を用いて,完全な接続層およびプール層に対する層型予測モデルを構築した。 ハードウェアとソフトウェアの組み合わせによるテストConvNetの全体的なエネルギー予測において,精度は76%から85%,モデル複雑度は1。

Energy use is a key concern when deploying deep learning models on mobile and embedded platforms. Current studies develop energy predictive models based on application-level features to provide researchers a way to estimate the energy consumption of their deep learning models. This information is useful for building resource-aware models that can make efficient use of the hard-ware resources. However, previous works on predictive modelling provide little insight into the trade-offs involved in the choice of features on the final predictive model accuracy and model complexity. To address this issue, we provide a comprehensive analysis of building regression-based predictive models for deep learning on mobile devices, based on empirical measurements gathered from the SyNERGY framework.Our predictive modelling strategy is based on two types of predictive models used in the literature:individual layers and layer-type. Our analysis of predictive models show that simple layer-type features achieve a model complexity of 4 to 32 times less for convolutional layer predictions for a similar accuracy compared to predictive models using more complex features adopted by previous approaches. To obtain an overall energy estimate of the inference phase, we build layer-type predictive models for the fully-connected and pooling layers using 12 representative Convolutional NeuralNetworks (ConvNets) on the Jetson TX1 and the Snapdragon 820using software backends such as OpenBLAS, Eigen and CuDNN. We obtain an accuracy between 76% to 85% and a model complexity of 1 for the overall energy prediction of the test ConvNets across different hardware-software combinations.
翻訳日:2022-12-14 21:29:58 公開日:2020-04-10
# 同時周波数・非教師機能を用いた睡眠段階スコーリング

Sleep Stage Scoring Using Joint Frequency-Temporal and Unsupervised Features ( http://arxiv.org/abs/2004.06044v1 )

ライセンス: Link先を確認
Mohamadreza Jafaryani, Saeed Khorram, Vahid Pourahmadi, Minoo Shahbazi(参考訳) 睡眠障害の患者は、特別な状況を知っている場合、ライフスタイルを良く管理できる。 このような睡眠障害の検出は通常、患者から収集された多くの重要な信号を分析することで可能となる。 この作業を簡略化するために、多数の自動睡眠ステージ認識法(ASSR)が提案されている。 これらの手法のほとんどは、バイタル信号から抽出された時間周波数の特徴を用いる。 しかし、睡眠信号の非定常性のため、そのようなスキームは許容できる精度を導いていない。 近年,教師なし特徴抽出にディープニューラルネットワークを用いるASSR法が提案されている。 本稿では,2つのアイデアを組み合わせて,時間周波数と教師なしの特徴を同時に利用することを提案する。 時間分解能を高めるために、各標準エポックは5つのサブエポックに分けられる。 さらに, 精度を高めるために, 異なる特性を持つ3つの分類器を用い, 究極の分類器としてアンサンブル法を用いる。 シミュレーションの結果,提案手法は従来のASSR手法の精度を向上させることが示された。

Patients with sleep disorders can better manage their lifestyle if they know about their special situations. Detection of such sleep disorders is usually possible by analyzing a number of vital signals that have been collected from the patients. To simplify this task, a number of Automatic Sleep Stage Recognition (ASSR) methods have been proposed. Most of these methods use temporal-frequency features that have been extracted from the vital signals. However, due to the non-stationary nature of sleep signals, such schemes are not leading an acceptable accuracy. Recently, some ASSR methods have been proposed which use deep neural networks for unsupervised feature extraction. In this paper, we proposed to combine the two ideas and use both temporal-frequency and unsupervised features at the same time. To augment the time resolution, each standard epoch is segmented into 5 sub-epochs. Additionally, to enhance the accuracy, we employ three classifiers with different properties and then use an ensemble method as the ultimate classifier. The simulation results show that the proposed method enhances the accuracy of conventional ASSR methods.
翻訳日:2022-12-14 21:28:45 公開日:2020-04-10
# B-spline Chained Multiple Random Matrices Model を用いた弾性変形物体の形状推定

Shape Estimation for Elongated Deformable Object using B-spline Chained Multiple Random Matrices Model ( http://arxiv.org/abs/2004.05233v1 )

ライセンス: Link先を確認
Gang Yao, Ryan Saltus, Ashwin Dani(参考訳) 本稿では, 細長い変形可能な物体の幾何学的特性をモデル化するために, b-spline chained multiple random matrices representation を提案する。 細長い変形可能な物体の超自由度構造は、その形状推定を困難にする。 提案手法は, 予測最大化(EM)法を用いて, 長めの変形可能な物体の形状を推定する。 Euclidean minimum spaning tree (EMST) に基づく分割およびマージ手法を提案し,EMアルゴリズムの初期化を提案する。 提案手法は, 様々な形状(交差形状を含む)の静的ロープ, ロープとプラスチック管の連続操作, 2本のプラスチック管の組立など, 細長い変形可能な物体の形状推定について評価した。 実行時間を算出し、推定幅値とその接地構造、および結合(IoU)距離の比較に基づいて形状推定結果の精度を評価する。

In this paper, a B-spline chained multiple random matrices representation is proposed to model geometric characteristics of an elongated deformable object. The hyper degrees of freedom structure of the elongated deformable object make its shape estimation challenging. Based on the likelihood function of the proposed model, an expectation-maximization (EM) method is derived to estimate the shape of the elongated deformable object. A split and merge method based on the Euclidean minimum spanning tree (EMST) is proposed to provide initialization for the EM algorithm. The proposed algorithm is evaluated for the shape estimation of the elongated deformable objects in scenarios, such as the static rope with various configurations (including configurations with intersection), the continuous manipulation of a rope and a plastic tube, and the assembly of two plastic tubes. The execution time is computed and the accuracy of the shape estimation results is evaluated based on the comparisons between the estimated width values and its ground-truth, and the intersection over union (IoU) metric.
翻訳日:2022-12-14 21:28:30 公開日:2020-04-10
# 信頼できる深視野構造ヘルスモニタリングのためのモデル不確かさ定量化

Model Uncertainty Quantification for Reliable Deep Vision Structural Health Monitoring ( http://arxiv.org/abs/2004.05151v1 )

ライセンス: Link先を確認
Seyed Omid Sajedi, Xiao Liang(参考訳) ディープラーニングを活用したコンピュータビジョンはこの10年で大きな成功を収めた。 最近の文献では既存の深層モデルの有望な性能にもかかわらず、モデルの信頼性は未だ不明である。 構造ヘルスモニタリング(shm)は構造物の安全性と持続性にとって重要な課題であり、予測ミスは致命的な結果をもたらす可能性がある。 本稿では,モンテカルロ・ドロップアウトサンプリングを用いて不確かさを定量化できる深部視覚scmモデルのベイズ推定を提案する。 亀裂, 局所損傷同定, 橋梁成分検出の3つの独立したケーススタディをベイズ推定を用いて検討した。 予測結果の改善に加えて,2つの不確実性指標である平均クラスソフトマックス分散とエントロピーは,誤分類と良好な相関関係があることが示されている。 不確実性指標は、人間の介入を誘発し、予測結果を改善するために使用できるが、不確実性マスクの解釈は困難である。 したがって、性能をさらに高めるように入力として不確実性を取るためにサロゲートモデルが導入される。 本稿では,検査プロセスにモデル不確実性を組み込むため,将来の深層視覚SHMフレームワークに適用することができる。

Computer vision leveraging deep learning has achieved significant success in the last decade. Despite the promising performance of the existing deep models in the recent literature, the extent of models' reliability remains unknown. Structural health monitoring (SHM) is a crucial task for the safety and sustainability of structures, and thus prediction mistakes can have fatal outcomes. This paper proposes Bayesian inference for deep vision SHM models where uncertainty can be quantified using the Monte Carlo dropout sampling. Three independent case studies for cracks, local damage identification, and bridge component detection are investigated using Bayesian inference. Aside from better prediction results, mean class softmax variance and entropy, the two uncertainty metrics, are shown to have good correlations with misclassifications. While the uncertainty metrics can be used to trigger human intervention and potentially improve prediction results, interpretation of uncertainty masks can be challenging. Therefore, surrogate models are introduced to take the uncertainty as input such that the performance can be further boosted. The proposed methodology in this paper can be applied to future deep vision SHM frameworks to incorporate model uncertainty in the inspection processes.
翻訳日:2022-12-14 21:22:35 公開日:2020-04-10
# 実世界形状補間のためのハミルトン力学

Hamiltonian Dynamics for Real-World Shape Interpolation ( http://arxiv.org/abs/2004.05199v1 )

ライセンス: Link先を確認
Marvin Eisenberger, Daniel Cremers(参考訳) 3次元形状補間の古典問題を再検討し,ハミルトニアンダイナミクスに基づく新しい,物理的に妥当なアプローチを提案する。 ほとんどの先行研究は合成入力形状に焦点を当てているが、この定式化は不完全な入力対応と様々な種類のノイズを伴う実世界のスキャンに適用できるように設計されている。 この目的のために, 動的薄殻シミュレーションと発散のない形状変形の最近の進歩を用いて, 2つの入力形状の可能な中間列を求める逆問題に対処する。 連続するフレームの小さな歪みを主眼とする先行研究と比較して, 体積保存, 運動量保存, および異方性局所歪みモデルを明示的にモデル化した。 我々は、不完全な入力に対して頑健な補間を得るためには、アライメントに基づく定式化をもたらす入力ノイズを明示的にモデル化する必要があると論じる。 最後に,より広い範囲の合成およびスキャンデータに対する先行研究よりも質的かつ定量的な改善を示す。 ノイズ入力に対してより頑健であると同時に,中間形状を正確に保存し,自己切断を回避し,高分解能スキャンにスケーラブルである。

We revisit the classical problem of 3D shape interpolation and propose a novel, physically plausible approach based on Hamiltonian dynamics. While most prior work focuses on synthetic input shapes, our formulation is designed to be applicable to real-world scans with imperfect input correspondences and various types of noise. To that end, we use recent progress on dynamic thin shell simulation and divergence-free shape deformation and combine them to address the inverse problem of finding a plausible intermediate sequence for two input shapes. In comparison to prior work that mainly focuses on small distortion of consecutive frames, we explicitly model volume preservation and momentum conservation, as well as an anisotropic local distortion model. We argue that, in order to get a robust interpolation for imperfect inputs, we need to model the input noise explicitly which results in an alignment based formulation. Finally, we show a qualitative and quantitative improvement over prior work on a broad range of synthetic and scanned data. Besides being more robust to noisy inputs, our method yields exactly volume preserving intermediate shapes, avoids self-intersections and is scalable to high resolution scans.
翻訳日:2022-12-14 21:22:15 公開日:2020-04-10
# 社会文化的変数がオンラインの皮肉コミュニケーションに及ぼす影響

The Effect of Sociocultural Variables on Sarcasm Communication Online ( http://arxiv.org/abs/2004.04945v1 )

ライセンス: Link先を確認
Silviu Vlad Oprea, Walid Magdy(参考訳) オンラインソーシャルネットワーク(OSN)は、人々を繋ぎ、オンラインでのコミュニケーションを可能にするために不可欠な役割を担っている。 OSNユーザーは自分の考え、瞬間、ニュースをネットワークで共有する。 オンラインで共有されるメッセージには、文字で表される意図された意味がリテラルと異なる、皮肉な投稿が含まれる。 これは通信を誤る可能性がある。 精神言語学におけるこれまでの研究は、話者と聞き手の間の皮肉な誤解につながる可能性のある社会文化的要因について研究してきた。 しかし、OSNの文脈ではそのような研究が欠如している。 本稿では,性別,年齢,国,英語の母国性などの社会文化的変数が,インターネット上での皮肉的コミュニケーションの有効性に与える影響を定量的に分析することによって,このギャップを埋める。 投稿した著者から直接、皮肉なツイートの例を集めます。 さらに,社会文化的背景の異なる第三者に,これらのツイートに皮肉のラベルをつけるよう依頼する。 分析の結果、年齢、英語の母国性、国は著しく影響があり、サルカズムを直接研究するか、あるいはサルカズムに影響を及ぼす可能性のある関連する現象を観察する未来の社会分析ツールの設計において考慮されるべきであることが示された。 また,OSN上でのサーカシック交換を取り巻く社会生態についても考察した。 我々は,今後の研究に発見を組み込む方法を提案することで結論付けた。

Online social networks (OSN) play an essential role for connecting people and allowing them to communicate online. OSN users share their thoughts, moments, and news with their network. The messages they share online can include sarcastic posts, where the intended meaning expressed by the written text is different from the literal one. This could result in miscommunication. Previous research in psycholinguistics has studied the sociocultural factors the might lead to sarcasm misunderstanding between speakers and listeners. However, there is a lack of such studies in the context of OSN. In this paper we fill this gap by performing a quantitative analysis on the influence of sociocultural variables, including gender, age, country, and English language nativeness, on the effectiveness of sarcastic communication online. We collect examples of sarcastic tweets directly from the authors who posted them. Further, we ask third-party annotators of different sociocultural backgrounds to label these tweets for sarcasm. Our analysis indicates that age, English language nativeness, and country are significantly influential and should be considered in the design of future social analysis tools that either study sarcasm directly, or look at related phenomena where sarcasm may have an influence. We also make observations about the social ecology surrounding sarcastic exchanges on OSNs. We conclude by suggesting ways in which our findings can be included in future work.
翻訳日:2022-12-14 21:21:19 公開日:2020-04-10
# tensorflowの効率的なサンプルソフトマックス

Efficient Sampled Softmax for Tensorflow ( http://arxiv.org/abs/2004.05244v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) 本稿では,tensorflow に対する \emph{sampled softmax loss} の効率的な実装について述べる。 デフォルトの実装のスピードアップは、前方と後方のパスに対するグラフの単純化によって達成される。

This short paper discusses an efficient implementation of \emph{sampled softmax loss} for Tensorflow. The speedup over the default implementation is achieved due to simplification of the graph for the forward and backward passes.
翻訳日:2022-12-14 21:20:22 公開日:2020-04-10
# 新型コロナウイルス(covid-19)オープンリサーチデータセットのためのニューラルネットワークの迅速な展開 - 予備的考察と教訓

Rapidly Deploying a Neural Search Engine for the COVID-19 Open Research Dataset: Preliminary Thoughts and Lessons Learned ( http://arxiv.org/abs/2004.05125v1 )

ライセンス: Link先を確認
Edwin Zhang, Nikhil Gupta, Rodrigo Nogueira, Kyunghyun Cho, and Jimmy Lin(参考訳) 我々は、最新のニューラルネットワークランキングアーキテクチャを利用して、Allen Institute for AIがキュレートしたCOVID-19 Open Research Datasetに情報アクセスを提供する検索エンジンであるNeural Covidexを紹介する。 このwebアプリケーションは、現在進行中の世界的なパンデミックに取り組むドメインの専門家を助けるために、ここ数週間で開発した一連のツールの一部として存在します。 科学文献への情報アクセス能力の向上が,エビデンスに基づく意思決定と洞察の生成に寄与できることを願っている。 本稿では,最初の取り組みについて述べるとともに,その過程で学んだ教訓についていくつか考察する。

We present the Neural Covidex, a search engine that exploits the latest neural ranking architectures to provide information access to the COVID-19 Open Research Dataset curated by the Allen Institute for AI. This web application exists as part of a suite of tools that we have developed over the past few weeks to help domain experts tackle the ongoing global pandemic. We hope that improved information access capabilities to the scientific literature can inform evidence-based decision making and insight generation. This paper describes our initial efforts and offers a few thoughts about lessons we have learned along the way.
翻訳日:2022-12-14 21:20:18 公開日:2020-04-10
# 育児リズム学習のためのasd子どもによる模倣ゲームの実装

An implementation of an imitation game with ASD children to learn nursery rhymes ( http://arxiv.org/abs/2004.05886v1 )

ライセンス: Link先を確認
Sao Mai Nguyen, Nathalie Collot-Lavenne (CHU - BREST), Christophe Lohr (INFO), S\'ebastien Guillon (IMT Atlantique), Patricio Tula (IMT Atlantique), Alvaro Paez (IMT Atlantique), Mouad Bouaida (IMT Atlantique), Arthus Anin (IMT Atlantique), Saad El Qacemi (IMT Atlantique)(参考訳) これまでの研究では、成人に模倣されることが自閉症と発達遅延を持つ子供に対する効果的な介入であることが示唆されている。 本研究の目的は,ロボットによる模倣ゲームが子どもの興味を喚起し,臨床活動に有効なツールとなるかどうかを検討することである。 本稿では,我々が実施したrgb画像ポーズ認識に基づく保育園ライム模倣ゲームの設計,その実装と予備テストについて述べる。

Previous studies have suggested that being imitated by an adult is an effective intervention with children with autism and developmental delay. The purpose of this study is to investigate if an imitation game with a robot can arise interest from children and constitute an effective tool to be used in clinical activities. In this paper, we describe the design of our nursery rhyme imitation game, its implementation based on RGB image pose recognition and the preliminary tests we performed.
翻訳日:2022-12-14 21:19:35 公開日:2020-04-10
# ContourNet: 正確な任意形テキスト検出に向けてのさらなるステップ

ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection ( http://arxiv.org/abs/2004.04940v1 )

ライセンス: Link先を確認
Yuxin Wang, Hongtao Xie, Zhengjun Zha, Mengting Xing, Zilong Fu and Yongdong Zhang(参考訳) 近年,シーンのテキスト検出が急速に進展している。 しかし、まだ2つの大きな課題があります。 1) 多くの方法がテキスト表現に偽陽性を生じさせる。 2)シーンテキストの大規模分散は,サンプルの学習を困難にしている。 本稿では,この2つの問題を効果的に処理し,任意の文字を精度良く検出するcontournetを提案する。 まず, 適応領域提案ネットワーク (Adaptive-RPN) を提案し, 予測ボックスと接点境界ボックス間のIoU(Intersection over Union)値のみに着目してテキスト提案を行う。 次に,新たなLOTM (Local Orthogonal Texture-Aware Module) が提案特徴の局所テクスチャ情報を2つの直交方向にモデル化し,輪郭点の集合でテキスト領域を表現する。 強い一方向あるいは弱い直交活性化は、通常、偽陽性パターンの単調なテクスチャ特性(ストリークなど)によって引き起こされるので、両直交方向に高い応答値の予測を出力するだけで、これらの偽陽性を効果的に抑制できる。 これによりテキスト領域のより正確な記述が可能になる。 3つの挑戦的データセット(Total-Text, CTW1500, ICDAR2015)に対する大規模な実験により,本手法が最先端の性能を実現することを確認した。 コードはhttps://github.com/wangyuxin87/ContourNetで入手できる。

Scene text detection has witnessed rapid development in recent years. However, there still exists two main challenges: 1) many methods suffer from false positives in their text representations; 2) the large scale variance of scene texts makes it hard for network to learn samples. In this paper, we propose the ContourNet, which effectively handles these two problems taking a further step toward accurate arbitrary-shaped text detection. At first, a scale-insensitive Adaptive Region Proposal Network (Adaptive-RPN) is proposed to generate text proposals by only focusing on the Intersection over Union (IoU) values between predicted and ground-truth bounding boxes. Then a novel Local Orthogonal Texture-aware Module (LOTM) models the local texture information of proposal features in two orthogonal directions and represents text region with a set of contour points. Considering that the strong unidirectional or weakly orthogonal activation is usually caused by the monotonous texture characteristic of false-positive patterns (e.g. streaks.), our method effectively suppresses these false positives by only outputting predictions with high response value in both orthogonal directions. This gives more accurate description of text regions. Extensive experiments on three challenging datasets (Total-Text, CTW1500 and ICDAR2015) verify that our method achieves the state-of-the-art performance. Code is available at https://github.com/wangyuxin87/ContourNet.
翻訳日:2022-12-14 21:13:54 公開日:2020-04-10
# 3D IoU-Net: IoU Guided 3D Object Detector for Point Clouds

3D IoU-Net: IoU Guided 3D Object Detector for Point Clouds ( http://arxiv.org/abs/2004.04962v1 )

ライセンス: Link先を確認
Jiale Li, Shujie Luo, Ziqi Zhu, Hang Dai, Andrey S. Krylov, Yong Ding, and Ling Shao(参考訳) 既存のポイントクラウドベースの3Dオブジェクト検出器のほとんどは、分類とボックス回帰のタスクに焦点を当てている。 しかし、この領域における別のボトルネックは、非最大抑圧(NMS)後処理の正確な検出信頼性を達成することである。 本稿では,正規分類と回帰分岐に3次元IoU予測分岐を付加する。 予測されたIoUはNMSの検出信頼度として使用される。 より正確なIoU予測を得るために,IoU感度特徴学習とIoUアライメント操作を備えた3次元IoU-Netを提案する。 視点不変予測ヘッドを得るため,8つのコーナーの各視点から局所的ポイントクラウド特徴を集約し,各視点の貢献度を異なる注意で適応的に重み付けすることにより,注意コーナー集約(aca)モジュールを提案する。 幾何情報埋め込みのためのコーナー幾何符号化(CGE)モジュールを提案する。 我々の知る限りでは,提案する特徴学習に幾何学的埋め込み情報を導入するのはこれが初めてである。 これら2つの特徴部分は、IoUの感度特性として多層パーセプトロン(MLP)ネットワークによって適応的に融合される。 IoUアライメント動作を導入して、バウンディングボックス回帰ヘッドとIoU予測とのミスマッチを解消し、IoU予測の精度をさらに高める。 KITTIカー検出ベンチマークの実験結果から,IoU知覚による3次元IoU-Netが最先端性能を実現することが示された。

Most existing point cloud based 3D object detectors focus on the tasks of classification and box regression. However, another bottleneck in this area is achieving an accurate detection confidence for the Non-Maximum Suppression (NMS) post-processing. In this paper, we add a 3D IoU prediction branch to the regular classification and regression branches. The predicted IoU is used as the detection confidence for NMS. In order to obtain a more accurate IoU prediction, we propose a 3D IoU-Net with IoU sensitive feature learning and an IoU alignment operation. To obtain a perspective-invariant prediction head, we propose an Attentive Corner Aggregation (ACA) module by aggregating a local point cloud feature from each perspective of eight corners and adaptively weighting the contribution of each perspective with different attentions. We propose a Corner Geometry Encoding (CGE) module for geometry information embedding. To the best of our knowledge, this is the first time geometric embedding information has been introduced in proposal feature learning. These two feature parts are then adaptively fused by a multi-layer perceptron (MLP) network as our IoU sensitive feature. The IoU alignment operation is introduced to resolve the mismatching between the bounding box regression head and IoU prediction, thereby further enhancing the accuracy of IoU prediction. The experimental results on the KITTI car detection benchmark show that 3D IoU-Net with IoU perception achieves state-of-the-art performance.
翻訳日:2022-12-14 21:13:29 公開日:2020-04-10
# 回答分布のエントロピーの特定による視覚的質問の再現

Rephrasing visual questions by specifying the entropy of the answer distribution ( http://arxiv.org/abs/2004.04963v1 )

ライセンス: Link先を確認
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shun'ichi Satoh(参考訳) 視覚的質問応答(VQA)とは、質問と画像のペアである視覚的質問に答えるタスクである。 視覚的な質問はあいまいで明確であり、質問のあいまいさを状況から状況へと変えるのが適切かもしれない。 しかし、この問題は以前の作業では解決されていない。 我々は,質問のあいまいさを制御して質問を再現する新しい課題を提案する。 視覚的質問のあいまいさは、VQAモデルによって予測される回答分布のエントロピーを用いて定義される。 提案モデルは,ユーザが指定した曖昧性(またはエントロピー)を有するように,画像で与えられた情報源質問を再現する。 あいまいな情報を持たないVQA v2データセットを用いて,提案モデルを訓練するための2つの学習戦略を提案する。 我々は,再現された質問の曖昧さを制御できる手法の利点と,曖昧さを減らすよりも増加が難しいという興味深い観察を示す。

Visual question answering (VQA) is a task of answering a visual question that is a pair of question and image. Some visual questions are ambiguous and some are clear, and it may be appropriate to change the ambiguity of questions from situation to situation. However, this issue has not been addressed by any prior work. We propose a novel task, rephrasing the questions by controlling the ambiguity of the questions. The ambiguity of a visual question is defined by the use of the entropy of the answer distribution predicted by a VQA model. The proposed model rephrases a source question given with an image so that the rephrased question has the ambiguity (or entropy) specified by users. We propose two learning strategies to train the proposed model with the VQA v2 dataset, which has no ambiguity information. We demonstrate the advantage of our approach that can control the ambiguity of the rephrased questions, and an interesting observation that it is harder to increase than to reduce ambiguity.
翻訳日:2022-12-14 21:13:05 公開日:2020-04-10
# メガスケールデータセットは時空間CNNをさらに高めるか?

Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs? ( http://arxiv.org/abs/2004.04968v1 )

ライセンス: Link先を確認
Hirokatsu Kataoka, Tenga Wakamiya, Kensho Hara, Yutaka Satoh(参考訳) 時空間3D畳み込みニューラルネットワーク(3D CNN)をさらに改善するために、ビデオデータセットの収集と利用は可能か? ビデオ認識におけるこのオープンな疑問に積極的に答えるために,大規模ビデオデータセットと3D CNNを用いて探索を行った。 ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。 最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。 しかし、私たちはデータセットを考慮せずにアーキテクチャの探索に大きく依存しています。 そこで,本稿では,時空間3次元CNNの改良を目的とした探索研究を行っている。 i)最近提案された大規模ビデオデータセットは,映像分類精度の観点から,時空間CNNの改善に役立つ。 注意深い注釈付きデータセット(例えば、kinetics-700)は、ビデオ分類タスクのためのビデオ表現を効果的に事前学習することを明らかにする。 (ii)#category/#instanceとビデオ分類精度の関係を確認した。 その結果、#categoryは最初は修正されるべきであり、その後、#instanceは、データセットの構築時にビデオデータセット上で増加する。 3) ビデオデータセットを実質的に拡張するためには,Kinetics-700やMoments in Time(MiT)データセットなどの公開データセットを単純に結合する。 Kinetics-700の事前トレーニングと比較すると、微調整の点において、UCF-101、HMDB-51、ActivityNetの3D CNNと+0.9、+3.4、+1.1の統合データセットがさらに強化される。 (iv) 認識アーキテクチャの面では、kinetics-700とmerge dataset pre-trainedモデルにより、残差ネットワーク(resnet)を持つ200層まで認識性能が向上する一方、kinetics-400は200層アーキテクチャの最適化に成功できない。

How can we collect and use a video dataset to further improve spatiotemporal 3D Convolutional Neural Networks (3D CNNs)? In order to positively answer this open question in video recognition, we have conducted an exploration study using a couple of large-scale video datasets and 3D CNNs. In the early era of deep neural networks, 2D CNNs have been better than 3D CNNs in the context of video recognition. Recent studies revealed that 3D CNNs can outperform 2D CNNs trained on a large-scale video dataset. However, we heavily rely on architecture exploration instead of dataset consideration. Therefore, in the present paper, we conduct exploration study in order to improve spatiotemporal 3D CNNs as follows: (i) Recently proposed large-scale video datasets help improve spatiotemporal 3D CNNs in terms of video classification accuracy. We reveal that a carefully annotated dataset (e.g., Kinetics-700) effectively pre-trains a video representation for a video classification task. (ii) We confirm the relationships between #category/#instance and video classification accuracy. The results show that #category should initially be fixed, and then #instance is increased on a video dataset in case of dataset construction. (iii) In order to practically extend a video dataset, we simply concatenate publicly available datasets, such as Kinetics-700 and Moments in Time (MiT) datasets. Compared with Kinetics-700 pre-training, we further enhance spatiotemporal 3D CNNs with the merged dataset, e.g., +0.9, +3.4, and +1.1 on UCF-101, HMDB-51, and ActivityNet datasets, respectively, in terms of fine-tuning. (iv) In terms of recognition architecture, the Kinetics-700 and merged dataset pre-trained models increase the recognition performance to 200 layers with the Residual Network (ResNet), while the Kinetics-400 pre-trained model cannot successfully optimize the 200-layer architecture.
翻訳日:2022-12-14 21:12:49 公開日:2020-04-10
# 3次元cnnにおける時空間融合 : 確率論的考察

Spatiotemporal Fusion in 3D CNNs: A Probabilistic View ( http://arxiv.org/abs/2004.04981v1 )

ライセンス: Link先を確認
Yizhou Zhou, Xiaoyan Sun, Chong Luo, Zheng-Jun Zha and Wenjun Zeng(参考訳) 静止画像認識の成功にもかかわらず、時空間的信号処理のためのディープニューラルネットワーク(ビデオでのヒューマンアクション認識など)は、過去数年間、低い効果と非効率に苦しめられている。 近年、人間の専門家は、3D畳み込みニューラルネットワーク(3D CNN)における異なるコンポーネントの重要性を分析して、より強力な時空間学習バックボーンを設計している。 多くの場合、時空間融合は必須の1つである。 推論中の各層における空間的および時間的信号の抽出方法を制御する。 従来の試みは通常、特定の畳み込みを経験的に組み合わせたアドホックな設計から始まり、それに対応するネットワークをトレーニングして得られる性能に基づいて結論を導き出す。 これらの手法は、限られた数の核融合戦略のネットワークレベル分析のみをサポートする。 本稿では,時空間的融合戦略を確率空間に変換し,それらを個別に訓練することなく,様々な融合戦略をネットワークレベルで評価する手法を提案する。 また,確率空間内の時空間融合に対する層レベルの選好などの細かな数値情報を得ることもできる。 このアプローチは時空間融合解析の効率を大きく向上させる。 確率空間に基づいて、4つのよく知られた行動認識データセットの最先端性能を達成するための新たな融合戦略を生成する。

Despite the success in still image recognition, deep neural networks for spatiotemporal signal tasks (such as human action recognition in videos) still suffers from low efficacy and inefficiency over the past years. Recently, human experts have put more efforts into analyzing the importance of different components in 3D convolutional neural networks (3D CNNs) to design more powerful spatiotemporal learning backbones. Among many others, spatiotemporal fusion is one of the essentials. It controls how spatial and temporal signals are extracted at each layer during inference. Previous attempts usually start by ad-hoc designs that empirically combine certain convolutions and then draw conclusions based on the performance obtained by training the corresponding networks. These methods only support network-level analysis on limited number of fusion strategies. In this paper, we propose to convert the spatiotemporal fusion strategies into a probability space, which allows us to perform network-level evaluations of various fusion strategies without having to train them separately. Besides, we can also obtain fine-grained numerical information such as layer-level preference on spatiotemporal fusion within the probability space. Our approach greatly boosts the efficiency of analyzing spatiotemporal fusion. Based on the probability space, we further generate new fusion strategies which achieve the state-of-the-art performance on four well-known action recognition datasets.
翻訳日:2022-12-14 21:12:14 公開日:2020-04-10
# 画像・映像認識のための残像ネットワークの改良

Improved Residual Networks for Image and Video Recognition ( http://arxiv.org/abs/2004.04989v1 )

ライセンス: Link先を確認
Ionut Cosmin Duta, Li Liu, Fan Zhu, Ling Shao(参考訳) 残留ネットワーク(resnets)は、cnn(convolutional neural network)アーキテクチャの強力なタイプであり、様々なタスクで広く採用され使用される。 本稿では,ResNetsの改良版を提案する。 提案した改良は,ResNetの3つの主要コンポーネント,すなわちネットワーク層を流れる情報の流れ,残りのビルディングブロック,およびプロジェクションショートカットに対処する。 ベースライン上での精度と学習収束の一貫性のある改善を示すことができます。 例えば、imagenetデータセットでは、50レイヤのresnetを使用して、トップ1の精度でベースラインよりも1.19%改善され、もう1つの設定で約2%向上しています。 重要なことに、これらの改善はモデルの複雑さを増すことなく得られる。 提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳しい最適化問題を示す。 画像分類(ImageNet, CIFAR-10, CIFAR-100)、オブジェクト検出(COCO)、ビデオアクション認識(Kinetics-400, Something-Something-v2)の3つの課題について報告する。 ディープラーニングの時代、私たちはCNNの深みのための新しいマイルストーンを確立しました。 我々は、ImageNetデータセット上の404層深度CNNと、CIFAR-10およびCIFAR-100上の3002層ネットワークのトレーニングに成功した。 コードは、https://github.com/iduta/iresnetで入手できる。

Residual networks (ResNets) represent a powerful type of convolutional neural network (CNN) architecture, widely adopted and used in various tasks. In this work we propose an improved version of ResNets. Our proposed improvements address all three main components of a ResNet: the flow of information through the network layers, the residual building block, and the projection shortcut. We are able to show consistent improvements in accuracy and learning convergence over the baseline. For instance, on ImageNet dataset, using the ResNet with 50 layers, for top-1 accuracy we can report a 1.19% improvement over the baseline in one setting and around 2% boost in another. Importantly, these improvements are obtained without increasing the model complexity. Our proposed approach allows us to train extremely deep networks, while the baseline shows severe optimization issues. We report results on three tasks over six datasets: image classification (ImageNet, CIFAR-10 and CIFAR-100), object detection (COCO) and video action recognition (Kinetics-400 and Something-Something-v2). In the deep learning era, we establish a new milestone for the depth of a CNN. We successfully train a 404-layer deep CNN on the ImageNet dataset and a 3002-layer network on CIFAR-10 and CIFAR-100, while the baseline is not able to converge at such extreme depths. Code is available at: https://github.com/iduta/iresnet
翻訳日:2022-12-14 21:11:56 公開日:2020-04-10
# 車両再識別のための解析に基づくビューアウェア埋め込みネットワーク

Parsing-based View-aware Embedding Network for Vehicle Re-Identification ( http://arxiv.org/abs/2004.05021v1 )

ライセンス: Link先を確認
Dechao Meng and Liang Li and Xuejing Liu and Yadong Li and Shijie Yang and Zhengjun Zha and Xingyu Gao and Shuhui Wang and Qingming Huang(参考訳) 車両の再識別は、クロスカメラシナリオの様々な視点から同じ車両の画像を見つけることである。 この作業の主な課題は、異なる視点によって引き起こされる大きな内乱距離と、類似した車両によって引き起こされる微妙な間乱である。 本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,パーシング型ビューアウェア埋め込みネットワーク(PVEN)を提案する。 まず、車両を4つの異なるビューに解析し、マスク平均プールによって特徴を整列させる解析ネットワークを導入する。 このようなアライメントは、車両のきめ細かい表現を提供する。 第2に,視認性を高めるために,目に見える視認性に注目する共通視点をデザインし,観察者間距離を短縮するだけでなく,観察者間距離の差を増大させる。 PVENは、異なる視点で車両の安定した識別情報を取得するのに役立つ。 3つのデータセットで行った実験は、我々のモデルが最先端のメソッドを大きなマージンで上回っていることを示している。

Vehicle Re-Identification is to find images of the same vehicle from various views in the cross-camera scenario. The main challenges of this task are the large intra-instance distance caused by different views and the subtle inter-instance discrepancy caused by similar vehicles. In this paper, we propose a parsing-based view-aware embedding network (PVEN) to achieve the view-aware feature alignment and enhancement for vehicle ReID. First, we introduce a parsing network to parse a vehicle into four different views, and then align the features by mask average pooling. Such alignment provides a fine-grained representation of the vehicle. Second, in order to enhance the view-aware features, we design a common-visible attention to focus on the common visible views, which not only shortens the distance among intra-instances, but also enlarges the discrepancy of inter-instances. The PVEN helps capture the stable discriminative information of vehicle under different views. The experiments conducted on three datasets show that our model outperforms state-of-the-art methods by a large margin.
翻訳日:2022-12-14 21:10:58 公開日:2020-04-10
# メトリックラーニングに基づく軽量ネットワークを用いたASL認識

ASL Recognition with Metric-Learning based Lightweight Network ( http://arxiv.org/abs/2004.05054v1 )

ライセンス: Link先を確認
Evgeny Izutov(参考訳) 過去数十年間、機械によって解決される人間のタスクのセットは劇的に拡張された。 画像分類の単純な問題から、研究者たちは、自律運転や言語翻訳など、より高度で重要な問題を解決しようとしている。 言語翻訳のケースには、画像処理と言語処理の両方を含む手話翻訳の難しい領域が含まれている。 ASLジェスチャ認識のための軽量ネットワークを実用化に十分な性能で提案することで,その方向への一歩を踏み出す。 提案手法は,MS-ASLデータセットおよび連続手話認識シナリオのライブモードにおける顕著な堅牢性を示す。 さらに,行動認識モデルトレーニングとメトリック学習を組み合わせて,限られたサイズのデータベース上でネットワークをトレーニングする方法についても述べる。 トレーニングコードは、Intel OpenVINO Training Extensionsの一部として利用可能である。

In the past decades the set of human tasks that are solved by machines was extended dramatically. From simple image classification problems researchers now move towards solving more sophisticated and vital problems, like, autonomous driving and language translation. The case of language translation includes a challenging area of sign language translation that incorporates both image and language processing. We make a step in that direction by proposing a lightweight network for ASL gesture recognition with a performance sufficient for practical applications. The proposed solution demonstrates impressive robustness on MS-ASL dataset and in live mode for continuous sign gesture recognition scenario. Additionally, we describe how to combine action recognition model training with metric-learning to train the network on the database of limited size. The training code is available as part of Intel OpenVINO Training Extensions.
翻訳日:2022-12-14 21:10:40 公開日:2020-04-10
# 複数生体認証を用いた解析・開発システム

Analyze and Development System with Multiple Biometric Identification ( http://arxiv.org/abs/2004.04911v1 )

ライセンス: Link先を確認
Sher Dadakhanov(参考訳) 技術開発が急速に増加し、アイデンティティ盗難、消費者不正が増加し、個人データに対する脅威も日々増加している。 盗難からの情報を確保するために以前に開発された手法は、効果的で安全ではなかった。 バイオメトリックスは、個人情報のより効率的なセキュリティのための技術が必要になったときに導入された。 個人識別番号(pin)、パスワード、鍵、ログインidといった従来のアプローチは忘れられ、盗まれたり、紛失したりする可能性がある。 生体認証システムでは、ユーザーはパスワードを覚えたり、キーを携帯したりしない。 個人として、生体認証システムが実際のユーザと詐欺を区別するために指紋、顔認識、音声認識といった物理的特性を使用する物理的外観と行動特性によってお互いを認識する。 2005年に安全性を高めるために、バイオメトリック認証手法は政府やビジネス部門で開発されたが、今日では銀行、金融、ホームセキュリティと保護、ヘルスケア、ビジネスセキュリティ、セキュリティなど、ほぼ全ての民間部門に到達している。 生体認証システムの生体サンプルとテンプレートが1つの生体認証文字を検知し、ユーザを置き換えて複製できるため、複数の生体認証技術を統合するという新しいアイデアは、実際のユーザと特定できる個人を2つ以上の生体データ特性を用いて、いわゆるマルチモーダル生体認証システムを導入している。

Cause of a rapid increase in technological development, increasing identity theft, consumer fraud, the threat to personal data is also increasing every day. Methods developed earlier to ensure personal the information from the thefts was not effective and safe. Biometrics were introduced when it was needed technology for more efficient security of personal information. Old-fashioned traditional approaches like Personal identification number( PIN), passwords, keys, login ID can be forgotten, stolen or lost. In biometric authentication system, user may not remember any passwords or carry any keys. As people they recognize each other by the physical appearance and behavioral characteristics that biometric systems use physical characteristics, such as fingerprints, facial recognition, voice recognition, in order to distinguish between the actual user and scammer. In order to increase safety in 2005, biometric identification methods were developed government and business sectors, but today it has reached almost all private sectors as Banking, Finance, home security and protection, healthcare, business security and security etc. Since biometric samples and templates of a biometric system having one biometric character to detect and the user can be replaced and duplicated, the new idea of merging multiple biometric identification technologies has so-called multimodal biometric recognition systems have been introduced that use two or more biometric data characteristics of the individual that can be identified as a real user or not.
翻訳日:2022-12-14 21:03:35 公開日:2020-04-10
# 部分領域適応のための深部残差補正ネットワーク

Deep Residual Correction Network for Partial Domain Adaptation ( http://arxiv.org/abs/2004.04914v1 )

ライセンス: Link先を確認
Shuang Li, Chi Harold Liu, Qiuxia Lin, Qi Wen, Limin Su, Gao Huang, Zhengming Ding(参考訳) ディープドメイン適応法は、よくラベルされたソースドメインから異なるが関連する未ラベルのターゲットドメインへの転送可能な表現を学習することで、魅力的なパフォーマンスを実現している。 ほとんどの既存の著作物では、ソースとターゲットのデータは同じラベル空間を共有しており、現実のアプリケーションでは満足できないことが多い。 ビッグデータの出現とともに、部分的ドメイン適応と呼ばれるより実用的なシナリオがあり、比較的小規模のターゲットドメインに取り組んでいる間、私たちは常により大規模なソースドメインにアクセスできます。 この場合、従来の領域適応仮定は緩和され、ターゲットラベル空間はソースラベル空間のサブセットとなる傾向にある。 直感的には、最も関連するソースサブクラスのポジティブな効果を補強し、無関係なソースサブクラスのネガティブな影響を減らすことは、部分的なドメイン適応問題に対処する上で非常に重要である。 本稿では,ソースからターゲットへの適応を効果的に向上し,無関係なソースクラスの影響を明示的に弱めるタスク特有の特徴層とともに,ソースネットワークに1つの残差ブロックを接続することにより,効率的に実装した深部残差補正ネットワーク(drcn)を提案する。 具体的には、複数の完全接続層からなるプラグ付き残差ブロックは、基本的なネットワークを深くし、その機能表現能力を高めることができる。 さらに、ソースとターゲット間の共有クラスの特徴分布を一致させて、2つのドメインを結合する重み付きクラスワイドドメインアライメント損失を設計する。 部分的、伝統的、微粒なクロスドメイン認識に関する総合的な実験は、DRCNが競合深いドメイン適応アプローチよりも優れていることを示している。

Deep domain adaptation methods have achieved appealing performance by learning transferable representations from a well-labeled source domain to a different but related unlabeled target domain. Most existing works assume source and target data share the identical label space, which is often difficult to be satisfied in many real-world applications. With the emergence of big data, there is a more practical scenario called partial domain adaptation, where we are always accessible to a more large-scale source domain while working on a relative small-scale target domain. In this case, the conventional domain adaptation assumption should be relaxed, and the target label space tends to be a subset of the source label space. Intuitively, reinforcing the positive effects of the most relevant source subclasses and reducing the negative impacts of irrelevant source subclasses are of vital importance to address partial domain adaptation challenge. This paper proposes an efficiently-implemented Deep Residual Correction Network (DRCN) by plugging one residual block into the source network along with the task-specific feature layer, which effectively enhances the adaptation from source to target and explicitly weakens the influence from the irrelevant source classes. Specifically, the plugged residual block, which consists of several fully-connected layers, could deepen basic network and boost its feature representation capability correspondingly. Moreover, we design a weighted class-wise domain alignment loss to couple two domains by matching the feature distributions of shared classes between source and target. Comprehensive experiments on partial, traditional and fine-grained cross-domain visual recognition demonstrate that DRCN is superior to the competitive deep domain adaptation approaches.
翻訳日:2022-12-14 21:02:50 公開日:2020-04-10
# 位相整合型生態ドメイン適応

Phase Consistent Ecological Domain Adaptation ( http://arxiv.org/abs/2004.04923v1 )

ライセンス: Link先を確認
Yanchao Yang, Dong Lao, Ganesh Sundaramoorthi and Stefano Soatto(参考訳) 我々は、アノテーション付きデータが利用できないドメインにおける分類器の学習にかかわる最適化を標準化する2つの基準を導入し、アノテーション付きデータを異なるドメインで活用する。 意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。 視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。 これにより、学習可能なマップのセットが制限され、セマンティック情報を伝達するのに十分な柔軟性が実現される。 第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。 単一の注釈のない画像に対して、各セグメンテーションの可能性を判断するディープニューラルネットワークを使用して実装される。 標準ドメイン適応フレームワークにこれら2つの優先順位を組み込むことで、セマンティクスセグメンテーションのための最も一般的な教師なしドメイン適応ベンチマークにおいて、ボード全体のパフォーマンスが向上する。

We introduce two criteria to regularize the optimization involved in learning a classifier in a domain where no annotated data are available, leveraging annotated data in a different domain, a problem known as unsupervised domain adaptation. We focus on the task of semantic segmentation, where annotated synthetic data are aplenty, but annotating real data is laborious. The first criterion, inspired by visual psychophysics, is that the map between the two image domains be phase-preserving. This restricts the set of possible learned maps, while enabling enough flexibility to transfer semantic information. The second criterion aims to leverage ecological statistics, or regularities in the scene which are manifest in any image of it, regardless of the characteristics of the illuminant or the imaging sensor. It is implemented using a deep neural network that scores the likelihood of each possible segmentation given a single un-annotated image. Incorporating these two priors in a standard domain adaptation framework improves performance across the board in the most common unsupervised domain adaptation benchmarks for semantic segmentation.
翻訳日:2022-12-14 21:02:20 公開日:2020-04-10
# 劣化不変学習による実世界人物再同定

Real-world Person Re-Identification via Degradation Invariance Learning ( http://arxiv.org/abs/2004.04933v1 )

ライセンス: Link先を確認
Yukun Huang, Zheng-Jun Zha, Xueyang Fu, Richang Hong, Liang Li(参考訳) 現実のシナリオにおける人物再識別(Re-ID)は通常、低解像度、弱い照明、ぼやけ、悪天候などの様々な劣化要因に悩まされる。 一方,これらの劣化は,識別的情報喪失を招き,同一性表現学習を著しく阻害する。一方,低レベルの視覚変動に起因する特徴ミスマッチ問題は検索性能を著しく低下させる。 この問題に対する直感的な解決策は、低レベルの画像復元手法を用いて画質を改善することである。 しかし、既存の修復方法は、参照サンプルの要求、合成と現実のドメインギャップ、低レベルと高レベルのメソッド間の非互換性など、様々な制限により、現実世界のRe-IDに直接役立てることはできない。 本稿では,この問題を解決するために,現実のRe-IDを対象とした劣化不変学習フレームワークを提案する。 自己教師付きディスタングル表現学習戦略を導入することで,同一性に関連したロバストな特徴を同時に抽出し,余分な監督なしに実世界の劣化を取り除くことができる。 低解像度画像をメインのデモとして使用し,いくつかのre-idベンチマークで最先端のパフォーマンスを実現するための実験を行った。 さらに、我々のフレームワークは弱照明などの他の現実世界の劣化要因にも容易に拡張でき、わずかな修正しか行えない。

Person re-identification (Re-ID) in real-world scenarios usually suffers from various degradation factors, e.g., low-resolution, weak illumination, blurring and adverse weather. On the one hand, these degradations lead to severe discriminative information loss, which significantly obstructs identity representation learning; on the other hand, the feature mismatch problem caused by low-level visual variations greatly reduces retrieval performance. An intuitive solution to this problem is to utilize low-level image restoration methods to improve the image quality. However, existing restoration methods cannot directly serve to real-world Re-ID due to various limitations, e.g., the requirements of reference samples, domain gap between synthesis and reality, and incompatibility between low-level and high-level methods. In this paper, to solve the above problem, we propose a degradation invariance learning framework for real-world person Re-ID. By introducing a self-supervised disentangled representation learning strategy, our method is able to simultaneously extract identity-related robust features and remove real-world degradations without extra supervision. We use low-resolution images as the main demonstration, and experiments show that our approach is able to achieve state-of-the-art performance on several Re-ID benchmarks. In addition, our framework can be easily extended to other real-world degradation factors, such as weak illumination, with only a few modifications.
翻訳日:2022-12-14 21:02:00 公開日:2020-04-10
# TTSのためのスケーラブルな多言語フロントエンド

Scalable Multilingual Frontend for TTS ( http://arxiv.org/abs/2004.04934v1 )

ライセンス: Link先を確認
Alistair Conkie, Andrew Finch(参考訳) 本稿では,多くの言語に対応し,新しい言語に容易に拡張可能な,ニューラルテキスト音声フロントエンド(TTS)の開発について述べる。 機械翻訳(MT)にインスパイアされた手法をフロントエンドの構築に適用し,文レベルでの正規化と発音の両方をS2Sモデルを用いてモデル化する。 我々は,S2Sモデルの正規化と発音の訓練を行い,両機能を組み合わせたS2Sモデルの訓練を行った。 発音に対する言語非依存のアプローチでは、語彙を使用しない。 代わりに、文脈ベースの発音を含む全ての発音は、S2Sモデルでキャプチャされる。 また,任意の長さの文を処理できる言語に依存しないチャンキングとスプライシング手法を提案する。 18言語のモデルが訓練され、評価された。 精度測定の多くは99%以上である。 また,現在の生産システムに対するエンドツーエンド合成の文脈での評価を行った。

This paper describes progress towards making a Neural Text-to-Speech (TTS) Frontend that works for many languages and can be easily extended to new languages. We take a Machine Translation (MT) inspired approach to constructing the frontend, and model both text normalization and pronunciation on a sentence level by building and using sequence-to-sequence (S2S) models. We experimented with training normalization and pronunciation as separate S2S models and with training a single S2S model combining both functions. For our language-independent approach to pronunciation we do not use a lexicon. Instead all pronunciations, including context-based pronunciations, are captured in the S2S model. We also present a language-independent chunking and splicing technique that allows us to process arbitrary-length sentences. Models for 18 languages were trained and evaluated. Many of the accuracy measurements are above 99%. We also evaluated the models in the context of end-to-end synthesis against our current production system.
翻訳日:2022-12-14 20:53:46 公開日:2020-04-10
# ロシア語における臨床テキストマイニングのための自動綴り補正

Automated Spelling Correction for Clinical Text Mining in Russian ( http://arxiv.org/abs/2004.04987v1 )

ライセンス: Link先を確認
Ksenia Balabaeva, Anastasia Funkner, Sergey Kovalchuk(参考訳) 本研究の目的は,ロシア語で臨床用テキスト用スペルチェッカーモジュールを開発することである。 説明されたアプローチは、文字列距離測定アルゴリズムと機械学習の埋め込み手法のテクニックを組み合わせる。 全体の精度は 0.86 、語彙精度 - 0.975 、誤差精度は 0.74 である。 我々は,医療用テキストマイニングツールの一部としてスペルチェッカーを開発し,ミススペル,否定,経験者,時間的検出の問題点について考察した。

The main goal of this paper is to develop a spell checker module for clinical text in Russian. The described approach combines string distance measure algorithms with technics of machine learning embedding methods. Our overall precision is 0.86, lexical precision - 0.975 and error precision is 0.74. We develop spell checker as a part of medical text mining tool regarding the problems of misspelling, negation, experiencer and temporality detection.
翻訳日:2022-12-14 20:53:32 公開日:2020-04-10
# ニューラルネットワークモデルにおける構文表現の過大評価

Overestimation of Syntactic Representationin Neural Language Models ( http://arxiv.org/abs/2004.05067v1 )

ライセンス: Link先を確認
Jordan Kodner, Nitish Gupta(参考訳) ここ数年で強力なニューラル言語モデルが出現したことにより、研究の注目は、それらが成功に導く言語のどの側面に焦点を当てている。 モデルの構文表現を探索するいくつかの試験手法が開発されている。 構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。 本稿は,n-gramモデルとLSTMモデルという2つの非シンタクティックベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。

With the advent of powerful neural language models over the last few years, research attention has increasingly focused on what aspects of language they represent that make them so successful. Several testing methodologies have been developed to probe models' syntactic representations. One popular method for determining a model's ability to induce syntactic structure trains a model on strings generated according to a template then tests the model's ability to distinguish such strings from superficially similar ones with different syntax. We illustrate a fundamental problem with this approach by reproducing positive results from a recent paper with two non-syntactic baseline language models: an n-gram model and an LSTM model trained on scrambled inputs.
翻訳日:2022-12-14 20:52:51 公開日:2020-04-10
# 空中画像からの都市パターンの社会経済相関:畳み込みニューラルネットワークの活性化マップの解釈

Socioeconomic correlations of urban patterns inferred from aerial images: interpreting activation maps of Convolutional Neural Networks ( http://arxiv.org/abs/2004.04907v1 )

ライセンス: Link先を確認
Jacob Levy Abitbol and M\'arton Karsai(参考訳) 都市化は近代社会にとって大きな課題であり、社会経済的不平等を広げつつ経済機会へのより良いアクセスを約束する。 このプロセスがどのように展開するかを正確に追跡することは、従来のデータ収集手法では難しいが、リモートセンシング情報は、これらの社会的変化をより完全に見るための代替手段を提供する。 ニューラルネットワークに衛星画像を送り込むことで、その領域に関連する社会経済的情報を回復することができるが、これらのモデルでは、サンプルに含まれる視覚的特徴をどのように説明できず、与えられた予測をトリガーする。 ここでは,フランス全土の社会経済的地位を航空画像から予測し,都市トポロジの観点からクラスの活性化マップを解釈することによって,このギャップを埋める。 本研究では,都市階級と社会経済的地位の空間的相関を無視し,その予測を導出することを示す。 これらの結果は解釈可能なモデルを構築するための道を開くもので、都市化とその影響をよりよく追跡し理解するのに役立ちます。

Urbanisation is a great challenge for modern societies, promising better access to economic opportunities while widening socioeconomic inequalities. Accurately tracking how this process unfolds has been challenging for traditional data collection methods, while remote sensing information offers an alternative to gather a more complete view on these societal changes. By feeding a neural network with satellite images one may recover the socioeconomic information associated to that area, however these models lack to explain how visual features contained in a sample, trigger a given prediction. Here we close this gap by predicting socioeconomic status across France from aerial images and interpreting class activation mappings in terms of urban topology. We show that the model disregards the spatial correlations existing between urban class and socioeconomic status to derive its predictions. These results pave the way to build interpretable models, which may help to better track and understand urbanisation and its consequences.
翻訳日:2022-12-14 20:46:17 公開日:2020-04-10
# スーパービジョンのないフォトリアリスティック環境における視覚的ナビゲーションの学習

Learning to Visually Navigate in Photorealistic Environments Without any Supervision ( http://arxiv.org/abs/2004.04954v1 )

ライセンス: Link先を確認
Lina Mezghani, Sainbayar Sukhbaatar, Arthur Szlam, Armand Joulin, Piotr Bojanowski(参考訳) エージェントが視覚的な入力にのみ依存しなければならない現実的な環境でのナビゲートの学習は難しい課題である。 本稿では,外部の監督や報酬を伴わずに画像入力から学習するための新しいアプローチを提案する。 我々のアプローチは3つの段階から構成される: 一人称視点の優れた表現を学習し、次に記憶を用いて探索することを学ぶ。 モデルは、画像観察を行う任意の環境に適用できるように、内在的な報酬のみで訓練される。 エージェントを訓練して、RGB入力のみでギブソンデータセットから挑戦的な写真リアリスティック環境をナビゲートすることで、このアプローチの利点を示す。

Learning to navigate in a realistic setting where an agent must rely solely on visual inputs is a challenging task, in part because the lack of position information makes it difficult to provide supervision during training. In this paper, we introduce a novel approach for learning to navigate from image inputs without external supervision or reward. Our approach consists of three stages: learning a good representation of first-person views, then learning to explore using memory, and finally learning to navigate by setting its own goals. The model is trained with intrinsic rewards only so that it can be applied to any environment with image observations. We show the benefits of our approach by training an agent to navigate challenging photo-realistic environments from the Gibson dataset with RGB inputs only.
翻訳日:2022-12-14 20:45:59 公開日:2020-04-10
# 粗いアノテーションによる意味的ヒューマンマッチングの強化

Boosting Semantic Human Matting with Coarse Annotations ( http://arxiv.org/abs/2004.04955v1 )

ライセンス: Link先を確認
Jinlin Liu, Yuan Yao, Wendi Hou, Miaomiao Cui, Xuansong Xie, Changshui Zhang, Xian-sheng Hua(参考訳) セマンティック・ヒューマン・マッティングは、前景のヒト領域の画素当たりの不透明度を推定することを目的としている。 非常に困難で、通常はユーザインタラクティブなトリマップと高品質な注釈付きデータが必要です。 この種のデータに注釈をつけるのは労働集約的であり、特に人間の非常に詳細な髪型を考えると、普通のユーザーを超えて優れたスキルを必要とする。 対照的に、粗い注釈付き人間のデータセットは、公開データセットから取得および収集するのがずっと簡単です。 本稿では、粗いアノテートデータと細かなアノテートデータを組み合わせて、トリマップを余分な入力として使用せずに、エンドツーエンドのセマンティック・マッティングを促進することを提案する。 具体的には、ハイブリッドデータを用いて粗いセマンティックマスクを推定するためにマスク予測ネットワークを訓練し、その後、粗いマスク出力の品質を統一する品質統一ネットワークを提案する。 マッティングリファインメントネットワークは、統一マスクと入力画像とを取り込んで最終アルファマットを予測する。 収集した粗い注釈付きデータセットはデータセットを大幅に強化し、実際の画像に対して高品質なアルファマットを生成することができる。 実験の結果,提案手法は最先端手法と同等の性能を示すことがわかった。 さらに、提案手法は、粗末な注釈付き公開データセットの精錬や、セマンティックセグメンテーション手法に使用できるため、高品質な人間データのアノテートコストを大幅に削減することができる。

Semantic human matting aims to estimate the per-pixel opacity of the foreground human regions. It is quite challenging and usually requires user interactive trimaps and plenty of high quality annotated data. Annotating such kind of data is labor intensive and requires great skills beyond normal users, especially considering the very detailed hair part of humans. In contrast, coarse annotated human dataset is much easier to acquire and collect from the public dataset. In this paper, we propose to use coarse annotated data coupled with fine annotated data to boost end-to-end semantic human matting without trimaps as extra input. Specifically, we train a mask prediction network to estimate the coarse semantic mask using the hybrid data, and then propose a quality unification network to unify the quality of the previous coarse mask outputs. A matting refinement network takes in the unified mask and the input image to predict the final alpha matte. The collected coarse annotated dataset enriches our dataset significantly, allows generating high quality alpha matte for real images. Experimental results show that the proposed method performs comparably against state-of-the-art methods. Moreover, the proposed method can be used for refining coarse annotated public dataset, as well as semantic segmentation methods, which reduces the cost of annotating high quality human data to a great extent.
翻訳日:2022-12-14 20:45:44 公開日:2020-04-10
# 空間規則化超音波によるハイパースペクトル画像クラスタリング

Hyperspectral Image Clustering with Spatially-Regularized Ultrametrics ( http://arxiv.org/abs/2004.05048v1 )

ライセンス: Link先を確認
Shukun Zhang and James M. Murphy(参考訳) 超距離の空間的正規化スペクトルクラスタリングに基づく超スペクトル画像の教師なしクラスタリング手法を提案する。 提案手法は,データ密度と幾何を効率的に組み合わせて,ラベルのトレーニングを必要とせず,データの材料クラスを識別する。 提案手法は,データポイント数を準線形スケーリングすることで効率的であり,ロバストな理論性能保証を享受できる。 合成HSIデータおよび実HSIデータの大規模な実験は、ベンチマークや最先端手法と比較して高い性能を示した。 特に,提案手法は優れたラベル付け精度を実現するだけでなく,クラスタ数を効率的に推定する。

We propose a method for the unsupervised clustering of hyperspectral images based on spatially regularized spectral clustering with ultrametric path distances. The proposed method efficiently combines data density and geometry to distinguish between material classes in the data, without the need for training labels. The proposed method is efficient, with quasilinear scaling in the number of data points, and enjoys robust theoretical performance guarantees. Extensive experiments on synthetic and real HSI data demonstrate its strong performance compared to benchmark and state-of-the-art methods. In particular, the proposed method achieves not only excellent labeling accuracy, but also efficiently estimates the number of clusters.
翻訳日:2022-12-14 20:44:30 公開日:2020-04-10
# 多分解能畳み込みオートエンコーダ

Multiresolution Convolutional Autoencoders ( http://arxiv.org/abs/2004.04946v1 )

ライセンス: Link先を確認
Yuying Liu, Colin Ponce, Steven L. Brunton, J. Nathan Kutz(参考訳) 我々は、3つの高度に成功した数学的アーキテクチャを統合し、活用するマルチレゾリューション畳み込みオートエンコーダ(MrCAE)アーキテクチャを提案する。 (i)マルチグリッド方式 (ii)畳み込みオートエンコーダ及び (iii)転校学習。 この手法は,マルチスケール時空間データに対する漸進的トレーニングアプローチを生かした適応的階層型アーキテクチャを提供する。 このフレームワークは、コンパクトな(少数の)ネットワークアーキテクチャと低解像度のデータから始まり、我々のネットワークは徐々に深くなり、より高解像度なデータに新しい情報をエンコードするように、原理的に自分自身を拡大する。 基本的なトランスファー学習手法を適用して、前回のトレーニングステップから学んだ情報を、より大きなネットワークに迅速に転送できるようにする。 その結果、ネットワークはネットワークの異なる深さで異なるスケールした特徴を動的に捉えることができる。 この適応型マルチスケールアーキテクチャの性能向上は、合成例と実世界の時空間データに関する数値実験の連続を通して説明される。

We propose a multi-resolution convolutional autoencoder (MrCAE) architecture that integrates and leverages three highly successful mathematical architectures: (i) multigrid methods, (ii) convolutional autoencoders and (iii) transfer learning. The method provides an adaptive, hierarchical architecture that capitalizes on a progressive training approach for multiscale spatio-temporal data. This framework allows for inputs across multiple scales: starting from a compact (small number of weights) network architecture and low-resolution data, our network progressively deepens and widens itself in a principled manner to encode new information in the higher resolution data based on its current performance of reconstruction. Basic transfer learning techniques are applied to ensure information learned from previous training steps can be rapidly transferred to the larger network. As a result, the network can dynamically capture different scaled features at different depths of the network. The performance gains of this adaptive multiscale architecture are illustrated through a sequence of numerical experiments on synthetic examples and real-world spatial-temporal data.
翻訳日:2022-12-14 20:43:45 公開日:2020-04-10
# 遺伝子プール最適混合による超体積多目的最適化

Uncrowded Hypervolume-based Multi-objective Optimization with Gene-pool Optimal Mixing ( http://arxiv.org/abs/2004.05068v1 )

ライセンス: Link先を確認
S. C. Maree and T. Alderliesten and P. A. N. Bosman(参考訳) 支配に基づく多目的進化アルゴリズム (MO) は現在最も頻繁に使われているMOEAである。 しかし、人口の大多数が非支配的になるとこれらの方法は停滞し、パレート集合への収束を防いだ。 HypervolumeベースのMO最適化は、これを克服する有望な結果を示している。 しかし、ハイパーボリュームを直接使用しても、支配的な解の選択圧力は生じない。 最近導入されたsofomoreフレームワークは、uncrowded hypervolume improvement(uhvi)に基づいて、単一の近似集合を反復的に改善する複数のインターリーブされた単一目的動的問題を解決することで、これを克服している。 しかし、マルチモーダル処理など、人口ベースのMO最適化の多くの利点を失う。 ここでは,UHVIを,単目的最適化器を用いてMO最適化問題を直接解けるアンクローズドハイパーボリューム (UHV) と呼ばれる近似集合の品質尺度として再構成する。 我々は,本問題の本質的なグレイボックス特性を効率的に活用できる,最先端の遺伝子プール最適混合進化アルゴリズム(gomea)を用いる。 得られたアルゴリズムUHV-GOMEAは、GOMEAと支配ベースのMO-GOMEAを備えたSofomoreと比較される。 そこで本研究では,支配に基づく手法とハイパーボリュームに基づく手法のどちらが望ましいかを検討する。 最後に,mo-gomea と uhv-gomea を結合し,両者を上回るシンプルなハイブリッドアプローチを構築した。

Domination-based multi-objective (MO) evolutionary algorithms (EAs) are today arguably the most frequently used type of MOEA. These methods however stagnate when the majority of the population becomes non-dominated, preventing convergence to the Pareto set. Hypervolume-based MO optimization has shown promising results to overcome this. Direct use of the hypervolume however results in no selection pressure for dominated solutions. The recently introduced Sofomore framework overcomes this by solving multiple interleaved single-objective dynamic problems that iteratively improve a single approximation set, based on the uncrowded hypervolume improvement (UHVI). It thereby however loses many advantages of population-based MO optimization, such as handling multimodality. Here, we reformulate the UHVI as a quality measure for approximation sets, called the uncrowded hypervolume (UHV), which can be used to directly solve MO optimization problems with a single-objective optimizer. We use the state-of-the-art gene-pool optimal mixing evolutionary algorithm (GOMEA) that is capable of efficiently exploiting the intrinsically available grey-box properties of this problem. The resulting algorithm, UHV-GOMEA, is compared to Sofomore equipped with GOMEA, and the domination-based MO-GOMEA. In doing so, we investigate in which scenarios either domination-based or hypervolume-based methods are preferred. Finally, we construct a simple hybrid approach that combines MO-GOMEA with UHV-GOMEA and outperforms both.
翻訳日:2022-12-14 20:38:28 公開日:2020-04-10
# シークレット共有に基づくアプリケーションによるセキュアな回帰

Secret Sharing based Secure Regressions with Applications ( http://arxiv.org/abs/2004.04898v1 )

ライセンス: Link先を確認
Chaochao Chen, Liang Li, Wenjing Fang, Jun Zhou, Li Wang, Lei Wang, Shuang Yang, Alex Liu, and Hao Wang(参考訳) 今日では、膨大な量のデータの利用がWeb技術に大きな影響を与えつつ、さまざまな種類のセキュリティ上の懸念を引き起こしています。 一方で、さまざまな組織が協力してデータを技術改善のために共有できれば、潜在的な利益は期待できる。 一方で、商業的あるいは社会学的懸念から、データホルダとデータプロバイダの両方にデータセキュリティの懸念が生じる可能性がある。 技術的改善とセキュリティ制限のバランスをとるために,複数のデータ保持者が線形回帰モデルとロジスティック回帰モデルをトレーニングするためのセキュアでスケーラブルなプロトコルを実装した。 私たちは、アプリケーションでスケーラブルで効率的なシークレット共有スキームに基づいてプロトコルを構築します。 さらに,提案手法は,行列和と行列乗算のみを使用するセキュアなマルチパーティトレーニングシナリオに一般化することができる。 提案するプロトコルのスケーラビリティと効率性を示す実験により,本手法を実証し,実世界のアプリケーションを提案する。

Nowadays, the utilization of the ever expanding amount of data has made a huge impact on web technologies while also causing various types of security concerns. On one hand, potential gains are highly anticipated if different organizations could somehow collaboratively share their data for technological improvements. On the other hand, data security concerns may arise for both data holders and data providers due to commercial or sociological concerns. To make a balance between technical improvements and security limitations, we implement secure and scalable protocols for multiple data holders to train linear regression and logistic regression models. We build our protocols based on the secret sharing scheme, which is scalable and efficient in applications. Moreover, our proposed paradigm can be generalized to any secure multiparty training scenarios where only matrix summation and matrix multiplications are used. We demonstrate our approach by experiments which shows the scalability and efficiency of our proposed protocols, and finally present its real-world applications.
翻訳日:2022-12-14 20:37:27 公開日:2020-04-10
# 産業制御システムにおける機械学習サイバーセキュリティ防衛の敵攻撃

Adversarial Attacks on Machine Learning Cybersecurity Defences in Industrial Control Systems ( http://arxiv.org/abs/2004.05005v1 )

ライセンス: Link先を確認
Eirini Anthi, Lowri Williams, Matilda Rhode, Pete Burnap, Adam Wedgbury(参考訳) 機械学習ベースの侵入検知システム(IDS)の普及と応用により、産業制御システム(ICS)におけるサイバー攻撃の自動検出の柔軟性と効率性が向上した。 しかし、このようなidssの導入は、新たな攻撃ベクトルを生み出した。学習モデルはまた、サイバー攻撃の対象となり得る(adversarial machine learning (aml)とも呼ばれる)。 このような攻撃はICSシステムに深刻な結果をもたらす可能性がある。 これにより攻撃が遅れ、インフラの損傷、財政的損失、さらには生命の喪失につながる可能性がある。 本稿では,jacobian-based saliency map attack を用いて敵対的サンプルを生成し,分類行動の探索を行い,教師付きモデルをターゲットにした学習手法について検討する。 この分析はまた、そのようなサンプルが敵の訓練を用いて教師付きモデルの堅牢性をどのように支援できるかを探索することを含む。 ここで提示された実験を支援するために、真正の電力システムデータセットが使用された。 総じて,ランダムフォレストとj48という2つの分類器の分類性能は,逆行検体が存在すると16~20ポイント低下した。 彼らのパフォーマンスは敵の訓練後に改善し、そのような攻撃に対する堅牢性を実証した。

The proliferation and application of machine learning based Intrusion Detection Systems (IDS) have allowed for more flexibility and efficiency in the automated detection of cyber attacks in Industrial Control Systems (ICS). However, the introduction of such IDSs has also created an additional attack vector; the learning models may also be subject to cyber attacks, otherwise referred to as Adversarial Machine Learning (AML). Such attacks may have severe consequences in ICS systems, as adversaries could potentially bypass the IDS. This could lead to delayed attack detection which may result in infrastructure damages, financial loss, and even loss of life. This paper explores how adversarial learning can be used to target supervised models by generating adversarial samples using the Jacobian-based Saliency Map attack and exploring classification behaviours. The analysis also includes the exploration of how such samples can support the robustness of supervised models using adversarial training. An authentic power system dataset was used to support the experiments presented herein. Overall, the classification performance of two widely used classifiers, Random Forest and J48, decreased by 16 and 20 percentage points when adversarial samples were present. Their performances improved following adversarial training, demonstrating their robustness towards such attacks.
翻訳日:2022-12-14 20:36:22 公開日:2020-04-10
# ニューラルネットワークデュアルカーネルを用いたガウス過程による強化学習

Reinforcement Learning via Gaussian Processes with Neural Network Dual Kernels ( http://arxiv.org/abs/2004.05198v1 )

ライセンス: Link先を確認
Im\`ene R. Goumiri, Benjamin W. Priest, Michael D. Schneider(参考訳) deep neural network (dnns) と gaussian process (gps) はともに強化学習の問題を解決するために広く利用されているが、どちらのアプローチも難しい問題に対して好ましくない欠点を持っている。 DNNは複雑な非線形埋め込みを学習するが、不確実性を自然に定量化せず、しばしば訓練にデータ非効率である。 GPは関数上の後続分布を推定するが、一般的なカーネルは複素および高次元のデータに対して限定的な表現性を示す。 幸いなことに、最近発見された共役および神経接核関数は、カーネルドメイン内の過パラメータニューラルネットワークの振る舞いをコードしている。 ベースラインケーススタディを解析することにより,これらのカーネルをレグレッション問題や強化学習問題に効率的に適用できることを実証する。 gpsをニューラルネットワークのデュアルカーネルに応用して,強化学習タスクを初めて解決する。 我々は、よく理解されているマウンテンカー問題を用いて、デュアルカーネルを備えたgpsが、従来のラジアル基底関数カーネルを使用するものと同様に少なくとも機能することを示す。 我々は、GPの確率的厳密さとDNNの強力な埋め込み特性を継承することにより、NN双対カーネルを用いたGPは、困難な領域における将来の強化学習モデルを強化することができると推測する。

While deep neural networks (DNNs) and Gaussian Processes (GPs) are both popularly utilized to solve problems in reinforcement learning, both approaches feature undesirable drawbacks for challenging problems. DNNs learn complex nonlinear embeddings, but do not naturally quantify uncertainty and are often data-inefficient to train. GPs infer posterior distributions over functions, but popular kernels exhibit limited expressivity on complex and high-dimensional data. Fortunately, recently discovered conjugate and neural tangent kernel functions encode the behavior of overparameterized neural networks in the kernel domain. We demonstrate that these kernels can be efficiently applied to regression and reinforcement learning problems by analyzing a baseline case study. We apply GPs with neural network dual kernels to solve reinforcement learning tasks for the first time. We demonstrate, using the well-understood mountain-car problem, that GPs empowered with dual kernels perform at least as well as those using the conventional radial basis function kernel. We conjecture that by inheriting the probabilistic rigor of GPs and the powerful embedding properties of DNNs, GPs using NN dual kernels will empower future reinforcement learning models on difficult domains.
翻訳日:2022-12-14 20:35:14 公開日:2020-04-10
# 教師付きオートエンコーダは神経活動のロバスト結合因子モデルを学ぶ

Supervised Autoencoders Learn Robust Joint Factor Models of Neural Activity ( http://arxiv.org/abs/2004.05209v1 )

ライセンス: Link先を確認
Austin Talbot, David Dunson, Kafui Dzirasa, David Carlson(参考訳) 因子モデルは相関した高次元データのモデリングにおける次元還元に日常的に使用される。 特に脳活動に対応する高次元の「予測因子」を収集する神経科学の応用と行動結果に動機づけられた。 予測者と結果のための共同要因モデルは自然だが、モデル誤特定がある場合、これらのモデルの最大確率推定は実際に苦労することがある。 我々は,教師付きオートエンコーダに基づく代替推論戦略を提案する。潜在因子に確率分布を置くのではなく,高次元予測器の未知関数として定義する。 このマッピング関数は、負荷とともに、行動の予測をしながら、脳活動のばらつきを説明するように最適化することができる。 実際、写像関数は、バイアスと分散の通常のトレードオフとともに、線形からスプラインやニューラルネットワークのようなより複雑な形式まで、複雑さが及ぶ。 このアプローチは、線形ガウス因子モデルに対する解析解の導出によって示されるように、最大極大推論戦略から異なる解を得る。 合成データを用いて,この関数ベースアプローチが複数の誤特定に対して頑健であることを示す。 この手法を神経科学の応用に適用することで、複数の因子モデルにおける電気生理学的測定から行動タスクの予測に多大な利益をもたらす。

Factor models are routinely used for dimensionality reduction in modeling of correlated, high-dimensional data. We are particularly motivated by neuroscience applications collecting high-dimensional `predictors' corresponding to brain activity in different regions along with behavioral outcomes. Joint factor models for the predictors and outcomes are natural, but maximum likelihood estimates of these models can struggle in practice when there is model misspecification. We propose an alternative inference strategy based on supervised autoencoders; rather than placing a probability distribution on the latent factors, we define them as an unknown function of the high-dimensional predictors. This mapping function, along with the loadings, can be optimized to explain variance in brain activity while simultaneously being predictive of behavior. In practice, the mapping function can range in complexity from linear to more complex forms, such as splines or neural networks, with the usual tradeoff between bias and variance. This approach yields distinct solutions from a maximum likelihood inference strategy, as we demonstrate by deriving analytic solutions for a linear Gaussian factor model. Using synthetic data, we show that this function-based approach is robust against multiple types of misspecification. We then apply this technique to a neuroscience application resulting in substantial gains in predicting behavioral tasks from electrophysiological measurements in multiple factor models.
翻訳日:2022-12-14 20:34:54 公開日:2020-04-10
# ミニバッチとプレトレーニングの視点による小切手分類の訓練

Training few-shot classification via the perspective of minibatch and pretraining ( http://arxiv.org/abs/2004.05910v1 )

ライセンス: Link先を確認
Meiyu Huang, Xueshuang Xiang, Yao Xu(参考訳) 少ないショット分類は、人間が限られた事前データから概念を学ぶ能力を定式化することを目的としており、機械学習に大きな注目を集めている。 マイナショット分類の最近の進歩はメタラーニングを特徴としており、学習アルゴリズムのパラメータ化されたモデルを定義し、異なる分類タスクを表す極大または無限のエピソードで分類タスクを処理し、それぞれに小さなラベル付きサポートセットと対応するクエリセットを持つ能力を学ぶように訓練されている。 本研究では,この数発の分類パラダイムを,教師付き分類学習問題として定式化する。 さらに,分類問題におけるミニバッチと事前学習に対応する多相・横断訓練手法を提案する。 最先端のマイショット分類法 (prototypical networks) の実験結果から,omniglot と miniimagenet におけるマイショット分類問題の精度を損なうことなく,両者のトレーニング戦略が高度に促進できることが示されている。

Few-shot classification is a challenging task which aims to formulate the ability of humans to learn concepts from limited prior data and has drawn considerable attention in machine learning. Recent progress in few-shot classification has featured meta-learning, in which a parameterized model for a learning algorithm is defined and trained to learn the ability of handling classification tasks on extremely large or infinite episodes representing different classification task, each with a small labeled support set and its corresponding query set. In this work, we advance this few-shot classification paradigm by formulating it as a supervised classification learning problem. We further propose multi-episode and cross-way training techniques, which respectively correspond to the minibatch and pretraining in classification problems. Experimental results on a state-of-the-art few-shot classification method (prototypical networks) demonstrate that both the proposed training strategies can highly accelerate the training process without accuracy loss for varying few-shot classification problems on Omniglot and miniImageNet.
翻訳日:2022-12-14 20:28:44 公開日:2020-04-10
# Blind Adversarial Pruning: バランス精度、効率、ロバスト性

Blind Adversarial Pruning: Balance Accuracy, Efficiency and Robustness ( http://arxiv.org/abs/2004.05913v1 )

ライセンス: Link先を確認
Haidong Xie, Lixin Qian, Xueshuang Xiang, Naijin Liu(参考訳) ディープニューラルネットワークの攻撃と防御に対する関心の高まりにより、研究者は、限られたメモリを持つデバイスに適用する堅牢性に注力している。 したがって、正確さと頑健さのバランスのみを考える敵意的なトレーニングとは異なり、より有意義で重要な問題、すなわち正確さ、効率性、堅牢性(aer)のバランスが生まれる。 近年,いくつかの関連研究がこの問題に焦点をあてているが,観察の相違により,AER間の関係は明らかでない。 本稿では, 段階的なプルーニング過程において, 圧縮比が異なるプルーニングモデルのロバスト性について検討し, 特に大きな強度の攻撃に対して, プルーニング過程のロバスト性は大きく異なることを結論する。 第2に, クリーンデータと逆算例(所定の均一予算で生成)を, 逆算法と呼ばれる段階的刈り込み工程に混合し, 以下に示すように, 刈り込みモデルの頑健さは, 予算に対する高い感度を示す。 さらに、AERのバランスを改善するために、段階的刈り込みプロセスに盲人対人訓練(BAP)を導入し、盲人対人訓練(BAP)というアプローチを提案する。 主な考え方は、カットオフスケール戦略を用いて、非一様予算を適応的に推定し、プルーニング時に使用されるAEを修正し、AEの強度が各プルーニング段階で合理的な範囲に動的に配置され、最終的にプルーニングモデル全体のAERを改善することである。 複数のベンチマークに基づく分類モデルにおいてbapを用いて得られた実験結果から,bapによるモデルのロバスト性は異なるpruningプロセスにおいてより安定であり,bapは逆pruningよりも全体として優れたaerを示した。

With the growth of interest in the attack and defense of deep neural networks, researchers are focusing more on the robustness of applying them to devices with limited memory. Thus, unlike adversarial training, which only considers the balance between accuracy and robustness, we come to a more meaningful and critical issue, i.e., the balance among accuracy, efficiency and robustness (AER). Recently, some related works focused on this issue, but with different observations, and the relations among AER remain unclear. This paper first investigates the robustness of pruned models with different compression ratios under the gradual pruning process and concludes that the robustness of the pruned model drastically varies with different pruning processes, especially in response to attacks with large strength. Second, we test the performance of mixing the clean data and adversarial examples (generated with a prescribed uniform budget) into the gradual pruning process, called adversarial pruning, and find the following: the pruned model's robustness exhibits high sensitivity to the budget. Furthermore, to better balance the AER, we propose an approach called blind adversarial pruning (BAP), which introduces the idea of blind adversarial training into the gradual pruning process. The main idea is to use a cutoff-scale strategy to adaptively estimate a nonuniform budget to modify the AEs used during pruning, thus ensuring that the strengths of AEs are dynamically located within a reasonable range at each pruning step and ultimately improving the overall AER of the pruned model. The experimental results obtained using BAP for pruning classification models based on several benchmarks demonstrate the competitive performance of this method: the robustness of the model pruned by BAP is more stable among varying pruning processes, and BAP exhibits better overall AER than adversarial pruning.
翻訳日:2022-12-14 20:28:12 公開日:2020-04-10
# Blind Adversarial Training: バランス精度とロバスト性

Blind Adversarial Training: Balance Accuracy and Robustness ( http://arxiv.org/abs/2004.05914v1 )

ライセンス: Link先を確認
Haidong Xie, Xueshuang Xiang, Naijin Liu, Bin Dong(参考訳) adversarial training(at)は、クリーンデータとadversarial example(aes)を混ぜることで、ディープラーニングモデルの堅牢性を改善することを目的としている。 既存の at アプローチのほとんどは制限付きと制限なしのアプローチにグループ化できる。 制限されたATは、トレーニング中のAE摂動の大きさを制限するために所定の均一な予算を必要とし、その結果は予算に対する高い感度を示す。 一方、制約のないATは制約のないAEを使用するため、決定境界を超えたAEを使用する。 これらの制限は、既存のATアプローチが、様々な強度の攻撃に直面する場合、高精度で堅牢なモデルを得るのに困難であることを意味する。 そこで本研究では,視覚障害者訓練(BAT)と呼ばれる新しいATアプローチを提案し,精度とロバストさのバランスを良くする。 このアプローチの主な考え方は、カットオフスケールの戦略を用いて、トレーニングで使用されるAEを適応的に推定し、AEの強度が合理的な範囲に動的に配置され、最終的にATモデルの全体的な堅牢性を改善することである。 いくつかのベンチマークで分類モデルの訓練にBATを用いた実験結果から,本手法の競争性能を実証した。

Adversarial training (AT) aims to improve the robustness of deep learning models by mixing clean data and adversarial examples (AEs). Most existing AT approaches can be grouped into restricted and unrestricted approaches. Restricted AT requires a prescribed uniform budget to constrain the magnitude of the AE perturbations during training, with the obtained results showing high sensitivity to the budget. On the other hand, unrestricted AT uses unconstrained AEs, resulting in the use of AEs located beyond the decision boundary; these overestimated AEs significantly lower the accuracy on clean data. These limitations mean that the existing AT approaches have difficulty in obtaining a comprehensively robust model with high accuracy and robustness when confronting attacks with varying strengths. Considering this problem, this paper proposes a novel AT approach named blind adversarial training (BAT) to better balance the accuracy and robustness. The main idea of this approach is to use a cutoff-scale strategy to adaptively estimate a nonuniform budget to modify the AEs used in the training, ensuring that the strengths of the AEs are dynamically located in a reasonable range and ultimately improving the overall robustness of the AT model. The experimental results obtained using BAT for training classification models on several benchmarks demonstrate the competitive performance of this method.
翻訳日:2022-12-14 20:27:34 公開日:2020-04-10
# 状態適応型対話型アクティブラーニング

State-Relabeling Adversarial Active Learning ( http://arxiv.org/abs/2004.04943v1 )

ライセンス: Link先を確認
Beichen Zhang (1), Liang Li (2), Shijie Yang (1, 2), Shuhui Wang (2), Zheng-Jun Zha (3), Qingming Huang (1, 2, 4) ((1) University of Chinese Academy of Sciences. (2) Key Lab of Intell. Info. Process., Inst. of Comput. Tech., Chinese Academy of Sciences. (3) University of Science and Technology of China. (4) Peng Cheng Laboratory.)(参考訳) アクティブラーニングとは、oracleがラベル付けする最も代表的なサンプルをサンプリングすることで、ラベル効率のよいアルゴリズムを設計することである。 本稿では,アノテーションとラベル付き/ラベル付き状態情報の両方を利用して,最も有意義なラベルなしサンプルを導出する,rebeling adversarial active learning model(sraal)を提案する。 SRAALは表現生成器と状態判別器から構成される。 ジェネレータは、補完的なアノテーション情報と従来の再構成情報を使用して、サンプルの統一表現を生成し、データ表現全体にセマンティクスを埋め込む。 そして、識別器にオンライン不確実性指標を設計し、ラベルのないサンプルを重要視する。 その結果、判別器の予測状態に基づいて最も情報性の高いサンプルを選択することができる。 また、ラベル付きプールを初期化するアルゴリズムを設計し、その後のサンプリングをより効率的にする。 各種データセットを用いて行った実験により,従来の最先端の能動学習手法よりも優れた性能を示し,初期サンプリングアルゴリズムにより性能が向上した。

Active learning is to design label-efficient algorithms by sampling the most representative samples to be labeled by an oracle. In this paper, we propose a state relabeling adversarial active learning model (SRAAL), that leverages both the annotation and the labeled/unlabeled state information for deriving the most informative unlabeled samples. The SRAAL consists of a representation generator and a state discriminator. The generator uses the complementary annotation information with traditional reconstruction information to generate the unified representation of samples, which embeds the semantic into the whole data representation. Then, we design an online uncertainty indicator in the discriminator, which endues unlabeled samples with different importance. As a result, we can select the most informative samples based on the discriminator's predicted state. We also design an algorithm to initialize the labeled pool, which makes subsequent sampling more efficient. The experiments conducted on various datasets show that our model outperforms the previous state-of-art active learning methods and our initially sampling algorithm achieves better performance.
翻訳日:2022-12-14 20:27:11 公開日:2020-04-10
# MA 3 : 少数のショット学習のためのモデル非依存的対立強化

MA 3 : Model Agnostic Adversarial Augmentation for Few Shot learning ( http://arxiv.org/abs/2004.05100v1 )

ライセンス: Link先を確認
Rohit Jena, Shirsendu Sukanta Halder, Katia Sycara(参考訳) 深層ニューラルネットワークを用いた視覚関連問題の最近の進展にもかかわらず、これらのモデルを未知の例に一般化する改善の幅は依然として広い。 本稿では,新しい拡張手法を用いて,小数点学習の領域を探索する。 入力画像上の分布を学習する他の生成的拡張手法とは対照的に,画像変換パラメータの確率分布を学習し,学習が容易かつ迅速に行うことを提案する。 この技術は完全に微分可能で,汎用的なデータセットやベースモデルへの拡張が可能です。 提案手法を複数のベースネットワークと2つのデータセット上で評価し,本手法の堅牢性と効率性を確立する。 ネットワークアーキテクチャを変更することなく拡張モジュールを追加することで、約4%の改善を実現しています。 また、コミュニティが利用するためのコードも提供しています。

Despite the recent developments in vision-related problems using deep neural networks, there still remains a wide scope in the improvement of generalizing these models to unseen examples. In this paper, we explore the domain of few-shot learning with a novel augmentation technique. In contrast to other generative augmentation techniques, where the distribution over input images are learnt, we propose to learn the probability distribution over the image transformation parameters which are easier and quicker to learn. Our technique is fully differentiable which enables its extension to versatile data-sets and base models. We evaluate our proposed method on multiple base-networks and 2 data-sets to establish the robustness and efficiency of this method. We obtain an improvement of nearly 4% by adding our augmentation module without making any change in network architectures. We also make the code readily available for usage by the community.
翻訳日:2022-12-14 20:26:53 公開日:2020-04-10
# バイリンガル話者データに基づく話者空間変換を用いた多言語音声の生成

Generating Multilingual Voices Using Speaker Space Translation Based on Bilingual Speaker Data ( http://arxiv.org/abs/2004.04972v1 )

ライセンス: Link先を確認
Soumi Maiti, Erik Marchi, Alistair Conkie(参考訳) 本稿では,話者の音声品質を維持しつつ,単言語音声を第2言語に変換可能なバイリンガル音声対音声処理の進展について述べる。 両言語話者埋め込み空間は、各言語に対する別の分布を含み、話者埋め込みによって生成される話者空間の単純な変換は、言語における合成音声のアクセントの程度を制御するために使用できることを示す。 同じ変換を単言語話者にも適用することができる。 実験では,英語-スペイン語(メキシコ語)バイリンガル話者の話者データを用いて,スペイン語とスペイン語の話者が英語を話せるようにすることを目的とした。 単純な変換は、自然度の高い言語から他の言語へ音声を変換するのに十分であることがわかった。 あるケースでは、変換された音声は、リスニングテストでネイティブ言語の声よりも優れています。 さらに実験によれば、この変換は元の声の特徴の多くを保存していた。 現在存在するアクセントの度合いは制御でき、自然性はアクセント値の範囲で比較的一定である。

We present progress towards bilingual Text-to-Speech which is able to transform a monolingual voice to speak a second language while preserving speaker voice quality. We demonstrate that a bilingual speaker embedding space contains a separate distribution for each language and that a simple transform in speaker space generated by the speaker embedding can be used to control the degree of accent of a synthetic voice in a language. The same transform can be applied even to monolingual speakers. In our experiments speaker data from an English-Spanish (Mexican) bilingual speaker was used, and the goal was to enable English speakers to speak Spanish and Spanish speakers to speak English. We found that the simple transform was sufficient to convert a voice from one language to the other with a high degree of naturalness. In one case the transformed voice outperformed a native language voice in listening tests. Experiments further indicated that the transform preserved many of the characteristics of the original voice. The degree of accent present can be controlled and naturalness is relatively consistent across a range of accent values.
翻訳日:2022-12-14 20:26:39 公開日:2020-04-10
# 動き計画のためのデータ画像の次元性を低減するcnnエンコーダ

CNN Encoder to Reduce the Dimensionality of Data Image for Motion Planning ( http://arxiv.org/abs/2004.05077v1 )

ライセンス: Link先を確認
Janderson Ferreira (1), Agostinho A. F. J\'unior (1), Yves M. Galv\~ao (1), Bruno J. T. Fernandes (1) and Pablo Barros (1 and 2) ((1) Universidade de Pernambuco - Escola Polit\'ecnica de Pernambuco, (2) Cognitive Architecture for Collaborative Technologies Unit - Istituto Italiano di Tecnologia)(参考訳) 多くの現実世界のアプリケーションは、ソーシャルアプリケーションや自動運転車、追跡活動など、さまざまな分野のタスクを解決するためにパス計画アルゴリズムを必要とする。 最も重要な動き計画です ほとんどのモーションプランニングシナリオではパスプランニングの使用が十分だが、動的変化を伴う大規模環境での潜在的なボトルネックを表している。 この問題に対処するために、経路計画アルゴリズムがより少ない労力で最短経路を見つけるのを容易にするために、可能な経路の数を削減できる。 経路計画のための伝統的なアルゴリズムはa*であり、他の解よりも高速に働くためにヒューリスティックを用いる。 本研究では,動き計画問題に対して不要な経路を除去できるcnnエンコーダを提案し,提案するニューラルネットワーク出力とa*を組み合わせる。 提案手法の効率性を評価するために, 動作計画問題の異なるシナリオのデータベースを提案する。 評価されたメトリクスは、最も短いパスを見つけるためのイテレーションの数です。 A* は CNN Encoder (proposal) と A* を比較した。 評価されたすべてのシナリオにおいて、我々のソリューションはイテレーションの数を60\%以上削減しました。

Many real-world applications need path planning algorithms to solve tasks in different areas, such as social applications, autonomous cars, and tracking activities. And most importantly motion planning. Although the use of path planning is sufficient in most motion planning scenarios, they represent potential bottlenecks in large environments with dynamic changes. To tackle this problem, the number of possible routes could be reduced to make it easier for path planning algorithms to find the shortest path with less efforts. An traditional algorithm for path planning is the A*, it uses an heuristic to work faster than other solutions. In this work, we propose a CNN encoder capable of eliminating useless routes for motion planning problems, then we combine the proposed neural network output with A*. To measure the efficiency of our solution, we propose a database with different scenarios of motion planning problems. The evaluated metric is the number of the iterations to find the shortest path. The A* was compared with the CNN Encoder (proposal) with A*. In all evaluated scenarios, our solution reduced the number of iterations by more than 60\%.
翻訳日:2022-12-14 20:26:08 公開日:2020-04-10
# ロシアにおける臨床テキストマイニングの否定検出

Negation Detection for Clinical Text Mining in Russian ( http://arxiv.org/abs/2004.04980v1 )

ライセンス: Link先を確認
Anastasia Funkner, Ksenia Balabaeva, Sergey Kovalchuk(参考訳) 医学における予測モデリングの開発には、非構造化臨床テキストからの追加機能が必要である。 ロシアでは、医学記録の問題を解決するための自然言語処理の道具は存在しない。 本稿では,否定検出のモジュールについて述べる。 本発明のコーパスフリー機械学習方法は、勾配押し上げ分類器に基づいて、疾患が否定されているか、言及されていないか、あるいはテキストに提示されているかを検出する。 この検出器は5つの疾患の否定を分類し、平均Fスコアは0.81から0.93である。 急性冠症候群患者の手術の有無を予測することにより, 否定検出の利点が示された。

Developing predictive modeling in medicine requires additional features from unstructured clinical texts. In Russia, there are no instruments for natural language processing to cope with problems of medical records. This paper is devoted to a module of negation detection. The corpus-free machine learning method is based on gradient boosting classifier is used to detect whether a disease is denied, not mentioned or presented in the text. The detector classifies negations for five diseases and shows average F-score from 0.81 to 0.93. The benefits of negation detection have been demonstrated by predicting the presence of surgery for patients with the acute coronary syndrome.
翻訳日:2022-12-14 20:19:29 公開日:2020-04-10
# 時間知識ベース完了のためのテンソル分解

Tensor Decompositions for temporal knowledge base completion ( http://arxiv.org/abs/2004.04926v1 )

ライセンス: Link先を確認
Timoth\'ee Lacroix, Guillaume Obozinski and Nicolas Usunier(参考訳) 関係データにおける表現学習とリンク予測のためのほとんどのアルゴリズムは静的データのために設計されている。 しかし、それらが適用されるデータは、ソーシャルネットワーク内のフレンドグラフやレコメンデーションシステム内のアイテムとのユーザインタラクションなど、通常は時間とともに進化する。 これはまた、ある時点でのみ有効な(us, has president, b. obama, [2009-2017])事実を含む知識ベースについても当てはまる。 時間制約下でのリンク予測の問題,すなわち (us, has president, ?, 2012) のような応答クエリに対して,次数 4 のテンソルの正準分解に触発された解を提案する。 我々は,新しい正規化方式を導入し,最先端性能を実現するComplEx(Trouillon et al., 2016)の拡張を提案する。 さらに,ウィキデータから構築した知識ベース補完のための新しいデータセットを,時間的および非時間的リンク予測法を評価するための新たな基準として提案する。

Most algorithms for representation learning and link prediction in relational data have been designed for static data. However, the data they are applied to usually evolves with time, such as friend graphs in social networks or user interactions with items in recommender systems. This is also the case for knowledge bases, which contain facts such as (US, has president, B. Obama, [2009-2017]) that are valid only at certain points in time. For the problem of link prediction under temporal constraints, i.e., answering queries such as (US, has president, ?, 2012), we propose a solution inspired by the canonical decomposition of tensors of order 4. We introduce new regularization schemes and present an extension of ComplEx (Trouillon et al., 2016) that achieves state-of-the-art performance. Additionally, we propose a new dataset for knowledge base completion constructed from Wikidata, larger than previous benchmarks by an order of magnitude, as a new reference for evaluating temporal and non-temporal link prediction methods.
翻訳日:2022-12-14 20:18:17 公開日:2020-04-10
# 修正ベイズ最適化に基づく極勾配ブーストのためのハイパーパラメータチューニング手法

A Modified Bayesian Optimization based Hyper-Parameter Tuning Approach for Extreme Gradient Boosting ( http://arxiv.org/abs/2004.05041v1 )

ライセンス: Link先を確認
Sayan Putatunda and Kiran Rama(参考訳) 機械学習アルゴリズムの性能は、適切なハイパーパラメータ最適化を行うことで大きく影響を受けることが文献ですでに報告されている。 ハイパーパラメータ最適化を行う方法のひとつに手動検索があるが、時間を要する。 ハイパーパラメータ最適化の一般的なアプローチは、格子探索ランダム探索とHyperoptを用いたベイズ最適化である。 本稿では,XGBoostのハイパーパラメータをランダム化・ハイパーオプト,ハイパーオプト,ハイパーオプト,グリッドサーチ,ランダム化・ハイパーオプト,ランダム化・ハイパーオプトを10個のデータセットに適用することにより,新しいハイパーパラメータ改善手法を提案する。 これら4つの手法の性能を予測精度と実行時間の両方を考慮して比較した。 また,xgboostのハイパーパラメター最適化では,ランダム化ハイパーオプトが他の3つの手法よりも優れた性能を示すことがわかった。

It is already reported in the literature that the performance of a machine learning algorithm is greatly impacted by performing proper Hyper-Parameter optimization. One of the ways to perform Hyper-Parameter optimization is by manual search but that is time consuming. Some of the common approaches for performing Hyper-Parameter optimization are Grid search Random search and Bayesian optimization using Hyperopt. In this paper, we propose a brand new approach for hyperparameter improvement i.e. Randomized-Hyperopt and then tune the hyperparameters of the XGBoost i.e. the Extreme Gradient Boosting algorithm on ten datasets by applying Random search, Randomized-Hyperopt, Hyperopt and Grid Search. The performances of each of these four techniques were compared by taking both the prediction accuracy and the execution time into consideration. We find that the Randomized-Hyperopt performs better than the other three conventional methods for hyper-paramter optimization of XGBoost.
翻訳日:2022-12-14 20:17:36 公開日:2020-04-10
# ハードウェアビルディングブロックを機械学習フレームワークに公開する

Exposing Hardware Building Blocks to Machine Learning Frameworks ( http://arxiv.org/abs/2004.05898v1 )

ライセンス: Link先を確認
Yash Akhauri(参考訳) 機械学習手法を利用した高いスループットと低レイテンシのアルゴリズムを必要とするアプリケーションは数多く存在する。 このリアルタイム処理の必要性は、ニューラルネットワークベースのモバイルブロードバンド拡張のためのプレディストータの開発から、CERNによる粒子物理学のための主要な科学的取り組みにおけるFPGAベースのトリガの設計まで、さまざまな産業で見ることができる。 この論文では、ニューロンを$f:b^{i} \rightarrow b^{o}$という形式で、ここで$b = \{0,1\}$という独特のブール関数と見なすと、ニッチな領域がいかに大きな利益をもたらすかを探求する。 我々は、ニューロンのこのようなビューを補完するトポロジを設計する方法、ニューラルネットワーク設計のこのような戦略を自動化する方法、およびXilinx FPGA上でのそのようなネットワークの推論に焦点を当てる。 主要なハードウェア上の制約は、ニューロンをユニークなブール関数と見なすトポロジーを設計する際に生じる。 基本的に、ハードウェア上でこのようなトポロジを実現することは、入力ビット長のインクリメントごとに可能な順列が倍増するため、ニューロンの「ファンイン」ビットに厳格な制限を課す。 この限界に対処するために、スパーシティを実装し、アクティベーション量子化を探求する様々な方法を模索する。 さらに,カスタムスパーシティと量子化を用いたニューラルネットワークのトレーニングを支援するライブラリを開発した。 このライブラリはまた、トレーニング済みのスパース量子ネットワークをPyTorchからVERILOGコードに変換し、Vivadoを使って合成する。 より高速なプロトタイピングを支援するため、任意のトポロジにおける最悪のハードウェアコストの計算もサポートする。 私たちは、非常に希少な量子化されたニューラルネットワークの動作に対する我々の洞察が研究コミュニティに有用であることを望んでおり、拡張によって、logicnet設計フローを使用して、高度に効率的なニューラルネットワークを展開できることを期待しています。

There are a plethora of applications that demand high throughput and low latency algorithms leveraging machine learning methods. This need for real time processing can be seen in industries ranging from developing neural network based pre-distortors for enhanced mobile broadband to designing FPGA-based triggers in major scientific efforts by CERN for particle physics. In this thesis, we explore how niche domains can benefit vastly if we look at neurons as a unique boolean function of the form $f:B^{I} \rightarrow B^{O}$, where $B = \{0,1\}$. We focus on how to design topologies that complement such a view of neurons, how to automate such a strategy of neural network design, and inference of such networks on Xilinx FPGAs. Major hardware borne constraints arise when designing topologies that view neurons as unique boolean functions. Fundamentally, realizing such topologies on hardware asserts a strict limit on the 'fan-in' bits of a neuron due to the doubling of permutations possible with every increment in input bit-length. We address this limit by exploring different methods of implementing sparsity and explore activation quantization. Further, we develop a library that supports training a neural network with custom sparsity and quantization. This library also supports conversion of trained Sparse Quantized networks from PyTorch to VERILOG code which is then synthesized using Vivado, all of which is part of the LogicNet tool-flow. To aid faster prototyping, we also support calculation of the worst-case hardware cost of any given topology. We hope that our insights into the behavior of extremely sparse quantized neural networks are of use to the research community and by extension allow people to use the LogicNet design flow to deploy highly efficient neural networks.
翻訳日:2022-12-14 20:16:59 公開日:2020-04-10
# ソーシャルメディアにおける危機事象のマルチモーダル分類

Multimodal Categorization of Crisis Events in Social Media ( http://arxiv.org/abs/2004.04917v1 )

ライセンス: Link先を確認
Mahdi Abavisani and Liwei Wu and Shengli Hu and Joel Tetreault and Alejandro Jaimes(参考訳) 画像分類と自然言語処理の最近の進歩とソーシャルメディア利用の急速な成長は、世界中の破壊事象をリアルタイムで検出する根本的な進歩を可能にしている。 緊急対応は、これらの進歩から得られるべき領域の1つである。 1分間に数十億のテキストや画像を処理することで、イベントを自動的に検出して、緊急対応ワーカーが急速に進化する状況を評価し、それに応じてリソースをデプロイできるようにする。 これまで、この分野のほとんどのイベント検出技術は、画像のみまたはテキストのみのアプローチ、検出性能の制限、危機対応チームに提供された情報の品質への影響に焦点を当ててきた。 本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合方式を提案する。 特に,試料上の弱モダリティから不均一で誤解を招くコンポーネントをサンプルベースでフィルタリングできるクロスアテンションモジュールを提案する。 さらに,学習中に異なるマルチモーダルペアの埋め込み間を確率的に遷移させるマルチモーダルグラフに基づくアプローチを採用し,異なるサンプルから新しいマッチングペアを構築することにより,学習プロセスをより規則化し,限られたトレーニングデータを扱う。 本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。

Recent developments in image classification and natural language processing, coupled with the rapid growth in social media usage, have enabled fundamental advances in detecting breaking events around the world in real-time. Emergency response is one such area that stands to gain from these advances. By processing billions of texts and images a minute, events can be automatically detected to enable emergency response workers to better assess rapidly evolving situations and deploy resources accordingly. To date, most event detection techniques in this area have focused on image-only or text-only approaches, limiting detection performance and impacting the quality of information delivered to crisis response teams. In this paper, we present a new multimodal fusion method that leverages both images and texts as input. In particular, we introduce a cross-attention module that can filter uninformative and misleading components from weak modalities on a sample by sample basis. In addition, we employ a multimodal graph-based approach to stochastically transition between embeddings of different multimodal pairs during training to better regularize the learning process as well as dealing with limited training data by constructing new matched pairs from different samples. We show that our method outperforms the unimodal approaches and strong multimodal baselines by a large margin on three crisis-related tasks.
翻訳日:2022-12-14 20:10:13 公開日:2020-04-10
# ニューラルマシン翻訳の進化に関する詳細なウォークスルー

An In-depth Walkthrough on Evolution of Neural Machine Translation ( http://arxiv.org/abs/2004.04902v1 )

ライセンス: Link先を確認
Rohan Jagtap, Dr. Sudhir N. Dhage(参考訳) ニューラルマシン翻訳(nmt)の方法論は、単純なフィードフォワードアーキテクチャから最先端技術へと急速に進歩している。 BERTモデル。 NMTモデルのユースケースは、言語翻訳から会話エージェント(チャットボット)、抽象的なテキスト要約、画像キャプションなどへと拡張され、それぞれのアプリケーションでgemであることが証明された。 本稿では,ニューラルマシン翻訳における主要なトレンド,ドメインにおけるアートモデルの現状,それらのハイレベル比較について検討することを目的とする。

Neural Machine Translation (NMT) methodologies have burgeoned from using simple feed-forward architectures to the state of the art; viz. BERT model. The use cases of NMT models have been broadened from just language translations to conversational agents (chatbots), abstractive text summarization, image captioning, etc. which have proved to be a gem in their respective applications. This paper aims to study the major trends in Neural Machine Translation, the state of the art models in the domain and a high level comparison between them.
翻訳日:2022-12-14 20:09:52 公開日:2020-04-10
# エンドツーエンドローカライズのためのジョイント翻訳と単位変換

Joint translation and unit conversion for end-to-end localization ( http://arxiv.org/abs/2004.05219v1 )

ライセンス: Link先を確認
Georgiana Dinu, Prashant Mathur, Marcello Federico, Stanislas Lauly, Yaser Al-Onaizan(参考訳) 様々な自然言語タスクには、自然言語と数式のような形式言語の組み合わせを含むテキストデータの処理が必要である。 本稿では、単位変換を例として、変換タスクと変換タスクの両方を学習するモデルと、エンドツーエンドのローカライゼーションのために適切な切り替え方法を導出するデータ拡張手法を提案する。

A variety of natural language tasks require processing of textual data which contains a mix of natural language and formal languages such as mathematical expressions. In this paper, we take unit conversions as an example and propose a data augmentation technique which leads to models learning both translation and conversion tasks as well as how to adequately switch between them for end-to-end localization.
翻訳日:2022-12-14 20:09:42 公開日:2020-04-10
# 過渡断層がBNN推論加速器に与える影響に関する調査

A Survey on Impact of Transient Faults on BNN Inference Accelerators ( http://arxiv.org/abs/2004.05915v1 )

ライセンス: Link先を確認
Navid Khoshavi, Connor Broyles, and Yu Bi(参考訳) 過去数年間、人工知能アルゴリズムを設計する哲学は、膨大なデータ量から構成可能なシステムを自動的に抽出する方向に大きくシフトしてきた。 このパラダイムシフトは、ビッグデータブームによって、非常に大きなデータセットに簡単にアクセスし、分析できるようになりました。 ビッグデータ分析技術の最もよく知られているクラスはディープラーニングと呼ばれる。 These models require significant computation power and extremely high memory accesses which necessitate the design of novel approaches to reduce the memory access and improve power efficiency while taking into account the development of domain-specific hardware accelerators to support the current and future data sizes and model structures.The current trends for designing application-specific integrated circuits barely consider the essential requirement for maintaining the complex neural network computation to be resilient in the presence of soft errors. ソフトエラーは、ハードウェアアクセラレーターのメモリストレージまたは組み合わせロジックのいずれかに衝突し、その結果の精度が最小限の許容精度に遅れるようなアーキテクチャの振る舞いに影響を与える可能性がある。 本研究では,2値化ニューラルネットワークと呼ばれるカスタマイズされたディープラーニングアルゴリズムにソフトエラーが与える影響が,画像の誤分類を引き起こす可能性があることを示す。 実験結果から,CIFAR-10 および MNIST データセットにおける最悪のシナリオにおいて,画像分類器の精度は lfcW1A1 および cnvW1A1 ネットワークで 76.70% と 19.25% に劇的に低下することが示された。

Over past years, the philosophy for designing the artificial intelligence algorithms has significantly shifted towards automatically extracting the composable systems from massive data volumes. This paradigm shift has been expedited by the big data booming which enables us to easily access and analyze the highly large data sets. The most well-known class of big data analysis techniques is called deep learning. These models require significant computation power and extremely high memory accesses which necessitate the design of novel approaches to reduce the memory access and improve power efficiency while taking into account the development of domain-specific hardware accelerators to support the current and future data sizes and model structures.The current trends for designing application-specific integrated circuits barely consider the essential requirement for maintaining the complex neural network computation to be resilient in the presence of soft errors. The soft errors might strike either memory storage or combinational logic in the hardware accelerator that can affect the architectural behavior such that the precision of the results fall behind the minimum allowable correctness. In this study, we demonstrate that the impact of soft errors on a customized deep learning algorithm called Binarized Neural Network might cause drastic image misclassification. Our experimental results show that the accuracy of image classifier can drastically drop by 76.70% and 19.25% in lfcW1A1 and cnvW1A1 networks,respectively across CIFAR-10 and MNIST datasets during the fault injection for the worst-case scenarios
翻訳日:2022-12-14 20:09:18 公開日:2020-04-10
# アクティブニューラルネットワークSLAMによる探索学習

Learning to Explore using Active Neural SLAM ( http://arxiv.org/abs/2004.05155v1 )

ライセンス: Link先を確認
Devendra Singh Chaplot, Dhiraj Gandhi, Saurabh Gupta, Abhinav Gupta, Ruslan Salakhutdinov(参考訳) この研究は、'Active Neural SLAM'と呼ばれる3D環境を探索するポリシーを学ぶためのモジュラーで階層的なアプローチを提示している。 本手法は,slamモジュールを用いた解析パスプランナーとグローバルおよびローカルポリシを用いて,古典的および学習的手法の強みを活用する。 学習の使用は、入力モダリティ(SLAMモジュール)に対する柔軟性を提供し、世界の構造的規則性(グローバルポリシー)を活用し、状態推定(ローカルポリシー)におけるエラーに対して堅牢性を提供する。 このようなモジュール内の学習は、そのメリットを保ちながら、階層的分解とモジュール型トレーニングによって、エンドツーエンドのポリシのトレーニングに関連する高いサンプル複雑性を回避できるのです。 視覚的および物理的にシミュレーションされた3D環境における実験は、過去の学習と幾何学に基づくアプローチに対するアプローチの有効性を示す。 提案されたモデルはPointGoalタスクに簡単に移行することができ、CVPR 2019 Habitat PointGoal Navigation Challengeの勝者となった。

This work presents a modular and hierarchical approach to learn policies for exploring 3D environments, called `Active Neural SLAM'. Our approach leverages the strengths of both classical and learning-based methods, by using analytical path planners with learned SLAM module, and global and local policies. The use of learning provides flexibility with respect to input modalities (in the SLAM module), leverages structural regularities of the world (in global policies), and provides robustness to errors in state estimation (in local policies). Such use of learning within each module retains its benefits, while at the same time, hierarchical decomposition and modular training allow us to sidestep the high sample complexities associated with training end-to-end policies. Our experiments in visually and physically realistic simulated 3D environments demonstrate the effectiveness of our approach over past learning and geometry-based approaches. The proposed model can also be easily transferred to the PointGoal task and was the winning entry of the CVPR 2019 Habitat PointGoal Navigation Challenge.
翻訳日:2022-12-14 20:08:55 公開日:2020-04-10
# PATEによる分散分別分割

Decentralized Differentially Private Segmentation with PATE ( http://arxiv.org/abs/2004.06567v1 )

ライセンス: Link先を確認
Dominik Fay, Jens Sj\"olund and Tobias J. Oechtering(参考訳) 医療機械学習におけるプライバシの保護に関しては,(1)データを機関にローカルに保持すること,(2)訓練されたモデルから機密情報の推測を避けること,の2つの重要な考察がある。 これらは、それぞれフェデレーション学習と差分プライバシーを使って対処されることが多い。 しかし、一般的に使用されるフェデレーション平均化アルゴリズムは、参加機関間の高い同期を必要とする。 このような理由から、我々は、すべてのローカルモデルを組織間コミュニケーションなしで独立して訓練できるPATE(Private Aggregation of Teacher Ensembles)に注意を向ける。 そこで本論文の目的は,PATE(もともと分類用に設計された)がセマンティックセグメンテーションにどのように適応できるかを検討することである。 この目的のために,学生がプライベートアグリゲータへの低感度クエリを通じて得られるセグメンテーションマスクの低次元表現を構築する。 Brain tumor Segmentation (BraTS 2019)データセットでは、AutoencoderベースのPATE変種が、ノイズの多いフェデレーション平均化に基づく以前の作業よりも、同じプライバシ保証に対するDice係数が高い。

When it comes to preserving privacy in medical machine learning, two important considerations are (1) keeping data local to the institution and (2) avoiding inference of sensitive information from the trained model. These are often addressed using federated learning and differential privacy, respectively. However, the commonly used Federated Averaging algorithm requires a high degree of synchronization between participating institutions. For this reason, we turn our attention to Private Aggregation of Teacher Ensembles (PATE), where all local models can be trained independently without inter-institutional communication. The purpose of this paper is thus to explore how PATE -- originally designed for classification -- can best be adapted for semantic segmentation. To this end, we build low-dimensional representations of segmentation masks which the student can obtain through low-sensitivity queries to the private aggregator. On the Brain Tumor Segmentation (BraTS 2019) dataset, an Autoencoder-based PATE variant achieves a higher Dice coefficient for the same privacy guarantee than prior work based on noisy Federated Averaging.
翻訳日:2022-12-14 20:08:37 公開日:2020-04-10
# 腫瘍分類におけるカーネル法による特徴選択のための潜在正則化

Latent regularization for feature selection using kernel methods in tumor classification ( http://arxiv.org/abs/2004.04866v1 )

ライセンス: Link先を確認
Martin Palazzo, Patricio Yankilevich, Pierre Beauseroy(参考訳) 癌腫瘍の転写学は数万の遺伝子発現の特徴を有する。 患者の予後や腫瘍ステージは、遺伝子発現プロファイルが与えられた教師付き分類タスクのような機械学習技術によって評価することができる。 特徴選択は腫瘍の分類に役立つ重要な遺伝子を選択するための有用なアプローチである。 本研究では,複数核学習に基づく特徴選択法を提案する。これにより,遺伝子サブセットの削減と,サポートベクタ分類における分類性能を向上させるカスタムカーネルを提案する。 特徴選択過程において、非線型次元減少モデルで学習した潜在空間から得られる教師なし構造を導入し、教師対象問題を緩和し、新しい潜在正規化を行う。 提案手法により選択された特徴を他の教師付き特徴選択法と比較し, 分類器を訓練した場合に, 新しい未確認検体に対する腫瘍分類性能により, 一般化能力の向上と評価を行う。

The transcriptomics of cancer tumors are characterized with tens of thousands of gene expression features. Patient prognosis or tumor stage can be assessed by machine learning techniques like supervised classification tasks given a gene expression profile. Feature selection is a useful approach to select the key genes which helps to classify tumors. In this work we propose a feature selection method based on Multiple Kernel Learning that results in a reduced subset of genes and a custom kernel that improves the classification performance when used in support vector classification. During the feature selection process this method performs a novel latent regularisation by relaxing the supervised target problem by introducing unsupervised structure obtained from the latent space learned by a non linear dimensionality reduction model. An improvement of the generalization capacity is obtained and assessed by the tumor classification performance on new unseen test samples when the classifier is trained with the features selected by the proposed method in comparison with other supervised feature selection approaches.
翻訳日:2022-12-14 20:08:18 公開日:2020-04-10
# 単変量行列分布アルゴリズムのリードワン上での簡易実行時間解析

A Simplified Run Time Analysis of the Univariate Marginal Distribution Algorithm on LeadingOnes ( http://arxiv.org/abs/2004.04978v1 )

ライセンス: Link先を確認
Benjamin Doerr, Martin Krejca(参考訳) 基本的手法により,遺伝的ドリフトが低い条件下でのLeadingOnesベンチマーク関数を最適化する一変量境界分布アルゴリズム (UMDA) の実行時間を保証する。 集団サイズが少なくとも準線形である場合、UMDAは、UMDAの選択率の対数で分割された問題サイズにおいて線形である複数の反復において、その最適値をサンプリングする。 これは、dangとlehre (2015)によって、実行時間と小さな選択率によるさらなる実行時間の向上を示すことによって、ディープレベルベースの人口法によって得られた以前の保証よりも改善される。 上界解析と同様の議論により、この問題に対する最初の下界も得られる。 同様の仮定の下では、我々の上界と定数因子に一致する境界が高い確率で成り立つことを証明している。

With elementary means, we prove a stronger run time guarantee for the univariate marginal distribution algorithm (UMDA) optimizing the LeadingOnes benchmark function in the desirable regime with low genetic drift. If the population size is at least quasilinear, then, with high probability, the UMDA samples the optimum within a number of iterations that is linear in the problem size divided by the logarithm of the UMDA's selection rate. This improves over the previous guarantee, obtained by Dang and Lehre (2015) via the deep level-based population method, both in terms of the run time and by demonstrating further run time gains from small selection rates. With similar arguments as in our upper-bound analysis, we also obtain the first lower bound for this problem. Under similar assumptions, we prove that a bound that matches our upper bound up to constant factors holds with high probability.
翻訳日:2022-12-14 20:07:44 公開日:2020-04-10