このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210401となっている論文です。

PDF登録状況(公開日: 20210401)

TitleAuthorsAbstract論文公表日・翻訳日
# 断層画像再構成における幻覚について

On hallucinations in tomographic image reconstruction ( http://arxiv.org/abs/2012.00646v2 )

ライセンス: Link先を確認
Sayantan Bhadra, Varun A. Kelkar, Frank J. Brooks and Mark A. Anastasio(参考訳) 断層画像再構成は一般に線状逆問題である。 このような不適切な逆問題は通常、後続のオブジェクトプロパティの事前知識を使って正規化される。 近年,トレーニング画像から被写体特性の事前学習を行い,画像再構成問題の正則化のために深層ニューラルネットワークが積極的に研究されている。 しかし、これらの深層ネットワークが学習した事前情報の分析と、トレーニング分布の外にある可能性のあるデータに一般化する能力はまだ検討中である。 不正確な先行は、再構成された画像に偽構造が幻覚され、医療画像の深刻な懸念の原因となる可能性がある。 本研究では,画像推定を一般化された測定値とヌル成分に分解することで,再構成手法により事前に課された効果を説明する。 幻覚マップの概念は、正規化再建法における事前の効果を理解するための一般的な目的のために導入された。 数値解析はスタイリングトモグラフィー画像のモダリティに対応して行われる。 提案手法では, 異なる復元手法の挙動を数値研究の助けを借りて検討する。

Tomographic image reconstruction is generally an ill-posed linear inverse problem. Such ill-posed inverse problems are typically regularized using prior knowledge of the sought-after object property. Recently, deep neural networks have been actively investigated for regularizing image reconstruction problems by learning a prior for the object properties from training images. However, an analysis of the prior information learned by these deep networks and their ability to generalize to data that may lie outside the training distribution is still being explored. An inaccurate prior might lead to false structures being hallucinated in the reconstructed image and that is a cause for serious concern in medical imaging. In this work, we propose to illustrate the effect of the prior imposed by a reconstruction method by decomposing the image estimate into generalized measurement and null components. The concept of a hallucination map is introduced for the general purpose of understanding the effect of the prior in regularized reconstruction methods. Numerical studies are conducted corresponding to a stylized tomographic imaging modality. The behavior of different reconstruction methods under the proposed formalism is discussed with the help of the numerical studies.
翻訳日:2021-05-30 19:29:38 公開日:2021-04-01
# マルチオブジェクトオクルージョンの推論によるロバストインスタンスセグメンテーション

Robust Instance Segmentation through Reasoning about Multi-Object Occlusion ( http://arxiv.org/abs/2012.02107v3 )

ライセンス: Link先を確認
Xiaoding Yuan, Adam Kortylewski, Yihong Sun and Alan Yuille(参考訳) 複雑なシーンをディープニューラルネットワークで分析することは、特に画像が部分的にお互いを遮蔽する複数のオブジェクトを含む場合、難しい課題である。 画像解析に対する既存のアプローチは、主にオブジェクトを独立に処理し、近くのオブジェクトの相対的な閉塞を考慮しない。 本稿では,隠蔽に頑健で,バウンディングボックスの監視のみからトレーニングできるマルチオブジェクトインスタンスセグメンテーションのためのディープネットワークを提案する。 私たちの研究は、神経機能アクティベーションの生成モデルを学び、Occluderを見つけ、非Occluded部分に基づいてオブジェクトを分類するコンポジションネットワークを構築しています。 複数のオブジェクトを含むように生成モデルを拡張し、オクルージョンシナリオに対する効率的な推論のためのフレームワークを導入します。 特に、オブジェクトクラスとそのインスタンスとoccluderセグメンテーションのフィードフォワード予測を得る。 不正なセグメンテーションを検知し、その修正のためにオクルージョン順序を推定するOcclusion Reasoning Module(ORM)を導入する。 改良されたセグメンテーションマスクは、画像分類を改善するためにトップダウン方式でネットワークに統合される。 KITTIインスタンスデータセット(KINS)と合成オクルージョンデータセットを用いた実験により、オクルージョン下でのマルチオブジェクトインスタンスセグメンテーションにおけるモデルの有効性とロバスト性を示した。 コードはhttps://github.com/X D7479/Multi-Object-O cclusionで公開されている。

Analyzing complex scenes with Deep Neural Networks is a challenging task, particularly when images contain multiple objects that partially occlude each other. Existing approaches to image analysis mostly process objects independently and do not take into account the relative occlusion of nearby objects. In this paper, we propose a deep network for multi-object instance segmentation that is robust to occlusion and can be trained from bounding box supervision only. Our work builds on Compositional Networks, which learn a generative model of neural feature activations to locate occluders and to classify objects based on their non-occluded parts. We extend their generative model to include multiple objects and introduce a framework for efficient inference in challenging occlusion scenarios. In particular, we obtain feed-forward predictions of the object classes and their instance and occluder segmentations. We introduce an Occlusion Reasoning Module (ORM) that locates erroneous segmentations and estimates the occlusion order to correct them. The improved segmentation masks are, in turn, integrated into the network in a top-down manner to improve the image classification. Our experiments on the KITTI INStance dataset (KINS) and a synthetic occlusion dataset demonstrate the effectiveness and robustness of our model at multi-object instance segmentation under occlusion. Code is publically available at https://github.com/X D7479/Multi-Object-O cclusion.
翻訳日:2021-05-23 14:52:47 公開日:2021-04-01
# iNeRF:Pose Estimationのためのニューラルラジアンスフィールドの反転

iNeRF: Inverting Neural Radiance Fields for Pose Estimation ( http://arxiv.org/abs/2012.05877v2 )

ライセンス: Link先を確認
Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Alberto Rodriguez, Phillip Isola, Tsung-Yi Lin(参考訳) 我々は、Neural RadianceField(NeRF)を"反転"することでメッシュフリーのポーズ推定を行うフレームワークiNeRFを提案する。 NeRFは、現実世界のシーンやオブジェクトのフォトリアリスティックな新しいビューを合成する、ビュー合成のタスクに極めて効果的であることが示されている。 本研究では,メッシュフリーでRGBのみの6DoFポーズ推定にNeRFを用いた分析合成を適用することができるかを検討する。 我々の手法は、トレーニングやテストの期間中にオブジェクトメッシュモデルが利用できないと仮定する。 初期ポーズ推定から, 勾配降下法を用いて, nerfから描画された画素と観測画像中の画素との間の残差を最小限に抑える。 実験では,まず,iNeRFの補間光線をサンプリングして情報勾配を抽出する方法,および,iNeRFの合成データセット上でのバッチサイズの違いが,iNeRFに与える影響について検討した。 LLFFデータセットからの複雑な実世界のシーンに対して、iNeRFは、新しい画像のカメラポーズを推定し、これらの画像をNeRFのトレーニングデータとして用いることにより、NeRFを改善することができることを示す。 最後に、iNeRFは、トレーニング中に見えないオブジェクトインスタンスを含むカテゴリレベルのオブジェクトポーズ推定を、単一のビューから推論されたNeRFモデルを反転させることで、RGBイメージで行うことができることを示す。

We present iNeRF, a framework that performs mesh-free pose estimation by "inverting" a Neural RadianceField (NeRF). NeRFs have been shown to be remarkably effective for the task of view synthesis - synthesizing photorealistic novel views of real-world scenes or objects. In this work, we investigate whether we can apply analysis-by-synthesi s via NeRF for mesh-free, RGB-only 6DoF pose estimation - given an image, find the translation and rotation of a camera relative to a 3D object or scene. Our method assumes that no object mesh models are available during either training or test time. Starting from an initial pose estimate, we use gradient descent to minimize the residual between pixels rendered from a NeRF and pixels in an observed image. In our experiments, we first study 1) how to sample rays during pose refinement for iNeRF to collect informative gradients and 2) how different batch sizes of rays affect iNeRF on a synthetic dataset. We then show that for complex real-world scenes from the LLFF dataset, iNeRF can improve NeRF by estimating the camera poses of novel images and using these images as additional training data for NeRF. Finally, we show iNeRF can perform category-level object pose estimation, including object instances not seen during training, with RGB images by inverting a NeRF model inferred from a single view.
翻訳日:2021-05-15 06:12:14 公開日:2021-04-01
# (参考訳) ニューラルネットワークによるBV関数の近似:正規性理論のアプローチ

Approximation of BV functions by neural networks: A regularity theory approach ( http://arxiv.org/abs/2012.08291v2 )

ライセンス: CC BY 4.0
Benny Avelin and Vesa Julin(参考訳) 本稿では、単位円上にReLU活性化関数を持つ単一の隠れ層ニューラルネットワークによる関数近似について検討する。 特に、データポイント数がノード数を超えた場合に興味があります。 まず,二次ペナリゼーションを伴うコスト関数に関連する確率的勾配流の平衡への収束について検討した。 具体的には、データとノード数とは独立な明示的な定数を持つコスト関数のペナルティ化バージョンに対するポアンカルの不等式を証明する。 ペナリゼーションは重み付けをバイアスするので、このことは、有界重み付きネットワークが与えられた有界変動(BV)の関数をどの程度うまく近似できるかを研究することに繋がる。 bv関数の近似に関する我々の主要な貢献は、局所化定理と呼ばれる結果である。 具体的には、制約付き問題(重みの長さが$r$ 以下である場合)の期待誤差は、制約付き問題(大域的最適問題)に対して順序が $r^{-1/9}$ である。 この証明はこの話題で新しく、楕円偏微分方程式の正則性理論の技法に着想を得たものである。 最後に、普遍近似定理の定量的バージョンを証明し、大域最適化の期待値を定量化する。

In this paper we are concerned with the approximation of functions by single hidden layer neural networks with ReLU activation functions on the unit circle. In particular, we are interested in the case when the number of data-points exceeds the number of nodes. We first study the convergence to equilibrium of the stochastic gradient flow associated with the cost function with a quadratic penalization. Specifically, we prove a Poincar\'e inequality for a penalized version of the cost function with explicit constants that are independent of the data and of the number of nodes. As our penalization biases the weights to be bounded, this leads us to study how well a network with bounded weights can approximate a given function of bounded variation (BV). Our main contribution concerning approximation of BV functions, is a result which we call the localization theorem. Specifically, it states that the expected error of the constrained problem, where the length of the weights are less than $R$, is of order $R^{-1/9}$ with respect to the unconstrained problem (the global optimum). The proof is novel in this topic and is inspired by techniques from regularity theory of elliptic partial differential equations. Finally we quantify the expected value of the global optimum by proving a quantitative version of the universal approximation theorem.
翻訳日:2021-05-07 11:52:29 公開日:2021-04-01
# (参考訳) 等化損失v2:ロングテール物体検出のための新しい勾配バランスアプローチ [全文訳有]

Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection ( http://arxiv.org/abs/2012.08548v2 )

ライセンス: CC BY 4.0
Jingru Tan, Xin Lu, Gang Zhang, Changqing Yin, Quanquan Li(参考訳) 近年,長距離物体検出の主流パラダイムとして,分離学習法が提案されている。 しかし、それらは追加の微調整段階を必要とし、表現と分類器の解離した最適化は、最適でない結果をもたらすかもしれない。 しかしながら、EQL(Equalization Los)のようなエンドツーエンドのトレーニングメソッドは、分離されたトレーニングメソッドよりもパフォーマンスが悪い。 本稿では,長尾物体検出における主な問題は,正と負の勾配の不均衡であり,eqlがうまく解決できないことを明らかにする。 不均衡勾配問題に対処するため,我々は,等化損失v2(eql v2)と呼ばれる,各カテゴリのトレーニングプロセスを独立かつ均等に再バランスさせる新しい勾配誘導緩和機構を新たに導入する。 挑戦的なLVISベンチマークで大規模な実験を行う。 EQL v2は、AP全体で約4ポイント、まれなカテゴリで14-18ポイント改善されている。 さらに重要なのは、非結合のトレーニング方法を上回ることだ。 Open Imagesデータセットのさらなるチューニングなしで、EQL v2はEQLを7.3ポイントAP改善し、強力な一般化能力を示している。 コードはhttps://github.com/t ztztztz/eqlv2でリリースされた。

Recently proposed decoupled training methods emerge as a dominant paradigm for long-tailed object detection. But they require an extra fine-tuning stage, and the disjointed optimization of representation and classifier might lead to suboptimal results. However, end-to-end training methods, like equalization loss (EQL), still perform worse than decoupled training methods. In this paper, we reveal the main issue in long-tailed object detection is the imbalanced gradients between positives and negatives, and find that EQL does not solve it well. To address the problem of imbalanced gradients, we introduce a new version of equalization loss, called equalization loss v2 (EQL v2), a novel gradient guided reweighing mechanism that re-balances the training process for each category independently and equally. Extensive experiments are performed on the challenging LVIS benchmark. EQL v2 outperforms origin EQL by about 4 points overall AP with 14-18 points improvements on the rare categories. More importantly, it also surpasses decoupled training methods. Without further tuning for the Open Images dataset, EQL v2 improves EQL by 7.3 points AP, showing strong generalization ability. Codes have been released at https://github.com/t ztztztztz/eqlv2
翻訳日:2021-05-07 09:09:38 公開日:2021-04-01
# 局所暗黙的画像関数を用いた連続画像表現の学習

Learning Continuous Image Representation with Local Implicit Image Function ( http://arxiv.org/abs/2012.09161v2 )

ライセンス: Link先を確認
Yinbo Chen, Sifei Liu, Xiaolong Wang(参考訳) 画像をどう表現するか? 視覚の世界は連続的に表現されるが、マシンは画像を2次元のピクセル配列で個別に保存して見ることができる。 本稿では,画像の連続表現について学ぶ。 暗黙的ニューラル表現を用いた最近の3次元再構成の進歩に触発されて,画像座標と2次元深部特徴を入力として取り出すローカルインプリシット画像関数 (LIIF) を提案し,所定の座標におけるRGB値を出力として予測する。 座標は連続であるため、liif は任意の分解能で表現できる。 画像の連続表現を生成するために,超解像度の自己教師型タスクを通じてLIIF表現を持つエンコーダを訓練する。 学習された連続表現は、訓練タスクが提供されないx30高解像度の任意の解像度で表現することができる。 さらに、LIIF表現は2次元の離散的表現と連続的表現の間に橋渡しを行い、画像のサイズの異なる学習タスクを自然にサポートし、グラウンドトゥルースを縮小する手法よりもはるかに優れていることを示す。

How to represent an image? While the visual world is presented in a continuous manner, machines store and see the images in a discrete way with 2D arrays of pixels. In this paper, we seek to learn a continuous representation for images. Inspired by the recent progress in 3D reconstruction with implicit neural representation, we propose Local Implicit Image Function (LIIF), which takes an image coordinate and the 2D deep features around the coordinate as inputs, predicts the RGB value at a given coordinate as an output. Since the coordinates are continuous, LIIF can be presented in arbitrary resolution. To generate the continuous representation for images, we train an encoder with LIIF representation via a self-supervised task with super-resolution. The learned continuous representation can be presented in arbitrary resolution even extrapolate to x30 higher resolution, where the training tasks are not provided. We further show that LIIF representation builds a bridge between discrete and continuous representation in 2D, it naturally supports the learning tasks with size-varied image ground-truths and significantly outperforms the method with resizing the ground-truths.
翻訳日:2021-05-03 03:07:22 公開日:2021-04-01
# ハードウェア・ソフトウェア共同設計によるリアルタイムマルチタスク回折深層ニューラルネットワーク

Real-time Multi-Task Diffractive Deep Neural Networks via Hardware-Software Co-design ( http://arxiv.org/abs/2012.08906v2 )

ライセンス: Link先を確認
Yingjie Li, Ruiyang Chen, Berardi Sensale Rodriguez, Weilu Gao, and Cunxi Yu(参考訳) ディープニューラルネットワーク(DNN)は、リソース制約のある環境での性能を大幅に制限する、相当な計算要件を持つ。 近年、光ニューラルネットワークと光コンピューティングベースのDNNハードウェアへの取り組みが活発化しており、その電力効率、並列性、計算速度の観点から、ディープラーニングシステムに大きな利点をもたらしている。 中でも、光回折に基づく自由空間微分深部ニューラルネットワーク(D$^2$NNs)は、近隣の層でニューロンと接続される各層に数百万のニューロンを特徴付ける。 しかし、再構成性を実装するという課題のため、異なるDNNアルゴリズムをデプロイするには物理拡散システムの再構築と複製が必要であるため、実用的なアプリケーションシナリオではハードウェア効率が大幅に低下する。 そこで本研究では,d$^2$nnsでロバストかつノイズ耐性のあるマルチタスク学習を実現する,新しいハードウェアソフトウェア共同設計手法を提案する。 実験により,汎用性とハードウェア効率の大幅な向上と,全システムコンポーネントの広いノイズ範囲下でのマルチタスクD$2$NNアーキテクチャの堅牢性を示す。 さらに,提案するマルチタスクアーキテクチャをトレーニングするためのドメイン固有正規化アルゴリズムを提案する。

Deep neural networks (DNNs) have substantial computational requirements, which greatly limit their performance in resource-constrained environments. Recently, there are increasing efforts on optical neural networks and optical computing based DNNs hardware, which bring significant advantages for deep learning systems in terms of their power efficiency, parallelism and computational speed. Among them, free-space diffractive deep neural networks (D$^2$NNs) based on the light diffraction, feature millions of neurons in each layer interconnected with neurons in neighboring layers. However, due to the challenge of implementing reconfigurability, deploying different DNNs algorithms requires re-building and duplicating the physical diffractive systems, which significantly degrades the hardware efficiency in practical application scenarios. Thus, this work proposes a novel hardware-software co-design method that enables robust and noise-resilient Multi-task Learning in D$^2$NNs. Our experimental results demonstrate significant improvements in versatility and hardware efficiency, and also demonstrate the robustness of proposed multi-task D$^2$NN architecture under wide noise ranges of all system components. In addition, we propose a domain-specific regularization algorithm for training the proposed multi-task architecture, which can be used to flexibly adjust the desired performance for each task.
翻訳日:2021-05-03 03:05:33 公開日:2021-04-01
# 骨盤骨の深部学習 : 大規模CTデータセットとベースラインモデル

Deep Learning to Segment Pelvic Bones: Large-scale CT Datasets and Baseline Models ( http://arxiv.org/abs/2012.08721v2 )

ライセンス: Link先を確認
Pengbo Liu, Hu Han, Yuanqi Du, Heqin Zhu, Yinhao Li, Feng Gu, Honghu Xiao, Jun Li, Chunpeng Zhao, Li Xiao, Xinbao Wu and S.Kevin Zhou(参考訳) 目的:CTにおける骨分節は骨盤骨疾患の臨床診断と手術計画において常に重要なステップである。 骨盤骨切り術の既存の方法は手作りまたは半自動的であり、多部位領域シフトによる画像の出現変化、造影血管の存在、骨骨折、低用量、金属アーティファクトなどを扱う場合の精度は限られている。 アノテーション付き大規模骨盤CTデータセットが欠如しているため、ディープラーニング手法は十分に研究されていない。 方法: 本論文では, 異なる解像度の1, 184個のCTボリュームと320,000個のスライスを含む, 複数のソースおよび異なるメーカから収集された大きな骨盤CTデータセットをキュレートし, データギャップを埋めることを目的としている。 そこで本研究では,多領域画像から腰椎,仙骨,左股関節,右股関節を分割する深層多層ネットワークを学習し,より効果的でロバストな特徴表現を得ることを初めて提案する。 最後に,サイン付き距離関数(sdf)に基づく後処理ツールを導入し,骨断片を正しく予測しながら誤予測を解消する。 結果: 筆者らのデータセットを用いた広範囲な実験により, メタルフリーボリュームの平均0.987サイクリングが得られた。 sdfポストプロセッサは、後処理段階で重要な骨断片を維持することにより、ハウスドルフ距離が10.5%減少する。 結論: この大規模なデータセットはコミュニティ全体の開発を促進し、https://github.com/I CT-MIRACLE-lab/CTPel vic1Kで画像、アノテーション、コード、トレーニングされたベースラインモデルをオープンソース化する予定です。

Purpose: Pelvic bone segmentation in CT has always been an essential step in clinical diagnosis and surgery planning of pelvic bone diseases. Existing methods for pelvic bone segmentation are either hand-crafted or semi-automatic and achieve limited accuracy when dealing with image appearance variations due to the multi-site domain shift, the presence of contrasted vessels, coprolith and chyme, bone fractures, low dose, metal artifacts, etc. Due to the lack of a large-scale pelvic CT dataset with annotations, deep learning methods are not fully explored. Methods: In this paper, we aim to bridge the data gap by curating a large pelvic CT dataset pooled from multiple sources and different manufacturers, including 1, 184 CT volumes and over 320, 000 slices with different resolutions and a variety of the above-mentioned appearance variations. Then we propose for the first time, to the best of our knowledge, to learn a deep multi-class network for segmenting lumbar spine, sacrum, left hip, and right hip, from multiple-domain images simultaneously to obtain more effective and robust feature representations. Finally, we introduce a post-processing tool based on the signed distance function (SDF) to eliminate false predictions while retaining correctly predicted bone fragments. Results: Extensive experiments on our dataset demonstrate the effectiveness of our automatic method, achieving an average Dice of 0.987 for a metal-free volume. SDF post-processor yields a decrease of 10.5% in hausdorff distance by maintaining important bone fragments in post-processing phase. Conclusion: We believe this large-scale dataset will promote the development of the whole community and plan to open source the images, annotations, codes, and trained baseline models at https://github.com/I CT-MIRACLE-lab/CTPel vic1K.
翻訳日:2021-05-03 02:58:42 公開日:2021-04-01
# (参考訳) TDN:効果的な行動認識のための時間差ネットワーク [全文訳有]

TDN: Temporal Difference Networks for Efficient Action Recognition ( http://arxiv.org/abs/2012.10071v2 )

ライセンス: CC BY 4.0
Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu(参考訳) ビデオのアクション認識には、時間モデリングが依然として難しい。 この問題を軽減するため,本稿では,行動認識のためのマルチスケールの時間情報収集に着目し,時間差ネットワーク (tdn) と呼ばれる新しい映像アーキテクチャを提案する。 我々のTDNの中核は、時間差演算子を明示的に活用して効率的な時間的モジュール(TDM)を考案し、その短期的・長期的動作モデリングへの影響を体系的に評価することである。 ビデオ全体の時間的情報をフルキャプチャするために,2レベル差分モデリングパラダイムを用いてTDNを構築した。 具体的には、局所的な動きモデリングでは、連続フレーム上の時間差を用いて2次元CNNにより微細な動きパターンを供給し、グローバルな動きモデリングでは、セグメント間の時間差を組み込んで、動き特徴励起のための長距離構造をキャプチャする。 TDNは、シンプルで原則化された時間モデリングフレームワークを提供しており、計算コストの少ない既存のCNNでインスタンス化することができる。 我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。 さらに,詳細なアブレーション実験を行い,tdnの可視化結果のプロットを行い,時間差モデリングの洞察に富む解析を行うことを期待する。 コードをhttps://github.com/M CG-NJU/TDNでリリースします。

Temporal modeling still remains challenging for action recognition in videos. To mitigate this issue, this paper presents a new video architecture, termed as Temporal Difference Network (TDN), with a focus on capturing multi-scale temporal information for efficient action recognition. The core of our TDN is to devise an efficient temporal module (TDM) by explicitly leveraging a temporal difference operator, and systematically assess its effect on short-term and long-term motion modeling. To fully capture temporal information over the entire video, our TDN is established with a two-level difference modeling paradigm. Specifically, for local motion modeling, temporal difference over consecutive frames is used to supply 2D CNNs with finer motion pattern, while for global motion modeling, temporal difference across segments is incorporated to capture long-range structure for motion feature excitation. TDN provides a simple and principled temporal modeling framework and could be instantiated with the existing CNNs at a small extra computational cost. Our TDN presents a new state of the art on the Something-Something V1 & V2 datasets and is on par with the best performance on the Kinetics-400 dataset. In addition, we conduct in-depth ablation studies and plot the visualization results of our TDN, hopefully providing insightful analysis on temporal difference modeling. We release the code at https://github.com/M CG-NJU/TDN.
翻訳日:2021-05-02 03:25:11 公開日:2021-04-01
# (参考訳) voronoi progressive widening: 連続状態、動作、観察のための効率的なオンラインソルバ [全文訳有]

Voronoi Progressive Widening: Efficient Online Solvers for Continuous State, Action, and Observation POMDPs ( http://arxiv.org/abs/2012.10140v3 )

ライセンス: CC BY 4.0
Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg(参考訳) 本稿では,voronoi progressive widening (vpw) とvoronoi progressive optimization (voo) の一般化と,部分可観測マルコフ決定プロセス (pomdps) へのアクションプログレッシブ拡張を提案する。 ツリー探索アルゴリズムは、局所的および大域的アクション探索を効率的にバランスさせることで、連続的またはハイブリッドなアクション空間を効果的に扱うためにvpwを利用することができる。 本稿では,2つのvpwアルゴリズムを提案し,理論およびシミュレーションの観点から解析する。 Voronoi Optimistic Weighted Sparse Smpling (VOWSS)はVPWベースのオンラインソルバを正当化する理論ツールであり、連続状態、動作、観察POMDPのグローバル収束を保証する最初のアルゴリズムである。 Voronoi Optimistic Monte Carlo Planning with Observation Weighting (VOMCPOW) は、様々なシミュレーション実験において、最先端のPOMDPアルゴリズムを一貫して上回る、汎用的で効率的なアルゴリズムである。

This paper introduces Voronoi Progressive Widening (VPW), a generalization of Voronoi optimistic optimization (VOO) and action progressive widening to partially observable Markov decision processes (POMDPs). Tree search algorithms can use VPW to effectively handle continuous or hybrid action spaces by efficiently balancing local and global action searching. This paper proposes two VPW-based algorithms and analyzes them from theoretical and simulation perspectives. Voronoi Optimistic Weighted Sparse Sampling (VOWSS) is a theoretical tool that justifies VPW-based online solvers, and it is the first algorithm with global convergence guarantees for continuous state, action, and observation POMDPs. Voronoi Optimistic Monte Carlo Planning with Observation Weighting (VOMCPOW) is a versatile and efficient algorithm that consistently outperforms state-of-the-art POMDP algorithms in several simulation experiments.
翻訳日:2021-05-02 01:08:01 公開日:2021-04-01
# 適応的決定境界を用いた深いオープンインテント分類

Deep Open Intent Classification with Adaptive Decision Boundary ( http://arxiv.org/abs/2012.10209v5 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Ting-En Lin(参考訳) オープンインテント分類は対話システムにおいて難しい課題である。 一方で、既知の意図の識別の品質を保証する必要がある。 一方、事前の知識なしにオープン(未知)の意図を検出する必要がある。 現在のモデルは、既知の意図とオープン意図の両方のパフォーマンスのバランスをとるための適切な決定境界を見つける場合に限られている。 本稿では,オープン意図分類のための適応決定境界(ADB)を学習するための後処理手法を提案する。 まず,ラベル付き既知のインテントサンプルを使用してモデルを事前学習する。 次に,よく訓練された特徴の助けを借りて,各既知のクラスに対する適応球面決定境界を自動的に学習する。 具体的には,経験的リスクとオープンスペースリスクを両立させる新たな損失関数を提案する。 このメソッドはオープンインテントのサンプルは必要とせず、モデルアーキテクチャの変更は行わない。 さらに、私たちのアプローチはラベル付きデータの少ないことと、既知の意図の少ないことに驚くほど敏感です。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端の手法と比較して大きな改善をもたらすことが示された。 コードはhttps://github.com/t huiar/adaptive-decis ion-boundaryでリリースされる。

Open intent classification is a challenging task in dialogue systems. On the one hand, it should ensure the quality of known intent identification. On the other hand, it needs to detect the open (unknown) intent without prior knowledge. Current models are limited in finding the appropriate decision boundary to balance the performances of both known intents and the open intent. In this paper, we propose a post-processing method to learn the adaptive decision boundary (ADB) for open intent classification. We first utilize the labeled known intent samples to pre-train the model. Then, we automatically learn the adaptive spherical decision boundary for each known class with the aid of well-trained features. Specifically, we propose a new loss function to balance both the empirical risk and the open space risk. Our method does not need open intent samples and is free from modifying the model architecture. Moreover, our approach is surprisingly insensitive with less labeled data and fewer known intents. Extensive experiments on three benchmark datasets show that our method yields significant improvements compared with the state-of-the-art methods. The codes are released at https://github.com/t huiar/Adaptive-Decis ion-Boundary.
翻訳日:2021-05-01 18:18:02 公開日:2021-04-01
# PTN:半教師付きFew-shot学習のためのPoisson Transfer Network

PTN: A Poisson Transfer Network for Semi-supervised Few-shot Learning ( http://arxiv.org/abs/2012.10844v3 )

ライセンス: Link先を確認
Huaxi Huang, Junjie Zhang, Jian Zhang, Qiang Wu, Chang Xu(参考訳) 半教師付き少ショット学習(SSFSL)の先行きは、余分なラベル付きデータの価値を最大化し、少ショット学習者を増やすことである。 本稿では,2つの側面からSSFSLのラベルのない情報をマイニングするためのPoisson Transfer Network (PTN)を提案する。 第一に、Poisson Merriman Bence Osher (MBO) モデルはラベル付きおよびラベルなしの例間の通信のためのブリッジを構築する。 このモデルは、ラベルのメッセージパッシングプロセスにおいて、従来のグラフベースのSSFSL法よりも安定かつ情報的分類器として機能する。 第二に、基礎クラスから新しいクラスへのコントラスト学習を通じて知識を伝達するために、余分なラベルのないサンプルを用いる。 具体的には、負の対を遠ざけながら、強化された正の対を閉じる。 我々の対照的な転送方式は、少数のラベル付きデータに対する過度に適合する問題を緩和するために、新規なクラス埋め込みを暗黙的に学習する。 したがって、新しいクラスにおける埋め込み一般化の退化を緩和することができる。 広範な実験により、PTNは miniImageNet と tieredImageNet ベンチマークデータセット上で、最先端のいくつかのショットモデルと SSFSL モデルより優れていることが示された。

The predicament in semi-supervised few-shot learning (SSFSL) is to maximize the value of the extra unlabeled data to boost the few-shot learner. In this paper, we propose a Poisson Transfer Network (PTN) to mine the unlabeled information for SSFSL from two aspects. First, the Poisson Merriman Bence Osher (MBO) model builds a bridge for the communications between labeled and unlabeled examples. This model serves as a more stable and informative classifier than traditional graph-based SSFSL methods in the message-passing process of the labels. Second, the extra unlabeled samples are employed to transfer the knowledge from base classes to novel classes through contrastive learning. Specifically, we force the augmented positive pairs close while push the negative ones distant. Our contrastive transfer scheme implicitly learns the novel-class embeddings to alleviate the over-fitting problem on the few labeled data. Thus, we can mitigate the degeneration of embedding generality in novel classes. Extensive experiments indicate that PTN outperforms the state-of-the-art few-shot and SSFSL models on miniImageNet and tieredImageNet benchmark datasets.
翻訳日:2021-05-01 04:43:26 公開日:2021-04-01
# YolactEdge: エッジ上のリアルタイムインスタンスセグメンテーション

YolactEdge: Real-time Instance Segmentation on the Edge ( http://arxiv.org/abs/2012.12259v2 )

ライセンス: Link先を確認
Haotian Liu, Rafael A. Rivera Soto, Fanyi Xiao, Yong Jae Lee(参考訳) YolactEdgeは,小さなエッジデバイス上でリアルタイムに動作する,最初の競合インスタンスセグメンテーションアプローチである。 具体的には、YolactEdgeはJetson AGX Xavierで最大30.8 FPS(RTX 2080 Tiで172.7 FPS)、ResNet-101のバックボーンを550x550解像度イメージで実行している。 そこで本研究では,現在最先端の画像ベースリアルタイム手法であるYOLACTの2つの改良点について述べる。(1) 速度と精度を慎重に交換しながらTensorRTを最適化し,(2) ビデオの時間的冗長性を活かす新しい特徴変形モジュールである。 YouTube VISとMS COCOデータセットの実験では、YolactEdgeは既存のリアルタイムメソッドよりも3~5倍高速で、競合マスクとボックス検出の精度が得られている。 デザインの選択やモジュールを識別するアブレーション研究も行っています。 コードとモデルはhttps://github.com/h aotian-liu/yolact_ed geで入手できる。

We propose YolactEdge, the first competitive instance segmentation approach that runs on small edge devices at real-time speeds. Specifically, YolactEdge runs at up to 30.8 FPS on a Jetson AGX Xavier (and 172.7 FPS on an RTX 2080 Ti) with a ResNet-101 backbone on 550x550 resolution images. To achieve this, we make two improvements to the state-of-the-art image-based real-time method YOLACT: (1) applying TensorRT optimization while carefully trading off speed and accuracy, and (2) a novel feature warping module to exploit temporal redundancy in videos. Experiments on the YouTube VIS and MS COCO datasets demonstrate that YolactEdge produces a 3-5x speed up over existing real-time methods while producing competitive mask and box detection accuracy. We also conduct ablation studies to dissect our design choices and modules. Code and models are available at https://github.com/h aotian-liu/yolact_ed ge.
翻訳日:2021-04-26 07:49:53 公開日:2021-04-01
# xerte: 未来的リンク予測のための時間的知識グラフの説明可能な推論

xERTE: Explainable Reasoning on Temporal Knowledge Graphs for Forecasting Future Links ( http://arxiv.org/abs/2012.15537v5 )

ライセンス: Link先を確認
Zhen Han, Peng Chen, Yunpu Ma, Volker Tresp(参考訳) 時間進化知識グラフ(KG)のモデリングは近年、関心が高まりつつある。 ここでグラフ表現学習は時間的kgのリンク予測の主要なパラダイムとなっている。 しかし、埋め込みベースのアプローチは主にブラックボックス方式で動作し、予測を解釈する能力が欠如している。 本稿では,時間的kgのクエリ関連部分グラフを理由とし,構造的依存関係と時間的ダイナミクスを共同でモデル化するリンク予測フレームワークを提案する。 特に,クエリの周りに囲む部分グラフの抽出を導くために,時間的関係性注意機構と新しい逆表現更新方式を提案する。 このサブグラフは、時間的近傍の反復サンプリングと注意伝播によって拡張される。 我々のアプローチは予測を説明する人間の理解可能な証拠を提供する。 リンク予測タスクのためのベンチマーク時間知識グラフを4つ評価した。 より説明しやすい一方で,これまでのKG予測手法と比較して,Hits@1では20%の相対的な改善が得られた。 また,53名の回答者を対象に調査を行い,リンク予測モデルから抽出した証拠が人間の理解と一致していることを示した。

Modeling time-evolving knowledge graphs (KGs) has recently gained increasing interest. Here, graph representation learning has become the dominant paradigm for link prediction on temporal KGs. However, the embedding-based approaches largely operate in a black-box fashion, lacking the ability to interpret their predictions. This paper provides a link forecasting framework that reasons over query-relevant subgraphs of temporal KGs and jointly models the structural dependencies and the temporal dynamics. Especially, we propose a temporal relational attention mechanism and a novel reverse representation update scheme to guide the extraction of an enclosing subgraph around the query. The subgraph is expanded by an iterative sampling of temporal neighbors and by attention propagation. Our approach provides human-understandable evidence explaining the forecast. We evaluate our model on four benchmark temporal knowledge graphs for the link forecasting task. While being more explainable, our model obtains a relative improvement of up to 20% on Hits@1 compared to the previous best KG forecasting method. We also conduct a survey with 53 respondents, and the results show that the evidence extracted by the model for link forecasting is aligned with human understanding.
翻訳日:2021-04-17 17:24:25 公開日:2021-04-01
# (参考訳) 効果的なコミュニケーション: 雑音チャネル上でのマルチエージェント強化学習のための共同学習・コミュニケーションフレームワーク

Effective Communications: A Joint Learning and Communication Framework for Multi-Agent Reinforcement Learning over Noisy Channels ( http://arxiv.org/abs/2101.10369v2 )

ライセンス: CC BY 4.0
Tze-Yang Tung, Szymon Kobus, Joan Roig Pujol, Deniz Gunduz(参考訳) マルチエージェント強化学習(MARL)フレームワークにおける協調と協調を向上するために,複数のエージェントがノイズチャネル上で通信することを考慮し,シャノンとウィーバーがセミナーで行ったコミュニケーションにおける「有効性問題」の新たな定式化について提案する。 具体的には,マルチエージェントによる部分的に観測可能なマルコフ決定プロセス (MA-POMDP) について考察する。 ノイズの多い通信チャネルは、環境のダイナミクスの一部として明示的に考慮され、各エージェントが送信するメッセージは、エージェントが取り得るアクションの一部である。 その結果、エージェントは互いに協力することだけでなく、ノイズの多いチャンネル上で「効果的に」コミュニケーションすることを学ぶ。 このフレームワークは、ノイズの多いチャネル上で確実にメッセージを伝達することを目的としている従来のコミュニケーション問題と、基礎となる通信チャネルがエラーフリーであると仮定されたmarl文献で最近注目を集めている"コミュニケーションを学ぶための学習"フレームワークの両方を一般化している。 提案手法を用いて学習した共同政策は,基礎となるMA-POMDPとは別途考慮されているものよりも優れていることを示す。 これは非常に強力なフレームワークであり、自動運転車計画からドローン群制御まで、多くの現実世界の応用があり、マルチユーザー通信システムの設計のための深層強化学習の豊富なツールボックスを開く。

We propose a novel formulation of the "effectiveness problem" in communications, put forth by Shannon and Weaver in their seminal work [2], by considering multiple agents communicating over a noisy channel in order to achieve better coordination and cooperation in a multi-agent reinforcement learning (MARL) framework. Specifically, we consider a multi-agent partially observable Markov decision process (MA-POMDP), in which the agents, in addition to interacting with the environment can also communicate with each other over a noisy communication channel. The noisy communication channel is considered explicitly as part of the dynamics of the environment and the message each agent sends is part of the action that the agent can take. As a result, the agents learn not only to collaborate with each other but also to communicate "effectively" over a noisy channel. This framework generalizes both the traditional communication problem, where the main goal is to convey a message reliably over a noisy channel, and the "learning to communicate" framework that has received recent attention in the MARL literature, where the underlying communication channels are assumed to be error-free. We show via examples that the joint policy learned using the proposed framework is superior to that where the communication is considered separately from the underlying MA-POMDP. This is a very powerful framework, which has many real world applications, from autonomous vehicle planning to drone swarm control, and opens up the rich toolbox of deep reinforcement learning for the design of multi-user communication systems.
翻訳日:2021-04-13 10:06:19 公開日:2021-04-01
# 正確な高密度対応の学習と信頼の時期

Learning Accurate Dense Correspondences and When to Trust Them ( http://arxiv.org/abs/2101.01710v2 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Luc Van Gool and Radu Timofte(参考訳) 一対の画像間の密接な対応を確立することは重要かつ一般的な問題である。 しかし, 大変位や均質領域の場合, 密集流の推定は不正確であることが多い。 ポーズ推定や画像操作,3D再構成など,ほとんどのアプリケーションやダウンストリームタスクでは,いつ,どこで推定されたマッチを信頼するかを知ることが重要です。 本研究では,2つの画像間の密な流れ場と,予測の信頼性と精度を示す頑健な画素信頼度マップを推定することを目的とした。 フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。 特に、予測分布を制約付き混合モデルとしてパラメトリ化し、正確な流れ予測と外れ値の両方をより良くモデル化する。 さらに,自己監督訓練の文脈において,堅牢で一般化可能な不確実性予測に適したアーキテクチャとトレーニング戦略を開発した。 本手法は,複数の挑戦的幾何マッチングとオプティカルフローデータセットの最先端結果を得る。 さらに,ポーズ推定タスクにおける確率的信頼度推定の有用性を検証した。 コードとモデルはhttps://github.com/p runetruong/pdcnetで入手できる。

Establishing dense correspondences between a pair of images is an important and general problem. However, dense flow estimation is often inaccurate in the case of large displacements or homogeneous regions. For most applications and down-stream tasks, such as pose estimation, image manipulation, or 3D reconstruction, it is crucial to know when and where to trust the estimated matches. In this work, we aim to estimate a dense flow field relating two images, coupled with a robust pixel-wise confidence map indicating the reliability and accuracy of the prediction. We develop a flexible probabilistic approach that jointly learns the flow prediction and its uncertainty. In particular, we parametrize the predictive distribution as a constrained mixture model, ensuring better modelling of both accurate flow predictions and outliers. Moreover, we develop an architecture and training strategy tailored for robust and generalizable uncertainty prediction in the context of self-supervised training. Our approach obtains state-of-the-art results on multiple challenging geometric matching and optical flow datasets. We further validate the usefulness of our probabilistic confidence estimation for the task of pose estimation. Code and models are available at https://github.com/P runeTruong/PDCNet.
翻訳日:2021-04-11 11:33:37 公開日:2021-04-01
# (参考訳) 固いオデムのための新しいdnnと化学反応流への応用 [全文訳有]

Novel DNNs for Stiff ODEs with Applications to Chemically Reacting Flows ( http://arxiv.org/abs/2104.01914v1 )

ライセンス: CC BY 4.0
Thomas S. Brown, Harbir Antil, Rainald L\"ohner, Fumiya Togashi, Deepanshu Verma(参考訳) 化学反応する流れは、超音速流、燃焼、爆発、製造プロセス、環境評価などの工学において一般的である。 燃焼においては、反応数は(100以上)顕著であり、化学反応のCPU要求が非常に大きい(99%以上)ため、多くのフローと燃焼の問題は現在、最大のスーパーコンピュータの能力を超えている。 これに触発された新しいDeep Neural Networks (DNN) は、近似された固いODEに導入される。 2つのアプローチ、すなわち、これらのODEに対する解や解の微分を学習する。 これらのDNNは、化学反応流に共通する複数の種や反応に適用される。 実験結果から,DNNの設計において,種の物理的特性を考慮に入れることが有用であることが示唆された。 提案手法はよく一般化される。

Chemically reacting flows are common in engineering, such as hypersonic flow, combustion, explosions, manufacturing processes and environmental assessments. For combustion, the number of reactions can be significant (over 100) and due to the very large CPU requirements of chemical reactions (over 99%) a large number of flow and combustion problems are presently beyond the capabilities of even the largest supercomputers. Motivated by this, novel Deep Neural Networks (DNNs) are introduced to approximate stiff ODEs. Two approaches are compared, i.e., either learn the solution or the derivative of the solution to these ODEs. These DNNs are applied to multiple species and reactions common in chemically reacting flows. Experimental results show that it is helpful to account for the physical properties of species while designing DNNs. The proposed approach is shown to generalize well.
翻訳日:2021-04-08 06:38:18 公開日:2021-04-01
# スマートメータによる都市配電網における急速線停止の同定

Quick Line Outage Identification in Urban Distribution Grids via Smart Meters ( http://arxiv.org/abs/2104.02056v1 )

ライセンス: Link先を確認
Yizheng Liao, Yang Weng, Chin-woo Tan, Ram Rajagopal(参考訳) 分散エネルギー資源(DER)の分散グリッドへの統合は、DERの不確実で複雑な振る舞いのため、様々な信頼性の問題を引き起こす。 配電網の大規模普及に伴い、従来の停電検出手法は、顧客からの報告とスマートメータの最後のgasp信号に依存しており、再生可能発電機やストレージ、都市配電網のメッシュ構造が系統の停電後も電力供給を継続できるため、性能が低下する。 これらの課題に対処するため,理論的保証付き確率的時系列解析に基づくデータ駆動型停止監視手法を提案する。 具体的には,時間系列電圧測定の依存性がライン停止後の統計的に有意な変化を示すことを示す。 これにより、最適変化点検出の理論がラインの停止を識別するのに適している。 しかし,既存の切換点検出手法では,配電系統では未知の電圧分布を必要とする。 そこで我々は電圧データから分布パラメータを直接学習する最大確率推定器を設計する。 推定パラメータに基づく検出も最適性能を達成し,高速な分散グリッド停止同定に非常に有用であることを示す。 さらに、スマートメータは配電網や先進的なインフラ(例えばPMU)に広く設置されているため、我々のアプローチは急激な停止識別のためにのみ電圧等級を必要とする。 シミュレーションの結果,Derと非Derの配置が14の8つの配電網において,スマートメータデータを用いた高精度な故障同定が得られた。

The growing integration of distributed energy resources (DERs) in distribution grids raises various reliability issues due to DER's uncertain and complex behaviors. With a large-scale DER penetration in distribution grids, traditional outage detection methods, which rely on customers report and smart meters' last gasp signals, will have poor performance, because the renewable generators and storages and the mesh structure in urban distribution grids can continue supplying power after line outages. To address these challenges, we propose a data-driven outage monitoring approach based on the stochastic time series analysis with a theoretical guarantee. Specifically, we prove via power flow analysis that the dependency of time-series voltage measurements exhibits significant statistical changes after line outages. This makes the theory on optimal change-point detection suitable to identify line outages. However, existing change point detection methods require post-outage voltage distribution, which is unknown in distribution systems. Therefore, we design a maximum likelihood estimator to directly learn the distribution parameters from voltage data. We prove that the estimated parameters-based detection also achieves the optimal performance, making it extremely useful for fast distribution grid outage identifications. Furthermore, since smart meters have been widely installed in distribution grids and advanced infrastructure (e.g., PMU) has not widely been available, our approach only requires voltage magnitude for quick outage identification. Simulation results show highly accurate outage identification in eight distribution grids with 14 configurations with and without DERs using smart meter data.
翻訳日:2021-04-06 14:45:49 公開日:2021-04-01
# 個人信頼性を利用した競合する順序量子証拠の組み合わせ

Combining conflicting ordinal quantum evidences utilizing individual reliability ( http://arxiv.org/abs/2104.01910v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 異なる情報源からの不確定な情報をいかに組み合わせるかは、長年にわたってホットな話題となっている。 しかしながら、情報に含まれる順序量子証拠に関しては、この種の問題に対する解決策を提供することのできる参照可能な研究は存在しない。 さらに、量子情報の不確かさを解消する手法はまだ未解決の問題である。 そこで,本論文では,量子情報に含まれる不確実性による影響を合理的に低減し,順序量子エビデンスの組み合わせを合理的に改善する優れた手法を提案する。 また,提案手法の正当性および妥当性を検証するために,いくつかの実応用が提供される。

How to combine uncertain information from different sources has been a hot topic for years. However, with respect to ordinal quantum evidences contained in information, there is no any referable work which is able to provide a solution to this kind of problem. Besides, the method to dispel uncertainty of quantum information is still an open issue. Therefore, in this paper, a specially designed method is designed to provide an excellent method which improves the combination of ordinal quantum evidences reasonably and reduce the effects brought by uncertainty contained in quantum information simultaneously. Besides, some actual applications are provided to verify the correctness and validity of the proposed method.
翻訳日:2021-04-06 14:41:09 公開日:2021-04-01
# 共役写像の深層学習

Deep Learning of Conjugate Mappings ( http://arxiv.org/abs/2104.01874v1 )

ライセンス: Link先を確認
Jason J. Bramburger, Steven L. Brunton, J. Nathan Kutz(参考訳) 最も一般的なカオス力学系の多くが時間的に連続しているにもかかわらず、カオスの理解の多くは離散時間マッピングによって形成される。 henri poincar\'e はまず、低次元の横断部分空間で連続的な連続的な流れの反復を追跡することでこの接続を実現した。 流れと部分空間の連続的な交叉を通じて力学を反復する写像は、現在ではポアンカルン写像と呼ばれ、カオス力学を解釈し分類するための主要な方法である。 残念なことに、最も単純なシステムを除いて、そのようなマッピングのための明示的な形式は、いまだに際立ったままである。 本研究では,より単純なカオス写像によって動的が支配される共役表現への非可逆座標変換を構築するために,ディープラーニングを用いて明示的なポアンカー写像を得る方法を提案する。 変数の可逆的変化は、次元の減少を可能にする自己エンコーダに基づいており、位相的共役の同値関係を用いてカオスシステムを分類する利点がある。 実際、位相共役の強制は座標とダイナミクスのペアリングを学ぶための重要なニューラルネットワークの規則化である。 本稿では,R\ ossler や Lorenz などの低次元システムに対する手法の実証的応用に加えて,倉本-シヴァシンスキー方程式のような無限次元システムに対する手法の有用性を実証する。

Despite many of the most common chaotic dynamical systems being continuous in time, it is through discrete time mappings that much of the understanding of chaos is formed. Henri Poincar\'e first made this connection by tracking consecutive iterations of the continuous flow with a lower-dimensional, transverse subspace. The mapping that iterates the dynamics through consecutive intersections of the flow with the subspace is now referred to as a Poincar\'e map, and it is the primary method available for interpreting and classifying chaotic dynamics. Unfortunately, in all but the simplest systems, an explicit form for such a mapping remains outstanding. This work proposes a method for obtaining explicit Poincar\'e mappings by using deep learning to construct an invertible coordinate transformation into a conjugate representation where the dynamics are governed by a relatively simple chaotic mapping. The invertible change of variable is based on an autoencoder, which allows for dimensionality reduction, and has the advantage of classifying chaotic systems using the equivalence relation of topological conjugacies. Indeed, the enforcement of topological conjugacies is the critical neural network regularization for learning the coordinate and dynamics pairing. We provide expository applications of the method to low-dimensional systems such as the R\"ossler and Lorenz systems, while also demonstrating the utility of the method on infinite-dimensional systems, such as the Kuramoto--Sivashinsk y equation.
翻訳日:2021-04-06 14:17:31 公開日:2021-04-01
# モンテカルロ木探索を支援するグラフニューラルネットワークを用いたクビットルーティング

Qubit Routing using Graph Neural Network aided Monte Carlo Tree Search ( http://arxiv.org/abs/2104.01992v1 )

ライセンス: Link先を確認
Animesh Sinha, Utkarsh Azad and Harjinder Singh(参考訳) 短期量子ハードウェアは、相互に相互作用可能な量子ビット上でのみ2量子演算をサポートすることができる。 したがって、ハードウェア上で任意の量子回路を実行するには、まず量子ビットルーティングのタスク、すなわち、追加のSWAPゲートを挿入するか、あるいは既存のCNOTゲートを逆転してターゲットトポロジの接続制約を満たすことで量子回路を変換する必要がある。 本稿では,アーキテクチャに依存せず,様々な回路ベンチマークで利用可能な他のルーティング実装よりも優れるキュービットルーティング手法を提案する。 変換された量子回路の深さは、モンテカルロ木探索を利用して量子ビットルーティングを行い、各状態の値関数とアクション確率を評価するグラフニューラルネットワークによって支援される。

Near-term quantum hardware can support two-qubit operations only on the qubits that can interact with each other. Therefore, to execute an arbitrary quantum circuit on the hardware, compilers have to first perform the task of qubit routing, i.e., to transform the quantum circuit either by inserting additional SWAP gates or by reversing existing CNOT gates to satisfy the connectivity constraints of the target topology. We propose a procedure for qubit routing that is architecture agnostic and that outperforms other available routing implementations on various circuit benchmarks. The depth of the transformed quantum circuits is minimised by utilizing the Monte Carlo tree search to perform qubit routing, aided by a Graph neural network that evaluates the value function and action probabilities for each state.
翻訳日:2021-04-06 14:16:35 公開日:2021-04-01
# 畳み込みニューラルネットワークを用いた神経状態分類

Neurological Status Classification Using Convolutional Neural Network ( http://arxiv.org/abs/2104.02058v1 )

ライセンス: Link先を確認
Mehrad Jaloli, Divya Choudhary and Marzia Cescon(参考訳) 本研究では,CNNモデルを用いて,被験者が身体的,認知的,感情的なストレスにさらされる実験で記録された非脳波(EEG)データセットにおいて,神経状態の4つの異なる位相を正確に識別できることを示す。 提案モデルでは,受信操作特性(ROC)のAUC(AreaUnder the Curve)が99.99%,テストデータセットの99.82%の分類精度が得られた。 さらに,本モデルでは,SVMやRFといった従来の分類手法よりも優れていることを示す。 最後に,他の手法と比較して,雑音に対する頑健さを97.46%の精度で向上させるCNNモデルの利点を示す。

In this study we show that a Convolutional Neural Network (CNN) model is able to accuratelydiscrimina te between 4 different phases of neurological status in a non-Electroencephalo gram(EEG) dataset recorded in an experiment in which subjects are exposed to physical, cognitiveand emotional stress. We demonstrate that the proposed model is able to obtain 99.99% AreaUnder the Curve (AUC) of Receiver Operation characteristic (ROC) and 99.82% classificationaccura cy on the test dataset. Furthermore, for comparison, we show that our models outperformstradition al classification methods such as SVM, and RF. Finally, we show the advantage of CNN models, in comparison to other methods, in robustness to noise by 97.46% accuracy on a noisy dataset.
翻訳日:2021-04-06 14:13:22 公開日:2021-04-01
# (参考訳) back to square one: ディープニューラルネットワークと木探索によるシュートとはしごの超人的パフォーマンス

Back to Square One: Superhuman Performance in Chutes and Ladders Through Deep Neural Networks and Tree Search ( http://arxiv.org/abs/2104.00698v1 )

ライセンス: CC BY 4.0
Dylan Ashley, Anssi Kanervisto, Brendan Bennett(参考訳) 我々は,Chutes と Ladders の古代ゲームにおいて,超人的パフォーマンスを実現する最先端のアルゴリズムである AlphaChute を提示する。 我々のアルゴリズムは一定時間内にナッシュ平衡に収束するので、このゲームに対する最初の形式的解である。 驚くべきことに、これらのことにもかかわらず、AlphaChuteの実装はドメイン固有の適応のため比較的単純です。 AlphaChuteのソースコードは、Appendixで提供しています。

We present AlphaChute: a state-of-the-art algorithm that achieves superhuman performance in the ancient game of Chutes and Ladders. We prove that our algorithm converges to the Nash equilibrium in constant time, and therefore is -- to the best of our knowledge -- the first such formal solution to this game. Surprisingly, despite all this, our implementation of AlphaChute remains relatively straightforward due to domain-specific adaptations. We provide the source code for AlphaChute here in our Appendix.
翻訳日:2021-04-06 02:53:03 公開日:2021-04-01
# (参考訳) 高速ストリーム型テキスト音声スペクトルモデリングのためのマルチレートアテンションアーキテクチャ [全文訳有]

Multi-rate attention architecture for fast streamable Text-to-speech spectrum modeling ( http://arxiv.org/abs/2104.00705v1 )

ライセンス: CC BY 4.0
Qing He, Zhiping Xiu, Thilo Koehler, Jilong Wu(参考訳) 典型的なTTSシステムでは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージという、2段階のアーキテクチャを採用している。 高品質のスペクトルモデルは通常、エンコーダ・デコーダアーキテクチャを自己アテンションまたは双方向長短短期(BLSTM)ユニットに組み込む。 これらのモデルは高品質な音声を生成することができるが、入力長が$L$である場合、レイテンシーとリアルタイム係数(RTF)の両方でO($L$)が増加する。 言い換えれば、より長い入力は、より長い遅延とより遅い合成速度をもたらし、リアルタイムアプリケーションでの使用を制限する。 本稿では,エンコード中にコンパクト表現を計算し,デコード時にストリーム方式で再帰的にアテンションベクトルを生成することで,レイテンシとrtfボトルネックを解消するマルチレートアテンションアーキテクチャを提案する。 提案アーキテクチャは,低レイテンシ,低RTFを同時に実現し,高音質(4.31MOSは4.48MOS)を実現する。 一方,提案方式のレイテンシとRTFは入力長に関わらず一定であり,リアルタイムアプリケーションに最適である。

Typical high quality text-to-speech (TTS) systems today use a two-stage architecture, with a spectrum model stage that generates spectral frames and a vocoder stage that generates the actual audio. High-quality spectrum models usually incorporate the encoder-decoder architecture with self-attention or bi-directional long short-term (BLSTM) units. While these models can produce high quality speech, they often incur O($L$) increase in both latency and real-time factor (RTF) with respect to input length $L$. In other words, longer inputs leads to longer delay and slower synthesis speed, limiting its use in real-time applications. In this paper, we propose a multi-rate attention architecture that breaks the latency and RTF bottlenecks by computing a compact representation during encoding and recurrently generating the attention vector in a streaming manner during decoding. The proposed architecture achieves high audio quality (MOS of 4.31 compared to groundtruth 4.48), low latency, and low RTF at the same time. Meanwhile, both latency and RTF of the proposed system stay constant regardless of input lengths, making it ideal for real-time applications.
翻訳日:2021-04-06 02:50:17 公開日:2021-04-01
# (参考訳) BRepNet:固体モデルのためのトポロジカルメッセージパッシングシステム [全文訳有]

BRepNet: A topological message passing system for solid models ( http://arxiv.org/abs/2104.00706v1 )

ライセンス: CC BY-SA 4.0
Joseph G. Lambourne, Karl D.D. Willis, Pradeep Kumar Jayaraman, Aditya Sanghi, Peter Meltzer, Hooman Shayani(参考訳) 境界表現(B-rep)モデルは、3次元形状をCAD(Computer-Aided Design)アプリケーションで記述する標準的な方法である。 軽量パラメトリック曲線と曲面を位相情報と組み合わせ、幾何学的実体を多様体を記述する。 本稿では,b-repデータ構造上で直接動作するように設計されたニューラルネットワークアーキテクチャであるbrepnetを紹介する。 brepnetはデータ構造の向き付けコエッジに関して畳み込み型カーネルを定義する。 各コエッジ近傍では、顔、エッジ、コエッジの小さなコレクションを識別でき、特定の学習可能なパラメータによって検出されたこれらのエンティティから特徴ベクトルのパターンを識別できる。 さらに,b-repsを用いたさらなるディープラーニング研究を促進するため,fusion 360 gallery segmentationデータセットを公開する。 35,000以上のB-repモデルのコレクションには、各顔を生成するモデリング操作に関する情報が記入されている。 BRepNetがこれらのモデルをメッシュやポイントクラウドのメソッドよりも高い精度でセグメント化できることを実証する。

Boundary representation (B-rep) models are the standard way 3D shapes are described in Computer-Aided Design (CAD) applications. They combine lightweight parametric curves and surfaces with topological information which connects the geometric entities to describe manifolds. In this paper we introduce BRepNet, a neural network architecture designed to operate directly on B-rep data structures, avoiding the need to approximate the model as meshes or point clouds. BRepNet defines convolutional kernels with respect to oriented coedges in the data structure. In the neighborhood of each coedge, a small collection of faces, edges and coedges can be identified and patterns in the feature vectors from these entities detected by specific learnable parameters. In addition, to encourage further deep learning research with B-reps, we publish the Fusion 360 Gallery segmentation dataset. A collection of over 35,000 B-rep models annotated with information about the modeling operations which created each face. We demonstrate that BRepNet can segment these models with higher accuracy than methods working on meshes, and point clouds.
翻訳日:2021-04-06 02:41:45 公開日:2021-04-01
# (参考訳) インフォーマルエンジニアのためのフォーマルメソッド:ワークショップ勧告 [全文訳有]

Formal Methods for the Informal Engineer: Workshop Recommendations ( http://arxiv.org/abs/2104.00739v1 )

ライセンス: CC BY 4.0
Gopal Sarma, James Koppel, Gregory Malecha, Patrick Schultz, Eric Drexler, Ramana Kumar, Cody Roux, and Philip Zucker(参考訳) Formal Methods for the Informal Engineer (FMIE) は、バイオメディカルソフトウェアエコシステムにおける検証済みソフトウェアの役割を探るため、2021年にMITとハーバードのブロード研究所で開かれたワークショップである。 FMIEの組織化の動機は、生命科学と医学が、ソフトウェアとAI/ML技術の受動的消費者から、ミッションと安全に欠かせないものを含む新しいプラットフォームの基本的なドライバへと移行している、という認識であった。 ワークショップの前後の会話に基づいて、私たちは5つの具体的なアドバイスを行い、ソフトウェアリーダーがツールやテクニック、形式的なメソッドから視点をプロジェクト計画や開発軌道に組み込むのを支援します。

Formal Methods for the Informal Engineer (FMIE) was a workshop held at the Broad Institute of MIT and Harvard in 2021 to explore the potential role of verified software in the biomedical software ecosystem. The motivation for organizing FMIE was the recognition that the life sciences and medicine are undergoing a transition from being passive consumers of software and AI/ML technologies to fundamental drivers of new platforms, including those which will need to be mission and safety-critical. Drawing on conversations leading up to and during the workshop, we make five concrete recommendations to help software leaders organically incorporate tools, techniques, and perspectives from formal methods into their project planning and development trajectories.
翻訳日:2021-04-06 02:23:09 公開日:2021-04-01
# (参考訳) 量子機械学習を用いた薬物発見手法 [全文訳有]

Drug Discovery Approaches using Quantum Machine Learning ( http://arxiv.org/abs/2104.00746v1 )

ライセンス: CC BY 4.0
Junde Li, Mahabubul Alam, Congzhou M Sha, Jian Wang, Nikolay V. Dokholyan, Swaroop Ghosh(参考訳) 伝統的な薬物発見パイプラインは数年かかり、何十億ドルもの費用がかかる。 深い生成モデルと予測モデルは、薬物開発を支援するために広く採用されている。 古典的マシンは、学習タスクのトレーニング品質を改善する量子コンピュータの非定型パターンを効率的に生成できない。 本稿では,gan(generative adversarial network)やcnn(convolutional neural network),vae(varuati onal auto-encoder)といった量子機械学習技術のスイートを提案する。

Traditional drug discovery pipeline takes several years and cost billions of dollars. Deep generative and predictive models are widely adopted to assist in drug development. Classical machines cannot efficiently produce atypical patterns of quantum computers which might improve the training quality of learning tasks. We propose a suite of quantum machine learning techniques e.g., generative adversarial network (GAN), convolutional neural network (CNN) and variational auto-encoder (VAE) to generate small drug molecules, classify binding pockets in proteins, and generate large drug molecules, respectively.
翻訳日:2021-04-06 02:16:37 公開日:2021-04-01
# (参考訳) エッジ操作のための貯留層型分散機械学習 [全文訳有]

Reservoir-Based Distributed Machine Learning for Edge Operation ( http://arxiv.org/abs/2104.00751v1 )

ライセンス: CC BY 4.0
Silvija Kokalj-Filipovic, Paul Toliver, William Johnson, Rob Miller(参考訳) 本稿では,スマートセンサに組み込まれた機械学習アルゴリズムの現場トレーニングのための新しい設計を提案し,無線周波数(rf)スペクトルセンサを用いた分散トレーニングシナリオについて述べる。 エッジの現在のRFセンサーは、インテリジェント信号分類のための実用的なその場トレーニングをサポートするための計算資源を欠いている。 本稿では,遅延ループリザーバコンピューティングと革新的なハードウェアを組み合わせることで,リソース制約のあるエッジデバイス上で機械学習アルゴリズムをサポートする処理アーキテクチャであるdeepdelay loop reservoir computing(dlr)を用いたソリューションを提案する。 dlrは、最先端の(soa)ニューラルネットと比較して、フォームファクタ、ハードウェアの複雑さ、レイテンシの削減を提供する。 RF特定エミッタ識別(SEI)と無線プロトコル認識の2つのアプリケーションに対してDLRを実証する。 DLRは、モバイルエッジプラットフォームを認証し、高速なSEIリトレーニングでエミッターを追跡する。 一度遅延ループがデータクラスを分離すると、伝統的に複雑なパワーハングリー分類モデルが学習プロセスに不要になる。 しかし、リッジ回帰(RR)のような単純な分類器でさえ、複雑性は入力サイズとともに少なくとも2倍に増大する。 RR分類器付きDLRはSoAの精度を超え、並列(分割)ループのアーキテクチャを活用することで消費電力をさらに削減する。 大規模なリージョンでモバイルデバイスを認証するために、DLRは、精度を維持しながら、非常に少ない追加処理と少ない通信コストで分散形式で訓練することができる。 我々は,ローカルに訓練されたdlr分類器を興味のある場合にマージする方法を示す。

We introduce a novel design for in-situ training of machine learning algorithms built into smart sensors, and illustrate distributed training scenarios using radio frequency (RF) spectrum sensors. Current RF sensors at the Edge lack the computational resources to support practical, in-situ training for intelligent signal classification. We propose a solution using Deepdelay Loop Reservoir Computing (DLR), a processing architecture that supports machine learning algorithms on resource-constrained edge-devices by leveraging delayloop reservoir computing in combination with innovative hardware. DLR delivers reductions in form factor, hardware complexity and latency, compared to the State-ofthe- Art (SoA) neural nets. We demonstrate DLR for two applications: RF Specific Emitter Identification (SEI) and wireless protocol recognition. DLR enables mobile edge platforms to authenticate and then track emitters with fast SEI retraining. Once delay loops separate the data classes, traditionally complex, power-hungry classification models are no longer needed for the learning process. Yet, even with simple classifiers such as Ridge Regression (RR), the complexity grows at least quadratically with the input size. DLR with a RR classifier exceeds the SoA accuracy, while further reducing power consumption by leveraging the architecture of parallel (split) loops. To authenticate mobile devices across large regions, DLR can be trained in a distributed fashion with very little additional processing and a small communication cost, all while maintaining accuracy. We illustrate how to merge locally trained DLR classifiers in use cases of interest.
翻訳日:2021-04-06 02:08:21 公開日:2021-04-01
# (参考訳) 効率的な個人予測説明のための協調戦略 [全文訳有]

Coalitional strategies for efficient individual prediction explanation ( http://arxiv.org/abs/2104.00765v1 )

ライセンス: CC BY 4.0
Gabriel Ferrettini (1), Elodie Escriva (2), Julien Aligon (1), Jean-Baptiste Excoffier (2), Chantal Soul\'e-Dupuy (1) ((1) Universit\'e de Toulouse-Capitole, IRIT CNRS/UMR 5505, (2) Kaduceo)(参考訳) 機械学習(ML)は、現在、研究と産業の両方において、多くの領域で広く適用されているため、ブラックボックス内で起きていることに対する理解は、特にこれらのモデルの非専門家によって、ますます需要が高まっている。 したがって、特定の観察のためにモデル予測の明確な洞察を提供するためにいくつかのアプローチが開発されたが、長い計算時間や属性間の相互作用を完全に考慮しない制限付き仮説のコストで開発された。 本稿では,関連する属性群 -- 名前付き連立 -- の検出に基づく手法を提供し,それらを文献と比較する。 以上の結果から,これらの連立手法はSHAP (SHapley Additive exPlanation) などの既存手法よりも効率的であることが示唆された。 個々の予測説明の許容精度を維持しながら計算時間を短縮する。 これにより、開発されたmlモデル、エンドユーザ、およびこれらのモデルが役割を担う決定によって影響を受ける人の間の信頼を高めるために、説明方法をより効果的に活用することができる。

As Machine Learning (ML) is now widely applied in many domains, in both research and industry, an understanding of what is happening inside the black box is becoming a growing demand, especially by non-experts of these models. Several approaches had thus been developed to provide clear insights of a model prediction for a particular observation but at the cost of long computation time or restrictive hypothesis that does not fully take into account interaction between attributes. This paper provides methods based on the detection of relevant groups of attributes -- named coalitions -- influencing a prediction and compares them with the literature. Our results show that these coalitional methods are more efficient than existing ones such as SHapley Additive exPlanation (SHAP). Computation time is shortened while preserving an acceptable accuracy of individual prediction explanations. Therefore, this enables wider practical use of explanation methods to increase trust between developed ML models, end-users, and whoever impacted by any decision where these models played a role.
翻訳日:2021-04-06 01:51:11 公開日:2021-04-01
# (参考訳) nguni言語における正準および表面形態素セグメンテーション [全文訳有]

Canonical and Surface Morphological Segmentation for Nguni Languages ( http://arxiv.org/abs/2104.00767v1 )

ライセンス: CC BY 4.0
Tumi Moeng, Sheldon Reay, Aaron Daniels, Jan Buys(参考訳) 形態素セグメンテーション(英: Morphological Segmentation)は、単語をモルヒムに分解する。 これは南アフリカングニ語群のような形態学的に豊富な凝集言語にとって重要なNLPタスクである。 本稿では,2種類の形態的セグメンテーション(正準および表面セグメンテーション)の教師付きモデルと教師なしモデルについて検討する。 本研究では, 音節分割のための系列列列列モデルを訓練し, 基礎となる形態素は単語の表面形状と等しくなく, 条件付きランダム場(CRF)は表面セグメント化を行う。 トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。 特徴に基づくCRFは双方向LSTM-CRFよりも優れており、表面セグメンテーションにおける平均97.1%のF1が得られる。 教師なしの設定では、文字レベルのlstm言語モデルを用いたエントロピーベースのアプローチは、morfessorのベースラインを上回ることに失敗し、一部の言語では、どちらのアプローチもランダムなベースラインよりもうまく機能しない。 教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。

Morphological Segmentation involves decomposing words into morphemes, the smallest meaning-bearing units of language. This is an important NLP task for morphologically-rich agglutinative languages such as the Southern African Nguni language group. In this paper, we investigate supervised and unsupervised models for two variants of morphological segmentation: canonical and surface segmentation. We train sequence-to-sequence models for canonical segmentation, where the underlying morphemes may not be equal to the surface form of the word, and Conditional Random Fields (CRF) for surface segmentation. Transformers outperform LSTMs with attention on canonical segmentation, obtaining an average F1 score of 72.5% across 4 languages. Feature-based CRFs outperform bidirectional LSTM-CRFs to obtain an average of 97.1% F1 on surface segmentation. In the unsupervised setting, an entropy-based approach using a character-level LSTM language model fails to outperforms a Morfessor baseline, while on some of the languages neither approach performs much better than a random baseline. We hope that the high performance of the supervised segmentation models will help to facilitate the development of better NLP tools for Nguni languages.
翻訳日:2021-04-06 01:26:41 公開日:2021-04-01
# (参考訳) 南アフリカ言語の低リソース言語モデリング [全文訳有]

Low-Resource Language Modelling of South African Languages ( http://arxiv.org/abs/2104.00772v1 )

ライセンス: CC BY 4.0
Stuart Mesham, Luc Hayward, Jared Shapiro, Jan Buys(参考訳) 言語モデルは、現在の自然言語理解と生成のためのニューラルネットワークベースのモデルの基礎である。 しかしながら、アフリカ言語における言語モデルの本質的性能に関する研究は極めて限定的であり、英語や他の高リソース言語に存在している大規模で標準化されたトレーニングや評価セットが欠如していることから、より困難になっている。 本稿では,低資源南アフリカ語におけるオープン語彙モデルの性能を,バイトペア符号化を用いて評価する。 本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの変種を小規模データセット上で評価する。 全体として、適切に正規化されたRNNは、2つのisiZuluデータセットと1つのSepediデータセットで最高のパフォーマンスを提供する。 マルチ言語トレーニングはこれらのデータセットのパフォーマンスをさらに向上させる。 この研究がアフリカ言語のための多言語および低リソース言語モデリングの研究に新たな道を開くことを期待している。

Language models are the foundation of current neural network-based models for natural language understanding and generation. However, research on the intrinsic performance of language models on African languages has been extremely limited, which is made more challenging by the lack of large or standardised training and evaluation sets that exist for English and other high-resource languages. In this paper, we evaluate the performance of open-vocabulary language models on low-resource South African languages, using byte-pair encoding to handle the rich morphology of these languages. We evaluate different variants of n-gram models, feedforward neural networks, recurrent neural networks (RNNs), and Transformers on small-scale datasets. Overall, well-regularized RNNs give the best performance across two isiZulu and one Sepedi datasets. Multilingual training further improves performance on these datasets. We hope that this research will open new avenues for research into multilingual and low-resource language modelling for African languages.
翻訳日:2021-04-06 01:14:37 公開日:2021-04-01
# (参考訳) MultiWOZ 2.4: 状態追跡評価を改善するための基本アノテーション補正付きマルチドメインタスク指向対話データセット [全文訳有]

MultiWOZ 2.4: A Multi-Domain Task-Oriented Dialogue Dataset with Essential Annotation Corrections to Improve State Tracking Evaluation ( http://arxiv.org/abs/2104.00773v1 )

ライセンス: CC BY 4.0
Fanghua Ye, Jarana Manotumruksa, Emine Yilmaz(参考訳) MultiWOZ 2.0データセットは2018年にリリースされた。 7つのドメインにまたがる1万以上のタスク指向対話で構成され、タスク指向対話システムの研究を大いに刺激している。 しかし、状態アノテーションにはかなりのノイズがあり、対話状態追跡モデルの適切な評価を妨げる。 この問題に対処するため、アノテーションの修正に多大な努力が費やされ、3つの改良版(MultiWOZ 2.1-2.3)が作成された。 それでも、不正確で一貫性のないアノテーションはたくさんあります。 この研究はMultiWOZ 2.4を導入し、検証セットのすべてのアノテーションとMultiWOZ 2.1上でのテストセットを洗練します。 トレーニングセットのアノテーションは、堅牢でノイズ耐性のあるモデルトレーニングを促進するために変わっていない。 さらに8つの最先端対話状態追跡モデルをベンチマークする。 これらのモデルは全てMultiWOZ 2.1よりもMultiWOZ 2.4で高い性能を達成している。

The MultiWOZ 2.0 dataset was released in 2018. It consists of more than 10,000 task-oriented dialogues spanning 7 domains, and has greatly stimulated the research of task-oriented dialogue systems. However, there is substantial noise in the state annotations, which hinders a proper evaluation of dialogue state tracking models. To tackle this issue, massive efforts have been devoted to correcting the annotations, resulting in 3 improved versions of this dataset (i.e., MultiWOZ 2.1-2.3). Even so, there are still lots of incorrect and inconsistent annotations. This work introduces MultiWOZ 2.4, in which we refine all annotations in the validation set and test set on top of MultiWOZ 2.1. The annotations in the training set remain unchanged to encourage robust and noise-resilient model training. We further benchmark 8 state-of-the-art dialogue state tracking models. All these models achieve much higher performance on MultiWOZ 2.4 than on MultiWOZ 2.1.
翻訳日:2021-04-06 01:00:43 公開日:2021-04-01
# (参考訳) 制約環境下での衝突認識対象物グラフプ [全文訳有]

Collision-Aware Target-Driven Object Grasping in Constrained Environments ( http://arxiv.org/abs/2104.00776v1 )

ライセンス: CC BY 4.0
Xibai Lou, Yang Yang and Changhyun Choi(参考訳) 制約のある環境(壁、ビン、棚など)で新しい対象物をつかむには、周囲の構造物との衝突を避けるために、把持性に関する集中的な推論が必要である。 典型的な6-DoFロボットの把握システムは、環境に関する事前の知識と集中的な計画計算に依存している。 対照的に、6-DoFグルーピングシステムのための新しい衝突認識到達可能性予測器(CARP)を提案する。 CARPは、ポーズを把握するための衝突のない確率を推定することを学び、挑戦的な環境での把握を大幅に改善する。 我々のアプローチにおけるディープニューラルネットワークは、シミュレーションの自己スーパービジョンによって完全に訓練される。 シミュレーションと実世界の両方における実験により,様々な構造物の新規物体に対する75%以上の把持率を達成した。 アブレーション試験はCARPの有効性を示し、6-DoFグルーピング率を95.7%向上させる。

Grasping a novel target object in constrained environments (e.g., walls, bins, and shelves) requires intensive reasoning about grasp pose reachability to avoid collisions with the surrounding structures. Typical 6-DoF robotic grasping systems rely on the prior knowledge about the environment and intensive planning computation, which is ungeneralizable and inefficient. In contrast, we propose a novel Collision-Aware Reachability Predictor (CARP) for 6-DoF grasping systems. The CARP learns to estimate the collision-free probabilities for grasp poses and significantly improves grasping in challenging environments. The deep neural networks in our approach are trained fully by self-supervision in simulation. The experiments in both simulation and the real world show that our approach achieves more than 75% grasping rate on novel objects in various surrounding structures. The ablation study demonstrates the effectiveness of the CARP, which improves the 6-DoF grasping rate by 95.7%.
翻訳日:2021-04-06 00:47:38 公開日:2021-04-01
# (参考訳) 文脈外敵文要約とハッシュタグ推薦「tl;dr:」 [全文訳有]

"TL;DR:" Out-of-Context Adversarial Text Summarization and Hashtag Recommendation ( http://arxiv.org/abs/2104.00782v1 )

ライセンス: CC BY 4.0
Peter Jachim, Filipo Sharevski, Emma Pieroni(参考訳) 本稿では,自由主義的・保守主義的な議題に適合するように要約することで,任意の公開ニュース記事を取り出すツールであるOut-of-Context Summarizerを提案する。 Out-of-Context Summarizerはまた、TwitterやParlerなどのプラットフォームでトロルを行う場合に備えて、要約の分極を強化するハッシュタグキーワードも提案している。 アウト・オブ・コンテキスト・サマリーサーは79%の精度と99%のリコールを達成し、93%の精度と93%のリコールを政治的中心の記事を要約すると達成し、87%の精度と88%のリコールをリコールした。 偽のテキストを合成する代わりに有効な情報源を要約すると、Out-of-Context Summarizerは「逆の開示」テストにかなり合格することが出来ました。 代わりに、Out-of-Context Summarizerを使って、反対側の言語モデルを公開する責任のあるボイラープレートテキスト以外の、自動化されたテキスト生成の潜在的な誤用に関する議論を進めました。

This paper presents Out-of-Context Summarizer, a tool that takes arbitrary public news articles out of context by summarizing them to coherently fit either a liberal- or conservative-leaning agenda. The Out-of-Context Summarizer also suggests hashtag keywords to bolster the polarization of the summary, in case one is inclined to take it to Twitter, Parler or other platforms for trolling. Out-of-Context Summarizer achieved 79% precision and 99% recall when summarizing COVID-19 articles, 93% precision and 93% recall when summarizing politically-centered articles, and 87% precision and 88% recall when taking liberally-biased articles out of context. Summarizing valid sources instead of synthesizing fake text, the Out-of-Context Summarizer could fairly pass the "adversarial disclosure" test, but we didn't take this easy route in our paper. Instead, we used the Out-of-Context Summarizer to push the debate of potential misuse of automated text generation beyond the boilerplate text of responsible disclosure of adversarial language models.
翻訳日:2021-04-06 00:32:28 公開日:2021-04-01
# (参考訳) アクションベースの会話データセット:より深いタスク指向対話システムを構築するコーパス [全文訳有]

Action-Based Conversations Dataset: A Corpus for Building More In-Depth Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2104.00783v1 )

ライセンス: CC BY 4.0
Derek Chen, Howard Chen, Yi Yang, Alex Lin, Zhou Yu(参考訳) 既存の目標指向の対話データセットは主にスロットと値の識別に焦点を当てている。 しかし、実際には顧客サポートのやりとりには、明確に定義された企業ポリシーから派生した多段階の手順に従うエージェントが伴うことが多い。 顧客サービス対話システムをより現実的な設定で研究するために、タスク成功を達成するためにポリシーによって制約されたアクションのユニークなシーケンスを必要とする55の異なるユーザの意図を含む1万以上の人対人対話を備えた、完全なラベル付きデータセットであるaction-based conversation dataset(abcd)を紹介します。 本稿では,2つのダイアログタスク,Action State TrackingとCascading Dialogue Successを提案し,このデータセット上で大規模で事前訓練された言語モデルを含む一連のベースラインを確立する。 実験の結果、より洗練されたネットワークはより単純なモデルよりも優れているが、abcdの人間レベルの性能に到達するためのかなりのギャップ(絶対精度50.8%)が存在することが示されている。

Existing goal-oriented dialogue datasets focus mainly on identifying slots and values. However, customer support interactions in reality often involve agents following multi-step procedures derived from explicitly-defined company policies as well. To study customer service dialogue systems in more realistic settings, we introduce the Action-Based Conversations Dataset (ABCD), a fully-labeled dataset with over 10K human-to-human dialogues containing 55 distinct user intents requiring unique sequences of actions constrained by policies to achieve task success. We propose two additional dialog tasks, Action State Tracking and Cascading Dialogue Success, and establish a series of baselines involving large-scale, pre-trained language models on this dataset. Empirical results demonstrate that while more sophisticated networks outperform simpler models, a considerable gap (50.8% absolute accuracy) still exists to reach human-level performance on ABCD.
翻訳日:2021-04-06 00:05:32 公開日:2021-04-01
# (参考訳) ハイパースペクトル画像分類における圧縮の影響に関する研究 [全文訳有]

A study on the effects of compression on hyperspectral image classification ( http://arxiv.org/abs/2104.00788v1 )

ライセンス: CC BY 4.0
Kiran Mantripragada, Phuong D. Dao, Yuhong He, Faisal Z. Qureshi(参考訳) 本稿では,超スペクトル画素分類タスクにおける圧縮の影響を体系的に研究する。 301次元超スペクトル画素の圧縮には, pca, kpca, ica, ae, daeの5次元化法を用いる。 圧縮ピクセルはその後、ピクセルベースの分類を行うために使用される。 画素分類アキュラリティと圧縮法,圧縮率,再構成誤差は,画素分類タスクにおける圧縮法の適合性を調べるための新しいレンズを提供する。 高解像度ハイパースペクトル画像データセットを3つ使用し、3つの一般的な景観単位(すなわち3つ)を表現した。 トロント大学のリモートセンシング・空間生態系モデリング研究所(Remote Sensing and Space Ecosystem Modeling Laboratory)が収集した都市、トランジショナル郊外、森林。 その結果, PCA, KPCA, ICAの信号再構成能力は向上したが, 圧縮速度が90%以上であれば, 分類スコアは低かった。 AE法とDAE法は、95%の圧縮率でより良い分類精度を示すが、97の圧縮率で再び減少し、95の圧縮率でスイートスポットを示す。 本研究では,ハイパースペクトル画像分類パイプラインの設計において,圧縮率の高い圧縮方法の選択が重要な考慮事項であることを示す。

This paper presents a systematic study the effects of compression on hyperspectral pixel classification task. We use five dimensionality reduction methods -- PCA, KPCA, ICA, AE, and DAE -- to compress 301-dimensional hyperspectral pixels. Compressed pixels are subsequently used to perform pixel-based classifications. Pixel classification accuracies together with compression method, compression rates, and reconstruction errors provide a new lens to study the suitability of a compression method for the task of pixel-based classification. We use three high-resolution hyperspectral image datasets, representing three common landscape units (i.e. urban, transitional suburban, and forests) collected by the Remote Sensing and Spatial Ecosystem Modeling laboratory of the University of Toronto. We found that PCA, KPCA, and ICA post greater signal reconstruction capability; however, when compression rate is more than 90\% those methods showed lower classification scores. AE and DAE methods post better classification accuracy at 95\% compression rate, however decreasing again at 97\%, suggesting a sweet-spot at the 95\% mark. Our results demonstrate that the choice of a compression method with the compression rate are important considerations when designing a hyperspectral image classification pipeline.
翻訳日:2021-04-05 23:45:02 公開日:2021-04-01
# (参考訳) RNNは抽象音韻過程を符号化しているか? [全文訳有]

Do RNN States Encode Abstract Phonological Processes? ( http://arxiv.org/abs/2104.00789v1 )

ライセンス: CC BY 4.0
Miikka Silfverberg, Francis Tyers, Garrett Nicolai, Mans Hulden(参考訳) シーケンシャル・ツー・シーケンスモデルは、形態素の屈折のような語形成タスクにおいて印象的な結果をもたらし、限られた訓練データで微妙な形態素学的な詳細をモデル化するためにしばしば学習している。 その性能にもかかわらず、神経モデルの不透明さは、複雑な一般化が学習されているか、あるいは形態素学的過程のある種の別々の暗記が起こっているかを決定するのを難しくする。 複雑な交替が単に記憶されているか、あるいは系列から系列へのモデルで関連する音変化にある程度の一般化があるかを調べるために、フィンランド子音階調についていくつかの実験を行い、ある単語で特定の接尾辞によって引き起こされる音変化の複雑な集合である。 我々のモデルは(必ずしもそうではないが)17の異なる子音階調過程をRNNの少数の次元で符号化することが多い。 また,これらの次元においてアクティベーションを拡大することにより,子音階調の発生と階調の方向を制御できることも示す。

Sequence-to-sequence models have delivered impressive results in word formation tasks such as morphological inflection, often learning to model subtle morphophonological details with limited training data. Despite the performance, the opacity of neural models makes it difficult to determine whether complex generalizations are learned, or whether a kind of separate rote memorization of each morphophonological process takes place. To investigate whether complex alternations are simply memorized or whether there is some level of generalization across related sound changes in a sequence-to-sequence model, we perform several experiments on Finnish consonant gradation -- a complex set of sound changes triggered in some words by certain suffixes. We find that our models often -- though not always -- encode 17 different consonant gradation processes in a handful of dimensions in the RNN. We also show that by scaling the activations in these dimensions we can control whether consonant gradation occurs and the direction of the gradation.
翻訳日:2021-04-05 23:23:30 公開日:2021-04-01
# (参考訳) ディープネットワークでより良いミスを犯すためのテスト時のコストのラバース操作 [全文訳有]

No Cost Likelihood Manipulation at Test Time for Making Better Mistakes in Deep Networks ( http://arxiv.org/abs/2104.00795v1 )

ライセンス: CC BY 4.0
Shyamgopal Karthik, Ameya Prabhu, Puneet K. Dokania, Vineet Gandhi(参考訳) 誤りの深刻度を定量化し減らし、単にエラーの数を減らそうとする、階層認識の深い分類器の構築に対する関心が高まっている。 この考え方は、ラベル階層(例えばWordNetオントロジー)を利用し、グラフ距離をミス重大性のプロキシとして考えることである。 意外なことに、トップ1予測の誤り重大度分布を調べると、現在最先端の階層認識深層分類器は、常に標準のクロスエントロピーベースラインよりも実用的な改善がなされていないことが分かる。 平均ミス重大度が減少する理由は、低重大度ミスの増加によるものであり、また、その正確さの顕著な低下も説明できる。 この目的のために,階層認識分類にはcrm(classic conditional risk minimization)フレームワークを用いる。 コストマトリックスと(トレーニングされたネットワークから得られる)可能性の信頼できる見積を前提に、CRMは単に推論時にミスを修正し、余分なハイパーパラメータを必要とせず、標準のクロスエントロピーベースラインにほんの数行のコードを追加する必要がある。 最先端よりも大幅に優れており、データセット全体にわたるトップ$kの予測の平均階層的距離を大幅に削減し、精度は極めて低い。 CRMは単純さのため、信頼性の高い推定値を提供する市販のトレーニングモデルでも使用できる。

There has been increasing interest in building deep hierarchy-aware classifiers that aim to quantify and reduce the severity of mistakes, and not just reduce the number of errors. The idea is to exploit the label hierarchy (e.g., the WordNet ontology) and consider graph distances as a proxy for mistake severity. Surprisingly, on examining mistake-severity distributions of the top-1 prediction, we find that current state-of-the-art hierarchy-aware deep classifiers do not always show practical improvement over the standard cross-entropy baseline in making better mistakes. The reason for the reduction in average mistake-severity can be attributed to the increase in low-severity mistakes, which may also explain the noticeable drop in their accuracy. To this end, we use the classical Conditional Risk Minimization (CRM) framework for hierarchy-aware classification. Given a cost matrix and a reliable estimate of likelihoods (obtained from a trained network), CRM simply amends mistakes at inference time; it needs no extra hyperparameters and requires adding just a few lines of code to the standard cross-entropy baseline. It significantly outperforms the state-of-the-art and consistently obtains large reductions in the average hierarchical distance of top-$k$ predictions across datasets, with very little loss in accuracy. CRM, because of its simplicity, can be used with any off-the-shelf trained model that provides reliable likelihood estimates.
翻訳日:2021-04-05 23:11:12 公開日:2021-04-01
# (参考訳) ソーシャルメディアにおけるユーザエンゲージメントのモデル化と最適化 [全文訳有]

Choice-Aware User Engagement Modeling andOptimization on Social Media ( http://arxiv.org/abs/2104.00801v1 )

ライセンス: CC BY 4.0
Saketh Reddy Karra and Theja Tulabandhula(参考訳) 我々は、twitterプラットフォーム上のコンテンツ(like、reply、retweet、retweetなど)に対するユーザーのエンゲージメントを最大化する問題に対処する。 ツイートトピックの教師なしクラスタリングにおける選択行動を捉えるマルチラベル分類問題として,エンゲージメント予測タスクを定式化する。 本稿では,ユーザのエンゲージメント履歴を組み込んだニューラルネットワークアーキテクチャを提案する。 本研究では,提案モデルに基づくスイート最適化問題に対して,twitterから得られた大規模データセットを用いて適切に定義された解法を用いて,ツイートの推薦がエンゲージメントの成果に与える影響について検討する。

We address the problem of maximizing user engagement with content (in the form of like, reply, retweet, and retweet with comments)on the Twitter platform. We formulate the engagement forecasting task as a multi-label classification problem that captures choice behavior on an unsupervised clustering of tweet-topics. We propose a neural network architecture that incorporates user engagement history and predicts choice conditional on this context. We study the impact of recommend-ing tweets on engagement outcomes by solving an appropriately defined sweet optimization problem based on the proposed model using a large dataset obtained from Twitter.
翻訳日:2021-04-05 22:58:29 公開日:2021-04-01
# (参考訳) 多目的ドメイン適応のためのカリキュラムグラフ共同学習 [全文訳有]

Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation ( http://arxiv.org/abs/2104.00808v1 )

ライセンス: CC BY 4.0
Subhankar Roy, Evgeny Krivosheev, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) 本稿では、データ分布が異なるラベル付きソースデータセットとラベルなしターゲットデータセットが与えられた場合、そのタスクは、全てのターゲットドメインに対して堅牢な予測器を学習することである。 MTDAでは,機能集約とカリキュラム学習という,複数のドメインシフトを軽減する上で有効な2つの重要な側面を特定している。 この目的のために,2つの分類器ヘッドを用いたCGCT (Curriculum Graph Co-Teaching) を提案し,そのうちの1つはグラフ畳み込みネットワーク (GCN) であり,各ドメインにまたがる類似のサンプルの特徴を集約する。 そこで本研究では,2つの分類器ヘッドを併用した学習手法を開発し,より信頼性の高い擬似ラベルを得る方法を提案する。 さらに、ドメインラベルが利用可能になると、まずより簡単なターゲットドメインに適応し、続いて難しいドメインに適応する逐次適応戦略であるDomain-Aware Curriculum Learning (DCL)を提案する。 提案手法の有効性をいくつかのベンチマークで実験的に検証し,MTDAの最先端を大きなマージン(例)で推し進める。 DomainNetの5.6%。

In this paper we address multi-target domain adaptation (MTDA), where given one labeled source dataset and multiple unlabeled target datasets that differ in data distributions, the task is to learn a robust predictor for all the target domains. We identify two key aspects that can help to alleviate multiple domain-shifts in the MTDA: feature aggregation and curriculum learning. To this end, we propose Curriculum Graph Co-Teaching (CGCT) that uses a dual classifier head, with one of them being a graph convolutional network (GCN) which aggregates features from similar samples across the domains. To prevent the classifiers from over-fitting on its own noisy pseudo-labels we develop a co-teaching strategy with the dual classifier head that is assisted by curriculum learning to obtain more reliable pseudo-labels. Furthermore, when the domain labels are available, we propose Domain-aware Curriculum Learning (DCL), a sequential adaptation strategy that first adapts on the easier target domains, followed by the harder ones. We experimentally demonstrate the effectiveness of our proposed frameworks on several benchmarks and advance the state-of-the-art in the MTDA by large margins (e.g. +5.6% on the DomainNet).
翻訳日:2021-04-05 22:46:12 公開日:2021-04-01
# 汎用ビジョンシステムに向けて

Towards General Purpose Vision Systems ( http://arxiv.org/abs/2104.00743v1 )

ライセンス: Link先を確認
Tanmay Gupta, Amita Kamath, Aniruddha Kembhavi and Derek Hoiem(参考訳) 特別目的学習システムは、設計時に許容されるタスクの知識を想定する。 このようなシステムを予期しないタスクに適応させるには、新しいタスクやデータセットごとに出力ヘッドを追加するなどのアーキテクチャ操作が必要になる。 本研究では,画像と自然言語タスク記述を受け付け,境界ボックス,信頼度,テキストを出力するタスクに依存しない視覚言語システムを提案する。 このシステムは、分類、ローカライゼーション、質問応答、キャプションなど、幅広いビジョンタスクをサポートする。 システムを複数のスキルを同時に学習し,新しいスキル概念の組み合わせでタスクを実行し,新しいスキルを効率的にかつ忘れずに学習する能力を評価する。

A special purpose learning system assumes knowledge of admissible tasks at design time. Adapting such a system to unforeseen tasks requires architecture manipulation such as adding an output head for each new task or dataset. In this work, we propose a task-agnostic vision-language system that accepts an image and a natural language task description and outputs bounding boxes, confidences, and text. The system supports a wide range of vision tasks such as classification, localization, question answering, captioning, and more. We evaluate the system's ability to learn multiple skills simultaneously, to perform tasks with novel skill-concept combinations, and to learn new skills efficiently and without forgetting.
翻訳日:2021-04-05 14:06:40 公開日:2021-04-01
# YUV色空間のための深層学習に基づくエンドツーエンドビデオ符号化アーキテクチャ

A Combined Deep Learning based End-to-End Video Coding Architecture for YUV Color Space ( http://arxiv.org/abs/2104.00807v1 )

ライセンス: Link先を確認
Ankitesh K. Singh, Hilmi E. Egilmez, Reza Pourreza, Muhammed Coban, Marta Karczewicz, Taco S. Cohen(参考訳) H.264/AVC、H.265/HEVC、H.266/VVCを含む既存のディープラーニングベースのエンドツーエンドビデオ符号化(DLEC)アーキテクチャは、主にYUV 4:2:0フォーマット用に設計されており、人間の視覚システムを考慮した優れた圧縮性能を達成するために、彩色(UとV)コンポーネントがサブサンプリングされている。 DLECに関する多くの論文は、RGBドメインでこれら2つの異なる符号化方式を比較しているが、より公正な比較のために、YUV 4:2:0ドメインで共通の評価フレームワークを持つことは理想的である。 本稿では,YUV 4:2:0を効果的にサポートするためのビデオ符号化のための新しいDLECアーキテクチャを提案する。 YUV 4:2:0ビデオシーケンスの実験結果から,提案アーキテクチャはフレーム内符号化においてHEVCより優れているが,最近の論文で報告されているRGB符号化結果とは対照的にフレーム間符号化は効率的ではない。

Most of the existing deep learning based end-to-end video coding (DLEC) architectures are designed specifically for RGB color format, yet the video coding standards, including H.264/AVC, H.265/HEVC and H.266/VVC developed over past few decades, have been designed primarily for YUV 4:2:0 format, where the chrominance (U and V) components are subsampled to achieve superior compression performances considering the human visual system. While a broad number of papers on DLEC compare these two distinct coding schemes in RGB domain, it is ideal to have a common evaluation framework in YUV 4:2:0 domain for a more fair comparison. This paper introduces a new DLEC architecture for video coding to effectively support YUV 4:2:0 and compares its performance against the HEVC standard under a common evaluation framework. The experimental results on YUV 4:2:0 video sequences show that the proposed architecture can outperform HEVC in intra-frame coding, however inter-frame coding is not as efficient on contrary to the RGB coding results reported in recent papers.
翻訳日:2021-04-05 14:06:30 公開日:2021-04-01
# Process Transformer: Transformer Networkによる予測ビジネスプロセスモニタリング

ProcessTransformer: Predictive Business Process Monitoring with Transformer Network ( http://arxiv.org/abs/2104.00721v1 )

ライセンス: Link先を確認
Zaharah A. Bukhsh, Aaqib Saeed, Remco M. Dijkman(参考訳) 予測ビジネスプロセス監視は、イベントログを使用して実行中のプロセスの将来の特性を予測することに重点を置いている。 プロセス実行の見通しは、効率的な運用、より良いリソース管理、効果的な顧客サービスのための大きなポテンシャルを約束します。 深層学習に基づくアプローチは、複数の問題を解決するための古典的アルゴリズムの制限、特に次の事象や継続時間の予測タスクに対処するために、プロセスマイニングにおいて広く採用されている。 それでも、さまざまなタスクをまたいで競争的に実行するディープニューラルネットワークの設計は、既存のメソッドが入力シーケンスの長距離依存性を捉えず、長いプロセストレースに対してパフォーマンスが悪かったため、困難である。 本稿では,注意に基づくネットワークを用いてイベントログからハイレベル表現を学習する手法である processtransformer を提案する。 本モデルでは,複数イベントシーケンスと対応する出力の依存関係を確立するための自己保持機構を,長期記憶に取り入れた。 我々は,9つの実イベントログに対する手法の適用性を評価する。 本研究では, 変圧器を用いたモデルが, 次の活動を予測するタスクに対して, 平均80%以上の精度で求めることにより, 先行手法のベースラインよりも優れていることを示す。 また,本手法は,実行事例のイベント時間と残時間を予測するタスクに対して,ベースラインと比較して競合的に実行する。

Predictive business process monitoring focuses on predicting future characteristics of a running process using event logs. The foresight into process execution promises great potentials for efficient operations, better resource management, and effective customer services. Deep learning-based approaches have been widely adopted in process mining to address the limitations of classical algorithms for solving multiple problems, especially the next event and remaining-time prediction tasks. Nevertheless, designing a deep neural architecture that performs competitively across various tasks is challenging as existing methods fail to capture long-range dependencies in the input sequences and perform poorly for lengthy process traces. In this paper, we propose ProcessTransformer, an approach for learning high-level representations from event logs with an attention-based network. Our model incorporates long-range memory and relies on a self-attention mechanism to establish dependencies between a multitude of event sequences and corresponding outputs. We evaluate the applicability of our technique on nine real event logs. We demonstrate that the transformer-based model outperforms several baselines of prior techniques by obtaining on average above 80% accuracy for the task of predicting the next activity. Our method also perform competitively, compared to baselines, for the tasks of predicting event time and remaining time of a running case
翻訳日:2021-04-05 14:04:05 公開日:2021-04-01
# GABO:バイレベル最適化によるグラフ拡張

GABO: Graph Augmentations with Bi-level Optimization ( http://arxiv.org/abs/2104.00722v1 )

ライセンス: Link先を確認
Heejung W. Chung, Avoy Datta, Chris Waites(参考訳) データ拡張とは、トレーニング例の強化によるモデル一般化を改善するための、幅広い技術を指す。 多くの場合、そのような手法はデータセットに関するドメイン知識を必要とし、データ拡張のための自動化技術を取り巻く最近の多くの文献を生み出します。 本研究では,Ogbg-molhivデータセット上のグラフ分類問題に取り組むために,二段階最適化という手法を適用する。 GIN+virtual classifierではROCAUCスコアが77.77 %に達し,この分類器はリーダボード上で最も有効である。 このフレームワークは、GIN層拡張ジェネレータとバイアス変換を結合し、最先端のFLAG拡張を使用して強化された同一の分類器を上回る。

Data augmentation refers to a wide range of techniques for improving model generalization by augmenting training examples. Oftentimes such methods require domain knowledge about the dataset at hand, spawning a plethora of recent literature surrounding automated techniques for data augmentation. In this work we apply one such method, bilevel optimization, to tackle the problem of graph classification on the ogbg-molhiv dataset. Our best performing augmentation achieved a test ROCAUC score of 77.77 % with a GIN+virtual classifier, which makes it the most effective augmenter for this classifier on the leaderboard. This framework combines a GIN layer augmentation generator with a bias transformation and outperforms the same classifier augmented using the state-of-the-art FLAG augmentation.
翻訳日:2021-04-05 14:03:44 公開日:2021-04-01
# 共変量シフト下における領域一般化のための信頼度校正

Confidence Calibration for Domain Generalization under Covariate Shift ( http://arxiv.org/abs/2104.00742v1 )

ライセンス: Link先を確認
Yunye Gong, Xiao Lin, Yi Yao, Thomas G. Dietterich, Ajay Divakaran, Melinda Gervasio(参考訳) 既存のキャリブレーションアルゴリズムは、教師なし領域適応による共変量シフトの問題に対処する。 しかし,これらの手法は,(1)実世界のアプリケーションではキャリブレーションの段階で利用できないような,対象ドメインからのラベル付きデータを必要とすること,2)ソースと対象ドメインの分布の相違に大きく依存すること,の2つの制限に悩まされている。 この2つの制限に対処するため、我々はドメインの一般化を通じて新しいキャリブレーションソリューションを提案する。 提案手法は,複数のキャリブレーション領域を活用し,対象領域とキャリブレーション領域の効果的な分布差を低減し,対象領域からのデータを必要とせずにキャリブレーション伝達を改善することにある。 提案アルゴリズムの有効性を実証するために,理論的正当性および実証実験結果を提供する。 ドメイン適応のための最先端キャリブレーション手法と比較して,Office-Homeデータセットのマルチクラス分類において,期待キャリブレーション誤差の8.86ポイント,すなわち改善率35ポイントの増加を観測した。

Existing calibration algorithms address the problem of covariate shift via unsupervised domain adaptation. However, these methods suffer from the following limitations: 1) they require unlabeled data from the target domain, which may not be available at the stage of calibration in real-world applications and 2) their performances heavily depend on the disparity between the distributions of the source and target domains. To address these two limitations, we present novel calibration solutions via domain generalization which, to the best of our knowledge, are the first of their kind. Our core idea is to leverage multiple calibration domains to reduce the effective distribution disparity between the target and calibration domains for improved calibration transfer without needing any data from the target domain. We provide theoretical justification and empirical experimental results to demonstrate the effectiveness of our proposed algorithms. Compared against the state-of-the-art calibration methods designed for domain adaptation, we observe a decrease of 8.86 percentage points in expected calibration error, equivalently an increase of 35 percentage points in improvement ratio, for multi-class classification on the Office-Home dataset.
翻訳日:2021-04-05 14:03:18 公開日:2021-04-01
# 信頼度適応型時間画素レベル認識

Confidence Adaptive Anytime Pixel-Level Recognition ( http://arxiv.org/abs/2104.00749v1 )

ライセンス: Link先を確認
Zhuang Liu, Trevor Darrell, Evan Shelhamer(参考訳) 任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。 常に視覚認識に関するこれまでの研究は、主に画像分類に焦点が当てられている。 我々は,任意のピクセルレベル認識のための最初の統一・エンドツーエンドモデルアプローチを提案する。 複数の予測を行い、さらなる計算を行うために、モデルに"exits"のカスケードが付加される。 各出口の特徴の深さと空間分解能を考慮に入れた出口を再設計する。 計算量を削減し,事前予測をフル活用するために,早期予測が十分に確実な領域でのさらなる計算を回避するために,空間適応型アプローチを開発した。 再設計された出口アーキテクチャと空間適応性を備えた全モデルにより、任意の時間推定が可能となり、同じレベルの最終的な精度を達成でき、さらに計算総量を大幅に削減できる。 セマンティックセグメンテーションと人間のポーズ推定におけるアプローチを評価する。 CityscapesのセマンティックセグメンテーションとMPIIの人間のポーズ推定では、精度を犠牲にすることなく、ベースモデルのFLOPを44.4%、59.1%削減できる。 新しいanytimeベースラインとして、本質的に反復的な最近のモデルであるdeep equilibrium networkのanytime能力を測定し、我々のアーキテクチャの精度計算曲線がそれを厳密に支配していることを示す。

Anytime inference requires a model to make a progression of predictions which might be halted at any time. Prior research on anytime visual recognition has mostly focused on image classification. We propose the first unified and end-to-end model approach for anytime pixel-level recognition. A cascade of "exits" is attached to the model to make multiple predictions and direct further computation. We redesign the exits to account for the depth and spatial resolution of the features for each exit. To reduce total computation, and make full use of prior predictions, we develop a novel spatially adaptive approach to avoid further computation on regions where early predictions are already sufficiently confident. Our full model with redesigned exit architecture and spatial adaptivity enables anytime inference, achieves the same level of final accuracy, and even significantly reduces total computation. We evaluate our approach on semantic segmentation and human pose estimation. On Cityscapes semantic segmentation and MPII human pose estimation, our approach enables anytime inference while also reducing the total FLOPs of its base models by 44.4% and 59.1% without sacrificing accuracy. As a new anytime baseline, we measure the anytime capability of deep equilibrium networks, a recent class of model that is intrinsically iterative, and we show that the accuracy-computation curve of our architecture strictly dominates it.
翻訳日:2021-04-05 14:03:01 公開日:2021-04-01
# キーワード変換:キーワードスポッティングのための自己照準モデル

Keyword Transformer: A Self-Attention Model for Keyword Spotting ( http://arxiv.org/abs/2104.00769v1 )

ライセンス: Link先を確認
Axel Berg, Mark O'Connor, Miguel Tairum Cruz(参考訳) Transformerアーキテクチャは自然言語処理、コンピュータビジョン、音声認識など、多くの領域で成功している。 キーワードスポッティングでは、自己アテンションは主に畳み込みエンコーダや繰り返しエンコーダの上に使われてきた。 キーワードスポッティング(キーワードスポッティング)にトランスフォーマーアーキテクチャを適用する方法を調査し,事前トレーニングや追加データを必要とせず,複数のタスクにまたがる最先端性能を超える完全自己完結型アーキテクチャであるキーワードトランスフォーマ(kwt)を導入する。 驚くべきことに、このシンプルなアーキテクチャは畳み込み層、再帰層、注意層を混合するより複雑なモデルを上回る。 KWTはこれらのモデルのドロップイン代替として使用することができ、Google Speech Commandsデータセットに2つのベンチマークレコードをそれぞれ98.6%と97.7%の精度で設定する。

The Transformer architecture has been successful across many domains, including natural language processing, computer vision and speech recognition. In keyword spotting, self-attention has primarily been used on top of convolutional or recurrent encoders. We investigate a range of ways to adapt the Transformer architecture to keyword spotting and introduce the Keyword Transformer (KWT), a fully self-attentional architecture that exceeds state-of-the-art performance across multiple tasks without any pre-training or additional data. Surprisingly, this simple architecture outperforms more complex models that mix convolutional, recurrent and attentive layers. KWT can be used as a drop-in replacement for these models, setting two new benchmark records on the Google Speech Commands dataset with 98.6% and 97.7% accuracy on the 12 and 35-command tasks respectively.
翻訳日:2021-04-05 14:01:07 公開日:2021-04-01
# 100の試行錯誤のうち、話者検証器はいくつの誤りを犯すのか?

Out of a hundred trials, how many errors does your speaker verifier make? ( http://arxiv.org/abs/2104.00732v1 )

ライセンス: Link先を確認
Niko Br\"ummer and Luciana Ferrer and Albert Swart(参考訳) 100の試行錯誤のうち、話者検証器はいくつの誤りを犯すのか? ユーザにとってこれは重要で実践的な質問だが、研究者やベンダーは通常、roc/det曲線によって与えられる条件付きエラーレートを回避して供給する。 ユーザの質問はベイズエラー率によって答えられると仮定する。 本稿では,検証者によって提供された推定率と,ユーザから提供された仮説を用いてベイズ決定を行う際の誤差率の計算方法を示すチュートリアルを示す。 完全校正には、ベイズ誤差率を min(EER,P,1-P) で上界し、EER を等エラー率、P, 1-P を競合仮説の先行確率とする。 EERは検証器の精度を表し、min(P,1-P)は分類問題の硬さを表す。 さらに,非完全校正のためのベイズ誤差率の計算方法や,誤差率から予測コストへの一般化方法についても述べる。 我々は、直接スコアの閾値付けによる決定を批判する。 最後に、最近発表されたDCA-PLDA話者検証器の誤り率を解析して示す。

Out of a hundred trials, how many errors does your speaker verifier make? For the user this is an important, practical question, but researchers and vendors typically sidestep it and supply instead the conditional error-rates that are given by the ROC/DET curve. We posit that the user's question is answered by the Bayes error-rate. We present a tutorial to show how to compute the error-rate that results when making Bayes decisions with calibrated likelihood ratios, supplied by the verifier, and an hypothesis prior, supplied by the user. For perfect calibration, the Bayes error-rate is upper bounded by min(EER,P,1-P), where EER is the equal-error-rate and P, 1-P are the prior probabilities of the competing hypotheses. The EER represents the accuracy of the verifier, while min(P,1-P) represents the hardness of the classification problem. We further show how the Bayes error-rate can be computed also for non-perfect calibration and how to generalize from error-rate to expected cost. We offer some criticism of decisions made by direct score thresholding. Finally, we demonstrate by analyzing error-rates of the recently published DCA-PLDA speaker verifier.
翻訳日:2021-04-05 13:59:00 公開日:2021-04-01
# 胸部X線解釈の深部学習モデルに及ぼす放射線学レポート品質の影響

Effect of Radiology Report Labeler Quality on Deep Learning Models for Chest X-Ray Interpretation ( http://arxiv.org/abs/2104.00793v1 )

ライセンス: Link先を確認
Saahil Jain, Akshay Smit, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 胸部X線解析のための深層学習モデルは, 自動放射線診断レポートラベリングによって生成されたラベルに基づいて訓練されることが多いが, 胸部X線分類モデルの性能に及ぼすレポートラベリングの改善の影響は系統的に検討されていない。 まず,chexpert,chexbertおよびvisualchexbertラベラーをx線画像から正確な胸部x線ラベルを抽出する作業で比較し,visualchexbertラベラーがchexpertおよびchexbertラベラーよりも優れていることを報告した。 次に, 胸部X線の最大データセットの1つに, 異なる放射線学レポートラベルから生成されたラベルを用いて画像分類モデルを訓練した後, VisualCheXbertラベルからトレーニングした画像分類モデルがCheXpertラベルとCheXbertラベルからトレーニングした画像分類モデルより優れていることを示す。 本研究は, 胸部X線分類モデルの開発にラジオグラフィーレポートラベリングの最近の進歩が寄与することを示唆している。

Although deep learning models for chest X-ray interpretation are commonly trained on labels generated by automatic radiology report labelers, the impact of improvements in report labeling on the performance of chest X-ray classification models has not been systematically investigated. We first compare the CheXpert, CheXbert, and VisualCheXbert labelers on the task of extracting accurate chest X-ray image labels from radiology reports, reporting that the VisualCheXbert labeler outperforms the CheXpert and CheXbert labelers. Next, after training image classification models using labels generated from the different radiology report labelers on one of the largest datasets of chest X-rays, we show that an image classification model trained on labels from the VisualCheXbert labeler outperforms image classification models trained on labels from the CheXpert and CheXbert labelers. Our work suggests that recent improvements in radiology report labeling can translate to the development of higher performing chest X-ray classification models.
翻訳日:2021-04-05 13:58:10 公開日:2021-04-01
# styleml:stylometry with structure and multitask learning for darkweb markets

StyleML: Stylometry with Structure and Multitask Learning for Darkweb Markets ( http://arxiv.org/abs/2104.00764v1 )

ライセンス: Link先を確認
Pranav Maneriker, Yuntian He, Srinivasan Parthasarathy(参考訳) ダークネット市場フォーラムは、暗号化を使って身元を隠す当事者間で違法な商品やサービスを交換するためによく使われる。 Torネットワークはこれらの市場をホストするために使用され、IPや位置情報からの匿名化が保証されるため、悪意のあるユーザを複数のアカウント(シビル)でリンクすることは困難である。 さらに、ユーザは閉じた時に新しいフォーラムに移行するため、複数のフォーラムにまたがるユーザリンクが困難になる。 本研究では,グラフ埋め込みを用いた自然言語と対話モデルのための新しいスタイロメトリベースのマルチタスク学習手法を開発し,ユーザ活動の短いエピソードの低次元表現を構築した。 提案手法を4つの異なるダークネットフォーラムで総合評価し,その効果を実証し,平均検索ランクで2.5倍,リコール@10で2倍まで引き上げた。

Darknet market forums are frequently used to exchange illegal goods and services between parties who use encryption to conceal their identities. The Tor network is used to host these markets, which guarantees additional anonymization from IP and location tracking, making it challenging to link across malicious users using multiple accounts (sybils). Additionally, users migrate to new forums when one is closed, making it difficult to link users across multiple forums. We develop a novel stylometry-based multitask learning approach for natural language and interaction modeling using graph embeddings to construct low-dimensional representations of short episodes of user activity for authorship attribution. We provide a comprehensive evaluation of our methods across four different darknet forums demonstrating its efficacy over the state-of-the-art, with a lift of up to 2.5X on Mean Retrieval Rank and 2X on Recall@10.
翻訳日:2021-04-05 13:56:24 公開日:2021-04-01
# 設定可能なプライバシー保護自動音声認識

Configurable Privacy-Preserving Automatic Speech Recognition ( http://arxiv.org/abs/2104.00766v1 )

ライセンス: Link先を確認
Ranya Aloufi, Hamed Haddadi, David Boyle(参考訳) 音声アシスタント技術は、プライバシーとセキュリティの懸念をはるかに高めている。 本稿では,モジュール型自動音声認識(ASR)が独立に訓練された分離・認識・離散化モジュールを組み合わせることで,音声支援システムのプライバシーを向上できるかどうかを検討する。 プライバシの懸念と,システムの各段階における各種技術の適用効果を評価し,タスク固有の指標(すなわち,タスク固有の指標)を用いて結果を報告する。 WER, ABX, and accuracy)。 ASRシステムへの重なり合う音声入力は、さらなるプライバシー上の懸念を生じさせ、これらを音声分離と最適化技術を用いて緩和する方法を示す。 我々の離散化モジュールは、ASR音響モデルからランダムな推測に相応しいレベルへのパラ言語的プライバシー漏洩を最小限に抑える。 音声プライバシーは設定可能であることを示し、これがASRを取り入れたプライバシー保護アプリケーションに新たな機会をもたらすと論じている。

Voice assistive technologies have given rise to far-reaching privacy and security concerns. In this paper we investigate whether modular automatic speech recognition (ASR) can improve privacy in voice assistive systems by combining independently trained separation, recognition, and discretization modules to design configurable privacy-preserving ASR systems. We evaluate privacy concerns and the effects of applying various state-of-the-art techniques at each stage of the system, and report results using task-specific metrics (i.e. WER, ABX, and accuracy). We show that overlapping speech inputs to ASR systems present further privacy concerns, and how these may be mitigated using speech separation and optimization techniques. Our discretization module is shown to minimize paralinguistics privacy leakage from ASR acoustic models to levels commensurate with random guessing. We show that voice privacy can be configurable, and argue this presents new opportunities for privacy-preserving applications incorporating ASR.
翻訳日:2021-04-05 13:56:07 公開日:2021-04-01
# curie:状況に関する推論のための反復クエリアプローチ

CURIE: An Iterative Querying Approach for Reasoning About Situations ( http://arxiv.org/abs/2104.00814v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Aman Madaan, Niket Tandon, Yiming Yang, Shrimai Prabhumoye, Abhilasha Ravichander, Peter Clark, Eduard Hovy(参考訳) 近年、雲空が植物の成長を阻害するなど、予期せぬ状況の影響を予測するモデルが示されている。 文脈が与えられた場合、そのような状況推論の目標は、その文脈で生じる新しい状況(st)の結果を引き出すことである。 本稿では,自然言語クエリを用いた構造的状況グラフ(st-graph)において,微調整言語モデル(m)上で,関連する結果のグラフを反復的に構築する手法を提案する。 複数のドメインにまたがって、curieはstグラフを生成し、人間が新しい状況の結果を引き出すのに有意義な意味を見出す。 特に背景知識とマルチホップ推論を必要とするハードサブセットにおいて,curieが生成したst-graphは,入力を生成した状況グラフで単純に強化することにより,状況推論終了タスク(wiqa-qa)の精度を3ポイント向上させる。

Recently, models have been shown to predict the effects of unexpected situations, e.g., would cloudy skies help or hinder plant growth? Given a context, the goal of such situational reasoning is to elicit the consequences of a new situation (st) that arises in that context. We propose a method to iteratively build a graph of relevant consequences explicitly in a structured situational graph (st-graph) using natural language queries over a finetuned language model (M). Across multiple domains, CURIE generates st-graphs that humans find relevant and meaningful in eliciting the consequences of a new situation. We show that st-graphs generated by CURIE improve a situational reasoning end task (WIQA-QA) by 3 points on accuracy by simply augmenting their input with our generated situational graphs, especially for a hard subset that requires background knowledge and multi-hop reasoning.
翻訳日:2021-04-05 13:55:50 公開日:2021-04-01
# FESTA:シーンポイント雲の空間的注意による流れの推定

FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds ( http://arxiv.org/abs/2104.00798v1 )

ライセンス: Link先を確認
Haiyan Wang, Jiahao Pang, Muhammad A. Lodhi, Yingli Tian, Dong Tian(参考訳) シーンフローは、自律運転、ロボットナビゲーション、AR/VRなど、さまざまなアプリケーションにとって重要な3Dシーンのダイナミクスを描いている。 従来、シーンフローはRGBの高密度フレームから推定される。 深度センシング技術の発展に伴い、精密な3次元計測は3次元シーンフローの新たな研究の火花となった点雲を通して利用可能である。 それにもかかわらず、典型的な点雲サンプリングパターンの間隔と不規則性のため、点雲からシーンフローを抽出することは依然として困難である。 不規則サンプリングに関する大きな問題のひとつは、多くのフロー推定シナリオにおける基本的なプロセスである、ポイントセットの抽象化/特徴抽出中のランダム性である。 不安定な抽象問題を緩和するために,新しい空間抽象層 (SA^2) を提案する。 さらに,時間領域の注意を正すため,TA^2層が提案され,より広い範囲で動きを拡大する利点がある。 大規模解析および実験により,シーンフロー推定の最先端ベンチマークと比較し,空間的-時間的注意によるフロー推定 (festa) と呼ばれる手法の動機と有意な性能向上を検証した。

Scene flow depicts the dynamics of a 3D scene, which is critical for various applications such as autonomous driving, robot navigation, AR/VR, etc. Conventionally, scene flow is estimated from dense/regular RGB video frames. With the development of depth-sensing technologies, precise 3D measurements are available via point clouds which have sparked new research in 3D scene flow. Nevertheless, it remains challenging to extract scene flow from point clouds due to the sparsity and irregularity in typical point cloud sampling patterns. One major issue related to irregular sampling is identified as the randomness during point set abstraction/feature extraction -- an elementary process in many flow estimation scenarios. A novel Spatial Abstraction with Attention (SA^2) layer is accordingly proposed to alleviate the unstable abstraction problem. Moreover, a Temporal Abstraction with Attention (TA^2) layer is proposed to rectify attention in temporal domain, leading to benefits with motions scaled in a larger range. Extensive analysis and experiments verified the motivation and significant performance gains of our method, dubbed as Flow Estimation via Spatial-Temporal Attention (FESTA), when compared to several state-of-the-art benchmarks of scene flow estimation.
翻訳日:2021-04-05 13:54:27 公開日:2021-04-01
# 離散連続分割の再構成:スパース通信の数学的理論に向けて

Reconciling the Discrete-Continuous Divide: Towards a Mathematical Theory of Sparse Communication ( http://arxiv.org/abs/2104.00755v1 )

ライセンス: Link先を確認
Andr\'e F. T. Martins(参考訳) ニューラルネットワークやその他の機械学習モデルは連続表現を計算し、人間は離散シンボルと通信する。 これらの2種類のコミュニケーションは、エンドツーエンドの識別性を保ちながら、人間可読な解釈を生成するか、個別の潜在変数モデルを学習することが望ましい。 既存の手法(グンベル・ソフトマックス変換など)では、ゼロ温度極限における離散近似である連続緩和が構築されているが、その他の手法(スパースマックス変換やハードコンクリート分布など)は離散/連続ハイブリッドを生成する。 本稿では,これらのハイブリッドの厳密な理論基盤を構築する。 我々の出発点は、確率単純性の面格子上で定義される新しい「直和」基底測度である。 この尺度から、離散エントロピーと微分エントロピーを具体例として含む新たなエントロピー関数を導入し、コード最適性の観点からの解釈と、相互情報とkullback-leiblerダイバージェンスを一般化する2つの情報理論の対応式を導入する。 最後に、ハイブリッドシンボルの文字列として「混合言語」を導入し、正規混合言語のクラスを認識する混合有限状態オートマトンを導入し、正規言語のクロージャ特性を一般化する。

Neural networks and other machine learning models compute continuous representations, while humans communicate with discrete symbols. Reconciling these two forms of communication is desirable to generate human-readable interpretations or to learn discrete latent variable models, while maintaining end-to-end differentiability. Some existing approaches (such as the Gumbel-softmax transformation) build continuous relaxations that are discrete approximations in the zero-temperature limit, while others (such as sparsemax transformations and the hard concrete distribution) produce discrete/continuous hybrids. In this paper, we build rigorous theoretical foundations for these hybrids. Our starting point is a new "direct sum" base measure defined on the face lattice of the probability simplex. From this measure, we introduce a new entropy function that includes the discrete and differential entropies as particular cases, and has an interpretation in terms of code optimality, as well as two other information-theoreti c counterparts that generalize the mutual information and Kullback-Leibler divergences. Finally, we introduce "mixed languages" as strings of hybrid symbols and a new mixed weighted finite state automaton that recognizes a class of regular mixed languages, generalizing closure properties of regular languages.
翻訳日:2021-04-05 13:45:28 公開日:2021-04-01
# 大規模セルオートマトンにおける可視化計算

Visualizing computation in large-scale cellular automata ( http://arxiv.org/abs/2104.01008v1 )

ライセンス: Link先を確認
Hugo Cisneros, Josef Sivic, Tomas Mikolov(参考訳) セル・オートマトンのような複雑なシステムの創発的プロセスは複雑さの増大を計算し、人工的な進化につながる可能性がある。 このような偉業は、十分な計算能力を得るために、現在のシミュレーションサイズをスケールアップする必要がある。 セルオートマトンや他のシステムで起こる複雑な計算を理解することは、特に大規模システムにおいて多くの課題をもたらす。 本稿では,セル状態,クラスタリング,オートエンコーダの周波数解析に基づく粗粒化セルオートマトン法を提案する。 これらの革新的な技術は、これらのシステムにおける大規模構造形成と複雑性解析の発見を促進する。 背景パターンをフィルタリングしながら、基本的なセルオートマトンで興味深い振る舞いを強調する。 さらに,本手法は,大規模2次元オートマトンを小型化し,複数スケールで興味深い動作をするシステムを特定する。

Emergent processes in complex systems such as cellular automata can perform computations of increasing complexity, and could possibly lead to artificial evolution. Such a feat would require scaling up current simulation sizes to allow for enough computational capacity. Understanding complex computations happening in cellular automata and other systems capable of emergence poses many challenges, especially in large-scale systems. We propose methods for coarse-graining cellular automata based on frequency analysis of cell states, clustering and autoencoders. These innovative techniques facilitate the discovery of large-scale structure formation and complexity analysis in those systems. They emphasize interesting behaviors in elementary cellular automata while filtering out background patterns. Moreover, our methods reduce large 2D automata to smaller sizes and enable identifying systems that behave interestingly at multiple scales.
翻訳日:2021-04-05 13:43:46 公開日:2021-04-01
# NPM:3次元変形可能な形状のためのニューラルパラメトリックモデル

NPMs: Neural Parametric Models for 3D Deformable Shapes ( http://arxiv.org/abs/2104.00702v1 )

ライセンス: Link先を確認
Pablo Palafox, Alja\v{z} Bo\v{z}i\v{c}, Justus Thies, Matthias Nie{\ss}ner, Angela Dai(参考訳) パラメトリック3Dモデルは、人体、顔、手をモデル化するなど、コンピュータグラフィックスや視覚における様々なタスクを可能にした。 しかし、これらのパラメトリックモデルの構築は、重い手作業の調整を必要とするため、しばしば面倒であり、シワや衣服などの複雑さや詳細を表現できない。 この目的のために,従来のパラメトリック3Dモデルに代わる新しい学習モデルであるニューラルパラメトリックモデル(NPM)を提案する。 特に、4Dのダイナミクスを形状とポーズの潜在空間表現に分解し、学習された暗黙関数における最近の発展の柔軟性を活用する。 重要なことは、我々が学習した形状とポーズのニューラルパラメトリックモデルは、SMPLのような従来のパラメトリックモデルのように、学習した空間を最適化して新しい観測に適合させることができる。 これにより、NPMは観測可能な変形可能な配列のより正確で詳細な表現を実現できる。 また,NPMは,ヒトと手の単眼深度配列の再構築と追跡において,パラメトリック状態と非パラメトリック状態の両方よりも顕著に改善していることを示す。 潜在空間補間と形状/ポーズ伝達実験はnpmの有用性をさらに証明している。

Parametric 3D models have enabled a wide variety of tasks in computer graphics and vision, such as modeling human bodies, faces, and hands. However, the construction of these parametric models is often tedious, as it requires heavy manual tweaking, and they struggle to represent additional complexity and details such as wrinkles or clothing. To this end, we propose Neural Parametric Models (NPMs), a novel, learned alternative to traditional, parametric 3D models, which does not require hand-crafted, object-specific constraints. In particular, we learn to disentangle 4D dynamics into latent-space representations of shape and pose, leveraging the flexibility of recent developments in learned implicit functions. Crucially, once learned, our neural parametric models of shape and pose enable optimization over the learned spaces to fit to new observations, similar to the fitting of a traditional parametric model, e.g., SMPL. This enables NPMs to achieve a significantly more accurate and detailed representation of observed deformable sequences. We show that NPMs improve notably over both parametric and non-parametric state of the art in reconstruction and tracking of monocular depth sequences of clothed humans and hands. Latent-space interpolation as well as shape / pose transfer experiments further demonstrate the usefulness of NPMs.
翻訳日:2021-04-05 13:42:16 公開日:2021-04-01
# SEN12MSデータセットを用いたリモートセンシング画像分類

Remote Sensing Image Classification with the SEN12MS Dataset ( http://arxiv.org/abs/2104.00704v1 )

ライセンス: Link先を確認
Michael Schmitt, Yu-Lun Wu(参考訳) 画像分類は、コンピュータビジョンのための畳み込みニューラルネットワークを用いたディープラーニングの急速な発展の要因の1つである。 リモートセンシングにおけるシーン分類の類似タスクも同様である。 しかし、長い間、高容量モデルのトレーニングとベンチマークに確立された大規模な標準データセットを使用してきたコンピュータビジョンコミュニティとは対照的に、リモートセンシングコミュニティはいまだに比較的小さく、しばしばアプリケーションに分散したデータセットに依存しており、互換性が欠如している。 本稿では,SEN12MSデータセットの分類指向変換を提案する。 これにより、2つの標準cnnアーキテクチャと異なる入力データ設定に基づくいくつかのベースラインモデルの結果が得られる。 我々は,リモートセンシング画像分類のベンチマークをサポートし,従来のRGB画像に対するマルチスペクトルデータとマルチセンサデータ融合の利点に関する知見を提供する。

Image classification is one of the main drivers of the rapid developments in deep learning with convolutional neural networks for computer vision. So is the analogous task of scene classification in remote sensing. However, in contrast to the computer vision community that has long been using well-established, large-scale standard datasets to train and benchmark high-capacity models, the remote sensing community still largely relies on relatively small and often application-dependen d datasets, thus lacking comparability. With this letter, we present a classification-orien ted conversion of the SEN12MS dataset. Using that, we provide results for several baseline models based on two standard CNN architectures and different input data configurations. Our results support the benchmarking of remote sensing image classification and provide insights to the benefit of multi-spectral data and multi-sensor data fusion over conventional RGB imagery.
翻訳日:2021-04-05 13:41:56 公開日:2021-04-01
# 変圧器を用いたマルチターゲットトラッキング

Multitarget Tracking with Transformers ( http://arxiv.org/abs/2104.00734v1 )

ライセンス: Link先を確認
Juliano Pinto, Georg Hess, William Ljungbergh, Yuxuan Xia, Lennart Svensson, Henk Wymeersch(参考訳) マルチターゲットトラッキング(multitarget tracking、mtt)は、ノイズ測定を用いて未知数の物体の状態を追跡する問題であり、自動運転、監視、ロボット工学などにおいて重要な応用である。 モデルに基づくベイズ設定では、多目的後続を閉じた形で表現できる共役前駆体が存在し、理論的にはベイズ最適推定を提供することができる。 しかし、後部は時間の経過とともに仮説の数の超指数的な増加を伴い、最先端の手法は、複雑なシナリオにおいてそれらの性能に影響を及ぼすような、牽引可能な状態の近似に頼らざるを得ない。 ディープラーニングに基づくモデルフリーの手法は、原則としてデータから最適なフィルタを学べるが、私たちの知る限りでは、現在のベイズフィルタと比較されることは決してなく、正確なモデルが利用可能なコンテキストでは特にない。 本稿では,トランスフォーマティブ・アーキテクチャに基づくmttの高精度深層学習法を提案し,そのモデルの妥当性を仮定した2つの最先端ベイズフィルタと比較する。 これはモデルベースのフィルタにエッジを与えるが、無制限のトレーニングデータを生成することもできる。 提案手法は,複雑なシナリオでは最先端のベイズフィルタよりも優れており,より単純なケースでは性能が向上し,モデルベースシステムにおいてもディープラーニングの適用性を検証する。 すべての実装のコードは、(提供すべきgithubリンク)で利用可能です。

Multitarget Tracking (MTT) is the problem of tracking the states of an unknown number of objects using noisy measurements, with important applications to autonomous driving, surveillance, robotics, and others. In the model-based Bayesian setting, there are conjugate priors that enable us to express the multi-object posterior in closed form, which could theoretically provide Bayes-optimal estimates. However, the posterior involves a super-exponential growth of the number of hypotheses over time, forcing state-of-the-art methods to resort to approximations for remaining tractable, which can impact their performance in complex scenarios. Model-free methods based on deep-learning provide an attractive alternative, as they can in principle learn the optimal filter from data, but to the best of our knowledge were never compared to current state-of-the-art Bayesian filters, specially not in contexts where accurate models are available. In this paper, we propose a high-performing deep-learning method for MTT based on the Transformer architecture and compare it to two state-of-the-art Bayesian filters, in a setting where we assume the correct model is provided. Although this gives an edge to the model-based filters, it also allows us to generate unlimited training data. We show that the proposed model outperforms state-of-the-art Bayesian filters in complex scenarios, while macthing their performance in simpler cases, which validates the applicability of deep-learning also in the model-based regime. The code for all our implementations is made available at (github link to be provided).
翻訳日:2021-04-05 13:40:56 公開日:2021-04-01
# 記憶可能性:情報ユーティリティのイメージ計算可能な尺度

Memorability: An image-computable measure of information utility ( http://arxiv.org/abs/2104.00805v1 )

ライセンス: Link先を確認
Zoya Bylinskii, Lore Goetschalckx, Anelise Newman, Aude Oliva(参考訳) 画像中のピクセルと、それらが構成するオブジェクト、シーン、アクションは、画像が記憶可能か忘れられるかを決定する。 記憶力は画像によって異なるが、個々の観察者からは独立している。 オブザーバ独立性は、画像計算可能な情報量であり、自動予測に適している。 本章では,人間の行動データに対して画像の記憶性を正確に予測する最新のアルゴリズムを,原画素からセマンティックラベルまでの様々なスケールの画像特徴を用いて,計算レンズを用いて記憶可能性にズームインする。 我々は、顔、物体、シーンの記憶力に関するアルゴリズムと可視化の設計、および静的シーンを超えてアクションやビデオに一般化するアルゴリズムについて論じる。 記憶可能性予測分野における現在のフロントランナーである最先端のディープラーニングアプローチについて紹介する。 予測を超えて、最近のA.I.を示す。 視覚的記憶力の生成と修正にはアプローチが利用できる。 最後に,視覚ストリームのフィルタリングから拡張現実インターフェースの強化に至るまで,記憶可能性に有効な計算アプリケーションをプレビューする。

The pixels in an image, and the objects, scenes, and actions that they compose, determine whether an image will be memorable or forgettable. While memorability varies by image, it is largely independent of an individual observer. Observer independence is what makes memorability an image-computable measure of information, and eligible for automatic prediction. In this chapter, we zoom into memorability with a computational lens, detailing the state-of-the-art algorithms that accurately predict image memorability relative to human behavioral data, using image features at different scales from raw pixels to semantic labels. We discuss the design of algorithms and visualizations for face, object, and scene memorability, as well as algorithms that generalize beyond static scenes to actions and videos. We cover the state-of-the-art deep learning approaches that are the current front runners in the memorability prediction space. Beyond prediction, we show how recent A.I. approaches can be used to create and modify visual memorability. Finally, we preview the computational applications that memorability can power, from filtering visual streams to enhancing augmented reality interfaces.
翻訳日:2021-04-05 13:39:30 公開日:2021-04-01
# RIS支援衛星IoT通信におけるチャネル推定のためのグラフ注意ネットワーク

Graph Attention Networks for Channel Estimation in RIS-assisted Satellite IoT Communications ( http://arxiv.org/abs/2104.00735v1 )

ライセンス: Link先を確認
K\"ur\c{s}at Tekb{\i}y{\i}k, G\"une\c{s} Karabulut Kurt, Ali R{\i}za Ekti, Halim Yanikomeroglu(参考訳) モノのインターネット(IoT)ネットワークをグローバルに接続する上で,DtS(Direct-to-Satel lite)通信の重要性が高まっている。 しかし、地球上の密集した衛星ネットワークの比較的長い距離は、高い経路損失を引き起こす。 さらに、ビームフォーミング、トラッキング、等化といった高度な操作をIoTデバイスで部分的に行う必要があるため、ハードウェアの複雑さとIoTデバイスの高容量バッテリーの必要性が増大する。 再構成可能なインテリジェントサーフェス(RIS)は、エネルギー効率を高め、IoTデバイスの代わりに送信環境上で複雑な信号処理を行う可能性がある。 しかし、RISはインシデント信号の位相を変更するためにカスケードチャネルの情報を必要とする。 本研究は,困難チャネル推定問題に対するグラフアテンションネットワーク(GAT)を提案し,GATチャネル推定の下で異なるRIS構成のためのDtS IoTネットワークの性能について検討する。

Direct-to-satellite (DtS) communication has gained importance recently to support globally connected Internet of things (IoT) networks. However, relatively long distances of densely deployed satellite networks around the Earth cause a high path loss. In addition, since high complexity operations such as beamforming, tracking and equalization have to be performed in IoT devices partially, both the hardware complexity and the need for high-capacity batteries of IoT devices increase. The reconfigurable intelligent surfaces (RISs) have the potential to increase the energy-efficiency and to perform complex signal processing over the transmission environment instead of IoT devices. But, RISs need the information of the cascaded channel in order to change the phase of the incident signal. This study proposes graph attention networks (GATs) for the challenging channel estimation problem and examines the performance of DtS IoT networks for different RIS configurations under GAT channel estimation.
翻訳日:2021-04-05 13:39:12 公開日:2021-04-01
# 自己教師付き対応学習の再考 : 映像フレームレベルの類似性の観点から

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective ( http://arxiv.org/abs/2103.17263v2 )

ライセンス: Link先を確認
Jiarui Xu, Xiaolong Wang(参考訳) 時空間対応のための良い表現を学ぶことは、オブジェクトバウンディングボックスの追跡やビデオオブジェクトのピクセルセグメンテーションの実行など、様々なコンピュータビジョンタスクの鍵となる。 大規模に対応するための一般化可能な表現を学習するために、オブジェクトレベルまたはパッチレベルの類似性学習を明示的に行うために、様々な自己教師付きプレテキストタスクを提案する。 従来の文献に従わず、ビデオフレームレベルの類似性(vfs)学習、すなわち単にビデオフレームの比較から学習することを用いて対応を学習することを提案する。 我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。 我々の仮説は、表現が認識に適している場合、類似のオブジェクトや部品間の対応を見つけるために畳み込みの特徴が必要であるというものである。 以上の結果から,VFS は OTB ビジュアルオブジェクトトラッキングと DAVIS ビデオオブジェクトセグメンテーションの両方に対して,最先端の自己監督アプローチを超越していることがわかった。 VFSで何が重要かを詳細に分析し、画像およびフレームレベルの類似性学習における新しい特性を明らかにする。 プロジェクトページは \href{https://jerryxu.net/ VFS}{https://jerryxu.net/ VFS} で公開されている。

Learning a good representation for space-time correspondence is the key for various computer vision tasks, including tracking object bounding boxes and performing video object pixel segmentation. To learn generalizable representation for correspondence in large-scale, a variety of self-supervised pretext tasks are proposed to explicitly perform object-level or patch-level similarity learning. Instead of following the previous literature, we propose to learn correspondence using Video Frame-level Similarity (VFS) learning, i.e, simply learning from comparing video frames. Our work is inspired by the recent success in image-level contrastive learning and similarity learning for visual recognition. Our hypothesis is that if the representation is good for recognition, it requires the convolutional features to find correspondence between similar objects or parts. Our experiments show surprising results that VFS surpasses state-of-the-art self-supervised approaches for both OTB visual object tracking and DAVIS video object segmentation. We perform detailed analysis on what matters in VFS and reveals new properties on image and frame level similarity learning. Project page is available at \href{https://jerryxu.net/ VFS}{https://jerryxu.net/ VFS}.
翻訳日:2021-04-05 10:29:33 公開日:2021-04-01
# ResNetによるCOVID-19画像分類のための半教師付き学習

Semi-supervised Learning for COVID-19 Image Classification via ResNet ( http://arxiv.org/abs/2103.06140v2 )

ライセンス: Link先を確認
Lucy Nwosu, Xiangfang Li, Lijun Qian, Seungchan Kim, Xishuang Dong(参考訳) コロナウイルス感染症2019(COVID-19)は200か国以上で進行中の世界的なパンデミックであり、国際社会全体で大きな公衆衛生上の懸念をもたらしている。 X線画像データの解析は、タイムリーかつ正確なスクリーニングと新型コロナウイルス対策において重要な役割を果たす可能性がある。 監視された深層学習は、X線画像データセットから新型コロナウイルスの病態を認識するためにうまく応用されている。 しかし、新型コロナウイルス(COVID-19)の流行などの新興イベントのデータ分析には適用できないことが多いため、モデルのトレーニングには相当量の注釈付きX線画像が必要である。 本稿では,この課題に対処するために,covid-19画像分類のための残留ニューラルネットワーク(resnet)に基づく2経路半教師付き深層学習モデルssresnetを提案する。 さらに,データ不均衡を解決するために,学習過程におけるマイノリティクラスに対して高重みを割り当てる重み付き教師付き損失を設計した。 大規模X線画像データセット COVIDx による実験結果から,ラベル付きトレーニング画像がほとんどない場合でも,提案モデルが有望な性能を達成可能であることが示された。

Coronavirus disease 2019 (COVID-19) is an ongoing global pandemic in over 200 countries and territories, which has resulted in a great public health concern across the international community. Analysis of X-ray imaging data can play a critical role in timely and accurate screening and fighting against COVID-19. Supervised deep learning has been successfully applied to recognize COVID-19 pathology from X-ray imaging datasets. However, it requires a substantial amount of annotated X-ray images to train models, which is often not applicable to data analysis for emerging events such as COVID-19 outbreak, especially in the early stage of the outbreak. To address this challenge, this paper proposes a two-path semi-supervised deep learning model, ssResNet, based on Residual Neural Network (ResNet) for COVID-19 image classification, where two paths refer to a supervised path and an unsupervised path, respectively. Moreover, we design a weighted supervised loss that assigns higher weight for the minority classes in the training process to resolve the data imbalance. Experimental results on a large-scale of X-ray image dataset COVIDx demonstrate that the proposed model can achieve promising performance even when trained on very few labeled training images.
翻訳日:2021-04-05 00:54:13 公開日:2021-04-01
# (参考訳) Bigfootの縮小 - wav2vec 2.0フットプリント削減 [全文訳有]

Shrinking Bigfoot: Reducing wav2vec 2.0 footprint ( http://arxiv.org/abs/2103.15760v2 )

ライセンス: CC BY 4.0
Zilun Peng, Akshay Budhkar, Ilana Tuil, Jason Levy, Parinaz Sobhani, Raphael Cohen, Jumana Nassour(参考訳) Wav2vec 2.0は、音声波形を潜在表現にマッピングする最先端音声認識モデルである。 wav2vec 2.0の最大のバージョンは、3億1700万のパラメータを含んでいる。 したがって、wav2vec 2.0の推論遅延はプロダクションにおけるボトルネックとなり、高いコストと環境のフットプリントにつながる。 wav2vecのプロダクション環境への適用性を改善するため、大規模言語モデルのドメインから借用した複数のモデル圧縮手法について検討する。 教師と教師のアプローチを用いて,wav2vec 2.0モデルの知識を2倍高速で4.8倍小さい学生モデルに抽出した。 この性能向上は、ワードエラー率(WER)の7%の低下で達成される。 我々の量子化モデルは元のモデルより3.6倍小さく、WERの0.1%しか劣化しない。 私たちの知る限りでは、wav2vec 2.0を圧縮した最初の作品です。

Wav2vec 2.0 is a state-of-the-art speech recognition model which maps speech audio waveforms into latent representations. The largest version of wav2vec 2.0 contains 317 million parameters. Hence, the inference latency of wav2vec 2.0 will be a bottleneck in production, leading to high costs and a significant environmental footprint. To improve wav2vec's applicability to a production setting, we explore multiple model compression methods borrowed from the domain of large language models. Using a teacher-student approach, we distilled the knowledge from the original wav2vec 2.0 model into a student model, which is 2 times faster and 4.8 times smaller than the original model. This increase in performance is accomplished with only a 7% degradation in word error rate (WER). Our quantized model is 3.6 times smaller than the original model, with only a 0.1% degradation in WER. To the best of our knowledge, this is the first work that compresses wav2vec 2.0.
翻訳日:2021-04-03 11:42:07 公開日:2021-04-01
# (参考訳) バイアス緩和手法における批判的課題の検討 [全文訳有]

An Investigation of Critical Issues in Bias Mitigation Techniques ( http://arxiv.org/abs/2104.00170v1 )

ライセンス: CC BY 4.0
Robik Shrestha, Kushal Kafle and Christopher Kanan(参考訳) ディープラーニングにおける重要な問題は、システムが不適切なバイアスを学習し、マイノリティグループでうまく実行できないことだ。 これにより、バイアスを軽減するために複数のアルゴリズムが作成されました。 しかし,これらの手法がどの程度有効かは明らかでない。 これは、研究プロトコルが論文によって異なり、システムは多くの種類のバイアスをテストできないデータセット上でテストされ、システムは隠れた知識にアクセスしたり、特にテストセットに合わせてチューニングされるためである。 これに対処するために,改良された評価プロトコル,賢明なメトリクス,新たなデータセットを導入して,バイアス緩和アルゴリズムに関する重要な質問と回答を可能にします。 3つのベンチマークデータセットで同じネットワークアーキテクチャとハイパーパラメータ選択ポリシーを用いて、7つの最先端アルゴリズムを評価する。 我々は、複数のバイアス源に対するロバスト性の評価を可能にするBiased MNISTと呼ばれる新しいデータセットを導入する。 隠れバイアスに対するロバスト性を評価するために、Biased MNISTとVQAベンチマークを使用します。 テストセット分布をチューニングするだけでなく、異なるチューニング分布にまたがるロバスト性も研究している。 アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。 本研究は,今後のバイアス軽減手法のより厳密な評価をコミュニティに導入させるものである。 すべてのデータ、コード、結果は、https://github.com/e robic/bias-mitigator sで公開されている。

A critical problem in deep learning is that systems learn inappropriate biases, resulting in their inability to perform well on minority groups. This has led to the creation of multiple algorithms that endeavor to mitigate bias. However, it is not clear how effective these methods are. This is because study protocols differ among papers, systems are tested on datasets that fail to test many forms of bias, and systems have access to hidden knowledge or are tuned specifically to the test set. To address this, we introduce an improved evaluation protocol, sensible metrics, and a new dataset, which enables us to ask and answer critical questions about bias mitigation algorithms. We evaluate seven state-of-the-art algorithms using the same network architecture and hyperparameter selection policy across three benchmark datasets. We introduce a new dataset called Biased MNIST that enables assessment of robustness to multiple bias sources. We use Biased MNIST and a visual question answering (VQA) benchmark to assess robustness to hidden biases. Rather than only tuning to the test set distribution, we study robustness across different tuning distributions, which is critical because for many applications the test distribution may not be known during development. We find that algorithms exploit hidden biases, are unable to scale to multiple forms of bias, and are highly sensitive to the choice of tuning set. Based on our findings, we implore the community to adopt more rigorous assessment of future bias mitigation methods. All data, code, and results are publicly available at: https://github.com/e robic/bias-mitigator s.
翻訳日:2021-04-03 07:13:50 公開日:2021-04-01
# (参考訳) self-harm: twitterにおける検出とサポート [全文訳有]

Self-harm: detection and support on Twitter ( http://arxiv.org/abs/2104.00174v1 )

ライセンス: CC BY 4.0
Muhammad Abubakar Alhassan, Isa Inuwa-Dutse, Bello Shehu Bello, Diane Pennington(参考訳) twitterやfacebookのようなオンラインソーシャルメディアプラットフォームが出現して以来、オンライン参加者が投稿した情報を用いて有用な健康関連研究が行われている。 メンタルヘルス、セルフハーム、抑うつなどの個人の健康関連の問題は、ユーザーがそのようなプラットフォームでストーリーを共有することが多いため研究されている。 オンライン利用者は、オンラインコミュニティからの共感とサポートが、影響を受けた個人を助けるために重要であるため、共有に頼る。 nsi(non-suicidal self-injury)に関連するコンテンツがtwitter上でどのように増殖するかを予備分析した。 そこで我々はtwitterを用いて,nssiの行動に関連のあるデータを収集し,分析し,ユーザを支援する方法を習得する。 独自のクローラを用いて,自己申告ユーザや自傷行為の対処に関心のある関連組織から関連ツイートを検索する。 テキスト分析により,自傷者,自傷者,支援者,回復者,自傷者,危険者の6つの主要カテゴリを識別した。 付与されたカテゴリーがコレクションを支配します。 エンゲージメントの観点から,twitter上で自傷支援団体が投稿した情報に対して,オンラインユーザがどのように反応するかを示す。 最も活発な組織に注目することで、組織の戦略を明らかにする上で有用なテクニックを適用します。 オンライン参加者は、メンタルヘルス関連属性に関連するオンライン投稿に対する強い傾向を示す。 本研究は,ソーシャルメディアを,自傷行為の悪影響を緩和するための積極的な措置を支援するツールとして使用できる,という前提に基づいている。 そこで,本研究では,潜在的ユーザによる自傷行為の防止と,影響を受けたユーザへの支援を,一連のレコメンデーションを通じて提案する。 さらなる研究を支援するために、データセットは興味のある研究者に提供される。

Since the advent of online social media platforms such as Twitter and Facebook, useful health-related studies have been conducted using the information posted by online participants. Personal health-related issues such as mental health, self-harm and depression have been studied because users often share their stories on such platforms. Online users resort to sharing because the empathy and support from online communities are crucial in helping the affected individuals. A preliminary analysis shows how contents related to non-suicidal self-injury (NSSI) proliferate on Twitter. Thus, we use Twitter to collect relevant data, analyse, and proffer ways of supporting users prone to NSSI behaviour. Our approach utilises a custom crawler to retrieve relevant tweets from self-reporting users and relevant organisations interested in combating self-harm. Through textual analysis, we identify six major categories of self-harming users consisting of inflicted, anti-self-harm, support seekers, recovered, pro-self-harm and at risk. The inflicted category dominates the collection. From an engagement perspective, we show how online users respond to the information posted by self-harm support organisations on Twitter. By noting the most engaged organisations, we apply a useful technique to uncover the organisations' strategy. The online participants show a strong inclination towards online posts associated with mental health related attributes. Our study is based on the premise that social media can be used as a tool to support proactive measures to ease the negative impact of self-harm. Consequently, we proffer ways to prevent potential users from engaging in self-harm and support affected users through a set of recommendations. To support further research, the dataset will be made available for interested researchers.
翻訳日:2021-04-03 06:49:08 公開日:2021-04-01
# (参考訳) 想像エージェントの視覚的注意 [全文訳有]

Visual Attention in Imaginative Agents ( http://arxiv.org/abs/2104.00177v1 )

ライセンス: CC BY 4.0
Samrudhdhi B. Rangrej, James J. Clark(参考訳) 我々は,一連の離散固定を通じて周囲を知覚する反復エージェントを提案する。 それぞれの時間ステップで、エージェントは、固定履歴と一致する様々な妥当なシーンを想像します。 次の固定は、想像上のシーンの内容の不確実性を利用して計画されている。 時間が進むにつれて、エージェントは周囲の内容についてより確実になり、想像されるシーンの多様性は減少する。 エージェントは変分オートエンコーダと正規化フローを使用して構築され、シーン再構成のプロキシタスクで教師なしの方法でトレーニングされる。 想像されたシーンの潜在表現は、高階モジュールによるピクセルレベルおよびシーンレベルタスクの実行に有用である。 エージェントは、様々な2Dおよび3Dデータセットでテストされる。

We present a recurrent agent who perceives surroundings through a series of discrete fixations. At each timestep, the agent imagines a variety of plausible scenes consistent with the fixation history. The next fixation is planned using uncertainty in the content of the imagined scenes. As time progresses, the agent becomes more certain about the content of the surrounding, and the variety in the imagined scenes reduces. The agent is built using a variational autoencoder and normalizing flows, and trained in an unsupervised manner on a proxy task of scene-reconstruction . The latent representations of the imagined scenes are found to be useful for performing pixel-level and scene-level tasks by higher-order modules. The agent is tested on various 2D and 3D datasets.
翻訳日:2021-04-03 06:37:41 公開日:2021-04-01
# (参考訳) 複数物体追跡のための空間時間グラフ変換器 [全文訳有]

Spatial-Temporal Graph Transformer for Multiple Object Tracking ( http://arxiv.org/abs/2104.00194v1 )

ライセンス: CC BY 4.0
Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, Zicheng Liu(参考訳) ビデオ内の複数のオブジェクトの追跡は、オブジェクトの空間的-時間的相互作用のモデル化に依存している。 本稿では,オブジェクト間の空間的・時間的相互作用を効率的にモデル化するために,強力なグラフ変換器を利用するSpatial-Temporal Graph Transformer(STGT)を提案する。 stgtは、トラックされたオブジェクトの軌道を疎重み付きグラフの集合として配置し、空間グラフトランスフォーマエンコーダ層、時間的トランスフォーマエンコーダ層、およびこれらのグラフに基づいて空間グラフトランスフォーマデコーダ層を構築することにより、多数のオブジェクトの相互作用を効果的にモデル化する。 STGTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。 追跡速度と精度をさらに向上するため,STGTのモデル化に大量の計算資源を必要とする低スコア検出と長期閉塞を処理するカスケードアソシエーションフレームワークを提案する。 提案手法は,MOT15,MOT16,MOT17,M OT20を含む複数のベンチマークデータセットを用いて評価し,すべてのデータセットに対して最先端のパフォーマンスを実現する。

Tracking multiple objects in videos relies on modeling the spatial-temporal interactions of the objects. In this paper, we propose a solution named Spatial-Temporal Graph Transformer (STGT), which leverages powerful graph transformers to efficiently model the spatial and temporal interactions among the objects. STGT effectively models the interactions of a large number of objects by arranging the trajectories of the tracked objects as a set of sparse weighted graphs, and constructing a spatial graph transformer encoder layer, a temporal transformer encoder layer, and a spatial graph transformer decoder layer based on the graphs. STGT is not only more computationally efficient than the traditional Transformer, but it also achieves better tracking accuracy. To further improve the tracking speed and accuracy, we propose a cascade association framework to handle low-score detections and long-term occlusions that require large computational resources to model in STGT. The proposed method is evaluated on multiple benchmark datasets including MOT15, MOT16, MOT17, and MOT20, and it achieves state-of-the-art performance on all the datasets.
翻訳日:2021-04-03 06:22:07 公開日:2021-04-01
# (参考訳) 同時クラスタリングと一貫性学習による教師なし人物再同定 [全文訳有]

Unsupervised Person Re-identification via Simultaneous Clustering and Consistency Learning ( http://arxiv.org/abs/2104.00202v1 )

ライセンス: CC BY 4.0
Junhui Yin, Jiayan Qiu, Siqing Zhang, Jiyang Xie, Zhanyu Ma, and Jun Guo(参考訳) 教師なし人物再識別(re-ID)は、教師付き再IDモデルのスケーラビリティ問題を解決する可能性から重要なトピックとなっている。 しかし、既存の手法ではクラスタリングの擬似ラベルを単純に利用して監視を行うため、学習モデルの表現能力を制限するデータ自体のセマンティックな情報を十分に検討していない。 そこで本研究では,学習中の静止画像から視覚的一貫性と時間的一貫性を学習し,教師なし再識別のためのプリテキストタスクを設計し,クラスタリングネットワークが画像を自動的にセマンティッククラスタに分離できるようにする。 具体的には,2つの同一画像の符号化されたビュー間の一致を潜在空間の一貫性損失によって最大化することにより,意味的に意味のある表現を学習する。 一方、2つの符号化されたビューを同じクラスタにグループ化することでモデルを最適化し、ビュー間の視覚的一貫性を高める。 market-1501, dukemtmc-reid, msmt17データセットにおける実験により,提案手法が最先端手法よりも大きなマージンで優れていることが示された。

Unsupervised person re-identification (re-ID) has become an important topic due to its potential to resolve the scalability problem of supervised re-ID models. However, existing methods simply utilize pseudo labels from clustering for supervision and thus have not yet fully explored the semantic information in data itself, which limits representation capabilities of learned models. To address this problem, we design a pretext task for unsupervised re-ID by learning visual consistency from still images and temporal consistency during training process, such that the clustering network can separate the images into semantic clusters automatically. Specifically, the pretext task learns semantically meaningful representations by maximizing the agreement between two encoded views of the same image via a consistency loss in latent space. Meanwhile, we optimize the model by grouping the two encoded views into same cluster, thus enhancing the visual consistency between views. Experiments on Market-1501, DukeMTMC-reID and MSMT17 datasets demonstrate that our proposed approach outperforms the state-of-the-art methods by large margins.
翻訳日:2021-04-03 06:06:57 公開日:2021-04-01
# (参考訳) 学習可能な対称量子化器を用いたマルチビット量子化およびバイナリ化ネットワークの学習 [全文訳有]

Training Multi-bit Quantized and Binarized Networks with A Learnable Symmetric Quantizer ( http://arxiv.org/abs/2104.00210v1 )

ライセンス: CC BY 4.0
Phuoc Pham, Jacob Abraham, Jaeyong Chung(参考訳) リソース制約のあるデバイスや大規模サービスのためのクラウドプラットフォームにそれらをデプロイするには、ディープニューラルネットワークの重み付けとアクティベーションの定量化が不可欠だ。 双対化は量子化の特別な場合であるが、この極端な場合はしばしばいくつかの訓練困難を生じさせ、特殊なモデルや訓練方法が必要となる。 その結果、近年の量子化手法は二項化を提供していないため、最も資源効率のよい選択肢が失われ、量子化と二項化のネットワークは異なる研究領域となっている。 量子化フレームワークにおける双項化の難しさについて検討し、二項化トレーニングを実現するために必要なものは、対称量子化器、優れた初期化、注意深いハイパーパラメータ選択であることを示す。 これらの手法はマルチビット量子化の大幅な改善にも繋がる。 我々は,resnet-18,-34,mobil enetv2などの様々なアーキテクチャを持つimagenetデータセット上で,unified quantization framework(uniq)を実演する。 マルチビット量子化では、UniQは最先端の精度を達成するために既存の手法より優れている。 バイナライゼーションでは、達成された精度は、元のアーキテクチャを変更することなく既存の最先端の手法に匹敵する。

Quantizing weights and activations of deep neural networks is essential for deploying them in resource-constrained devices, or cloud platforms for at-scale services. While binarization is a special case of quantization, this extreme case often leads to several training difficulties, and necessitates specialized models and training methods. As a result, recent quantization methods do not provide binarization, thus losing the most resource-efficient option, and quantized and binarized networks have been distinct research areas. We examine binarization difficulties in a quantization framework and find that all we need to enable the binary training are a symmetric quantizer, good initialization, and careful hyperparameter selection. These techniques also lead to substantial improvements in multi-bit quantization. We demonstrate our unified quantization framework, denoted as UniQ, on the ImageNet dataset with various architectures such as ResNet-18,-34 and MobileNetV2. For multi-bit quantization, UniQ outperforms existing methods to achieve the state-of-the-art accuracy. In binarization, the achieved accuracy is comparable to existing state-of-the-art methods even without modifying the original architectures.
翻訳日:2021-04-03 05:51:53 公開日:2021-04-01
# (参考訳) ディープネットワークのための高速ジャコビアンベクター製品 [全文訳有]

Fast Jacobian-Vector Product for Deep Networks ( http://arxiv.org/abs/2104.00219v1 )

ライセンス: CC BY 4.0
Randall Balestriero, Richard Baraniuk(参考訳) ヤコビアンベクター製品(JVP)は、より高速な制約付き最適化、一般化保証付き正規化、敵のサンプル感度評価を含む、近年のディープネットワーク(DN)における多くの発展のバックボーンを形成する。 残念ながら、JVPは現実世界のDNアーキテクチャでは計算コストが高く、DNアーキテクチャを変更する際にJVPプログラムを手動で適応させるのを避けるために自動微分を使用する必要がある。 本研究では,連続的なピースワイドアフィンを用いた任意のDNに対してJVPを高速に計算する新しい手法を提案する(例えば,リーク-ReLU,最大プール,最大アウトなど)。 非線形性 当社の手法は,13ドルのDNアーキテクチャよりも高速で,さまざまなハードウェアにまたがって,平均2ドル(約2万2000円)の速度で実現されている。 さらに、当社のソリューションは自動微分を必要としないため、ソフトウェアへのデプロイが容易で、DNアーキテクチャに依存しないコード行だけを変更する必要があります。

Jacobian-vector products (JVPs) form the backbone of many recent developments in Deep Networks (DNs), with applications including faster constrained optimization, regularization with generalization guarantees, and adversarial example sensitivity assessments. Unfortunately, JVPs are computationally expensive for real world DN architectures and require the use of automatic differentiation to avoid manually adapting the JVP program when changing the DN architecture. We propose a novel method to quickly compute JVPs for any DN that employ Continuous Piecewise Affine (e.g., leaky-ReLU, max-pooling, maxout, etc.) nonlinearities. We show that our technique is on average $2\times$ faster than the fastest alternative over $13$ DN architectures and across various hardware. In addition, our solution does not require automatic differentiation and is thus easy to deploy in software, requiring only the modification of a few lines of codes that do not depend on the DN architecture.
翻訳日:2021-04-03 05:36:23 公開日:2021-04-01
# (参考訳) df^2am: rgb-infrared cross-modality person再同定のためのデュアルレベル特徴融合と親和性モデリング [全文訳有]

DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared Cross-modality Person Re-identification ( http://arxiv.org/abs/2104.00226v1 )

ライセンス: CC BY 4.0
Junhui Yin, Zhanyu Ma, Jiyang Xie, Shibo Nie, Kongming Liang, and Jun Guo(参考訳) RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違により難しい課題である。 既存の作品は主に、モダリティにまたがるイメージスタイルや特徴分布の整列によるモダリティ共有グローバル表現の学習に重点を置いているが、身体部分からの局所的特徴と人物像の関係は無視されている。 本稿では,局所的からグローバル的に識別的特徴に注意を向けることで,二値型(局所的およびグローバル的)特徴融合(df^2)モジュールを提案する。 特に、局所的特徴に対する注意は局所的に決定され、すなわち、学習された変換関数をそれ自体に適用する。 一方,人物画像からグローバル特徴の関係をさらに掘り下げるために,最適なモダリティ内およびモダリティ間画像マッチングを得るためのアフィニティモデリング(am)モジュールを提案する。 特に、amは、サンプルの類似性においてクラス内コンパクト性とクラス間分離性を教師付き情報として採用し、モダリティ内およびクラス間サンプル間の親和性をモデル化する。 実験の結果,提案手法は,広く使用されている2つのre-IDデータセットであるSYSU-MM01とRegDBにおいて,最先端の手法よりも高い性能を示した。

RGB-infrared person re-identification is a challenging task due to the intra-class variations and cross-modality discrepancy. Existing works mainly focus on learning modality-shared global representations by aligning image styles or feature distributions across modalities, while local feature from body part and relationships between person images are largely neglected. In this paper, we propose a Dual-level (i.e., local and global) Feature Fusion (DF^2) module by learning attention for discriminative feature from local to global manner. In particular, the attention for a local feature is determined locally, i.e., applying a learned transformation function on itself. Meanwhile, to further mining the relationships between global features from person images, we propose an Affinities Modeling (AM) module to obtain the optimal intra- and inter-modality image matching. Specifically, AM employes intra-class compactness and inter-class separability in the sample similarities as supervised information to model the affinities between intra- and inter-modality samples. Experimental results show that our proposed method outperforms state-of-the-arts by large margins on two widely used cross-modality re-ID datasets SYSU-MM01 and RegDB, respectively.
翻訳日:2021-04-03 05:08:40 公開日:2021-04-01
# (参考訳) あいまいさに潜む:潜在分布マイニングと表情認識のためのペアワイズ不確実性推定 [全文訳有]

Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition ( http://arxiv.org/abs/2104.00232v1 )

ライセンス: CC0 1.0
Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen, Tao Mei(参考訳) 顔表情の主観的アノテーションとクラス間類似性により、顔表情認識(FER)における重要な課題の1つは、アノテーションの曖昧さである。 本稿では,潜在分布マイニングとペアワイズ不確実性推定という2つの視点から,アノテーションあいまいな問題に対処するためのdmueという解を提案する。 前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。 後者の場合、インスタンス間の意味的特徴のペアワイズ関係は、インスタンス空間の曖昧さの範囲を推定するために完全に活用される。 提案手法はバックボーンアーキテクチャとは独立であり,推論に余分な負担を伴わない。 実験は、人気のある実世界のベンチマークと合成ノイズデータセットに基づいて行われる。 いずれにせよ、提案したDMUEは安定した性能を達成する。

Due to the subjective annotation and the inherent interclass similarity of facial expressions, one of key challenges in Facial Expression Recognition (FER) is the annotation ambiguity. In this paper, we proposes a solution, named DMUE, to address the problem of annotation ambiguity from two perspectives: the latent Distribution Mining and the pairwise Uncertainty Estimation. For the former, an auxiliary multi-branch learning framework is introduced to better mine and describe the latent distribution in the label space. For the latter, the pairwise relationship of semantic feature between instances are fully exploited to estimate the ambiguity extent in the instance space. The proposed method is independent to the backbone architectures, and brings no extra burden for inference. The experiments are conducted on the popular real-world benchmarks and the synthetic noisy datasets. Either way, the proposed DMUE stably achieves leading performance.
翻訳日:2021-04-03 04:53:35 公開日:2021-04-01
# (参考訳) 視覚分類のための教師なし領域拡張 [全文訳有]

Unsupervised Domain Expansion for Visual Categorization ( http://arxiv.org/abs/2104.00233v1 )

ライセンス: CC BY 4.0
Jie Wang and Kaibin Tian and Dayong Ding and Gang Yang and Xirong Li(参考訳) 付加的なアノテーションを必要とせずに視覚的分類を新しいドメインに拡張することは、マルチメディアインテリジェンスにとって長年の関心事である。 これまで、この課題はunsupervised domain adaptation (uda)によって解決されてきた。 ソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータを考えると、UDAは識別とドメイン不変の両方の深い表現を求めます。 UDAは対象ドメインに重点を置いているが、テスト例がどのドメインから来ているかは分かっていないため、ソースドメインとターゲットドメインの両方のパフォーマンスが重要であると論じる。 本稿では,未ラベルデータを用いて対象領域の深層モデルを適用することを目的とした,unsupervised domain expansion (UDE) と呼ばれる新たなタスクを提案することにより,UDAを拡張した。 UDEタスクの一般的な方法として知識蒸留ドメイン拡張(KDDE)を提案する。 そのドメイン適応モジュールは既存のモデルでもインスタンス化できる。 我々は知識蒸留に基づく学習機構を開発し、KDDEはソースとターゲットドメインが等しく扱われる単一の目的を最適化することができる。 Office-HomeとDomainNetの2つの主要なベンチマークに関する大規模な実験は、KDDEがUDAタスクとUDEタスクの両方において、DDC、DANN、DAAN、CDANの4つの競合ベースラインと好適に比較していることを示している。 また、本研究では、現在のUDAモデルは、ソースドメインにおける顕著なパフォーマンス損失を犠牲にして、ターゲットドメインにおけるパフォーマンスを改善することも明らかにした。

Expanding visual categorization into a novel domain without the need of extra annotation has been a long-term interest for multimedia intelligence. Previously, this challenge has been approached by unsupervised domain adaptation (UDA). Given labeled data from a source domain and unlabeled data from a target domain, UDA seeks for a deep representation that is both discriminative and domain-invariant. While UDA focuses on the target domain, we argue that the performance on both source and target domains matters, as in practice which domain a test example comes from is unknown. In this paper we extend UDA by proposing a new task called unsupervised domain expansion (UDE), which aims to adapt a deep model for the target domain with its unlabeled data, meanwhile maintaining the model's performance on the source domain. We propose Knowledge Distillation Domain Expansion (KDDE) as a general method for the UDE task. Its domain-adaptation module can be instantiated with any existing model. We develop a knowledge distillation based learning mechanism, enabling KDDE to optimize a single objective wherein the source and target domains are equally treated. Extensive experiments on two major benchmarks, i.e., Office-Home and DomainNet, show that KDDE compares favorably against four competitive baselines, i.e., DDC, DANN, DAAN, and CDAN, for both UDA and UDE tasks. Our study also reveals that the current UDA models improve their performance on the target domain at the cost of noticeable performance loss on the source domain.
翻訳日:2021-04-03 04:36:24 公開日:2021-04-01
# (参考訳) 低資源インド語における多言語およびコードスイッチングASR課題 [全文訳有]

Multilingual and code-switching ASR challenges for low resource Indian languages ( http://arxiv.org/abs/2104.00235v1 )

ライセンス: CC BY 4.0
Anuj Diwan, Rakesh Vaideeswaran, Sanket Shah, Ankita Singh, Srinivasa Raghavan, Shreya Khare, Vinit Unni, Saurabh Vyas, Akash Rajpuria, Chiranjeevi Yarra, Ashish Mittal, Prasanta Kumar Ghosh, Preethi Jyothi, Kalika Bali, Vivek Seshadri, Sunayana Sitaram, Samarth Bharadwaj, Jai Nanavati, Raoul Nanavati, Karthik Sankaranarayanan, Tejaswi Seeram and Basil Abraham(参考訳) 近年,低量のラベル付きコーパスを多言語で活用することにより,音声認識システムが複数の低リソース言語に対応できる多言語自動音声認識(ASR)への関心が高まっている。 今日の世界では多言語主義が一般的になり、コードスイッチング ASR にも関心が高まっている。 コードスイッチングでは、複数の言語が単一の文内または文間で自由に交換される。 低リソース多言語およびコードスイッチングASRの成功は、しばしばアコースティックス、言語特性、利用可能なデータ量、そしてこれらがASRシステムの構築においてどのように慎重に検討されているかという点で様々な言語に依存する。 この課題では、ヒンディー語、マラティー語、オディア語、タミル語、テルグ語、グジャラート語、ベンガル語という合計7つのインドの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に焦点を合わせたいと思います。 この目的のために,Hindi- English と Bengali- English の2つのコード交換言語対を含む,列車とテストセットからなる約600時間の音声データを提供する。 また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。

Recently, there is increasing interest in multilingual automatic speech recognition (ASR) where a speech recognition system caters to multiple low resource languages by taking advantage of low amounts of labeled corpora in multiple languages. With multilingualism becoming common in today's world, there has been increasing interest in code-switching ASR as well. In code-switching, multiple languages are freely interchanged within a single sentence or between sentences. The success of low-resource multilingual and code-switching ASR often depends on the variety of languages in terms of their acoustics, linguistic characteristics as well as the amount of data available and how these are carefully considered in building the ASR system. In this challenge, we would like to focus on building multilingual and code-switching ASR systems through two different subtasks related to a total of seven Indian languages, namely Hindi, Marathi, Odia, Tamil, Telugu, Gujarati and Bengali. For this purpose, we provide a total of ~600 hours of transcribed speech data, comprising train and test sets, in these languages including two code-switched language pairs, Hindi-English and Bengali-English. We also provide a baseline recipe for both the tasks with a WER of 30.73% and 32.45% on the test sets of multilingual and code-switching subtasks, respectively.
翻訳日:2021-04-03 04:08:33 公開日:2021-04-01
# (参考訳) DNNトレーニングにおける記憶行動のピンポイント化 [全文訳有]

Pinpointing the Memory Behaviors of DNN Training ( http://arxiv.org/abs/2104.00258v1 )

ライセンス: CC BY 4.0
Jiansong Li, Xiao Dong, Guangli Li, Peng Zhao, Xueying Wang, Xiaobing Chen, Xianzhi Yu, Yongxin Yang, Zihan Jiang, Wei Cao, Lei Liu, Xiaobing Feng(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは通常、DNNアクセラレータのデバイスメモリ容量が制限されているため、メモリ不足である。 DNNトレーニングのメモリ挙動を特徴付けることは、デバイスのメモリ圧力を最適化するために重要である。 本研究では,ランタイムシステムのメモリアロケータを計測することにより,トレーニング中のGPUの各デバイスメモリブロックのメモリ挙動を特定する。 以上の結果から,デバイスメモリブロックのメモリアクセスパターンは安定であり,反復的に従うことが示唆された。 これらの観測は、生のメモリアクセスパターンの観点から、将来のメモリ効率トレーニングの最適化に有用である。

The training of deep neural networks (DNNs) is usually memory-hungry due to the limited device memory capacity of DNN accelerators. Characterizing the memory behaviors of DNN training is critical to optimize the device memory pressures. In this work, we pinpoint the memory behaviors of each device memory block of GPU during training by instrumenting the memory allocators of the runtime system. Our results show that the memory access patterns of device memory blocks are stable and follow an iterative fashion. These observations are useful for the future optimization of memory-efficient training from the perspective of raw memory access patterns.
翻訳日:2021-04-03 03:55:04 公開日:2021-04-01
# (参考訳) 翻訳の適切性判定のための翻訳過誤の検出 [全文訳有]

Detecting over/under-translati on errors for determining adequacy in human translations ( http://arxiv.org/abs/2104.00267v1 )

ライセンス: CC BY 4.0
Prabhakar Gupta, Ridha Juneja, Anil Nelakanti, Tamojit Chatterjee(参考訳) 本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。 我々は機械翻訳(MT)の出力に制限を課しておらず、特に人間の生成した翻訳パイプラインでアプリケーションをターゲットにしています。 本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。 我々は、合成学習データに基づくモデルを学ぶことで、参照翻訳なしでこれを実現する。 事前学習した言語モデルから学習した様々な分類ネットワークと、最高のハイブリッドネットワークである gru + cnn を比較し、89.3%の精度を8言語で評価した。

We present a novel approach to detecting over and under translations (OT/UT) as part of adequacy error checks in translation evaluation. We do not restrict ourselves to machine translation (MT) outputs and specifically target applications with human generated translation pipeline. The goal of our system is to identify OT/UT errors from human translated video subtitles with high error recall. We achieve this without reference translations by learning a model on synthesized training data. We compare various classification networks that we trained on embeddings from pre-trained language model with our best hybrid network of GRU + CNN achieving 89.3% accuracy on high-quality human-annotated evaluation data in 8 languages.
翻訳日:2021-04-03 03:48:42 公開日:2021-04-01
# (参考訳) コンパクトサポートニューラルネットワーク [全文訳有]

The Compact Support Neural Network ( http://arxiv.org/abs/2104.00269v1 )

ライセンス: CC BY 4.0
Adrian Barbu, Hongyu Mou(参考訳) ニューラルネットワークは多くの分野で人気があり有用であるが、トレーニングデータから離れた例に対して高い信頼性の応答を与えるという問題がある。 これにより、ニューラルネットワークは、重大な間違いを犯しながら予測に非常に自信を持ち、自動運転や宇宙探査などの安全クリティカルなアプリケーションに対する信頼性を制限します。 本稿では,標準的なドット生成系ニューロンとRBFニューロンを2つの極端な形状パラメータのケースとして用いたニューロン一般化について述べる。 活性化関数としてReLUを用いると、コンパクトな支持を持つ新しいニューロンが得られ、その出力は有界領域の外側でゼロとなる。 トレーニングされた標準ニューラルネットワークから始めて、必要な値まで形状パラメータを徐々に増加させることで、そのようなニューロンによるニューラルネットワークのトレーニングの難しさを回避する方法を示す。 標準ベンチマークデータセットの実験を通じて, 提案手法が期待されていることを示し, 分布内サンプルの精度が良好でありながら, 分布外サンプルの信頼度も低いことが示唆された。

Neural networks are popular and useful in many fields, but they have the problem of giving high confidence responses for examples that are away from the training data. This makes the neural networks very confident in their prediction while making gross mistakes, thus limiting their reliability for safety-critical applications such as autonomous driving, space exploration, etc. In this paper, we present a neuron generalization that has the standard dot-product-based neuron and the RBF neuron as two extreme cases of a shape parameter. Using ReLU as the activation function we obtain a novel neuron that has compact support, which means its output is zero outside a bounded domain. We show how to avoid difficulties in training a neural network with such neurons, by starting with a trained standard neural network and gradually increasing the shape parameter to the desired value. Through experiments on standard benchmark datasets, we show the promise of the proposed approach, in that it can have good prediction accuracy on in-distribution samples while being able to consistently detect and have low confidence on out-of-distribution samples.
翻訳日:2021-04-03 03:39:35 公開日:2021-04-01
# (参考訳) サンスクリットにおけるニューラルワード埋め込みの評価 [全文訳有]

Evaluating Neural Word Embeddings for Sanskrit ( http://arxiv.org/abs/2104.00270v1 )

ライセンス: CC BY 4.0
Jivnesh Sandhan, Om Adideva, Digumarthi Komal, Laxmidhar Behera, and Pawan Goyal(参考訳) 近年、教師付き学習パラダイムの驚くべきパフォーマンスは、サンスクリット計算言語学者からかなりの注目を集めている。 その結果、サンスクリットのコミュニティは、様々な下流自然言語処理(NLP)タスクのためのタスク固有のラベル付きデータを構築するために、有望な努力を払っている。 これらのアプローチの主な構成要素は、単語埋め込みの表現である。 単語埋め込みは、容易に手に入らないデータから学んだ知識を転送し、低リソース設定でのタスク固有のパフォーマンスを改善するのに役立つ。 過去10年間、サンスクリットのデジタル化の分野は大いに興奮してきた。 このような手軽な資源を効果的に活用するには、サンスクリット語に対する単語埋め込みアプローチの体系的な研究が不可欠である。 本研究では,単語埋め込みの有効性について検討する。 単語の埋め込みを幅広いカテゴリに分類し、体系的な実験を促進し、4つの本質的なタスクで評価する。 我々はサンスクリット語に対する埋め込みアプローチ(もともとサンスクリット語以外の言語に対して提案された)の有効性と言語による様々な課題について検討する。

Recently, the supervised learning paradigm's surprisingly remarkable performance has garnered considerable attention from Sanskrit Computational Linguists. As a result, the Sanskrit community has put laudable efforts to build task-specific labeled data for various downstream Natural Language Processing (NLP) tasks. The primary component of these approaches comes from representations of word embeddings. Word embedding helps to transfer knowledge learned from readily available unlabelled data for improving task-specific performance in low-resource setting. Last decade, there has been much excitement in the field of digitization of Sanskrit. To effectively use such readily available resources, it is very much essential to perform a systematic study on word embedding approaches for the Sanskrit language. In this work, we investigate the effectiveness of word embeddings. We classify word embeddings in broad categories to facilitate systematic experimentation and evaluate them on four intrinsic tasks. We investigate the efficacy of embeddings approaches (originally proposed for languages other than Sanskrit) for Sanskrit along with various challenges posed by language.
翻訳日:2021-04-03 03:26:43 公開日:2021-04-01
# (参考訳) 多国間機械翻訳ツール、データおよび事前学習モデル [全文訳有]

Many-to-English Machine Translation Tools, Data, and Pretrained Models ( http://arxiv.org/abs/2104.00290v1 )

ライセンス: CC BY 4.0
Thamme Gowda, Zhao Zhang, Chris A Mattmann, Jonathan May(参考訳) 世界には7000以上の言語があるが、ほとんどの翻訳研究はいくつかの高ソース言語をターゲットにしている。 商用翻訳システムは100言語以下しかサポートせず、これらのモデルを低リソース言語に転送することができない。 本研究では,機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。 本稿では,500言語から英語への翻訳が可能な多言語ニューラルマシン翻訳モデルを構築し,その有用性を示す。 この多言語モデルを,サービスとして,あるいは低リソース言語へのトランスファー学習の親モデルとして,簡単にダウンロード可能かつ使用可能にする。

While there are more than 7000 languages in the world, most translation research efforts have targeted a few high-resource languages. Commercial translation systems support only one hundred languages or fewer, and do not make these models available for transfer to low resource languages. In this work, we present useful tools for machine translation research: MTData, NLCodec, and RTG. We demonstrate their usefulness by creating a multilingual neural machine translation model capable of translating from 500 source languages to English. We make this multilingual model readily downloadable and usable as a service, or as a parent model for transfer-learning to even lower-resource languages.
翻訳日:2021-04-03 03:05:07 公開日:2021-04-01
# (参考訳) 学生は最高の教師です:マルチエクイットによるエグジットセンブル蒸留 [全文訳有]

Students are the Best Teacher: Exit-Ensemble Distillation with Multi-Exits ( http://arxiv.org/abs/2104.00299v1 )

ライセンス: CC BY 4.0
Hojung Lee, Jong-Seok Lee(参考訳) 本稿では,事前学習した教師ネットワークを使わずに,畳み込みニューラルネットワーク(CNN)の分類性能を向上させるための知識蒸留に基づく学習手法を提案する。 提案手法は,従来のCNNの中央に補助分類器(出口と呼ばれる)を付加するマルチエグジットアーキテクチャを利用して,早期推論結果を得る。 本手法は,蒸留ターゲットとして出口のアンサンブルを用いてネットワークを訓練し,ネットワーク全体の分類性能を大幅に向上させる。 教師が生徒にのみ教えるという従来の「蒸留」とは違って,生徒は他の生徒や教師もより良く学ぶことができることを示し,知識蒸留の新しいパラダイムを提案する。 実験により,提案手法は,様々なCNNアーキテクチャ(VGG,ResNet,ResNeXt, WideResNetなど)の分類性能を大幅に向上することを示す。 さらに,提案手法は,安定性の向上とともに学習の収束を早めることができる。 私たちのコードはgithubで入手できる。

This paper proposes a novel knowledge distillation-based learning method to improve the classification performance of convolutional neural networks (CNNs) without a pre-trained teacher network, called exit-ensemble distillation. Our method exploits the multi-exit architecture that adds auxiliary classifiers (called exits) in the middle of a conventional CNN, through which early inference results can be obtained. The idea of our method is to train the network using the ensemble of the exits as the distillation target, which greatly improves the classification performance of the overall network. Our method suggests a new paradigm of knowledge distillation; unlike the conventional notion of distillation where teachers only teach students, we show that students can also help other students and even the teacher to learn better. Experimental results demonstrate that our method achieves significant improvement of classification performance on various popular CNN architectures (VGG, ResNet, ResNeXt, WideResNet, etc.). Furthermore, the proposed method can expedite the convergence of learning with improved stability. Our code will be available on Github.
翻訳日:2021-04-03 02:43:03 公開日:2021-04-01
# (参考訳) MeanShift++: セグメンテーションとオブジェクトトラッキングのアプリケーションによる極めて高速なモード探索 [全文訳有]

MeanShift++: Extremely Fast Mode-Seeking With Applications to Segmentation and Object Tracking ( http://arxiv.org/abs/2104.00303v1 )

ライセンス: CC BY 4.0
Jennifer Jang, Heinrich Jiang(参考訳) MeanShiftは、機械学習の幅広いアプリケーションで使われている一般的なモード探索クラスタリングアルゴリズムである。 しかし、反復毎に2倍のランタイムがあるため、制限的に遅いことが知られている。 提案するmeanshift++は,meanshiftに基づく非常に高速なモード探索アルゴリズムであり,計算コストの高い隣人探索を,隣接するグリッドセルの密度重み付け平均に置き換えることで,平均シフトステップを高速化する。 さらに,この格子を用いた密度推定手法には理論的保証が伴うことを示した。 ランタイムは点数で線形であり、次元で指数関数的であるため、画像のセグメンテーションやオブジェクト追跡といった低次元アプリケーションではMeanShift++が理想的である。 meanshift++は、ベンチマークデータセットとほぼ同一の画像セグメンテーションで競合するクラスタリング結果によって、 meanshiftよりも1万倍以上高速であることが、広範な実験的分析で示されている。 最後に,オブジェクト追跡の有望な結果を示す。

MeanShift is a popular mode-seeking clustering algorithm used in a wide range of applications in machine learning. However, it is known to be prohibitively slow, with quadratic runtime per iteration. We propose MeanShift++, an extremely fast mode-seeking algorithm based on MeanShift that uses a grid-based approach to speed up the mean shift step, replacing the computationally expensive neighbors search with a density-weighted mean of adjacent grid cells. In addition, we show that this grid-based technique for density estimation comes with theoretical guarantees. The runtime is linear in the number of points and exponential in dimension, which makes MeanShift++ ideal on low-dimensional applications such as image segmentation and object tracking. We provide extensive experimental analysis showing that MeanShift++ can be more than 10,000x faster than MeanShift with competitive clustering results on benchmark datasets and nearly identical image segmentations as MeanShift. Finally, we show promising results for object tracking.
翻訳日:2021-04-03 02:31:53 公開日:2021-04-01
# (参考訳) マイクロビデオリメンデーションのための多目的間高次相互作用のモデル化 [全文訳有]

Modeling High-order Interactions across Multi-interests for Micro-video Reommendation ( http://arxiv.org/abs/2104.00305v1 )

ライセンス: CC BY 4.0
Dong Yao, Shengyu Zhang, Zhou Zhao, Wenyan Fan, Jieming Zhu, Xiuqiang He, Fei Wu(参考訳) パーソナライズドレコメンデーションシステムは様々なビデオプラットフォームで普及している。 多くの効果的な方法が提案されているが、そのほとんどは、見るマイクロビデオ間のユーザのマルチレベルな関心や依存関係をうまく捉えていなかった。 これらの問題を解決するために,ユーザの関心表現を強化するセルフオーバーCoアテンションモジュールを提案する。 特に、まず、異なるレベルの相関パターンをモデル化するためにコアテンションを使用し、次に特定のレベルの相関パターンをモデル化するために自己アテンションを使用します。 フィルタされた公開データセットの実験結果から,提案モジュールが有用であることが確認された。

Personalized recommendation system has become pervasive in various video platform. Many effective methods have been proposed, but most of them didn't capture the user's multi-level interest trait and dependencies between their viewed micro-videos well. To solve these problems, we propose a Self-over-Co Attention module to enhance user's interest representation. In particular, we first use co-attention to model correlation patterns across different levels and then use self-attention to model correlation patterns within a specific level. Experimental results on filtered public datasets verify that our presented module is useful.
翻訳日:2021-04-03 02:03:17 公開日:2021-04-01
# (参考訳) 非バイアスシーングラフ生成のための適応メッセージパッシングを用いた2部グラフネットワーク [全文訳有]

Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2104.00308v1 )

ライセンス: CC BY 4.0
Rongjie Li, Songyang Zhang, Bo Wan, Xuming He(参考訳) シーングラフ生成は、幅広い視覚的応用を伴う重要な視覚的理解タスクである。 最近の大きな進歩にもかかわらず、本質的なロングテールのクラス分布と大きなクラス内変異のため、依然として困難である。 そこで本研究では,不偏シーングラフ生成のための適応的メッセージ伝搬機構を備えた,信頼度対応二部グラフニューラルネットワークを提案する。 さらに,グラフネットワークのトレーニングにおいて不均衡なデータ分散問題を軽減するための,効率的な双方向データ再サンプリング戦略を提案する。 提案手法は,Visual GenomeやOpen Images V4/V6など,いくつかの課題のあるデータセットに対して,従来の手法よりも優れた,あるいは競合的な性能を実現している。

Scene graph generation is an important visual understanding task with a broad range of vision applications. Despite recent tremendous progress, it remains challenging due to the intrinsic long-tailed class distribution and large intra-class variation. To address these issues, we introduce a novel confidence-aware bipartite graph neural network with adaptive message propagation mechanism for unbiased scene graph generation. In addition, we propose an efficient bi-level data resampling strategy to alleviate the imbalanced data distribution problem in training our graph network. Our approach achieves superior or competitive performance over previous methods on several challenging datasets, including Visual Genome, Open Images V4/V6, demonstrating its effectiveness and generality.
翻訳日:2021-04-03 01:59:36 公開日:2021-04-01
# (参考訳) 中性記事生成によるメディアバイアスの軽減 [全文訳有]

Mitigating Media Bias through Neutral Article Generation ( http://arxiv.org/abs/2104.00336v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Yejin Bang, Andrea Madotto, Pascale Fung(参考訳) メディアの偏りは政治的分極の増大につながるため、自動緩和法の必要性が高まっている。 既存の緩和作業は、様々なニュース報道を提供するために複数のニュースメディアからの記事を表示しているが、表示された各記事固有のバイアスを中和することはない。 そこで本稿では,バランスのとれた情報やバイアスのない情報へのより効率的なアクセスを容易にするために,複数のバイアスのある記事から単一中和記事を生成するタスクを提案する。 本稿では、新しいデータセットneuwsをコンパイルし、自動評価メトリックを定義し、提案するタスクの出発点として、ベースラインと複数の分析を提供する。 最後に、測定値と人間の判断の一致を示すために、人間による評価を得る。

Media bias can lead to increased political polarization, and thus, the need for automatic mitigation methods is growing. Existing mitigation work displays articles from multiple news outlets to provide diverse news coverage, but without neutralizing the bias inherent in each of the displayed articles. Therefore, we propose a new task, a single neutralized article generation out of multiple biased articles, to facilitate more efficient access to balanced and unbiased information. In this paper, we compile a new dataset NeuWS, define an automatic evaluation metric, and provide baselines and multiple analyses to serve as a solid starting point for the proposed task. Lastly, we obtain a human evaluation to demonstrate the alignment between our metric and human judgment.
翻訳日:2021-04-03 01:42:41 公開日:2021-04-01
# (参考訳) 宇宙空間における広域6次元物体ポーズ推定 [全文訳有]

Wide-Depth-Range 6D Object Pose Estimation in Space ( http://arxiv.org/abs/2104.00337v1 )

ライセンス: CC BY 4.0
Yinlin Hu, Sebastien Speierer, Wenzel Jakob, Pascal Fua, Mathieu Salzmann(参考訳) 空間における6次元ポーズ推定は、地球環境下では一般的ではないユニークな課題をもたらす。 最も顕著な違いの1つは、大気散乱の欠如であり、照明条件を複雑にしながら物体を遠くから見ることができる。 現在利用可能なベンチマークデータセットは、この側面に十分な重点を置いておらず、主にターゲットを近くで描写している。 大規模変動下でのポーズ推定に取り組む事前作業は、最初の見積もりスケールに対する2段階のアプローチと、サイズ変更されたイメージパッチでのポーズ推定に依存する。 代わりに,拡張性がより堅牢な,単一ステージの階層型エンドツーエンドトレーサブルネットワークを提案する。 宇宙で撮影された画像に類似した画像だけでなく、標準ベンチマークでも既存のアプローチを上回っていることを実証する。

6D pose estimation in space poses unique challenges that are not commonly encountered in the terrestrial setting. One of the most striking differences is the lack of atmospheric scattering, allowing objects to be visible from a great distance while complicating illumination conditions. Currently available benchmark datasets do not place a sufficient emphasis on this aspect and mostly depict the target in close proximity. Prior work tackling pose estimation under large scale variations relies on a two-stage approach to first estimate scale, followed by pose estimation on a resized image patch. We instead propose a single-stage hierarchical end-to-end trainable network that is more robust to scale variations. We demonstrate that it outperforms existing approaches not only on images synthesized to resemble images taken in space but also on standard benchmarks.
翻訳日:2021-04-03 01:39:28 公開日:2021-04-01
# (参考訳) 鏡の中の人間を観て3次元人間のポーズを再構築する [全文訳有]

Reconstructing 3D Human Pose by Watching Humans in the Mirror ( http://arxiv.org/abs/2104.00340v1 )

ライセンス: CC BY 4.0
Qi Fang, Qing Shuai, Junting Dong, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,鏡を通して人物と人物の像を見ることができる1つの画像から3次元人間のポーズを再構築する新たな課題を紹介する。 単一視点からの3次元ポーズ推定の一般的なシナリオと比較すると、ミラー反射は深さのあいまいさを解消するための追加の視点を提供する。 ミラー対称性の制約を利用して正確な3次元ポーズ再構成を行う最適化手法を開発した。 また,単一画像中の点から鏡面の正常点を推定する手法も提案する。 提案手法を検証するために,多種多様な対象,ポーズ,背景をカバーするmirrored-humanという大規模データセットを収集した。 実験により,再構成した3次元ポーズを疑似接地としてミラー付き人間で学習すると,既存の1視点3次元ポーズ推定器の精度と一般化性が大幅に向上することが示された。

In this paper, we introduce the new task of reconstructing 3D human pose from a single image in which we can see the person and the person's image through a mirror. Compared to general scenarios of 3D pose estimation from a single view, the mirror reflection provides an additional view for resolving the depth ambiguity. We develop an optimization-based approach that exploits mirror symmetry constraints for accurate 3D pose reconstruction. We also provide a method to estimate the surface normal of the mirror from vanishing points in the single image. To validate the proposed approach, we collect a large-scale dataset named Mirrored-Human, which covers a large variety of human subjects, poses and backgrounds. The experiments demonstrate that, when trained on Mirrored-Human with our reconstructed 3D poses as pseudo ground-truth, the accuracy and generalizability of existing single-view 3D pose estimators can be largely improved.
翻訳日:2021-04-03 01:26:23 公開日:2021-04-01
# (参考訳) SpectralNET:ハイパースペクトル画像分類のための空間スペクトルウェーブレットCNNの探索 [全文訳有]

SpectralNET: Exploring Spatial-Spectral WaveletCNN for Hyperspectral Image Classification ( http://arxiv.org/abs/2104.00341v1 )

ライセンス: CC BY 4.0
Tanmay Chakraborty and Utkarsh Trehan(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたハイパースペクトル画像(HSI)分類は,現在の文献に広く見られる。 アプローチはSVMから2D CNN、3D CNN、3D-2D CNNまで様々である。 3D-2D CNN と FuSENet の他に,HSI 分類タスクにおいてスペクトル特徴と空間特徴の両方を同時に考慮していないため,性能が低下する。 3D CNNは計算的に重く、広く使われていないが、2D CNNは画像の多重解像度処理を考慮せず、空間的特徴に限定している。 3D-2D CNNは、スペクトルと空間の特徴をモデル化しようとするが、その性能は複数のデータセットに当てはまる。 本稿では,マルチ解像度HSI分類のための2次元CNNのバリエーションであるウェーブレットCNNであるSpectralNETを提案する。 ウェーブレットCNNはウェーブレット変換の層を用いてスペクトル特徴を出力する。 ウェーブレット変換の計算は3D CNNの計算よりも軽量である。 抽出されたスペクトル特徴は2d cnnと接続され、空間特徴を持ち出し、分類のための空間スペクトル特徴ベクトルを生成する。 全体として、高精度で多解像度HSIデータを分類できる優れたモデルが達成されている。 ベンチマークデータセットにおけるspectrumnetによる実験、すなわち Indian Pines、University of Pavia、Salinas Scenesは、最先端の手法に関して提案されているSpectralNETの優位性を確認している。 コードはhttps://github.com/t anmay-ty/SpectralNET で公開されている。

Hyperspectral Image (HSI) classification using Convolutional Neural Networks (CNN) is widely found in the current literature. Approaches vary from using SVMs to 2D CNNs, 3D CNNs, 3D-2D CNNs. Besides 3D-2D CNNs and FuSENet, the other approaches do not consider both the spectral and spatial features together for HSI classification task, thereby resulting in poor performances. 3D CNNs are computationally heavy and are not widely used, while 2D CNNs do not consider multi-resolution processing of images, and only limits itself to the spatial features. Even though 3D-2D CNNs try to model the spectral and spatial features their performance seems limited when applied over multiple dataset. In this article, we propose SpectralNET, a wavelet CNN, which is a variation of 2D CNN for multi-resolution HSI classification. A wavelet CNN uses layers of wavelet transform to bring out spectral features. Computing a wavelet transform is lighter than computing 3D CNN. The spectral features extracted are then connected to the 2D CNN which bring out the spatial features, thereby creating a spatial-spectral feature vector for classification. Overall a better model is achieved that can classify multi-resolution HSI data with high accuracy. Experiments performed with SpectralNET on benchmark dataset, i.e. Indian Pines, University of Pavia, and Salinas Scenes confirm the superiority of proposed SpectralNET with respect to the state-of-the-art methods. The code is publicly available in https://github.com/t anmay-ty/SpectralNET .
翻訳日:2021-04-03 01:13:41 公開日:2021-04-01
# (参考訳) TrajeVAE -- 軌道からの制御可能な人体運動生成 [全文訳有]

TrajeVAE -- Controllable Human Motion Generation from Trajectories ( http://arxiv.org/abs/2104.00351v1 )

ライセンス: CC BY-SA 4.0
Kacper Kania, Marek Kowalski, Tomasz Trzci\'nski(参考訳) 可塑性で制御可能な人間の3Dモーションアニメーションの生成は、しばしば熟練アーティストの手動介入を必要とする長年の問題である。 既存の機械学習アプローチは、ユーザーが将来の動きに関する部分的な情報を入力できるようにすることで、このプロセスを半自動化しようとする。 しかし、これらは2つの重要な方法で制限されている: 過去のフレームにポーズ予測をベースとしており、将来のポーズを制御していないか、ユーザが出力のきめ細かい制御を妨げている単一のトラジェクトリのみを入力できる。 この2つの問題を緩和するために, 将来のポーズ予測の問題を空間と時間におけるポーズ完了に再構成し, 軌道が欠落したジョイントでポーズとして表現する。 このようなフレームワークは、将来のポーズ予測のために設計された他のニューラルネットワークに一般化できることを示す。 このフレームワークでトレーニングされると、モデルは任意の数の軌跡からシーケンスを予測できる。 この概念を活用するために,3次元アニメーションのための多目的フレームワークを提供する新しいトランスフォーマー型アーキテクチャであるTrajeVAEを提案する。 TrajeVAEは、過去のポーズを精度で予測するトラジェクトリベースの参照手法や手法よりも優れていることを示す。 また、初期ポーズのみを設けた場合でも、合理的な将来のポーズを予測できることも示している。

The generation of plausible and controllable 3D human motion animations is a long-standing problem that often requires a manual intervention of skilled artists. Existing machine learning approaches try to semi-automate this process by allowing the user to input partial information about the future movement. However, they are limited in two significant ways: they either base their pose prediction on past prior frames with no additional control over the future poses or allow the user to input only a single trajectory that precludes fine-grained control over the output. To mitigate these two issues, we reformulate the problem of future pose prediction into pose completion in space and time where trajectories are represented as poses with missing joints. We show that such a framework can generalize to other neural networks designed for future pose prediction. Once trained in this framework, a model is capable of predicting sequences from any number of trajectories. To leverage this notion, we propose a novel transformer-like architecture, TrajeVAE, that provides a versatile framework for 3D human animation. We demonstrate that TrajeVAE outperforms trajectory-based reference approaches and methods that base their predictions on past poses in terms of accuracy. We also show that it can predict reasonable future poses even if provided only with an initial pose.
翻訳日:2021-04-03 01:02:58 公開日:2021-04-01
# (参考訳) 逆問題に対する効率的かつ微分可能な影計算 [全文訳有]

Efficient and Differentiable Shadow Computation for Inverse Problems ( http://arxiv.org/abs/2104.00359v1 )

ライセンス: CC BY 4.0
Linjie Lyu, Marc Habermann, Lingjie Liu, Mallikarjun B R, Ayush Tewari, Christian Theobalt(参考訳) 画像ベースの逆問題への関心が高まっている。 逆問題に対する従来の最適化ベースのソリューションの恩恵を受けるだけでなく、基底真理アノテーションによるデータのトレーニングが難しい学習ベースのアプローチの自己スーパービジョンを可能にする。 しかし、既存の差別化可能なレンダラーは、シーンの異なる点からの光源の可視性をモデル化しないか、画像の影に責任を持つか、あるいは数千回にわたって深いアーキテクチャを訓練するのに使用されるには遅すぎる。 そこで本研究では,可視性とソフトシャドー計算のための高精度かつ効率的な手法を提案する。 本手法は,照明と視認性の球面調和近似に基づいており,球面は球面と近似している。 これにより、レイトレーシングに基づく方法に比べて、シャドー計算の効率が大幅に向上する。 この定式化は微分可能であり, テクスチャ, 照明, 剛体ポーズ, および画像からの幾何学的変形回復などの逆問題に対して, 解析・合成最適化を用いて解くことができる。

Differentiable rendering has received increasing interest for image-based inverse problems. It can benefit traditional optimization-based solutions to inverse problems, but also allows for self-supervision of learning-based approaches for which training data with ground truth annotation is hard to obtain. However, existing differentiable renderers either do not model visibility of the light sources from the different points in the scene, responsible for shadows in the images, or are too slow for being used to train deep architectures over thousands of iterations. To this end, we propose an accurate yet efficient approach for differentiable visibility and soft shadow computation. Our approach is based on the spherical harmonics approximations of the scene illumination and visibility, where the occluding surface is approximated with spheres. This allows for a significantly more efficient shadow computation compared to methods based on ray tracing. As our formulation is differentiable, it can be used to solve inverse problems such as texture, illumination, rigid pose, and geometric deformation recovery from images using analysis-by-synthesi s optimization.
翻訳日:2021-04-03 00:42:45 公開日:2021-04-01
# (参考訳) 対人学習によるフェデレーションフットショット学習 [全文訳有]

Federated Few-Shot Learning with Adversarial Learning ( http://arxiv.org/abs/2104.00365v1 )

ライセンス: CC BY 4.0
Chenyou Fan and Jianwei Huang(参考訳) 私たちは、多くのモバイルデバイス上で実践的な学習タスクのための統一された機械学習モデルの開発に興味があります。 これは、タスクが異なる間にデータが不足し分散しているモバイルコンピューティングのシナリオで一般的に発生する状況である。 本稿では,少数のラベル付きサンプルで未認識のデータクラスを分類可能な,少数ショットの分類モデルを学ぶためのfederated few-shot learning(fedfsl)フレームワークを提案する。 federated learning戦略により、federated learningはデータのプライバシーと通信効率を維持しながら、多くのデータソースを活用できる。 1) 既存のフェデレートされた学習アプローチを直接使うと、クライアントモデルが生み出した誤った決定境界に繋がる可能性があるし、2) クライアントと同じような決定境界を制約することは、タスクの訓練に過度に適合するが、見当たらないタスクにうまく適応しない。 これらの問題に対処するために,クライアントモデルのばらつきを最小限に抑えて,ローカル更新の定期化を提案する。 また,攻撃的手法でトレーニングを定式化し,クライアントモデルを最適化して,見当たらないデータサンプルをよりよく表現できる識別的特徴空間を作成する。 直観を実証し,学習ビジョンタスクで10%以上,言語タスクで5%以上,ベースラインよりも優れたアプローチを示す実験を行った。

We are interested in developing a unified machine learning model over many mobile devices for practical learning tasks, where each device only has very few training data. This is a commonly encountered situation in mobile computing scenarios, where data is scarce and distributed while the tasks are distinct. In this paper, we propose a federated few-shot learning (FedFSL) framework to learn a few-shot classification model that can classify unseen data classes with only a few labeled samples. With the federated learning strategy, FedFSL can utilize many data sources while keeping data privacy and communication efficiency. There are two technical challenges: 1) directly using the existing federated learning approach may lead to misaligned decision boundaries produced by client models, and 2) constraining the decision boundaries to be similar over clients would overfit to training tasks but not adapt well to unseen tasks. To address these issues, we propose to regularize local updates by minimizing the divergence of client models. We also formulate the training in an adversarial fashion and optimize the client models to produce a discriminative feature space that can better represent unseen data samples. We demonstrate the intuitions and conduct experiments to show our approaches outperform baselines by more than 10% in learning vision tasks and 5% in language tasks.
翻訳日:2021-04-03 00:29:26 公開日:2021-04-01
# (参考訳) FeTaQA:無料のテーブル質問回答 [全文訳有]

FeTaQA: Free-form Table Question Answering ( http://arxiv.org/abs/2104.00369v1 )

ライセンス: CC BY-SA 4.0
Linyong Nan, Chiachun Hsieh, Ziming Mao, Xi Victoria Lin, Neha Verma, Rui Zhang, Wojciech Kry\'sci\'nski, Nick Schoelkopf, Riley Kong, Xiangru Tang, Murori Mutuma, Ben Rosand, Isabel Trindade, Renusree Bandaru, Jacob Cunningham, Caiming Xiong, Dragomir Radev(参考訳) 既存のテーブル質問応答データセットには、システムのクエリおよびスキーマ理解能力を主に評価する豊富な事実的質問が含まれているが、関連する短い形式の回答の制約のために、複雑な推論と情報の統合を必要とする質問を含まない。 これらの問題に対処し,テーブル質問応答の完全な課題を示すために,10K Wikipediaベースのテーブル,質問,自由形式の回答,テーブルセルのサポートなどを備えた新しいデータセットFeTaQAを導入する。 FeTaQAは、構造化された知識ソースから複数の不連続な事実を検索、推論、統合した後、自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問応答設定が得られる。 情報源からの短いテキストのコピーで回答が広まるテキスト上の生成的QAのデータセットとは異なり、データセットの回答はエンティティとその高レベルな関係を含む人間による説明である。 提案手法は,意味解析に基づくQAシステムに基づくパイプライン手法と,大規模な事前学習されたテキスト生成モデルに基づくエンドツーエンド手法の2つのベンチマーク手法であり,FeTaQAが両手法に挑戦することを示す。

Existing table question answering datasets contain abundant factual questions that primarily evaluate the query and schema comprehension capability of a system, but they fail to include questions that require complex reasoning and integration of information due to the constraint of the associated short-form answers. To address these issues and to demonstrate the full challenge of table question answering, we introduce FeTaQA, a new dataset with 10K Wikipedia-based {table, question, free-form answer, supporting table cells} pairs. FeTaQA yields a more challenging table question answering setting because it requires generating free-form text answers after retrieval, inference, and integration of multiple discontinuous facts from a structured knowledge source. Unlike datasets of generative QA over text in which answers are prevalent with copies of short text spans from the source, answers in our dataset are human-generated explanations involving entities and their high-level relations. We provide two benchmark methods for the proposed task: a pipeline method based on semantic-parsing-bas ed QA systems and an end-to-end method based on large pretrained text generation models, and show that FeTaQA poses a challenge for both methods.
翻訳日:2021-04-03 00:10:24 公開日:2021-04-01
# (参考訳) 視覚知的エージェントのためのコモンセンス空間推論 [全文訳有]

Commonsense Spatial Reasoning for Visually Intelligent Agents ( http://arxiv.org/abs/2104.00387v1 )

ライセンス: CC BY-SA 4.0
Agnese Chiatti, Gianluca Bardaro, Enrico Motta, Enrico Daga(参考訳) サービスロボットは、複雑で急速に変化する環境を確実に理解することが期待されている。 認知の観点からは、人間のような視覚知能を示すために必要な適切な推論能力と背景知識が必要である。 特に、我々の先行研究は、世界の物体間の空間的関係を推論する能力は、視覚知的エージェントの開発において重要な要件であることを示した。 本稿では,実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。 質的空間推論に対する従来のアプローチとは異なり、提案された枠組みはロボットの視点とオブジェクト指向のバリエーションに頑健である。 提案フレームワークの空間的関係は、英語の典型的なオブジェクト構成を記述するために使われるコモンセンス述語の種類にマッピングされる。 さらに,この形式的に定義されたフレームワークを具体的な空間データベースに実装する方法を示す。

Service robots are expected to reliably make sense of complex, fast-changing environments. From a cognitive standpoint, they need the appropriate reasoning capabilities and background knowledge required to exhibit human-like Visual Intelligence. In particular, our prior work has shown that the ability to reason about spatial relations between objects in the world is a key requirement for the development of Visually Intelligent Agents. In this paper, we present a framework for commonsense spatial reasoning which is tailored to real-world robotic applications. Differently from prior approaches to qualitative spatial reasoning, the proposed framework is robust to variations in the robot's viewpoint and object orientation. The spatial relations in the proposed framework are also mapped to the types of commonsense predicates used to describe typical object configurations in English. In addition, we also show how this formally-defined framework can be implemented in a concrete spatial database.
翻訳日:2021-04-02 23:53:40 公開日:2021-04-01
# (参考訳) 動的平衡有向ネットワーク上の分散支持ベクトルマシン [全文訳有]

Distributed support-vector-machi ne over dynamic balanced directed networks ( http://arxiv.org/abs/2104.00399v1 )

ライセンス: CC BY 4.0
Mohammadreza Doostmohammadian, Alireza Aghasi, Themistoklis Charalambous, and Usman A. Khan(参考訳) 本稿では,分散SVM(Support-Vector-M achines)によるバイナリ分類問題を考察し,エージェントのネットワークを限られたデータでトレーニングし,グローバルデータベースのSVM分類器を協調的に学習する。 エージェントは、生のデータではなく、分類器パラメータと局所損失関数の勾配に関する処理情報のみを共有する。 既存の研究とは対照的に,ネットワークトポロジの変化を離散ジャンプに組み込む連続時間アルゴリズムを提案する。 このハイブリッドな性質は、基礎となるCTプロセスの離散化によって生じるチャットの除去を可能にする。 提案アルゴリズムは,行列摂動理論の引数を用いて,時間変化重み付き有向グラフ上でSVM分類器に収束することを示す。

In this paper, we consider the binary classification problem via distributed Support-Vector-Machi nes (SVM), where the idea is to train a network of agents, with limited share of data, to cooperatively learn the SVM classifier for the global database. Agents only share processed information regarding the classifier parameters and the gradient of the local loss functions instead of their raw data. In contrast to the existing work, we propose a continuous-time algorithm that incorporates network topology changes in discrete jumps. This hybrid nature allows us to remove chattering that arises because of the discretization of the underlying CT process. We show that the proposed algorithm converges to the SVM classifier over time-varying weight balanced directed graphs by using arguments from the matrix perturbation theory.
翻訳日:2021-04-02 23:32:59 公開日:2021-04-01
# (参考訳) 量子ケースベース推論(qcbr) [全文訳有]

quantum Case-Based Reasoning (qCBR) ( http://arxiv.org/abs/2104.00409v1 )

ライセンス: CC BY 4.0
Parfait Atchade-Adelomou, Daniel Casado-Fauli, Elisabet Golobardes-Ribe and Xavier Vilasis-Cardona(参考訳) Case-Based Reasoning (CBR)は、問題解決のための人工知能のアプローチであり、大きな成功記録がある。 本稿では,量子ケースベース推論(quantum case-based reasoning, qcbr)パラダイムを用いて,cbrの重要なプロセスを改善することを提案する。 その焦点は、平均精度、スケーラビリティ、オーバーラップに対する耐性の点で古典的な考え方を改善した変分原理に基づくqCBRの設計と実装である。 提案するqcbrと古典的なcbrの比較研究を,重複を伴う組合せ最適化問題のサンプルとして社会労働者問題に対して行った。 このアルゴリズムの量子実現性はdocplexでモデル化され、ibmqコンピュータでテストされ、qiboフレームワークで実験された。

Case-Based Reasoning (CBR) is an artificial intelligence approach to problem-solving with a good record of success. This article proposes using Quantum Computing to improve some of the key processes of CBR defining so a Quantum Case-Based Reasoning (qCBR) paradigm. The focus is set on designing and implementing a qCBR based on the variational principle that improves its classical counterpart in terms of average accuracy, scalability and tolerance to overlapping. A comparative study of the proposed qCBR with a classic CBR is performed for the case of the Social Workers' Problem as a sample of a combinatorial optimization problem with overlapping. The algorithm's quantum feasibility is modelled with docplex and tested on IBMQ computers, and experimented on the Qibo framework.
翻訳日:2021-04-02 23:18:50 公開日:2021-04-01
# (参考訳) ディープラーニングを用いた潜在空間データ同化 [全文訳有]

Latent Space Data Assimilation by using Deep Learning ( http://arxiv.org/abs/2104.00430v1 )

ライセンス: CC BY 4.0
Mathis Peyron, Anthony Fillion, Selime G\"urol, Victor Marchais, Serge Gratton, Pierre Boudier and Gael Goret(参考訳) データ・アシミレーション(DA)を低コストで行うことは、地球系のモデリング、特に膨大な量の観測が可能なビッグデータにおいて、主要な関心事である。 PDEの解を近似するニューラルネットワーク技術を活用し,ディープラーニング(DL)手法をDAフレームワークに組み込む。 より正確には、オートエンコーダ(AE)が提供する潜時構造を利用して、潜時空間にモデル誤差(ETKF-Q)を持つアンサンブル変換カルマンフィルタを設計する。 モデルダイナミクスは、代理ニューラルネットワークを介して潜在空間内でも伝播する。 このETKF-Q-Latentアルゴリズム(後にETKF-Q-Lと呼ばれる)は、ロレンツ96方程式の調整された命令バージョンでテストされ、拡張ロレンツ96系と呼ばれる。 このシステムに基づく数値実験により、ETKF-Q-Lアプローチはともに計算コストを低減し、ETKF-Qのような最先端のアルゴリズムよりも精度が高いことが証明された。

Performing Data Assimilation (DA) at a low cost is of prime concern in Earth system modeling, particularly at the time of big data where huge quantities of observations are available. Capitalizing on the ability of Neural Networks techniques for approximating the solution of PDE's, we incorporate Deep Learning (DL) methods into a DA framework. More precisely, we exploit the latent structure provided by autoencoders (AEs) to design an Ensemble Transform Kalman Filter with model error (ETKF-Q) in the latent space. Model dynamics are also propagated within the latent space via a surrogate neural network. This novel ETKF-Q-Latent (thereafter referred to as ETKF-Q-L) algorithm is tested on a tailored instructional version of Lorenz 96 equations, named the augmented Lorenz 96 system: it possesses a latent structure that accurately represents the observed dynamics. Numerical experiments based on this particular system evidence that the ETKF-Q-L approach both reduces the computational cost and provides better accuracy than state of the art algorithms, such as the ETKF-Q.
翻訳日:2021-04-02 23:01:19 公開日:2021-04-01
# (参考訳) 物体検出のためのアンカープルーニング [全文訳有]

Anchor Pruning for Object Detection ( http://arxiv.org/abs/2104.00432v1 )

ライセンス: CC BY 4.0
Maxim Bonnaerens, Matthias Freiberger, Joni Dambre(参考訳) 本稿では1段アンカー型検出器における物体検出のためのアンカープルーニングを提案する。 プルーニング技術は畳み込みニューラルネットワークの計算コスト削減に広く用いられているが、ほとんどの計算が頻繁に行われるバックボーンネットワークの最適化に重点を置いている。 この作業では、オブジェクト検出のための追加のpruningテクニック、具体的には、anchor pruningをデモします。 より効率的なバックボーンネットワークと、非最大抑制などの後処理ステップがボトルネックになり得る組込みシステムへのオブジェクト検出の展開が増えているため、検出ヘッドで使用されるアンカーの影響がますます重要になっている。 本研究では,物体検出ヘッド内のアンカーの多くを,精度を損なうことなく除去できることを示す。 さらなる再訓練により、アンカープルーニングは精度を向上させることができる。 SSDとMS COCOの大規模な実験により、検出ヘッドの効率は最大44%向上し、精度は向上した。 RetinaNet と PASCAL VOC のさらなる実験により,本手法の有効性が示された。 また,アンカーの初期形状に関連するハイパーパラメータを除去するために,アンカープルーニングとともに使用できる'オーバーアンカー化'モデルを導入する。

This paper proposes anchor pruning for object detection in one-stage anchor-based detectors. While pruning techniques are widely used to reduce the computational cost of convolutional neural networks, they tend to focus on optimizing the backbone networks where often most computations are. In this work we demonstrate an additional pruning technique, specifically for object detection: anchor pruning. With more efficient backbone networks and a growing trend of deploying object detectors on embedded systems where post-processing steps such as non-maximum suppression can be a bottleneck, the impact of the anchors used in the detection head is becoming increasingly more important. In this work, we show that many anchors in the object detection head can be removed without any loss in accuracy. With additional retraining, anchor pruning can even lead to improved accuracy. Extensive experiments on SSD and MS COCO show that the detection head can be made up to 44% more efficient while simultaneously increasing accuracy. Further experiments on RetinaNet and PASCAL VOC show the general effectiveness of our approach. We also introduce `overanchorized' models that can be used together with anchor pruning to eliminate hyperparameters related to the initial shape of anchors.
翻訳日:2021-04-02 22:33:04 公開日:2021-04-01
# (参考訳) ニューラルネットワークのロバスト性評価と学習に向けて [全文訳有]

Towards Evaluating and Training Verifiably Robust Neural Networks ( http://arxiv.org/abs/2104.00447v1 )

ライセンス: CC BY 4.0
Zhaoyang Lyu, Minghao Guo, Tong Wu, Guodong Xu, Kehuan Zhang, Dahua Lin(参考訳) 近年の研究では、インターバルバウンド伝搬(IBP)が、信頼性の高いニューラルネットワークのトレーニングに利用できることが示されている。 タイトな線形緩和に基づくバウンディングメソッドであるcrownは、これらのネットワークに非常にゆるやかな境界を与えることが多い。 また、ほとんどのニューロンがIPBトレーニングプロセス中に死亡し、ネットワークの表現能力を損なう可能性があることも観察した。 本稿では, IBP と CROWN の関係について検討し, 適切な境界線を選択する場合, CROWN が IBP よりも常に密であることを示す。 我々はさらに,大規模ネットワークを検証し,ippよりも低い検証誤差を得るために使用できる,クラウン・リニア・バウンド・伝播(lbp)の緩和版を提案する。 また,新たな活性化関数parameterized ramp function(parameteriz ed ramp function,paramramp)を設計した。 我々は、MNIST、CIFAR-10、Tiny-ImageNetのParamRampアクティベーションによる広範な実験を行い、最先端のロバスト性を実現する。 コードと付録はhttps://github.com/Z haoyangLyu/Verifiabl yRobustNNで入手できる。

Recent works have shown that interval bound propagation (IBP) can be used to train verifiably robust neural networks. Reseachers observe an intriguing phenomenon on these IBP trained networks: CROWN, a bounding method based on tight linear relaxation, often gives very loose bounds on these networks. We also observe that most neurons become dead during the IBP training process, which could hurt the representation capability of the network. In this paper, we study the relationship between IBP and CROWN, and prove that CROWN is always tighter than IBP when choosing appropriate bounding lines. We further propose a relaxed version of CROWN, linear bound propagation (LBP), that can be used to verify large networks to obtain lower verified errors than IBP. We also design a new activation function, parameterized ramp function (ParamRamp), which has more diversity of neuron status than ReLU. We conduct extensive experiments on MNIST, CIFAR-10 and Tiny-ImageNet with ParamRamp activation and achieve state-of-the-art verified robustness. Code and the appendix are available at https://github.com/Z haoyangLyu/Verifiabl yRobustNN.
翻訳日:2021-04-02 22:14:29 公開日:2021-04-01
# (参考訳) 等変層GANを用いた非教師付き前地背景セグメンテーション [全文訳有]

Unsupervised Foreground-Backgroun d Segmentation with Equivariant Layered GANs ( http://arxiv.org/abs/2104.00483v1 )

ライセンス: CC BY 4.0
Yu Yang, Hakan Bilen, Qiran Zou, Wing Yin Cheung, Xiangyang Ji(参考訳) 本稿では,gansから生成された合成擬似セグメンテーションデータセット上でセグメンテーションネットワークを訓練し,注記のない画像の集合から学習し,前景と背景を明示的に不一致させる教師なし前景セグメンテーション手法を提案する。 表層・背景層を効率よく生成し, 新規画像の合成に重ね合わせるため, 提案した等変層状GANは, 先行層状GANと比較して, 以下の2つの面で改善されている。 1)前の摂動戦略を拡張し、合成画像から前景のプライベートコードを復元するプライベートコード復元を導入することにより、前景と背景の絡み合いを改善する。 2) 層状GANの潜伏空間は, 提案した等分散損失を最小限に抑え, 解釈可能な潜伏符号と前景と背景のゆがみを改善することで正規化される。 本手法はCaltech-UCSD Birds や LSUN Car などの教師なしオブジェクトセグメンテーションデータセットを用いて評価し,最先端の性能を実現する。

We propose an unsupervised foreground-backgroun d segmentation method via training a segmentation network on the synthetic pseudo segmentation dataset generated from GANs, which are trained from a collection of images without annotations to explicitly disentangle foreground and background. To efficiently generate foreground and background layers and overlay them to compose novel images, the construction of such GANs is fulfilled by our proposed Equivariant Layered GAN, whose improvement, compared to the precedented layered GAN, is embodied in the following two aspects. (1) The disentanglement of foreground and background is improved by extending the previous perturbation strategy and introducing private code recovery that reconstructs the private code of foreground from the composite image. (2) The latent space of the layered GANs is regularized by minimizing our proposed equivariance loss, resulting in interpretable latent codes and better disentanglement of foreground and background. Our methods are evaluated on unsupervised object segmentation datasets including Caltech-UCSD Birds and LSUN Car, achieving state-of-the-art performance.
翻訳日:2021-04-02 21:57:00 公開日:2021-04-01
# (参考訳) 生成逆ネットワークにおける線形意味論 [全文訳有]

Linear Semantics in Generative Adversarial Networks ( http://arxiv.org/abs/2104.00487v1 )

ライセンス: CC BY 4.0
Jianjin Xu, Changxi Zheng(参考訳) GAN(Generative Adversarial Networks)は高品質な画像を生成することができるが、合成画像の意味を明示することは困難である。 本研究では,GANのセマンティック表現をよりよく理解し,GANの生成プロセスにおけるセマンティック制御を実現することを目的とする。 興味深いことに、よく訓練されたganは、内部特徴マップのイメージセマンティクスを驚くほど単純な方法でエンコードしている。 この単純さを検証するために、さまざまなGANとデータセットに関する広範な実験を行い、この単純さのおかげで、ラベル付き画像の少ない数(8)からトレーニングされたGANのセマンティックセマンティックセマンティックセマンティクスモデルを学ぶことができる。 最後に,本研究の成果を活かし,意味条件サンプリングと意味画像編集という2つの手法を提案する。 トレーニングされたGANと8つのセマンティックアノテーションが与えられた場合、ユーザは、ユーザが提供するセマンティックレイアウトの対象となる多様なイメージを生成し、合成されたイメージセマンティクスを制御することができる。 私たちはそのコードを公開しました。

Generative Adversarial Networks (GANs) are able to generate high-quality images, but it remains difficult to explicitly specify the semantics of synthesized images. In this work, we aim to better understand the semantic representation of GANs, and thereby enable semantic control in GAN's generation process. Interestingly, we find that a well-trained GAN encodes image semantics in its internal feature maps in a surprisingly simple way: a linear transformation of feature maps suffices to extract the generated image semantics. To verify this simplicity, we conduct extensive experiments on various GANs and datasets; and thanks to this simplicity, we are able to learn a semantic segmentation model for a trained GAN from a small number (e.g., 8) of labeled images. Last but not least, leveraging our findings, we propose two few-shot image editing approaches, namely Semantic-Conditional Sampling and Semantic Image Editing. Given a trained GAN and as few as eight semantic annotations, the user is able to generate diverse images subject to a user-provided semantic layout, and control the synthesized image semantics. We have made the code publicly available.
翻訳日:2021-04-02 21:38:43 公開日:2021-04-01
# (参考訳) PyVertical: マルチヘッドスプリットNNのための垂直フェデレーション学習フレームワーク [全文訳有]

PyVertical: A Vertical Federated Learning Framework for Multi-headed SplitNN ( http://arxiv.org/abs/2104.00489v1 )

ライセンス: CC BY 4.0
Daniele Romanini, Adam James Hall, Pavlos Papadopoulos, Tom Titcombe, Abbas Ismail, Tudor Cebere, Robert Sandmann, Robin Roehm, Michael A. Hoeh(参考訳) 分割ニューラルネットワークを用いた垂直連合学習を支援するフレームワークであるPyVerticalを紹介する。 提案フレームワークにより、データサイエンティストは、複数の所有者間で垂直に分割されたデータフィーチャ上のニューラルネットワークを、所有者のデバイスに生のデータを保持しながらトレーニングすることができる。 異なるデータセットのパーティション間で共有されるエンティティをリンクするために、データポイントに関連するIDにPrivate Set Intersectionを使用する。 そこで,提案手法の有効性を示すために,mnist分類タスク用に,データサンプルを2つのデータ所有者とデータサイエンティストに垂直に分散した,単純な二頭分割ニューラルネットワークのトレーニングを行った。

We introduce PyVertical, a framework supporting vertical federated learning using split neural networks. The proposed framework allows a data scientist to train neural networks on data features vertically partitioned across multiple owners while keeping raw data on an owner's device. To link entities shared across different datasets' partitions, we use Private Set Intersection on IDs associated with data points. To demonstrate the validity of the proposed framework, we present the training of a simple dual-headed split neural network for a MNIST classification task, with data samples vertically distributed across two data owners and a data scientist.
翻訳日:2021-04-02 21:19:03 公開日:2021-04-01
# (参考訳) 機械学習によるクロニアン磁気圏再接続分類 [全文訳有]

Machine Learning Applications to Kronian Magnetospheric Reconnection Classification ( http://arxiv.org/abs/2104.00496v1 )

ライセンス: CC BY-SA 4.0
Tadhg M. Garton, Caitriona M. Jackman, Andy W. Smith, Kiley L. Yeakel, Shane A. Maloney and Jon Vandegriff(参考訳) 土星の磁気圏における磁気リコネクションの産物は、主に磁場の南北成分の特徴的な偏差を通して磁気センサ観測で同定される。 これらの磁気偏向は、観測衛星を急速に通過する再接続時に生じるプラズマ構造によって引き起こされる。 これらのシグネチャの同定は長い間目によって行われており、最近では半自動的な方法によって行われているが、これらの方法は必要な人間の検証ステップによって制限されることが多い。 本稿では,KRTP(Kronocentric radial-theta-phi)座標のカッシーニ探査機が観測した3つの磁場成分とクロニアン磁気圏における再結合の証拠を入力として,完全に自動化された教師付きニューラルネットワークモデルを提案する。 このモデルは、プラズモイド、進行する圧縮領域、双極子化に分類された合計2093の分類イベントを含む3年間の観測をカバーする再結合事象のカタログから構成されている。 このニューラルネットワークモデルは、2010年1月に高い精度(87%)、真のスキルスコア(0.76)、ハイドケスキルスコア(0.73)でテストされた大規模なカッシーニデータセットにおける再接続イベントを迅速に識別することができる。 このモデルから、カッシーニの土星近傍の磁気圏における磁気再結合現象の完全なカタログ化と検証が可能となった。

The products of magnetic reconnection in Saturn's magnetotail are identified in magnetometer observations primarily through characteristic deviations in the north-south component of the magnetic field. These magnetic deflections are caused by travelling plasma structures created during reconnection rapidly passing over the observing spacecraft. Identification of these signatures have long been performed by eye, and more recently through semi-automated methods, however these methods are often limited through a required human verification step. Here, we present a fully automated, supervised learning, feed forward neural network model to identify evidence of reconnection in the Kronian magnetosphere with the three magnetic field components observed by the Cassini spacecraft in Kronocentric radial-theta-phi (KRTP) coordinates as input. This model is constructed from a catalogue of reconnection events which covers three years of observations with a total of 2093 classified events, categorized into plasmoids, travelling compression regions and dipolarizations. This neural network model is capable of rapidly identifying reconnection events in large time-span Cassini datasets, tested against the full year 2010 with a high level of accuracy (87%), true skill score (0.76), and Heidke skill score (0.73). From this model, a full cataloguing and examination of magnetic reconnection events in the Kronian magnetosphere across Cassini's near Saturn lifetime is now possible.
翻訳日:2021-04-02 21:10:17 公開日:2021-04-01
# (参考訳) 時系列予測のためのモデル選択:異なる推定器の実証分析 [全文訳有]

Model Selection for Time Series Forecasting: Empirical Analysis of Different Estimators ( http://arxiv.org/abs/2104.00584v1 )

ライセンス: CC BY 4.0
Vitor Cerqueira, Luis Torgo, Carlos Soares(参考訳) 予測モデルの評価は予測分析において重要なタスクである。 このプロセスは、観察が時間的依存性を示す時系列データでは特に困難である。 いくつかの研究では、与えられた予測モデルによって生じる真の損失を近似するために、異なる性能推定方法が互いにどのように比較されるかを分析している。 しかしながら、これらの研究はモデル選択に対する推定者がどのように振る舞うかについて言及していない。 本稿では,時系列予測タスクにおけるモデル選択のための一連の推定手法を比較する。 我々は2つの主な質問に答えようとしている: (i) 推定者によって選択できる最良のモデルがどれくらいあるか; (ii) そうでない場合のパフォーマンス損失は何か。 実験の結果,最適解選択のための推定器の精度は低く,モデル選択過程に伴う全体的な予測性能の損失は1.2%から2.3%であることがわかった。 また,試料サイズなどいくつかの要因が,推定器の相対的性能において重要であることも分かった。

Evaluating predictive models is a crucial task in predictive analytics. This process is especially challenging with time series data where the observations show temporal dependencies. Several studies have analysed how different performance estimation methods compare with each other for approximating the true loss incurred by a given forecasting model. However, these studies do not address how the estimators behave for model selection: the ability to select the best solution among a set of alternatives. We address this issue and compare a set of estimation methods for model selection in time series forecasting tasks. We attempt to answer two main questions: (i) how often is the best possible model selected by the estimators; and (ii) what is the performance loss when it does not. We empirically found that the accuracy of the estimators for selecting the best solution is low, and the overall forecasting performance loss associated with the model selection process ranges from 1.2% to 2.3%. We also discovered that some factors, such as the sample size, are important in the relative performance of the estimators.
翻訳日:2021-04-02 20:48:53 公開日:2021-04-01
# (参考訳) 実世界深層学習におけるモデル選択の影響 [全文訳有]

Model Selection's Disparate Impact in Real-World Deep Learning Applications ( http://arxiv.org/abs/2104.00606v1 )

ライセンス: CC BY 4.0
Jessica Zosa Forde, A. Feder Cooper, Kweku Kwegyir-Aggrey, Chris De Sa and Michael Littman(参考訳) アルゴリズム的公平性は、自動決定結果におけるバイアスデータの役割を強調している。 最近、MLパイプラインの他のステージにおける公平性に関連するバイアスの源泉に注意が向けられている。 このような偏見の1つ、モデル選択における人間の嗜好は、人口集団間で異なる影響を及ぼす役割において、未解明のままである、と我々は主張する。 実世界の医療画像データに基づいてトレーニングされた深層学習モデルを用いて、我々の主張を実証的に検証し、モデル比較のためのメトリクスの選択は、モデル選択の結果を著しくバイアスできると主張する。

Algorithmic fairness has emphasized the role of biased data in automated decision outcomes. Recently, there has been a shift in attention to sources of bias that implicate fairness in other stages in the ML pipeline. We contend that one source of such bias, human preferences in model selection, remains under-explored in terms of its role in disparate impact across demographic groups. Using a deep learning model trained on real-world medical imaging data, we verify our claim empirically and argue that choice of metric for model comparison can significantly bias model selection outcomes.
翻訳日:2021-04-02 20:15:13 公開日:2021-04-01
# (参考訳) 透明物体の深さ補完のためのRGB-D局所インシシシット関数 [全文訳有]

RGB-D Local Implicit Function for Depth Completion of Transparent Objects ( http://arxiv.org/abs/2104.00622v1 )

ライセンス: CC BY 4.0
Luyang Zhu, Arsalan Mousavian, Yu Xiang, Hammad Mazhar, Jozef van Eenbergen, Shoubhik Debnath, Dieter Fox(参考訳) ロボット工学における知覚法の大部分は、RGB-Dカメラによって提供される深度情報を必要とする。 しかし、標準的な3Dセンサーは、屈折や光の吸収によって透明な物体の深さを捉えられない。 本稿では,単一のrgb-d画像から透明物体の奥行き補完を行う新しい手法を提案する。 このアプローチの鍵となるのは、ray-voxelペア上に構築された、局所的な暗黙的なニューラルネットワーク表現です。 この表現に基づいて、ノイズの多いRGB-D入力を伴って、欠損深さを完了できる新しいフレームワークを提案する。 さらに, 自己補正改良モデルを用いて, 深さ推定を反復的に改善する。 パイプライン全体をトレーニングするために、透明なオブジェクトを持つ大規模な合成データセットを構築します。 実験により,本手法は合成データと実データの両方において,現在の最先端手法よりも有意に優れた性能を示す。 さらに,提案手法は,従来のベストメソッドであるClearGraspと比較して,推論速度を20倍に向上させる。 コードとデータセットはhttps://research.nvi dia.com/publication/ 2021-03_RGB-D-Local- Implicitで公開される。

Majority of the perception methods in robotics require depth information provided by RGB-D cameras. However, standard 3D sensors fail to capture depth of transparent objects due to refraction and absorption of light. In this paper, we introduce a new approach for depth completion of transparent objects from a single RGB-D image. Key to our approach is a local implicit neural representation built on ray-voxel pairs that allows our method to generalize to unseen objects and achieve fast inference speed. Based on this representation, we present a novel framework that can complete missing depth given noisy RGB-D input. We further improve the depth estimation iteratively using a self-correcting refinement model. To train the whole pipeline, we build a large scale synthetic dataset with transparent objects. Experiments demonstrate that our method performs significantly better than the current state-of-the-art methods on both synthetic and real world data. In addition, our approach improves the inference speed by a factor of 20 compared to the previous best method, ClearGrasp. Code and dataset will be released at https://research.nvi dia.com/publication/ 2021-03_RGB-D-Local- Implicit.
翻訳日:2021-04-02 20:05:27 公開日:2021-04-01
# (参考訳) Fast DCTTS: 効率的な深層畳み込みテキスト音声合成 [全文訳有]

Fast DCTTS: Efficient Deep Convolutional Text-to-Speech ( http://arxiv.org/abs/2104.00624v1 )

ライセンス: CC BY 4.0
Minsu Kang, Jihyun Lee, Simin Kim and Injung Kim(参考訳) 本稿では,1つのCPUスレッド上で音声をリアルタイムに合成するエンドツーエンド音声合成器Fast DCTTSを提案する。 提案モデルは,複数のネットワーク削減と忠実度向上技術を適用した,慎重に調整された軽量ネットワークで構成されている。 さらに, 計算効率とゲーティング機構の正規化効果を両立させることのできる, 新たなグループ・ハイウェイの活性化手法を提案する。 また、出力メル-スペクトログラムの忠実度を測定するために、Elastic mel-cepstral distortion (EMCD)と呼ばれる新しい測定基準を導入する。 実験では,加速技術が速度および音声品質に与える影響を解析した。 ベースラインモデルと比較すると,MOSは2.62から2.74に改善され,計算量は1.76%,パラメータは2.75%であった。 シングルCPUスレッドの速度は7.45倍改善され、GPUなしでリアルタイムでメルスペクトルを生成することができる。

We propose an end-to-end speech synthesizer, Fast DCTTS, that synthesizes speech in real time on a single CPU thread. The proposed model is composed of a carefully-tuned lightweight network designed by applying multiple network reduction and fidelity improvement techniques. In addition, we propose a novel group highway activation that can compromise between computational efficiency and the regularization effect of the gating mechanism. As well, we introduce a new metric called Elastic mel-cepstral distortion (EMCD) to measure the fidelity of the output mel-spectrogram. In experiments, we analyze the effect of the acceleration techniques on speed and speech quality. Compared with the baseline model, the proposed model exhibits improved MOS from 2.62 to 2.74 with only 1.76% computation and 2.75% parameters. The speed on a single CPU thread was improved by 7.45 times, which is fast enough to produce mel-spectrogram in real time without GPU.
翻訳日:2021-04-02 19:46:16 公開日:2021-04-01
# (参考訳) 高濃度特徴を有する教師付き機械学習における正規化対象符号化は従来の手法を上回る [全文訳有]

Regularized target encoding outperforms traditional methods in supervised machine learning with high cardinality features ( http://arxiv.org/abs/2104.00629v1 )

ライセンス: CC BY 4.0
Florian Pargent, Florian Pfisterer, Janek Thomas, Bernd Bischl(参考訳) ほとんどの機械学習(ML)アルゴリズムは数値入力用に設計されているため、分類変数を効率的に符号化することは、データ解析において重要な側面である。 しばしば遭遇する問題は高濃度の特徴である。 無秩序なカテゴリー予測変数で 多数のレベルがあります 分類変数の数値表現を導出する手法について検討し,その後のML応用に適用できることを示す。 これらのテクニックがその後のアルゴリズムの予測性能に与える影響に注目し、可能であれば、そのテクニックをいつ使うかのベストプラクティスを導き出す。 大規模ベンチマーク実験を行い,回帰,バイナリ,マルチクラス分類設定のデータセットを用いて,5つのmlアルゴリズム(lasso,random forest,gradient boosting,k-nearest neighbors, support vector machine)と異なる符号化戦略を比較した。 我々の研究全体を通して、ターゲットエンコーディングの正規化バージョン(すなわち、)。 新しい数値的特徴としてトレーニングセットの特徴レベルに基づく目標予測を使用することで、一貫して最高の結果が得られます。 整数にレベルをマップするために不合理な仮定をする伝統的なエンコーディング(例) 整数エンコーディング) またはレベル(おそらくターゲット情報に基づいて)の数を減少させる。 リーフエンコーディング) バイナリインジケータ変数(ワンホットまたはダミーエンコーディング)を作成する前には、あまり効果がなかった。

Because most machine learning (ML) algorithms are designed for numerical inputs, efficiently encoding categorical variables is a crucial aspect during data analysis. An often encountered problem are high cardinality features, i.e. unordered categorical predictor variables with a high number of levels. We study techniques that yield numeric representations of categorical variables which can then be used in subsequent ML applications. We focus on the impact of those techniques on a subsequent algorithm's predictive performance, and -- if possible -- derive best practices on when to use which technique. We conducted a large-scale benchmark experiment, where we compared different encoding strategies together with five ML algorithms (lasso, random forest, gradient boosting, k-nearest neighbours, support vector machine) using datasets from regression, binary- and multiclass- classification settings. Throughout our study, regularized versions of target encoding (i.e. using target predictions based on the feature levels in the training set as a new numerical feature) consistently provided the best results. Traditional encodings that make unreasonable assumptions to map levels to integers (e.g. integer encoding) or to reduce the number of levels (possibly based on target information, e.g. leaf encoding) before creating binary indicator variables (one-hot or dummy encoding) were not as effective.
翻訳日:2021-04-02 19:35:27 公開日:2021-04-01
# (参考訳) マイクロロボット制御のための残留モデル学習 [全文訳有]

Residual Model Learning for Microrobot Control ( http://arxiv.org/abs/2104.00631v1 )

ライセンス: CC BY 4.0
Joshua Gruenstein, Tao Chen, Neel Doshi, Pulkit Agrawal(参考訳) マイクロロボットの大部分は、従来のモデルベースコントローラの実用性を制限するため、分析的にモデル化が難しい適合材料を用いて構築されている。 マイクロロボットのデータ収集の課題とシミュレーションモデルと実際のロボット間の大きなエラーは、現在のモデルベース学習とシミュレート・トゥ・リアル・トランスファー手法の適用を困難にしている。 本稿では、近似モデルを利用して正確なロボットモデルの学習に伴うサンプルの複雑さを大幅に低減するフレームワーク残差モデル学習(RML)を提案する。 RMLを用いて、受動的に収集された12秒間の相互作用データを用いて、Harvard Ambulatory MicroRobot(HAMR)のモデルを学ぶことができる。 学習モデルは、モデルレス強化学習アルゴリズムを用いて歩行と回転の学習に「プロキシシミュレータ」として活用できるほど正確である。 RMLは、非常に少量のインタラクションデータから学習するための一般的なフレームワークを提供しており、我々のHAMRによる実験は、RMLが既存の技術を大幅に上回っていることを明らかに示しています。

A majority of microrobots are constructed using compliant materials that are difficult to model analytically, limiting the utility of traditional model-based controllers. Challenges in data collection on microrobots and large errors between simulated models and real robots make current model-based learning and sim-to-real transfer methods difficult to apply. We propose a novel framework residual model learning (RML) that leverages approximate models to substantially reduce the sample complexity associated with learning an accurate robot model. We show that using RML, we can learn a model of the Harvard Ambulatory MicroRobot (HAMR) using just 12 seconds of passively collected interaction data. The learned model is accurate enough to be leveraged as "proxy-simulator" ; for learning walking and turning behaviors using model-free reinforcement learning algorithms. RML provides a general framework for learning from extremely small amounts of interaction data, and our experiments with HAMR clearly demonstrate that RML substantially outperforms existing techniques.
翻訳日:2021-04-02 19:01:11 公開日:2021-04-01
# (参考訳) repose:6次元ポーズ推定のためのリアルタイム反復レンダリングと改良 [全文訳有]

RePOSE: Real-Time Iterative Rendering and Refinement for 6D Object Pose Estimation ( http://arxiv.org/abs/2104.00633v1 )

ライセンス: CC BY 4.0
Shun Iwase, Xingyu Liu, Rawal Khirodkar, Rio Yokota, Kris M. Kitani(参考訳) 反復的なポーズ補正は6次元オブジェクトポーズ推定のための重要な処理ステップであり、その性能は画像表現の選択に大きく依存する。 ディープ畳み込みニューラルネットワーク(CNN)によって学習された画像表現は、現在、オブジェクトキーポイント位置を堅牢にエンコードできるため、選択方法となっている。 しかし、cnnベースの画像表現は、入力画像に対して1回、レンダリングされた画像に対して複数回、深層ネットワークを用いて画像特徴を抽出する必要があるため、反復的なポーズ改善に使用する計算コストがかかる。 レンダリングされたRGB画像から画像特徴を抽出するためにCNNを使う代わりに、より深い特徴画像を直接描画することを提案する。 我々はこの深層テクスチャレンダリングと呼び、浅い多層パーセプトロンを使用して、オブジェクトのビュー不変の画像表現を直接回帰する。 ポーズの推定とテクスチャの深いレンダリングを用いて,画像表現を1ミリ秒未満でレンダリングする。 この画像表現は、微分可能なレバンス・マルカルト最適化ネットワークを追加し、6Dポーズアライメント誤差をバックプロパゲートすることにより、非線形6Dポーズ推定を容易に行えるように最適化されている。 本手法は6次元ポーズ推定のためのリアルタイム反復レンダリング・リファインメントアルゴリズムであるreposeと呼ぶ。 reposeは71fpsで動作し、occupion linemodデータセットで51.6%の最先端精度を達成している。これは以前の技術よりも4.1%の絶対的な改善であり、ycbビデオデータセットでの同等の性能で、他のポーズリファインメントメソッドよりもはるかに高速である。

The use of iterative pose refinement is a critical processing step for 6D object pose estimation, and its performance depends greatly on one's choice of image representation. Image representations learned via deep convolutional neural networks (CNN) are currently the method of choice as they are able to robustly encode object keypoint locations. However, CNN-based image representations are computational expensive to use for iterative pose refinement, as they require that image features are extracted using a deep network, once for the input image and multiple times for rendered images during the refinement process. Instead of using a CNN to extract image features from a rendered RGB image, we propose to directly render a deep feature image. We call this deep texture rendering, where a shallow multi-layer perceptron is used to directly regress a view invariant image representation of an object. Using an estimate of the pose and deep texture rendering, our system can render an image representation in under 1ms. This image representation is optimized such that it makes it easier to perform nonlinear 6D pose estimation by adding a differentiable Levenberg-Marquardt optimization network and back-propagating the 6D pose alignment error. We call our method, RePOSE, a Real-time Iterative Rendering and Refinement algorithm for 6D POSE estimation. RePOSE runs at 71 FPS and achieves state-of-the-art accuracy of 51.6% on the Occlusion LineMOD dataset - a 4.1% absolute improvement over the prior art, and comparable performance on the YCB-Video dataset with a much faster runtime than the other pose refinement methods.
翻訳日:2021-04-02 18:42:55 公開日:2021-04-01
# (参考訳) HLE-UPC at SemEval-2021 Task 5: Multi-Depth DistilBERT for Toxic Spans Detection [全文訳有]

HLE-UPC at SemEval-2021 Task 5: Multi-Depth DistilBERT for Toxic Spans Detection ( http://arxiv.org/abs/2104.00639v1 )

ライセンス: CC BY 4.0
Rafel Palliser, Albert Rial(参考訳) 本稿ではSemEval-2021 Task 5: Toxic Spans Detectionについて述べる。 このタスクの目的は、テキストを有害にするスパンを検出することであり、これはいくつかの理由から複雑な作業である。 第一に、本質的な毒性の主観性、第二に、毒性が必ずしも侮辱や犯罪のような単一の言葉から来るのではなく、時には個人的に有害でない言葉によって形成された表現全体から生じる。 単一単語と多単語表現の両方に焦点をあてたこのアイデアに従えば、異なる層からの埋め込みを用いて最終的な毒性を推定するマルチディープス DistilBERT モデルがもたらす影響について検討する。 その結果,複数の深度からの情報を利用することで,モデルの性能が向上することが示唆された。 最後に,最良のモデルを定性的に分析する。

This paper presents our submission to SemEval-2021 Task 5: Toxic Spans Detection. The purpose of this task is to detect the spans that make a text toxic, which is a complex labour for several reasons. Firstly, because of the intrinsic subjectivity of toxicity, and secondly, due to toxicity not always coming from single words like insults or offends, but sometimes from whole expressions formed by words that may not be toxic individually. Following this idea of focusing on both single words and multi-word expressions, we study the impact of using a multi-depth DistilBERT model, which uses embeddings from different layers to estimate the final per-token toxicity. Our quantitative results show that using information from multiple depths boosts the performance of the model. Finally, we also analyze our best model qualitatively.
翻訳日:2021-04-02 18:04:49 公開日:2021-04-01
# (参考訳) frozen in time: エンド・ツー・エンド検索のためのジョイントビデオと画像エンコーダ [全文訳有]

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval ( http://arxiv.org/abs/2104.00650v1 )

ライセンス: CC BY 4.0
Max Bain, Arsha Nagrani, G\"ul Varol, Andrew Zisserman(参考訳) 本研究の目的はビデオテキスト検索であり,特にテキストからビデオへの効率的な検索を可能にする組込みである。 この領域における課題は、視覚アーキテクチャの設計とトレーニングデータの性質であり、howto100mのような利用可能な大規模ビデオテキストトレーニングデータセットはうるさいため、大規模な計算によってのみ競合性能が達成される。 本稿ではこれらの課題に対処する。 本研究では,大規模画像と映像キャプションデータセットを併用したエンドツーエンドの学習モデルを提案する。 我々のモデルは、最近のViTおよびTimeformerアーキテクチャの適応と拡張であり、空間と時間の両方に注意を払っている。 モデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立して、あるいは共同でトレーニングすることができる。 ビデオの「凍った」スナップショットとして画像を扱うことから始まるカリキュラム学習スケジュールでトレーニングされ、ビデオデータセットでトレーニングされた場合、徐々に時間的コンテキストの増大に対応するように学習される。 また、新たにWebVid-2Mというビデオテキスト事前学習データセットも提供しています。 MSR-VTT, MSVD, DiDeMo, LSMDCなどの標準ダウンストリームビデオ検索ベンチマークにおいて, 精度の低いデータセットのトレーニングを行った結果, 最新の結果が得られた。

Our objective in this work is video-text retrieval - in particular a joint embedding that enables efficient text-to-video retrieval. The challenges in this area include the design of the visual architecture and the nature of the training data, in that the available large scale video-text training datasets, such as HowTo100M, are noisy and hence competitive performance is achieved only at scale through large amounts of compute. We address both these challenges in this paper. We propose an end-to-end trainable model that is designed to take advantage of both large-scale image and video captioning datasets. Our model is an adaptation and extension of the recent ViT and Timesformer architectures, and consists of attention in both space and time. The model is flexible and can be trained on both image and video text datasets, either independently or in conjunction. It is trained with a curriculum learning schedule that begins by treating images as 'frozen' snapshots of video, and then gradually learns to attend to increasing temporal context when trained on video datasets. We also provide a new video-text pretraining dataset WebVid-2M, comprised of over two million videos with weak captions scraped from the internet. Despite training on datasets that are an order of magnitude smaller, we show that this approach yields state-of-the-art results on standard downstream video-retrieval benchmarks including MSR-VTT, MSVD, DiDeMo and LSMDC.
翻訳日:2021-04-02 17:55:20 公開日:2021-04-01
# (参考訳) ビジネスプロセス管理自動化のための条件文認識と分割 [全文訳有]

Recognizing and Splitting Conditional Sentences for Automation of Business Processes Management ( http://arxiv.org/abs/2104.00660v1 )

ライセンス: CC BY 4.0
Ngoc Phuoc An Vo, Irene Manotas, Octavian Popescu, Algimantas Cerniauskas, Vadim Sheinin(参考訳) ビジネスプロセス管理(Business Process Management、BPM)は、ビジネスプロセスを発見し、分析し、再設計し、監視し、管理する分野である。 BPMの最も重要なタスクの1つは、文書からビジネスプロセスを発見し、モデル化することである。 本稿では,1) 専門文書から条件文を認識すること,2) 条件文から条件文と結果節を抽出する境界を見つけること,3) 結果節をアクションやコンシークエンスとして分類すること,そして,後にビジネスプロセスモデルにおける新たなステップを自動生成するのに役立つこと,からなるエンドツーエンドの問題を解決するシステムを提案する。 新しいデータセットを作成し、3つのモデルがこの問題を解決する。 最適モデルでは, 条件, 行動, 結果の抽出を行うために, 精度, リコール, F1に対して, 83.82, 87.84, 85.75の有望な結果を得た。

Business Process Management (BPM) is the discipline which is responsible for management of discovering, analyzing, redesigning, monitoring, and controlling business processes. One of the most crucial tasks of BPM is discovering and modelling business processes from text documents. In this paper, we present our system that resolves an end-to-end problem consisting of 1) recognizing conditional sentences from technical documents, 2) finding boundaries to extract conditional and resultant clauses from each conditional sentence, and 3) categorizing resultant clause as Action or Consequence which later helps to generate new steps in our business process model automatically. We created a new dataset and three models solve this problem. Our best model achieved very promising results of 83.82, 87.84, and 85.75 for Precision, Recall, and F1, respectively, for extracting Condition, Action, and Consequence clauses using Exact Match metric.
翻訳日:2021-04-02 17:34:01 公開日:2021-04-01
# (参考訳) ニューラルネットワーク翻訳蒸留データのサンプリングとフィルタリング [全文訳有]

Sampling and Filtering of Neural Machine Translation Distillation Data ( http://arxiv.org/abs/2104.00664v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar(参考訳) ニューラルマシン翻訳の蒸留や盗みのシナリオのほとんどにおいて、目標はターゲットモデル(教師)のパフォーマンスを維持することである。 教師モデルの最も高い意味を持つ仮説は、新しいモデル(学生)の訓練によく用いられる。 参照翻訳も利用可能であれば、より良い仮説(参照に関して)がアップサンプリングされ、弱い仮説は削除またはアンダーサンプリングされる。 本稿では, 標準MT評価指標を用いて, 英語からチェコ語, 英語, ドイツ語のMTモデルへのランドスケープ(プルーニング, 仮説アップサンプリング, アンダーサンプリング, 重複, およびそれらの組み合わせ)の抽出の重要性について検討する。 注意深いアップサンプリングと元のデータの組み合わせは、オリジナルのデータや合成データ、あるいはそれらの直接的な組み合わせのトレーニングに比べて、パフォーマンスが向上することを示す。

In most of neural machine translation distillation or stealing scenarios, the goal is to preserve the performance of the target model (teacher). The highest-scoring hypothesis of the teacher model is commonly used to train a new model (student). If reference translations are also available, then better hypotheses (with respect to the references) can be upsampled and poor hypotheses either removed or undersampled. This paper explores the importance sampling method landscape (pruning, hypothesis upsampling and undersampling, deduplication and their combination) with English to Czech and English to German MT models using standard MT evaluation metrics. We show that careful upsampling and combination with the original data leads to better performance when compared to training only on the original or synthesized data or their direct combination.
翻訳日:2021-04-02 17:27:02 公開日:2021-04-01
# (参考訳) 病理画像解析のための深層多解辞書学習 [全文訳有]

Deep Multi-Resolution Dictionary Learning for Histopathology Image Analysis ( http://arxiv.org/abs/2104.00669v1 )

ライセンス: CC BY 4.0
Nima Hatami and Mohsin Bilal and Nasir Rajpoot(参考訳) 多ギガピクセルの組織像に存在する様々な種類の組織を認識する問題は、計算病理学のボトムアップ分析パラダイムにおいて、腫瘍微小環境の下流解析に重要な基礎的前提条件である。 本稿では組織像における組織表現型化の問題を解決するための深層辞書学習手法を提案する。 複数の空間解像度の深いテクスチャ記述子を活用するために,Deep Multi-Resolution Dictionary Learning (deepMRDL)を提案する。 提案手法の有効性は, 異なる臓器(大腸癌, 乳癌, 乳腺リンパ節)から得られた4つのベンチマーク組織像データセット, および課題(がんグレーディング, 組織表現型, 腫瘍検出, 組織型分類)を用いて実験的に検証した。 また,提案フレームワークは市販のCNNモデルの多くを用いて,効率的な深層テクスチャ記述子を生成することができることを示す。

The problem of recognizing various types of tissues present in multi-gigapixel histology images is an important fundamental pre-requisite for downstream analysis of the tumor microenvironment in a bottom-up analysis paradigm for computational pathology. In this paper, we propose a deep dictionary learning approach to solve the problem of tissue phenotyping in histology images. We propose deep Multi-Resolution Dictionary Learning (deepMRDL) in order to benefit from deep texture descriptors at multiple different spatial resolutions. We show the efficacy of the proposed approach through extensive experiments on four benchmark histology image datasets from different organs (colorectal cancer, breast cancer and breast lymphnodes) and tasks (namely, cancer grading, tissue phenotyping, tumor detection and tissue type classification). We also show that the proposed framework can employ most off-the-shelf CNNs models to generate effective deep texture descriptors.
翻訳日:2021-04-02 17:17:34 公開日:2021-04-01
# (参考訳) 局所条件ラミアンスフィールドを用いた無拘束シーン生成 [全文訳有]

Unconstrained Scene Generation with Locally Conditioned Radiance Fields ( http://arxiv.org/abs/2104.00670v1 )

ライセンス: CC BY 4.0
Terrance DeVries, Miguel Angel Bautista, Nitish Srivastava, Graham W. Taylor, Joshua M. Susskind(参考訳) 我々は,複雑で現実的な屋内シーンの配信を学ぶという課題に挑戦する。 本稿では,生成シーンネットワーク(GSN)を導入し,シーンを自由移動カメラからレンダリング可能な多数の局所放射場に分解する方法について述べる。 私たちのモデルは、新しいシーンの生成や、スパースな2d観察のみのシーンの完了に先立って使用することが可能です。 近年の研究では、放射場の生成モデルがマルチビュー一貫性やビュー依存照明などの特性をキャプチャできることが示されている。 しかし、これらのモデルは車や顔のような単一の物体の観察に特化している。 リアルな屋内環境の大きさと複雑さのため、既存のモデルはそれらを適切に捉えるための表現能力が欠けている。 本手法は,細部や多様性を保ちつつ,より大きく複雑なシーンにスケールし,観察した視点と大きく異なる視点から高品質なレンダリングを可能にする。 既存のモデルと比較すると、GSNは複数の異なるシーンデータセット間で定量的に高品質なシーンレンダリングを生成する。

We tackle the challenge of learning a distribution over complex, realistic, indoor scenes. In this paper, we introduce Generative Scene Networks (GSN), which learns to decompose scenes into a collection of many local radiance fields that can be rendered from a free moving camera. Our model can be used as a prior to generate new scenes, or to complete a scene given only sparse 2D observations. Recent work has shown that generative models of radiance fields can capture properties such as multi-view consistency and view-dependent lighting. However, these models are specialized for constrained viewing of single objects, such as cars or faces. Due to the size and complexity of realistic indoor environments, existing models lack the representational capacity to adequately capture them. Our decomposition scheme scales to larger and more complex scenes while preserving details and diversity, and the learned prior enables high-quality rendering from viewpoints that are significantly different from observed viewpoints. When compared to existing models, GSN produces quantitatively higher-quality scene renderings across several different scene datasets.
翻訳日:2021-04-02 16:57:49 公開日:2021-04-01
# (参考訳) クロスバリデーション(cross-validation): 見積もりはどのようなもので、どの程度うまく機能するのか?

Cross-validation: what does it estimate and how well does it do it? ( http://arxiv.org/abs/2104.00673v1 )

ライセンス: CC BY 4.0
Stephen Bates and Trevor Hastie and Robert Tibshirani(参考訳) クロスバリデーションは予測誤差を推定するために広く使われている手法であるが、その振る舞いは複雑であり、完全には理解されていない。 理想的には、クロスバリデーションがモデルの予測エラーを予測し、トレーニングデータに適合すると考える必要がある。 これは、通常の最小二乗に適合する線形モデルの場合ではなく、同じ集団から引き出された他の目に見えない訓練セットに適合するモデルの平均予測誤差を推定する。 さらに,データ分割,ブートストラップ,mallowのcpなど,予測誤差の最も一般的な推定値に対してこの現象が発生することを示す。 次に、クロスバリデーションから導かれる予測誤差の標準信頼区間は、所望のレベルをはるかに下回る範囲を持つ可能性がある。 各データポイントはトレーニングとテストの両方に使用されるため、各フォールドについて測定されたアキュラティの間に相関があり、通常の分散の推定は小さすぎる。 本研究では,この差分をより正確に推定するためのネスト型クロスバリデーション手法を導入し,従来のクロスバリデーション間隔が失敗する例の多くにおいて,この修正がほぼ正しいカバレッジを持つ間隔につながることを示す。 最後に,単純なデータ分割による予測精度のための信頼区間を生成する場合,信頼区間を無効にするため,結合データに対するモデルの再適合は避けるべきであることを示す。

Cross-validation is a widely-used technique to estimate prediction error, but its behavior is complex and not fully understood. Ideally, one would like to think that cross-validation estimates the prediction error for the model at hand, fit to the training data. We prove that this is not the case for the linear model fit by ordinary least squares; rather it estimates the average prediction error of models fit on other unseen training sets drawn from the same population. We further show that this phenomenon occurs for most popular estimates of prediction error, including data splitting, bootstrapping, and Mallow's Cp. Next, the standard confidence intervals for prediction error derived from cross-validation may have coverage far below the desired level. Because each data point is used for both training and testing, there are correlations among the measured accuracies for each fold, and so the usual estimate of variance is too small. We introduce a nested cross-validation scheme to estimate this variance more accurately, and show empirically that this modification leads to intervals with approximately correct coverage in many examples where traditional cross-validation intervals fail. Lastly, our analysis also shows that when producing confidence intervals for prediction accuracy with simple data splitting, one should not re-fit the model on the combined data, since this invalidates the confidence intervals.
翻訳日:2021-04-02 16:36:32 公開日:2021-04-01
# (参考訳) PhySG:物理に基づく材料編集とリライティングのための球面ガウスの逆レンダリング [全文訳有]

PhySG: Inverse Rendering with Spherical Gaussians for Physics-based Material Editing and Relighting ( http://arxiv.org/abs/2104.00674v1 )

ライセンス: CC BY 4.0
Kai Zhang, Fujun Luan, Qianqian Wang, Kavita Bala, Noah Snavely(参考訳) 本稿では,完全微分可能なレンダラを備え,rgb入力画像から形状,材料,照明をスクラッチから再構築可能な,エンドツーエンドの逆レンダリングパイプラインphysgを提案する。 本手法は球状ガウスの混合物を用いて鏡面brdfと環境照明を表現し,多層パーセプトロンとしてパラメータ化された符号付き距離関数として幾何学を表現する。 球面ガウシアンを用いることで、光輸送の近似を効率的に解けるようになり、自然で静的な照明下で捉えた非ランベルト反射率に挑戦する場面で機能する。 我々は合成データと実データの両方を用いて,新しい視点のレンダリングを可能にするだけでなく,物質や照明の物理ベースの外観編集を可能にすることを実証した。

We present PhySG, an end-to-end inverse rendering pipeline that includes a fully differentiable renderer and can reconstruct geometry, materials, and illumination from scratch from a set of RGB input images. Our framework represents specular BRDFs and environmental illumination using mixtures of spherical Gaussians, and represents geometry as a signed distance function parameterized as a Multi-Layer Perceptron. The use of spherical Gaussians allows us to efficiently solve for approximate light transport, and our method works on scenes with challenging non-Lambertian reflectance captured under natural, static illumination. We demonstrate, with both synthetic and real data, that our reconstructions not only enable rendering of novel viewpoints, but also physics-based appearance editing of materials and illumination.
翻訳日:2021-04-02 16:35:15 公開日:2021-04-01
# (参考訳) ダイエットにNeRFを施す: 連続的に一貫性のあるFew-Shotビューの合成 [全文訳有]

Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis ( http://arxiv.org/abs/2104.00677v1 )

ライセンス: CC BY-SA 4.0
Ajay Jain and Matthew Tancik and Pieter Abbeel(参考訳) 数枚の画像から推定した3次元ニューラルシーン表現であるDietNeRFを提案する。 neural radiance fields (nerf) はマルチビュー一貫性を通じてシーンの連続的なボリューム表現を学習し、レイキャスティングによって新たな視点からレンダリングすることができる。 NeRFは、多くの画像が与えられた場合、幾何や細部を再構築する能力があり、360{\deg}のシーンに挑戦するためには最大100まであるが、わずかな入力ビューしか得られない場合、画像再構成の目的に対する退化的な解決策を見出すことが多い。 撮影品質を向上させるため,DietNeRFを提案する。 我々は,新しいポーズにおけるリアルなレンダリングを促進する補助的なセマンティック一貫性損失を導入する。 DietNeRFは、(1)同じポーズから与えられた入力ビューを正しくレンダリングし、(2)異なるランダムなポーズ間で高いレベルのセマンティック属性にマッチするように、個々のシーンでトレーニングされる。 意味喪失により任意のポーズからDietNeRFを監督することができます。 我々はこれらの意味をクリップなどの事前学習されたビジュアルエンコーダで抽出し,自然言語によるwebから抽出した何億もの多彩な2d写真から学習した視覚トランスフォーマである。 実験では、DietheNeRFは、スクラッチから学習した時に、わずかなショットビュー合成の知覚的品質を改善し、マルチビューデータセットで事前トレーニングされた際に、1つの観察画像で新しいビューをレンダリングすることができる。

We present DietNeRF, a 3D neural scene representation estimated from a few images. Neural Radiance Fields (NeRF) learn a continuous volumetric representation of a scene through multi-view consistency, and can be rendered from novel viewpoints by ray casting. While NeRF has an impressive ability to reconstruct geometry and fine details given many images, up to 100 for challenging 360{\deg} scenes, it often finds a degenerate solution to its image reconstruction objective when only a few input views are available. To improve few-shot quality, we propose DietNeRF. We introduce an auxiliary semantic consistency loss that encourages realistic renderings at novel poses. DietNeRF is trained on individual scenes to (1) correctly render given input views from the same pose, and (2) match high-level semantic attributes across different, random poses. Our semantic loss allows us to supervise DietNeRF from arbitrary poses. We extract these semantics using a pre-trained visual encoder such as CLIP, a Vision Transformer trained on hundreds of millions of diverse single-view, 2D photographs mined from the web with natural language supervision. In experiments, DietNeRF improves the perceptual quality of few-shot view synthesis when learned from scratch, can render novel views with as few as one observed image when pre-trained on a multi-view dataset, and produces plausible completions of completely unobserved regions.
翻訳日:2021-04-02 16:18:25 公開日:2021-04-01
# (参考訳) トランスフォーマによる無群3次元物体検出 [全文訳有]

Group-Free 3D Object Detection via Transformers ( http://arxiv.org/abs/2104.00678v1 )

ライセンス: CC BY 4.0
Ze Liu, Zheng Zhang, Yue Cao, Han Hu, Xin Tong(参考訳) 近年,3次元点雲からの3次元物体の直接検出が注目されている。 不規則なポイントクラウドからオブジェクト表現を抽出するために、既存のメソッドは通常、ポイントをオブジェクト候補に割り当てるためにポイントグループ化ステップを踏む。 しかし,手作りグルーピング方式による不正確な点割当ては,3次元物体検出の性能を低下させる。 本稿では,3次元点雲から直接3次元物体を検出できる簡易かつ効果的な方法を提案する。 各オブジェクト候補に局所的なポイントをグループ化する代わりに、この方法は、各ポイントの貢献がネットワークトレーニングで自動的に学習されるtransformers \cite{vaswani2017attention }の注意機構の助けを借りて、ポイントクラウド内のすべてのポイントからオブジェクトの特徴を計算する。 アテンション・スタッキング・スキームが改良され、異なる段階のオブジェクト特徴を融合させ、より正確なオブジェクト検出結果を生成する。 ベルやホイッスルが少なく,ScanNet V2とSUN RGB-Dの2つのベンチマークで最先端の3Dオブジェクト検出性能を実現する。 コードとモデルは \url{https://github.com/z eliu98/Group-Free-3D } で公開されている。

Recently, directly detecting 3D objects from 3D point clouds has received increasing attention. To extract object representation from an irregular point cloud, existing methods usually take a point grouping step to assign the points to an object candidate so that a PointNet-like network could be used to derive object features from the grouped points. However, the inaccurate point assignments caused by the hand-crafted grouping scheme decrease the performance of 3D object detection. In this paper, we present a simple yet effective method for directly detecting 3D objects from the 3D point cloud. Instead of grouping local points to each object candidate, our method computes the feature of an object from all the points in the point cloud with the help of an attention mechanism in the Transformers \cite{vaswani2017attention }, where the contribution of each point is automatically learned in the network training. With an improved attention stacking scheme, our method fuses object features in different stages and generates more accurate object detection results. With few bells and whistles, the proposed method achieves state-of-the-art 3D object detection performance on two widely used benchmarks, ScanNet V2 and SUN RGB-D. The code and models are publicly available at \url{https://github.com/z eliu98/Group-Free-3D }
翻訳日:2021-04-02 15:39:46 公開日:2021-04-01
# (参考訳) 細粒度分類のための半教師付き学習の現実的評価 [全文訳有]

A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification ( http://arxiv.org/abs/2104.00679v1 )

ライセンス: CC BY 4.0
Jong-Chyi Su and Zezhou Cheng and Subhransu Maji(参考訳) そこで本研究では,クラス不均衡がかなり高く,新しいクラスの画像を含むリアルなベンチマークにおいて,半教師付き学習(SSL)の有効性を評価する。 本ベンチマークは,Aves分類とFungi分類から抽出した2つの詳細な分類データセットからなる。 最近提案されたSSLメソッドは大きなメリットがあり、ディープネットワークをゼロからトレーニングする際のパフォーマンスを向上させるために、クラス外のデータを効果的に利用することができる。 しかし、彼らのパフォーマンスは、いくつかの例から学ぶための代替アプローチであるトランスファーラーニングベースラインと比較すると劣っている。 さらに、転送設定では、既存のSSLメソッドは改善を提供するが、クラス外の存在はしばしば有害である。 この設定では、標準の微調整と蒸留ベースの自己訓練が最も堅牢である。 我々の研究は、現実的なデータセットの専門家による半教師付き学習が、現在文献で広く使われているものとは異なる戦略を必要とする可能性を示唆している。

We evaluate the effectiveness of semi-supervised learning (SSL) on a realistic benchmark where data exhibits considerable class imbalance and contains images from novel classes. Our benchmark consists of two fine-grained classification datasets obtained by sampling classes from the Aves and Fungi taxonomy. We find that recently proposed SSL methods provide significant benefits, and can effectively use out-of-class data to improve performance when deep networks are trained from scratch. Yet their performance pales in comparison to a transfer learning baseline, an alternative approach for learning from a few examples. Furthermore, in the transfer setting, while existing SSL methods provide improvements, the presence of out-of-class is often detrimental. In this setting, standard fine-tuning followed by distillation-based self-training is the most robust. Our work suggests that semi-supervised learning with experts on realistic datasets may require different strategies than those currently prevalent in the literature.
翻訳日:2021-04-02 15:22:52 公開日:2021-04-01
# (参考訳) LoFTR: 変圧器による検出不要な局所特徴マッチング [全文訳有]

LoFTR: Detector-Free Local Feature Matching with Transformers ( http://arxiv.org/abs/2104.00680v1 )

ライセンス: CC BY 4.0
Jiaming Sun, Zehong Shen, Yuang Wang, Hujun Bao, Xiaowei Zhou(参考訳) 局所画像特徴マッチングのための新しい手法を提案する。 画像の特徴の検出,記述,マッチングを逐次行う代わりに,まず,粗いレベルでピクセルワイドなマッチングを確立し,その後,良好なマッチングを細かなレベルで洗練することを提案する。 文の検索にコストボリュームを用いる高密度な手法とは対照的に,トランスフォーマーの自己と横断的な注意層を用いて,両画像に条件付き特徴記述子を得る。 Transformerによって提供されるグローバルな受容場は、通常、特徴検出器が繰り返し可能な関心点を生成するのに苦労する低テクスチャ領域で密マッチングを生成することができる。 屋内および屋外のデータセットに関する実験では、LoFTRは最先端の手法よりも大きなマージンで優れていることが示された。 LoFTRはまた、公表された方法の中で、視覚的ローカライゼーションの2つの公開ベンチマークで第1位である。

We present a novel method for local image feature matching. Instead of performing image feature detection, description, and matching sequentially, we propose to first establish pixel-wise dense matches at a coarse level and later refine the good matches at a fine level. In contrast to dense methods that use a cost volume to search correspondences, we use self and cross attention layers in Transformer to obtain feature descriptors that are conditioned on both images. The global receptive field provided by Transformer enables our method to produce dense matches in low-texture areas, where feature detectors usually struggle to produce repeatable interest points. The experiments on indoor and outdoor datasets show that LoFTR outperforms state-of-the-art methods by a large margin. LoFTR also ranks first on two public benchmarks of visual localization among the published methods.
翻訳日:2021-04-02 15:06:04 公開日:2021-04-01
# (参考訳) NeuralRecon:モノクロビデオからのリアルタイムコヒーレント3D再構成 [全文訳有]

NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video ( http://arxiv.org/abs/2104.00681v1 )

ライセンス: CC BY 4.0
Jiaming Sun, Yiming Xie, Linghao Chen, Xiaowei Zhou, Hujun Bao(参考訳) 本稿では,モノクロ映像からのリアルタイム3次元シーン再構成のためのNeuralReconという新しいフレームワークを提案する。 各キーフレーム上で個別に一視点深度マップを推定し、後で融合させる従来の手法とは異なり、ニューラルネットワークにより、各ビデオフラグメントに対してスパースTSDFボリュームとして表される局所曲面を直接再構成することを提案する。 ゲートリカレントユニットに基づく学習ベースのTSDF融合モジュールは、ネットワークが以前のフラグメントから機能をフューズするために使用される。 この設計により、ネットワークは3d表面の前の局所的な滑らかさと大域的な形状を連続的に再現し、正確でコヒーレントでリアルタイムな表面再構成を可能にする。 ScanNetと7-Scenesのデータセットの実験により、我々のシステムは精度と速度の両方で最先端の手法より優れています。 我々の知る限りでは、これは、密集した3次元幾何学をリアルタイムで再構築できる最初の学習ベースシステムである。

We present a novel framework named NeuralRecon for real-time 3D scene reconstruction from a monocular video. Unlike previous methods that estimate single-view depth maps separately on each key-frame and fuse them later, we propose to directly reconstruct local surfaces represented as sparse TSDF volumes for each video fragment sequentially by a neural network. A learning-based TSDF fusion module based on gated recurrent units is used to guide the network to fuse features from previous fragments. This design allows the network to capture local smoothness prior and global shape prior of 3D surfaces when sequentially reconstructing the surfaces, resulting in accurate, coherent, and real-time surface reconstruction. The experiments on ScanNet and 7-Scenes datasets show that our system outperforms state-of-the-art methods in terms of both accuracy and speed. To the best of our knowledge, this is the first learning-based system that is able to reconstruct dense coherent 3D geometry in real-time.
翻訳日:2021-04-02 14:50:13 公開日:2021-04-01
# (参考訳) スパース・リワード課題に対するタッチベース好奇心 [全文訳有]

Touch-based Curiosity for Sparse-Reward Tasks ( http://arxiv.org/abs/2104.00442v1 )

ライセンス: CC BY 4.0
Sai Rajeswar, Cyril Ibrahim, Nitin Surya, Florian Golemo, David Vazquez, Aaron Courville, Pedro O. Pinheiro(参考訳) 多くの現実世界のロボットは、握り手の力/トルクセンサーにアクセスでき、触覚センサーは、接触に富む動きを伴うタスクにしばしば必要である。 本研究では,タッチフィードバックのミスマッチからサプライズを活用し,難解な強化学習タスクの探索を指導する。 当社のアプローチであるタッチベースの好奇心(toc)は、目に見えるオブジェクトのインタラクションがどのようなものであるかを学習します。 期待と経験が一致しない相互作用に報いることで、探索を奨励します。 提案手法では,タスクに依存しない最初の探索段階をタスク学習段階とし,元のインタラクションにタスク報酬を付与する。 我々は、タッチ集約型ロボットアームタスク(例)において、アプローチをテストする。 物体を押したり 扉を開けたり) これもこの作業の一部としてリリースします シミュレーション環境での複数の実験を通して,本手法は,疎い報酬と好奇心だけでこれらの困難な課題を学習できることを実証した。 クロスモーダルアプローチを単一モダリティ(タッチまたは視覚のみ)のアプローチや、他の好奇心に基づく手法と比較し、この手法がより良く、よりサンプル効率があることを確認します。

Robots in many real-world settings have access to force/torque sensors in their gripper and tactile sensing is often necessary in tasks that involve contact-rich motion. In this work, we leverage surprise from mismatches in touch feedback to guide exploration in hard sparse-reward reinforcement learning tasks. Our approach, Touch-based Curiosity (ToC), learns what visible objects interactions are supposed to "feel" like. We encourage exploration by rewarding interactions where the expectation and the experience don't match. In our proposed method, an initial task-independent exploration phase is followed by an on-task learning phase, in which the original interactions are relabeled with on-task rewards. We test our approach on a range of touch-intensive robot arm tasks (e.g. pushing objects, opening doors), which we also release as part of this work. Across multiple experiments in a simulated setting, we demonstrate that our method is able to learn these difficult tasks through sparse reward and curiosity alone. We compare our cross-modal approach to single-modality (touch- or vision-only) approaches as well as other curiosity-based methods and find that our method performs better and is more sample-efficient.
翻訳日:2021-04-02 14:13:35 公開日:2021-04-01
# ラベルの平滑化は本当に知識の蒸留とは相容れないか:実証的研究

Is Label Smoothing Truly Incompatible with Knowledge Distillation: An Empirical Study ( http://arxiv.org/abs/2104.00676v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Zechun Liu and Dejia Xu and Zitian Chen and Kwang-Ting Cheng and Marios Savvides(参考訳) 本研究はラベル平滑化が知識蒸留と相容れないという最近発見された視点を実証的に明らかにすることを目的としている。 まず,この不整合性向上の背景にある動機,すなわちラベルスムーズ化が教師のロジット間の相対情報を消去することから始める。 ラベルの平滑化が意味的に類似したクラスと異なるクラスの分布にどのように影響するか,新たな関連について述べる。 次に,サンプル表現における消去情報の度合いを定量的に測定する指標を提案する。 その後、画像分類、バイナリネットワーク、ニューラルマシン翻訳に関する大規模な分析、可視化、包括的な実験を通じて、その一方的側面と不完全性について研究する。 最後に,ラベル平滑化の効果が失われる状況について概説する。 プロジェクトページ: http://zhiqiangshen. com/projects/LS_and_ KD/index.html

This work aims to empirically clarify a recently discovered perspective that label smoothing is incompatible with knowledge distillation. We begin by introducing the motivation behind on how this incompatibility is raised, i.e., label smoothing erases relative information between teacher logits. We provide a novel connection on how label smoothing affects distributions of semantically similar and dissimilar classes. Then we propose a metric to quantitatively measure the degree of erased information in sample's representation. After that, we study its one-sidedness and imperfection of the incompatibility view through massive analyses, visualizations and comprehensive experiments on Image Classification, Binary Networks, and Neural Machine Translation. Finally, we broadly discuss several circumstances wherein label smoothing will indeed lose its effectiveness. Project page: http://zhiqiangshen. com/projects/LS_and_ KD/index.html.
翻訳日:2021-04-02 13:57:59 公開日:2021-04-01
# Storchastic: 一般的な確率的自動微分のためのフレームワーク

Storchastic: A Framework for General Stochastic Automatic Differentiation ( http://arxiv.org/abs/2104.00428v1 )

ライセンス: Link先を確認
Emile van Krieken, Jakub M. Tomczak, Annette ten Teije(参考訳) モデリング者は、勾配計算を定義することなく複雑なディープラーニングモデルを実装するために計算グラフの自動微分を使用する。 しかし、モデラーはしばしばサンプリング手法を用いて強化学習や変分推論のような難解な期待を推定する。 これらのサンプリングステップを通じて勾配を推定する現在の方法は限られており、連続確率変数と微分可能関数にのみ適用できるか、単純なが高分散スコア関数推定器しか使用できない。 このような制約を克服するために,確率計算グラフの自動微分のための新しいフレームワークであるstorchasticを紹介する。 storchasticでは、各サンプリングステップで様々な勾配推定方法を選択することで、勾配推定のばらつきを最適に低減することができる。 さらに,任意の次勾配の推定には確率論的に偏りがなく,分散還元法を高次勾配推定に一般化する。 最後に、PyTorchライブラリとしてStorchasticを実装します。

Modelers use automatic differentiation of computation graphs to implement complex Deep Learning models without defining gradient computations. However, modelers often use sampling methods to estimate intractable expectations such as in Reinforcement Learning and Variational Inference. Current methods for estimating gradients through these sampling steps are limited: They are either only applicable to continuous random variables and differentiable functions, or can only use simple but high variance score-function estimators. To overcome these limitations, we introduce Storchastic, a new framework for automatic differentiation of stochastic computation graphs. Storchastic allows the modeler to choose from a wide variety of gradient estimation methods at each sampling step, to optimally reduce the variance of the gradient estimates. Furthermore, Storchastic is provably unbiased for estimation of any-order gradients, and generalizes variance reduction techniques to higher-order gradient estimates. Finally, we implement Storchastic as a PyTorch library.
翻訳日:2021-04-02 13:57:44 公開日:2021-04-01
# Avalanche: 継続的学習のためのエンドツーエンドライブラリ

Avalanche: an End-to-End Library for Continual Learning ( http://arxiv.org/abs/2104.00405v1 )

ライセンス: Link先を確認
Vincenzo Lomonaco, Lorenzo Pellegrini, Andrea Cossu, Antonio Carta, Gabriele Graffieti, Tyler L. Hayes, Matthias De Lange, Marc Masana, Jary Pomponi, Gido van de Ven, Martin Mundt, Qi She, Keiland Cooper, Jeremy Forest, Eden Belouadah, Simone Calderara, German I. Parisi, Fabio Cuzzolin, Andreas Tolias, Simone Scardapane, Luca Antiga, Subutai Amhad, Adrian Popescu, Christopher Kanan, Joost van de Weijer, Tinne Tuytelaars, Davide Bacciu, Davide Maltoni(参考訳) 非定常データストリームから継続的に学習することは長年の目標であり、機械学習の課題である。 近年,特に深層学習コミュニティにおいて,継続的な学習への関心が高まっている。 しかし、アルゴリズム的なソリューションは、標準ベンチマークの結果でさえ再現が難しい異なる設定で再実装、評価、移植することがしばしば困難である。 本稿では,pytorchに基づく継続的学習研究のためのオープンソースライブラリであるavalancheを提案する。 avalancheは、継続的学習アルゴリズムの高速プロトタイピング、トレーニング、再現可能な評価のための共有かつ協調的なコードベースを提供するように設計されている。

Learning continually from non-stationary data streams is a long-standing goal and a challenging problem in machine learning. Recently, we have witnessed a renewed and fast-growing interest in continual learning, especially within the deep learning community. However, algorithmic solutions are often difficult to re-implement, evaluate and port across different settings, where even results on standard benchmarks are hard to reproduce. In this work, we propose Avalanche, an open-source end-to-end library for continual learning research based on PyTorch. Avalanche is designed to provide a shared and collaborative codebase for fast prototyping, training, and reproducible evaluation of continual learning algorithms.
翻訳日:2021-04-02 13:57:28 公開日:2021-04-01
# ビデオからの半教師あり学習のためのマルチビュー擬似ラベル

Multiview Pseudo-Labeling for Semi-supervised Learning from Video ( http://arxiv.org/abs/2104.00682v1 )

ライセンス: Link先を確認
Bo Xiong, Haoqi Fan, Kristen Grauman, Christoph Feichtenhofer(参考訳) 映像における半教師あり学習のための外観情報と動き情報という形態の相補的なビューを利用する新しいフレームワークである,ビデオ学習に対する多視点擬似ラベル方式を提案する。 補完的なビューは、純粋な教師なしデータよりも強力なビデオ表現を学ぶために、ラベルなしビデオの信頼性の高い擬似ラベルを得るのに役立つ。 提案手法は複数のビューを対象とするが,出現と動きの入力間で共有されるモデルを学習するので,設計上,推論時に計算オーバーヘッドを発生しない。 複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。

We present a multiview pseudo-labeling approach to video learning, a novel framework that uses complementary views in the form of appearance and motion information for semi-supervised learning in video. The complementary views help obtain more reliable pseudo-labels on unlabeled video, to learn stronger video representations than from purely supervised data. Though our method capitalizes on multiple views, it nonetheless trains a model that is shared across appearance and motion input and thus, by design, incurs no additional computation overhead at inference time. On multiple video recognition datasets, our method substantially outperforms its supervised counterpart, and compares favorably to previous work on standard benchmarks in self-supervised video representation learning.
翻訳日:2021-04-02 13:57:17 公開日:2021-04-01
# 正常対adversarial--関係抽出のためのadversarial sampleの解析

Normal vs. Adversarial: Salience-based Analysis of Adversarial Samples for Relation Extraction ( http://arxiv.org/abs/2104.00312v1 )

ライセンス: Link先を確認
Luoqiu Li, Xiang Chen, Ningyu Zhang, Shumin Deng, Xin Xie, Chuanqi Tan, Mosha Chen, Fei Huang, Huajun Chen(参考訳) 最近のニューラルベース関係抽出アプローチは、ベンチマークデータセットで有望な改善を達成しているが、敵攻撃に対する脆弱性を報告している。 今のところ、主に敵のサンプルの生成や敵の攻撃の防御に焦点を当てているが、通常のサンプルと敵のサンプルの違いについてはほとんど分かっていない。 そこで本研究では, 塩分に基づく手法を応用し, その逆のサンプルを解析する第一歩を踏み出す。 その結果,サリエンストークンは逆方向の摂動と直接相関していることがわかった。 さらに,相手の摂動は,訓練セットに存在しないトークンか,関係ラベルに関連付けられた表面的手がかりかを見いだす。 ある程度は、我々のアプローチは、敵のサンプルに対するキャラクターを明らかにします。 オープンソースのテストベッド“DiagnoseAdv”をリリースします。

Recent neural-based relation extraction approaches, though achieving promising improvement on benchmark datasets, have reported their vulnerability towards adversarial attacks. Thus far, efforts mostly focused on generating adversarial samples or defending adversarial attacks, but little is known about the difference between normal and adversarial samples. In this work, we take the first step to leverage the salience-based method to analyze those adversarial samples. We observe that salience tokens have a direct correlation with adversarial perturbations. We further find the adversarial perturbations are either those tokens not existing in the training set or superficial cues associated with relation labels. To some extent, our approach unveils the characters against adversarial samples. We release an open-source testbed, "DiagnoseAdv".
翻訳日:2021-04-02 13:56:57 公開日:2021-04-01
# wakavt:和歌生成のための逐次変分トランスフォーマ

WakaVT: A Sequential Variational Transformer for Waka Generation ( http://arxiv.org/abs/2104.00426v1 )

ライセンス: Link先を確認
Yuka Takeishi, Mingxuan Niu, Jing Luo, Zhong Jin, Xinyu Yang(参考訳) 詩の生成は人工知能にとって長年の課題だった。 和歌世代においては、俳句世代に注目する研究者も多いが、和歌世代に注目する研究者は少ない。 日本語詩作成における自然言語生成システムの創造的可能性を探るため,ユーザが指定したキーワードを自動生成する新たな和歌生成モデルであるWakaVTを提案する。 まず, 形状制約を満たすために, 加法マスクに基づくアプローチを提案する。 次に、トランスと変分オートエンコーダの構造を一体化し、生成コンテンツの品質を高める。 特に,新鮮さと多様性を得るために,若さデータにおける単語レベルの変動を効果的にキャプチャする潜伏変数列を用いる。 さらに,フラレンシー,コヒーレンス,有意義性の観点から言語品質を向上させるために,和歌の階層的言語構造を適切にモデル化する融合多レベル自己照応機構を提案する。 我々の知る限りでは、トランスフォーマおよび/または変分オートエンコーダに基づくモデルによる和歌生成を最初に調査する。 客観評価の結果と主観評価の結果は,本モデルがベースラインを著しく上回ることを示した。

Poetry generation has long been a challenge for artificial intelligence. In the scope of Japanese poetry generation, many researchers have paid attention to Haiku generation, but few have focused on Waka generation. To further explore the creative potential of natural language generation systems in Japanese poetry creation, we propose a novel Waka generation model, WakaVT, which automatically produces Waka poems given user-specified keywords. Firstly, an additive mask-based approach is presented to satisfy the form constraint. Secondly, the structures of Transformer and variational autoencoder are integrated to enhance the quality of generated content. Specifically, to obtain novelty and diversity, WakaVT employs a sequence of latent variables, which effectively captures word-level variability in Waka data. To improve linguistic quality in terms of fluency, coherence, and meaningfulness, we further propose the fused multilevel self-attention mechanism, which properly models the hierarchical linguistic structure of Waka. To the best of our knowledge, we are the first to investigate Waka generation with models based on Transformer and/or variational autoencoder. Both objective and subjective evaluation results demonstrate that our model outperforms baselines significantly.
翻訳日:2021-04-02 13:56:44 公開日:2021-04-01
# アフリカ言語の名前資源のためのウィキデータマイニング

Mining Wikidata for Name Resources for African Languages ( http://arxiv.org/abs/2104.00558v1 )

ライセンス: Link先を確認
Jonne S\"alev\"a and Constantine Lignos(参考訳) この研究は、共通のエンティティタイプ(個人、場所、組織)に対応するウィキデータ由来の名前リストのリソースを提供することで、アフリカの言語のための言語技術のさらなる発展を支援する。 Wikidataを名簿として最初に発掘したわけではないが、我々のアプローチはスケーラビリティと複製性を強調し、ラテン文字を使用しない言語におけるデータ品質の問題に対処する。 28のアフリカの言語で 約9千万の名前をリストしています 我々は、データ、それを生成するのに使われたプロセス、その制限を説明し、公開のためにソフトウェアとデータを提供する。 最後に,この資源を生産する上での倫理的考察と,その類型について論じる。

This work supports further development of language technology for the languages of Africa by providing a Wikidata-derived resource of name lists corresponding to common entity types (person, location, and organization). While we are not the first to mine Wikidata for name lists, our approach emphasizes scalability and replicability and addresses data quality issues for languages that do not use Latin scripts. We produce lists containing approximately 1.9 million names across 28 African languages. We describe the data, the process used to produce it, and its limitations, and provide the software and data for public use. Finally, we discuss the ethical considerations of producing this resource and others of its kind.
翻訳日:2021-04-02 13:56:27 公開日:2021-04-01
# 実世界情報ニーズに対するエビデンスに基づく検証

Evidence-based Verification for Real World Information Needs ( http://arxiv.org/abs/2104.00640v1 )

ライセンス: Link先を確認
James Thorne, Max Glockner, Gisela Vallejo, Andreas Vlachos, Iryna Gurevych(参考訳) クレーム検証は、証拠に対する文書の妥当性を予測するタスクである。 従来の大規模データセットでは、タスクを分類としてモデル化したり、証拠の取得の必要性を無視したり、研究目的のために構築されたりする。 本稿では,実世界の情報ニーズを表す証拠を付加した10,987件のクレームを検索エンジンクエリから抽出した新たなクレーム検証データセットを提案する。 それぞれの主張について、Wikipediaの全記事から、セクションと文レベルの粒度の両方でアノテートする。 本アノテーションは,姿勢分類と証拠抽出と補足認識の2つの補完的アプローチの比較を可能にする。 総合評価では,この2つのアプローチの精度に有意な差は認められなかった。 これにより,クレームの妥当性を予測した場合の正確性を維持しつつ,エンドユーザーの根拠を要約するためにエビデンス抽出を利用することができる。 数百の文を含む難解な主張と証拠文書によって、我々のデータセットは、過去の研究で捉えられなかった興味深い課題を、トランスファーラーニング実験を通じて提示する。 このタスクに関するさらなる研究をサポートするために、コードとデータをリリースします。

Claim verification is the task of predicting the veracity of written statements against evidence. Previous large-scale datasets model the task as classification, ignoring the need to retrieve evidence, or are constructed for research purposes, and may not be representative of real-world needs. In this paper, we introduce a novel claim verification dataset with instances derived from search-engine queries, yielding 10,987 claims annotated with evidence that represent real-world information needs. For each claim, we annotate evidence from full Wikipedia articles with both section and sentence-level granularity. Our annotation allows comparison between two complementary approaches to verification: stance classification, and evidence extraction followed by entailment recognition. In our comprehensive evaluation, we find no significant difference in accuracy between these two approaches. This enables systems to use evidence extraction to summarize a rationale for an end-user while maintaining the accuracy when predicting a claim's veracity. With challenging claims and evidence documents containing hundreds of sentences, our dataset presents interesting challenges that are not captured in previous work -- evidenced through transfer learning experiments. We release code and data to support further research on this task.
翻訳日:2021-04-02 13:56:18 公開日:2021-04-01
# Blur Kernel Spaceによる画像劣化の探索

Explore Image Deblurring via Blur Kernel Space ( http://arxiv.org/abs/2104.00317v1 )

ライセンス: Link先を確認
Phong Tran and Anh Tran and Quynh Phung and Minh Hoai(参考訳) 本稿では,鮮明な画像対の任意のデータセットのぼやけた演算子を,ぼやけたカーネル空間に符号化する手法を提案する。 In-the-wild blur operator にエンコードされたカーネル空間が十分近いと仮定し、ブラインド画像の劣化に対する交互最適化アルゴリズムを提案する。 符号化された空間内のカーネルによって見えないぼかし演算子を近似し、対応するシャープイメージを検索する。 最近のディープラーニングベースの手法と異なり、システムは目に見えないぼかしのカーネルを処理できるが、古典的な手法でよく見られるぼかし演算子の複雑な手作りの事前処理は回避できる。 この手法の設計のため、符号化されたカーネル空間は完全に微分可能であり、ディープニューラルネットワークモデルに容易に適用できる。 さらに、任意のデータセットから既存のぼかし演算子を新しいドメインに転送することで、ぼかし合成に使用できる。 最後に,提案手法の有効性を確認する実験結果を提供する。

This paper introduces a method to encode the blur operators of an arbitrary dataset of sharp-blur image pairs into a blur kernel space. Assuming the encoded kernel space is close enough to in-the-wild blur operators, we propose an alternating optimization algorithm for blind image deblurring. It approximates an unseen blur operator by a kernel in the encoded space and searches for the corresponding sharp image. Unlike recent deep-learning-based methods, our system can handle unseen blur kernel, while avoiding using complicated handcrafted priors on the blur operator often found in classical methods. Due to the method's design, the encoded kernel space is fully differentiable, thus can be easily adopted in deep neural network models. Moreover, our method can be used for blur synthesis by transferring existing blur operators from a given dataset into a new domain. Finally, we provide experimental results to confirm the effectiveness of the proposed method.
翻訳日:2021-04-02 13:56:00 公開日:2021-04-01
# マルチ時間センチネル-2衛星画像を用いた土地被覆分類のための自己注意型ネットワークのドメイン逆トレーニング

Domain-Adversarial Training of Self-Attention Based Networks for Land Cover Classification using Multi-temporal Sentinel-2 Satellite Imagery ( http://arxiv.org/abs/2104.00564v1 )

ライセンス: Link先を確認
Martini Mauro, Vittorio Mazzia, Aleem Khaliq, Marcello Chiaberge(参考訳) 大規模リモートセンシングラベル付きデータの利用が増加し、研究者は土地被覆と作物分類(LC&CC)の正確で正確なデータ駆動モデルを開発するようになった。 さらに,自己アテンションとイントロスペクション機構の導入により,深層学習手法は,多スペクトル領域における長時間の時系列処理において,計算要求を含む有望な結果を示した。 それにもかかわらず、ほとんどの実用的なアプリケーションはラベル付きデータに依存しておらず、この分野では、調査は収集されたサンプル数に厳格な制限を与える時間消費ソリューションである。 さらに、大気条件と特定の地理的領域特性は、その領域に利用可能なデータセットでトレーニングされたモデルの直接適用を許さない、関連する領域間隙を構成する。 本稿では,異なる地理的領域間の領域差を橋渡しするディープニューラルネットワークの対角トレーニングについて検討する。 特に,マルチスペクトル・マルチ時間データに対するドメイン適応の徹底的な解析を行い,ラベル付きデータが利用できない異なるターゲット領域にLC&CCの最先端自己注意モデルを適用する利点を正確に強調する。 広汎な実験により,抽出した特徴の分布に顕著な相違が認められたソース領域とターゲット領域にドメイン・アドバイザリ・トレーニングを適用した。

The increasing availability of large-scale remote sensing labeled data has prompted researchers to develop increasingly precise and accurate data-driven models for land cover and crop classification (LC&CC). Moreover, with the introduction of self-attention and introspection mechanisms, deep learning approaches have shown promising results in processing long temporal sequences in the multi-spectral domain with a contained computational request. Nevertheless, most practical applications cannot rely on labeled data, and in the field, surveys are a time consuming solution that poses strict limitations to the number of collected samples. Moreover, atmospheric conditions and specific geographical region characteristics constitute a relevant domain gap that does not allow direct applicability of a trained model on the available dataset to the area of interest. In this paper, we investigate adversarial training of deep neural networks to bridge the domain discrepancy between distinct geographical zones. In particular, we perform a thorough analysis of domain adaptation applied to challenging multi-spectral, multi-temporal data, accurately highlighting the advantages of adapting state-of-the-art self-attention based models for LC&CC to different target zones where labeled data are not available. Extensive experimentation demonstrated significant performance and generalization gain in applying domain-adversarial training to source and target regions with marked dissimilarities between the distribution of extracted features.
翻訳日:2021-04-02 13:55:45 公開日:2021-04-01
# 南アフリカの言語に対する低リソースニューラルマシン翻訳

Low-Resource Neural Machine Translation for South-Eastern African Languages ( http://arxiv.org/abs/2104.00366v1 )

ライセンス: Link先を確認
Evander Nyoni and Bruce A. Bassett(参考訳) 低リソースのアフリカの言語は、データ不足のため、ニューラルマシン翻訳の進歩から完全には恩恵を受けていない。 この課題に動機づけられて、3つのバントゥー語(shona、isixhosa、isizulu)と英語でゼロショット学習、転送学習、多言語学習を比較した。 私たちの主なターゲットは英語からイシズル語への翻訳で、たった3万文のペアで、私たちの他のコーパスの平均サイズの28%です。 BLEUスコアが5.2の英語-isi-Xhosaと英語-isi-Shona親モデルに基づく英-isi-Zulu変換学習における言語類似性の重要性を示す。 次に,多言語学習がデータ集合の転送学習とゼロショット学習の両方を上回っており,ベースラインである9.9,6.1,2.0に比べてbleuスコアが向上していることを示す。 我々の最良のモデルは、以前のSOTA BLEUスコアも10以上改善します。

Low-resource African languages have not fully benefited from the progress in neural machine translation because of a lack of data. Motivated by this challenge we compare zero-shot learning, transfer learning and multilingual learning on three Bantu languages (Shona, isiXhosa and isiZulu) and English. Our main target is English-to-isiZulu translation for which we have just 30,000 sentence pairs, 28% of the average size of our other corpora. We show the importance of language similarity on the performance of English-to-isiZulu transfer learning based on English-to-isiXhosa and English-to-Shona parent models whose BLEU scores differ by 5.2. We then demonstrate that multilingual learning surpasses both transfer learning and zero-shot learning on our dataset, with BLEU score improvements relative to the baseline English-to-isiZulu model of 9.9, 6.1 and 2.0 respectively. Our best model also improves the previous SOTA BLEU score by more than 10.
翻訳日:2021-04-02 13:55:21 公開日:2021-04-01
# グループベースサブセットスキャンによる生成モデルの創造性評価

Towards creativity characterization of generative models via group-based subset scanning ( http://arxiv.org/abs/2104.00479v1 )

ライセンス: Link先を確認
Celia Cintas, Payel Das, Brian Quanz, Skyler Speakman, Victor Akinwande, Pin-Yu Chen(参考訳) 変分オートエンコーダ(VAE)のような深い生成モデルは、計算創造性の研究に広く用いられている。 しかし、そのようなモデルは、散在的生成を妨げ、散発的なサンプル生成を回避し、創造性を制限している。 このように、人間の創造性の研究を生成的深層学習技術に取り入れることで、アウトプットをより魅力的で人間らしくする機会が得られる。 創造性研究に向けた生成モデルの出現を見る限り、これらのモデルから創造的なアウトプットを特徴づける機械学習ベースのサロゲートメトリクスの必要性は不可欠である。 生成モデルの隠れ層における異常なノードアクティベーションのサブセットを検出し,創造プロセスを定量化し,検出し,特徴付けるグループベースサブセットスキャンを提案する。 オリジナル、典型的にはデコードされ、「創造的にデコードされた」(das et al 2020)画像データセットを用いた実験により、提案するサブセットスコア分布は、画素空間よりも活性化空間における創造的プロセスの検出に有用であることが判明した。 さらに, 創造的なサンプルは, 通常のサンプルや非創造的なサンプルよりも大きな異常部分を生成することがわかった。 創造的復号プロセスで強調されるノードアクティベーションは、通常のサンプル生成に責任を持つものとは異なる。

Deep generative models, such as Variational Autoencoders (VAEs), have been employed widely in computational creativity research. However, such models discourage out-of-distribution generation to avoid spurious sample generation, limiting their creativity. Thus, incorporating research on human creativity into generative deep learning techniques presents an opportunity to make their outputs more compelling and human-like. As we see the emergence of generative models directed to creativity research, a need for machine learning-based surrogate metrics to characterize creative output from these models is imperative. We propose group-based subset scanning to quantify, detect, and characterize creative processes by detecting a subset of anomalous node-activations in the hidden layers of generative models. Our experiments on original, typically decoded, and "creatively decoded" (Das et al 2020) image datasets reveal that the proposed subset scores distribution is more useful for detecting creative processes in the activation space rather than the pixel space. Further, we found that creative samples generate larger subsets of anomalies than normal or non-creative samples across datasets. The node activations highlighted during the creative decoding process are different from those responsible for normal sample generation.
翻訳日:2021-04-02 13:54:01 公開日:2021-04-01
# 交通予測のためのベイズグラフ畳み込みネットワーク

Bayesian Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2104.00488v1 )

ライセンス: Link先を確認
Jun Fu, Wei Zhou, Zhibo Chen(参考訳) 近年,様々な注意に基づくメカニズムを用いてトラヒックデータから潜在グラフ構造を学習する適応グラフ畳み込みネットワークに基づくトラヒック予測手法が注目されている。 しかし,(1)道路網のトポロジーの先行性を無視すること,(2)否定的な空間的関係の存在を無視すること,(3)グラフ構造の不確実性に関する調査を欠くこと,などにより,交通条件間の空間的関係をよりよく記述できることは限られている。 本稿では,これらの問題を緩和するためのベイズグラフ畳み込みネットワーク(BGCN)フレームワークを提案する。 この枠組みの下では、グラフ構造はパラメトリック生成モデルからランダムな実現と見なされ、その後部は道路ネットワークと交通データの観測トポロジを用いて推定される。 特に、パラメトリック生成モデルは、(1)道路間の観測された物理的接続からベイズ的手法で潜在的な空間的関係を発見できる定数隣接行列、(2)交通データからエンドツーエンドでグローバル共有空間的相関を学習し、負の空間的相関をモデル化できる学習可能な隣接行列の2つの部分からなる。 グラフ構造の後部は、パラメトリックグラフ構造上でモンテカルロのドロップアウトを実行することで近似される。 実世界の5つのデータセットにおいて,本手法の有効性を検証し,bgcnが最先端の手法よりも優れた性能を達成できることを実験的に証明した。

Recently, adaptive graph convolutional network based traffic prediction methods, learning a latent graph structure from traffic data via various attention-based mechanisms, have achieved impressive performance. However, they are still limited to find a better description of spatial relationships between traffic conditions due to: (1) ignoring the prior of the observed topology of the road network; (2) neglecting the presence of negative spatial relationships; and (3) lacking investigation on uncertainty of the graph structure. In this paper, we propose a Bayesian Graph Convolutional Network (BGCN) framework to alleviate these issues. Under this framework, the graph structure is viewed as a random realization from a parametric generative model, and its posterior is inferred using the observed topology of the road network and traffic data. Specifically, the parametric generative model is comprised of two parts: (1) a constant adjacency matrix which discovers potential spatial relationships from the observed physical connections between roads using a Bayesian approach; (2) a learnable adjacency matrix that learns a global shared spatial correlations from traffic data in an end-to-end fashion and can model negative spatial correlations. The posterior of the graph structure is then approximated by performing Monte Carlo dropout on the parametric graph structure. We verify the effectiveness of our method on five real-world datasets, and the experimental results demonstrate that BGCN attains superior performance compared with state-of-the-art methods.
翻訳日:2021-04-02 13:53:39 公開日:2021-04-01
# NeRF-VAE:3次元シーン生成モデルを考慮した幾何学

NeRF-VAE: A Geometry Aware 3D Scene Generative Model ( http://arxiv.org/abs/2104.00587v1 )

ライセンス: Link先を確認
Adam R. Kosiorek, Heiko Strathmann, Daniel Zoran, Pol Moreno, Rosalia Schneider, So\v{n}a Mokr\'a, Danilo J. Rezende(参考訳) 本研究では,NeRFによる幾何学的構造を組み込んだ3次元シーン生成モデルNeRF-VAEを提案する。 NeRFとは対照的に、私たちのモデルはシーン間の共有構造を考慮しており、償却推論を使用して、新しいシーンの構造を -- 再トレーニングすることなく -- 推測することができる。 NeRF-VAEの明示的な3Dレンダリングプロセスは、幾何学的構造に欠ける畳み込みベースのレンダリングと、以前の生成モデルとはさらに対照的である。 我々のモデルは、レイディアンスフィールド上の分布を潜在シーン表現に条件付けすることで学習するVAEである。 一度訓練すると、NeRF-VAEは、非常に少ない入力画像を用いて、これまで見えない3D環境から幾何学的に一貫性のあるシーンを推測、描画できることを示す。 さらに、NeRF-VAEは、畳み込みモデルではあり得ないが、分布外カメラによく当てはまることを実証する。 最後に,NeRF-VAEデコーダのアテンションに基づくコンディショニング機構を導入し,モデル性能を向上させる。

We propose NeRF-VAE, a 3D scene generative model that incorporates geometric structure via NeRF and differentiable volume rendering. In contrast to NeRF, our model takes into account shared structure across scenes, and is able to infer the structure of a novel scene -- without the need to re-train -- using amortized inference. NeRF-VAE's explicit 3D rendering process further contrasts previous generative models with convolution-based rendering which lacks geometric structure. Our model is a VAE that learns a distribution over radiance fields by conditioning them on a latent scene representation. We show that, once trained, NeRF-VAE is able to infer and render geometrically-consis tent scenes from previously unseen 3D environments using very few input images. We further demonstrate that NeRF-VAE generalizes well to out-of-distribution cameras, while convolutional models do not. Finally, we introduce and study an attention-based conditioning mechanism of NeRF-VAE's decoder, which improves model performance.
翻訳日:2021-04-02 13:53:13 公開日:2021-04-01
# 混合型合成データの保持率とプライバシー評価

Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic Data ( http://arxiv.org/abs/2104.00635v1 )

ライセンス: Link先を確認
Michael Platzer and Thomas Reutterer(参考訳) aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重する高忠実度データ共有を可能にするという約束がますます認識されている。 しかし、生成した合成データセットの品質を適切に評価することは、まだオープンな課題である。 混合型表データに対する合成データソリューションの信頼性とプライバシーリスクを定量化する,ホールトアウトに基づく経験的評価フレームワークを導入,実証する。 忠実度の測定は、低次元の辺縁分布の統計距離に基づいており、合成データセットの代表性のためにモデルフリーで共有しやすい経験的計量を提供する。 トレーニングデータに対して、個人レベルから最も近い記録までの距離を計算することにより、プライバシリスクを評価する。 合成サンプルがホールドアウトデータと同等のトレーニングであることを示すことにより、合成者が実際にパターンを一般化し、個々のトレーニングレコードから独立していることの強い証拠が得られる。 4つの混合型データセットにまたがる7つの異なる合成データソリューションのためのフレームワークを実証し、これらを従来の統計開示手法と比較する。 結果は、これらの新興の合成データジェネレータのプライバシーだけでなく、忠実度を体系的に評価する必要性を浮き彫りにしている。

AI-based data synthesis has seen rapid progress over the last several years, and is increasingly recognized for its promise to enable privacy-respecting high-fidelity data sharing. However, adequately evaluating the quality of generated synthetic datasets is still an open challenge. We introduce and demonstrate a holdout-based empirical assessment framework for quantifying the fidelity as well as the privacy risk of synthetic data solutions for mixed-type tabular data. Measuring fidelity is based on statistical distances of lower-dimensional marginal distributions, which provide a model-free and easy-to-communicate empirical metric for the representativeness of a synthetic dataset. Privacy risk is assessed by calculating the individual-level distances to closest record with respect to the training data. By showing that the synthetic samples are just as close to the training as to the holdout data, we yield strong evidence that the synthesizer indeed learned to generalize patterns and is independent of individual training records. We demonstrate the presented framework for seven distinct synthetic data solutions across four mixed-type datasets and compare these to more traditional statistical disclosure techniques. The results highlight the need to systematically assess the fidelity just as well as the privacy of these emerging class of synthetic data generators.
翻訳日:2021-04-02 13:52:54 公開日:2021-04-01
# ダイナミックサイロ:Covid-19パンデミック前後における組織内通信ネットワークのモジュール性

Dynamic Silos: Modularity in intra-organizational communication networks before and during the Covid-19 pandemic ( http://arxiv.org/abs/2104.00641v1 )

ライセンス: Link先を確認
Jonathan Larson, Tiona Zuzul, Emily Cox Pahnke, Neha Parikh Shah, Patrick Bourke, Nicholas Caurvina, Fereshteh Amini, Youngser Park, Joshua Vogelstein, Jeffrey Weston, Christopher White, and Carey E. Priebe(参考訳) 世界中の職場でのコミュニケーションは、Covid-19や在宅勤務、リモートワークの興隆によって大幅に変化した。 2019年から2020年までのネットワークコミュニティ構造の変化を調べるために、世界中の4000の組織で360億通以上のメールから集約された匿名化されたメタデータを分析しました。 2020年の間、世界中の組織はモジュール性の向上によって、よりサイロ化されていました。 このシフトは安定性の低下と並行しており、組織的サイロはメンバーシップが安定していなかったことを示している。 組織のパフォーマンスとイノベーションに対する、これらのネットワーク変更(動的サイロ)の影響に関する最初の洞察を提供する。

Workplace communications around the world were drastically altered by Covid-19, work-from-home orders, and the rise of remote work. We analyze aggregated, anonymized metadata from over 360 billion emails within over 4000 organizations worldwide to examine changes in network community structures from 2019 through 2020. We find that, during 2020, organizations around the world became more siloed, evidenced by increased modularity. This shift was concurrent with decreased stability, indicating that organizational siloes had less stable membership. We provide initial insights into the implications of these network changes -- which we term dynamic silos -- for organizational performance and innovation.
翻訳日:2021-04-02 13:52:35 公開日:2021-04-01
# リモートセンシングシーン分類のための小型マルチブランチアンサンブルネットワークにおける組込み自己蒸留

Embedded Self-Distillation in Compact Multi-Branch Ensemble Network for Remote Sensing Scene Classification ( http://arxiv.org/abs/2104.00222v1 )

ライセンス: Link先を確認
Qi Zhao, Yujing Ma, Shuchang Lyu, Lijiang Chen(参考訳) リモートセンシング(RS)画像シーン分類タスクは、異なる地理的要素の異なる特徴から干渉されるため、多くの課題に直面している。 そこで本研究では,最終出力ロジットと中間特徴マップの特徴を融合することにより特徴表現能力を向上させるマルチブランチアンサンブルネットワークを提案する。 しかし、単に分岐を追加するだけでモデルの複雑さが増し、推論効率が低下する。 本稿では, 自己蒸留(sd)法を組み込んで, アンサンブルネットワークからメインブランチへ知識を伝達する。 SDを最適化することで、メインブランチはアンサンブルネットワークとしての性能が向上する。 推論の間、モデル全体を単純化するために他のブランチをカットできます。 本稿では,エンド・ツー・エンドで訓練可能なコンパクトなマルチブランチアンサンブルネットワークを最初に設計する。 次に,出力ロジットと特徴マップにSD法を挿入する。 従来の手法と比較して,提案するアーキテクチャ (ESD-MBENet) は,コンパクトな設計による分類精度に強く依存する。 3つのベンチマークrsデータセットであるnwpu-resisc45とuc-mercedに対して、vgg16、resnet50、drknet121という3つの古典的なベースラインモデルによる広範な実験が行われた。 その結果,提案するESD-MBENetは従来のSOTAモデルよりも精度が高いことがわかった。 さらに, 豊富な可視化分析により, より説得力と解釈性が向上した。

Remote sensing (RS) image scene classification task faces many challenges due to the interference from different characteristics of different geographical elements. To solve this problem, we propose a multi-branch ensemble network to enhance the feature representation ability by fusing features in final output logits and intermediate feature maps. However, simply adding branches will increase the complexity of models and decline the inference efficiency. On this issue, we embed self-distillation (SD) method to transfer knowledge from ensemble network to main-branch in it. Through optimizing with SD, main-branch will have close performance as ensemble network. During inference, we can cut other branches to simplify the whole model. In this paper, we first design compact multi-branch ensemble network, which can be trained in an end-to-end manner. Then, we insert SD method on output logits and feature maps. Compared to previous methods, our proposed architecture (ESD-MBENet) performs strongly on classification accuracy with compact design. Extensive experiments are applied on three benchmark RS datasets AID, NWPU-RESISC45 and UC-Merced with three classic baseline models, VGG16, ResNet50 and DenseNet121. Results prove that our proposed ESD-MBENet can achieve better accuracy than previous state-of-the-art (SOTA) complex models. Moreover, abundant visualization analysis make our method more convincing and interpretable.
翻訳日:2021-04-02 13:51:51 公開日:2021-04-01
# LaPred: 動的エージェントのマルチモーダル未来軌道のレーン認識予測

LaPred: Lane-Aware Prediction of Multi-Modal Future Trajectories of Dynamic Agents ( http://arxiv.org/abs/2104.00249v1 )

ライセンス: Link先を確認
ByeoungDo Kim, Seong Hyeon Park, Seokhwan Lee, Elbek Khoshimjonov, Dongsuk Kum, Junsoo Kim, Jeong Soo Kim, Jun Won Choi(参考訳) 本稿では,動的エージェント(ターゲットエージェントと呼ばれる)の現在の状態と過去の状態と,その環境に関する情報から,将来的な動きを予測する問題に対処する。 ターゲットエージェントを取り巻く静的環境と動的環境の両方でコンテキスト情報を活用し,交通状況において意味のある多様な軌道サンプルを生成する予測モデルを開発することが最重要である。 本稿では,意味地図から抽出したインスタンスレベルのレーンエンティティを用いて,複数モーダルな将来の軌跡の予測を行う,LaPredネットワークと呼ばれる新しい予測モデルを提案する。 ターゲットエージェントの近傍にある各レーン候補に対して、lapredは、レーンと隣接するエージェントの軌道に関するジョイント特徴を抽出する。 そして、各レーン候補の特徴を、対象エージェントが追従する可能性のあるレーン候補を特定する自己教師学習タスクを通じて学習した注意重みと融合させる。 インスタンスレベルのレーン情報を用いて、LaPredは2次元ラスタ画像ベースの手法よりも環境に適合する軌道を生成し、複数のレーン候補が与えられた様々な将来の軌道を生成することができる。 公開nuScenesデータセットとArgoverseデータセットで実施された実験は、提案したLaPredメソッドが既存の予測モデルを大幅に上回り、ベンチマークで最先端のパフォーマンスを達成することを示した。

In this paper, we address the problem of predicting the future motion of a dynamic agent (called a target agent) given its current and past states as well as the information on its environment. It is paramount to develop a prediction model that can exploit the contextual information in both static and dynamic environments surrounding the target agent and generate diverse trajectory samples that are meaningful in a traffic context. We propose a novel prediction model, referred to as the lane-aware prediction (LaPred) network, which uses the instance-level lane entities extracted from a semantic map to predict the multi-modal future trajectories. For each lane candidate found in the neighborhood of the target agent, LaPred extracts the joint features relating the lane and the trajectories of the neighboring agents. Then, the features for all lane candidates are fused with the attention weights learned through a self-supervised learning task that identifies the lane candidate likely to be followed by the target agent. Using the instance-level lane information, LaPred can produce the trajectories compliant with the surroundings better than 2D raster image-based methods and generate the diverse future trajectories given multiple lane candidates. The experiments conducted on the public nuScenes dataset and Argoverse dataset demonstrate that the proposed LaPred method significantly outperforms the existing prediction models, achieving state-of-the-art performance in the benchmarks.
翻訳日:2021-04-02 13:51:29 公開日:2021-04-01
# ドメイン不変な逆学習

Domain Invariant Adversarial Learning ( http://arxiv.org/abs/2104.00322v1 )

ライセンス: Link先を確認
Matan Levi, Idan Attias, Aryeh Kontorovich(参考訳) 敵対的な例の発見は、ディープニューラルネットワークの最も基本的な脆弱性の1つを明らかにした。 この本質的な弱点に取り組むために導入された様々な技術の中で、敵対的訓練は堅牢性を達成するための最も一般的で効率的な戦略であることが示されている。 通常は、ロバストと自然の損失のバランスをとる。 本研究では,ドメイン不変の特徴表現を強制することによって,ロバストな性能と自然な性能のトレードオフを改善することを目的とする。 本稿では,ロバストかつ領域不変である特徴表現を学習する,ドメイン不変逆学習(dial)と呼ばれる新しい逆学習法を提案する。 DIALは、自然領域とその対応する敵領域上でDANN(Domain Adversarial Neural Network)の変種を使用する。 ソースドメインが自然例から成り、対象ドメインが逆摂動例である場合、本手法は自然例と敵対例とを区別しないように制約された特徴表現を学習し、より良い表現を実現する。 我々は,現在最先端の対人訓練法と比較して,頑健さと自然な精度を両立させることで,その利点を実証する。

The discovery of adversarial examples revealed one of the most basic vulnerabilities of deep neural networks. Among the variety of techniques introduced to tackle this inherent weakness, adversarial training was shown to be the most common and efficient strategy to achieve robustness. It is usually done by balancing the robust and natural losses. In this work, we aim to achieve better trade-off between robust and natural performances by enforcing a domain invariant feature representation. We present a new adversarial training method, called Domain Invariant Adversarial Learning (DIAL) that learns a feature representation which is both robust and domain invariant. DIAL uses a variant of Domain Adversarial Neural Network (DANN) on the natural domain and its corresponding adversarial domain. In a case where the source domain consists of natural examples and the target domain is the adversarially perturbed examples, our method learns a feature representation constrained not to discriminate between the natural and adversarial examples, and can therefore achieve better representation. We demonstrate our advantage by improving both robustness and natural accuracy compared to current state-of-the-art adversarial training methods.
翻訳日:2021-04-02 13:51:05 公開日:2021-04-01
# 意味空間認識GANを用いたテキストから画像生成

Text to Image Generation with Semantic-Spatial Aware GAN ( http://arxiv.org/abs/2104.00567v1 )

ライセンス: Link先を確認
Wentong Liao, Kai Hu, Michael Ying Yang, Bodo Rosenhahn(参考訳) text to image generation(t2i)モデルは、テキスト記述と意味的に一致するフォトリアリスティックな画像を生成することを目的としている。 GAN(Generative Adversarial Network)の最近の進歩に基づき、既存のT2Iモデルは大きな進歩を遂げた。 しかし, 生成した画像の綿密な検査では, 1) 条件バッチ正規化法は局所的意味論を無視した画像特徴マップ全体に等しく適用され, 2) テキストエンコーダは訓練中に固定され, 画像生成のためのより良いテキスト表現を学ぶために, 画像生成者と共同で訓練すべきである。 これらの制約に対処するために,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。 具体的には,(1)テキストに条件づけられた意味適応変換を学習し,テキストの特徴と画像特徴を効果的に融合し,(2)現在のテキスト・イメージ融合プロセスに依存する弱教師付き方法でマスクマップを学習し,空間的に変換を導く,新たな意味空間認識畳み込みネットワークを提案する。 難解なCOCOとCUBの鳥のデータセットに関する実験は、最近の最先端のアプローチに対して、視覚的忠実度と入力テキスト記述との整合性の両方に関して、我々の手法の利点を実証している。

A text to image generation (T2I) model aims to generate photo-realistic images which are semantically consistent with the text descriptions. Built upon the recent advances in generative adversarial networks (GANs), existing T2I models have made great progress. However, a close inspection of their generated images reveals two major limitations: (1) The condition batch normalization methods are applied on the whole image feature maps equally, ignoring the local semantics; (2) The text encoder is fixed during training, which should be trained with the image generator jointly to learn better text representations for image generation. To address these limitations, we propose a novel framework Semantic-Spatial Aware GAN, which is trained in an end-to-end fashion so that the text encoder can exploit better text information. Concretely, we introduce a novel Semantic-Spatial Aware Convolution Network, which (1) learns semantic-adaptive transformation conditioned on text to effectively fuse text features and image features, and (2) learns a mask map in a weakly-supervised way that depends on the current text-image fusion process in order to guide the transformation spatially. Experiments on the challenging COCO and CUB bird datasets demonstrate the advantage of our method over the recent state-of-the-art approaches, regarding both visual fidelity and alignment with input text description.
翻訳日:2021-04-02 13:50:46 公開日:2021-04-01
# simpoe:3次元ポーズ推定のためのシミュレート文字制御

SimPoE: Simulated Character Control for 3D Human Pose Estimation ( http://arxiv.org/abs/2104.00683v1 )

ライセンス: Link先を確認
Ye Yuan, Shih-En Wei, Tomas Simon, Kris Kitani, Jason Saragih(参考訳) 単眼ビデオからの3次元人間の運動の正確な推定には、運動学(身体運動)と運動学(身体運動)の両方をモデル化する必要がある。 これを実演するために,画像に基づく動力学的推論と物理に基づく動的モデリングを統合した3次元人文推定のためのシミュレーションベースのアプローチであるSimPoEを提案する。 SimPoEは、現在のフレームポーズ推定と次のイメージフレームを入力として、物理シミュレーションされた文字を制御して次のフレームポーズ推定を出力するポリシーを学ぶ。 このポリシーは、2Dキーポイントを使用して次のフレームのキネマティックポーズ推定を反復的に洗練する学習可能なキネマティックポーズ改善ユニットを含む。 この洗練されたキネマティックなポーズに基づいて、ポリシーはキャラクタのダイナミクスベースの制御(例えばジョイントトルク)を計算し、現在のポーズ推定を次のフレームのポーズ推定に進める。 この設計は、運動的ポーズリファインメントユニットとダイナミクスベースの制御生成ユニットを結合し、強化学習と共同で学習し、正確かつ物理的に評価可能なポーズ推定を実現する。 さらに,キャラクタの動特性パラメータをキャラクタの状態に基づいて動的に調整し,より正確なポーズ推定を行うメタ制御機構を提案する。 大規模動作データセットを用いた実験により,本手法が身体的妥当性を確保しつつ,精度を向上することを示す。

Accurate estimation of 3D human motion from monocular video requires modeling both kinematics (body motion without physical forces) and dynamics (motion with physical forces). To demonstrate this, we present SimPoE, a Simulation-based approach for 3D human Pose Estimation, which integrates image-based kinematic inference and physics-based dynamics modeling. SimPoE learns a policy that takes as input the current-frame pose estimate and the next image frame to control a physically-simulated character to output the next-frame pose estimate. The policy contains a learnable kinematic pose refinement unit that uses 2D keypoints to iteratively refine its kinematic pose estimate of the next frame. Based on this refined kinematic pose, the policy learns to compute dynamics-based control (e.g., joint torques) of the character to advance the current-frame pose estimate to the pose estimate of the next frame. This design couples the kinematic pose refinement unit with the dynamics-based control generation unit, which are learned jointly with reinforcement learning to achieve accurate and physically-plausible pose estimation. Furthermore, we propose a meta-control mechanism that dynamically adjusts the character's dynamics parameters based on the character state to attain more accurate pose estimates. Experiments on large-scale motion datasets demonstrate that our approach establishes the new state of the art in pose accuracy while ensuring physical plausibility.
翻訳日:2021-04-02 13:50:16 公開日:2021-04-01
# MIMO構造のためのデータ駆動最適化追従制御ヒューリスティック:バランスシステムのケーススタディ

Data-Driven Optimized Tracking Control Heuristic for MIMO Structures: A Balance System Case Study ( http://arxiv.org/abs/2104.00199v1 )

ライセンス: Link先を確認
Ning Wang, Mohammed Abouheaf, Wail Gueaieb(参考訳) データ駆動計算ヒューリスティックは、そのダイナミクスを事前に知ることなくmimoシステムを制御するために提案されている。 ヒューリスティックは、2入力の2出力バランスシステムで示される。 ニューラルネットワークとヒューリスティックを受け入れる自己調整型非線形しきい値を統合し、動的コスト関数を最適化しながら、システムの所望の過渡特性と定常特性を妥協する。 ヒューリスティックは、複数の相互作用するPID制御ループの制御ゲインを決定する。 ニューラルネットワークは、客観的コスト関数のような重み付き導関数の最適化を訓練する。 開発機構の性能は、PID-Riccatiを併用した他のコントローラと比較される。 提案された制御スキームの有意義な特徴の1つは、システムダイナミクスの事前知識を必要としないことである。 しかし、これらは最適化アルゴリズムによって探索空間として使用される制御ゲインの既知安定領域に依存している。 制御機構は異なる設計要件に対応する最適化基準を用いて検証される。

A data-driven computational heuristic is proposed to control MIMO systems without prior knowledge of their dynamics. The heuristic is illustrated on a two-input two-output balance system. It integrates a self-adjusting nonlinear threshold accepting heuristic with a neural network to compromise between the desired transient and steady state characteristics of the system while optimizing a dynamic cost function. The heuristic decides on the control gains of multiple interacting PID control loops. The neural network is trained upon optimizing a weighted-derivative like objective cost function. The performance of the developed mechanism is compared with another controller that employs a combined PID-Riccati approach. One of the salient features of the proposed control schemes is that they do not require prior knowledge of the system dynamics. However, they depend on a known region of stability for the control gains to be used as a search space by the optimization algorithm. The control mechanism is validated using different optimization criteria which address different design requirements.
翻訳日:2021-04-02 13:49:27 公開日:2021-04-01
# 入力空間近傍でのニューラルタンジェントカーネルの学習

Learning with Neural Tangent Kernels in Near Input Sparsity Time ( http://arxiv.org/abs/2104.00415v1 )

ライセンス: Link先を確認
Amir Zandieh(参考訳) neural tangent kernel (ntk) は、勾配降下による最小二乗損失の下で訓練された無限に広いニューラルネットワークの挙動を特徴付ける(jacot et al., 2018)。 しかし、その重要性にもかかわらず、カーネルメソッドのスーパークワッドラティックランタイムは、大規模学習タスクにおけるNTKの使用を制限する。 ntkを用いてカーネルマシンを高速化するために,入力データをランダム化された低次元特徴空間にマッピングし,変換データの内部積をntk評価に近似する近似入力スパーシティタイムアルゴリズムを提案する。 さらに,NTK(Arora et al., 2019)の畳み込みを近似する特徴マップを提案する。 従来の大規模回帰・分類タスクでは,NTKカーネルを用いたNNとNystrom法より訓練された線形回帰器が優れていることを示す。

The Neural Tangent Kernel (NTK) characterizes the behavior of infinitely wide neural nets trained under least squares loss by gradient descent (Jacot et al., 2018). However, despite its importance, the super-quadratic runtime of kernel methods limits the use of NTK in large-scale learning tasks. To accelerate kernel machines with NTK, we propose a near input sparsity time algorithm that maps the input data to a randomized low-dimensional feature space so that the inner product of the transformed data approximates their NTK evaluation. Furthermore, we propose a feature map for approximating the convolutional counterpart of the NTK (Arora et al., 2019), which can transform any image using a runtime that is only linear in the number of pixels. We show that in standard large-scale regression and classification tasks a linear regressor trained on our features outperforms trained NNs and Nystrom method with NTK kernels.
翻訳日:2021-04-02 13:49:16 公開日:2021-04-01
# fairmodels: バイアス検出、可視化、緩和のための柔軟なツール

fairmodels: A Flexible Tool For Bias Detection, Visualization, And Mitigation ( http://arxiv.org/abs/2104.00507v1 )

ライセンス: Link先を確認
Jakub Wi\'sniewski, Przemys{\l}aw Biecek(参考訳) 機械学習の意思決定システムは、私たちの生活に普遍化しつつある。 デートアプリから借り手の評価まで、アルゴリズムは私たちの幸福と未来の両方に影響します。 しかし、一般的にこれらのシステムは失敗しない。 さらに、複雑な予測モデルは、差別の増大につながる可能性のある歴史的データに存在する社会的偏見を本当に学ぼうとしている。 責任を持ってモデルを作成したいのであれば、潜在的な差別の観点から、モデルの詳細な検証のためのツールが必要です。 この記事では、公平性を検証し、分類モデルのバイアスを簡単かつ柔軟な方法で排除するRパッケージフェアモデルを紹介します。 Fairmodelsパッケージはバイアス検出、可視化、緩和に対するモデルに依存しないアプローチを提供する。 実装された関数セットと公正度メトリクスは、異なる視点からモデル公正性検証を可能にする。 このパッケージには、モデルの差別を減らそうとするバイアス緩和の一連の方法が含まれている。 このパッケージは単一のモデルを調べるだけでなく、複数のモデルの比較を容易にするように設計されている。

Machine learning decision systems are getting omnipresent in our lives. From dating apps to rating loan seekers, algorithms affect both our well-being and future. Typically, however, these systems are not infallible. Moreover, complex predictive models are really eager to learn social biases present in historical data that can lead to increasing discrimination. If we want to create models responsibly then we need tools for in-depth validation of models also from the perspective of potential discrimination. This article introduces an R package fairmodels that helps to validate fairness and eliminate bias in classification models in an easy and flexible fashion. The fairmodels package offers a model-agnostic approach to bias detection, visualization and mitigation. The implemented set of functions and fairness metrics enables model fairness validation from different perspectives. The package includes a series of methods for bias mitigation that aim to diminish the discrimination in the model. The package is designed not only to examine a single model, but also to facilitate comparisons between multiple models.
翻訳日:2021-04-02 13:49:02 公開日:2021-04-01
# 画像デノイジングのための深い潜在部分空間の学習

Learning Deep Latent Subspaces for Image Denoising ( http://arxiv.org/abs/2104.00253v1 )

ライセンス: Link先を確認
Yunhao Yang, Yuhan Zheng, Yi Wang and Chandrajit Bajaj(参考訳) ほとんどのカメラ画像に異質性が存在する。 この異質性は、様々なモアレリング、モーションブラリング、カラーブレッシング、レンズベースの投影歪みとして画像空間全体に現れる。 さらに、これらの画像アーティファクトの組み合わせは、取得した画像内の小さなピクセルまたは大きなピクセル近傍に存在することができる。 現在のカメラ画像処理パイプラインは、深く訓練されたバージョンを含む、画像全体に均一に適用される単一のフィルタを適用する問題を修正する傾向がある。 これは特に、エンコーダ-デコーダ型ディープアーキテクチャがタスクのためにトレーニングされたときに当てはまる。 本稿では,異種画像アーティファクトフィルタリング問題を解くための構造化深層学習モデルを提案する。 Patch Subspace Variational Autoencoder (PS-VAE) をカメラISP向けに深層学習モデルと呼ぶ。 PS-VAEは画像内の均一な歪みレベルや類似のアーチファクトタイプを前提としない。 むしろ、我々のモデルは、画像から抽出した異なるパッチを、複数の潜在部分空間(例えば、)のアーティファクトタイプと歪みレベルにクラスタリングすることを試みる。 モアレリングアーティファクトは、しばしばガウス運動のぼかしアーティファクトよりも高次元の潜在歪みである。 各画像のパッチは、以前の混合モデルを使用して、適切な潜在サブスペース内のソフトクラスタにエンコードされる。 PS-VAEのデコーダは、各ソフトクラスタ内の各イメージパッチに対して教師なしの方法で訓練される。 実験により, 改良された異種フィルタリングにより得られる柔軟性と性能を実証した。 従来の1-encoder-one-decode rアーキテクチャと比較した。

Heterogeneity exists in most camera images. This heterogeneity manifests itself across the image space as varied Moire ringing, motion-blur, color-bleaching or lens based projection distortions. Moreover, combinations of these image artifacts can be present in small or large pixel neighborhoods, within an acquired image. Current camera image processing pipelines, including deep trained versions, tend to rectify the issue applying a single filter that is homogeneously applied to the entire image. This is also particularly true when an encoder-decoder type deep architecture is trained for the task. In this paper, we present a structured deep learning model that solves the heterogeneous image artifact filtering problem. We call our deep trained model the Patch Subspace Variational Autoencoder (PS-VAE) for Camera ISP. PS-VAE does not necessarily assume uniform image distortion levels nor similar artifact types within the image. Rather, our model attempts to learn to cluster different patches extracted from images into artifact type and distortion levels, within multiple latent subspaces (e.g. Moire ringing artifacts are often a higher dimensional latent distortion than a Gaussian motion blur artifact). Each image's patches are encoded into soft-clusters in their appropriate latent sub-space, using a prior mixture model. The decoders of the PS-VAE are also trained in an unsupervised manner for each of the image patches in each soft-cluster. Our experimental results demonstrates the flexibility and performance that one can achieve through improved heterogeneous filtering. We compare our results to a conventional one-encoder-one-deco der architecture.
翻訳日:2021-04-02 13:47:52 公開日:2021-04-01
# 情報入力特徴の同定によるCOVID-19および胸部病理モデル予測の解説

Explaining COVID-19 and Thoracic Pathology Model Predictions by Identifying Informative Input Features ( http://arxiv.org/abs/2104.00411v1 )

ライセンス: Link先を確認
Ashkan Khakzar, Yang Zhang, Wejdene Mansour, Yuezhi Cai, Yawei Li, Yucheng Zhang, Seong Tae Kim, Nassir Navab(参考訳) ニューラルネットワークは胸部X線上の分類および回帰タスクにおいて顕著な性能を示した。 臨床ルーチンに対する信頼を確立するためには,ネットワークの予測メカニズムを解釈する必要がある。 解釈に対する主要なアプローチは特徴帰属である。 特徴帰属法は、出力予測における入力特徴の重要性を識別する。 情報ボトルネックアトリビューション(iba)法に基づいて,ネットワークの出力と高い相互情報を有する胸部x線領域の予測を行う。 オリジナルIBAは十分な予測情報を持つ入力領域を特定する。 我々はすべての情報領域を特定するために逆IAAを提案する。 したがって、胸部X線診断に望ましい性質であるX線で、病理の予測方法が強調される。 さらに,回帰モデルを説明するための回帰IBAを提案する。 回帰ibaを用いて,累積的重大度スコアラベルに基づくモデルが,異なるx線領域の重大度を暗黙的に学習することを観察した。 最後に,高分解能かつより詳細な帰属/従属マップを生成するための多層IAAを提案する。 我々は,NIH Chest X-ray8 と BrixIA のデータセット上で,人中心的(地中構造に基づく)解釈可能性指標と人依存的特徴重要度指標の両方を用いて,本手法の評価を行った。 コードは公開されている。

Neural networks have demonstrated remarkable performance in classification and regression tasks on chest X-rays. In order to establish trust in the clinical routine, the networks' prediction mechanism needs to be interpretable. One principal approach to interpretation is feature attribution. Feature attribution methods identify the importance of input features for the output prediction. Building on Information Bottleneck Attribution (IBA) method, for each prediction we identify the chest X-ray regions that have high mutual information with the network's output. Original IBA identifies input regions that have sufficient predictive information. We propose Inverse IBA to identify all informative regions. Thus all predictive cues for pathologies are highlighted on the X-rays, a desirable property for chest X-ray diagnosis. Moreover, we propose Regression IBA for explaining regression models. Using Regression IBA we observe that a model trained on cumulative severity score labels implicitly learns the severity of different X-ray regions. Finally, we propose Multi-layer IBA to generate higher resolution and more detailed attribution/saliency maps. We evaluate our methods using both human-centric (ground-truth-based) interpretability metrics, and human-independent feature importance metrics on NIH Chest X-ray8 and BrixIA datasets. The Code is publicly available.
翻訳日:2021-04-02 13:47:29 公開日:2021-04-01
# 不確かさを考慮した不動船舶の軌道追尾 -積分強化学習アプローチ-

Trajectory Tracking of Underactuated Sea Vessels With Uncertain Dynamics: An Integral Reinforcement Learning Approach ( http://arxiv.org/abs/2104.00190v1 )

ライセンス: Link先を確認
Mohammed Abouheaf, Wail Gueaieb, Md. Suruz Miah, Davide Spinello(参考訳) 船舶のような未作動のシステムは、独立した作動力によって十分に一致しない動きの度合いを持っている。 さらに、最適舵と推力制御信号を決定するために、下層の軌道追従制御問題が複雑化する。 これにより、古典的最適追従法と適応制御法を用いて、誤差力学方程式に付随する難解ないくつかの制約を課す。 統合強化学習に基づくオンライン機械学習機構を提案し,システム力学の部分的事前知識を用いた非線形追跡問題の解法を提案する。 作動力は、容器のサージと角速度に関連する革新的な時間差方程式を用いて決定される。 このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。 適応学習機構は、望ましい参照追跡シナリオに反応して、よく機能し、対話的な特徴を示した。

Underactuated systems like sea vessels have degrees of motion that are insufficiently matched by a set of independent actuation forces. In addition, the underlying trajectory-tracking control problems grow in complexity in order to decide the optimal rudder and thrust control signals. This enforces several difficult-to-solve constraints that are associated with the error dynamical equations using classical optimal tracking and adaptive control approaches. An online machine learning mechanism based on integral reinforcement learning is proposed to find a solution for a class of nonlinear tracking problems with partial prior knowledge of the system dynamics. The actuation forces are decided using innovative forms of temporal difference equations relevant to the vessel's surge and angular velocities. The solution is implemented using an online value iteration process which is realized by employing means of the adaptive critics and gradient descent approaches. The adaptive learning mechanism exhibited well-functioning and interactive features in react to different desired reference-tracking scenarios.
翻訳日:2021-04-02 13:46:53 公開日:2021-04-01
# 球面上の浅水方程式に対する物理インフォームドニューラルネットワーク

Physics-informed neural networks for the shallow-water equations on the sphere ( http://arxiv.org/abs/2104.00615v1 )

ライセンス: Link先を確認
Alex Bihlo and Roman O. Popovych(参考訳) 球面上の浅水方程式の解法として物理インフォームドニューラルネットワークを提案する。 物理インフォームドニューラルネットワークは、所定の初期および境界データとともに微分方程式を満足するように訓練されており、有限差分、有限体積、スペクトル法といった従来の数値的手法と比較して微分方程式を解くための代替手法とみなすことができる。 球面上の浅水方程式に対する物理インフォームドニューラルネットワークのトレーニング困難について検討し、比較的長い時間間隔のテストケースに取り組むための簡易なマルチモデルアプローチを提案する。 ウィリアムソンらによって提唱された最も顕著なテストケースを解決することで,この手法の能力を示す。 [J.Comput] Phys 102, 211-224, 1992].

We propose the use of physics-informed neural networks for solving the shallow-water equations on the sphere. Physics-informed neural networks are trained to satisfy the differential equations along with the prescribed initial and boundary data, and thus can be seen as an alternative approach to solving differential equations compared to traditional numerical approaches such as finite difference, finite volume or spectral methods. We discuss the training difficulties of physics-informed neural networks for the shallow-water equations on the sphere and propose a simple multi-model approach to tackle test cases of comparatively long time intervals. We illustrate the abilities of the method by solving the most prominent test cases proposed by Williamson et al. [J. Comput. Phys. 102, 211-224, 1992].
翻訳日:2021-04-02 13:46:38 公開日:2021-04-01
# 高次元微分プライベートemアルゴリズム:手法と近最適統計量保証

High-Dimensional Differentially-Priva te EM Algorithm: Methods and Near-Optimal Statistical Guarantees ( http://arxiv.org/abs/2104.00245v1 )

ライセンス: Link先を確認
Zhe Zhang and Linjun Zhang(参考訳) 本稿では,高次元潜在変数モデルにおける微分プライベート期待最大化(em)アルゴリズムを設計するための汎用フレームワークを開発した。 提案した枠組みの統計的保証を導出し、ガウス混合、回帰の混合、および欠落した共変量との回帰の3つの特定のモデルに適用する。 各モデルにおいて,微分プライバシー制約付き収束の最適速度を定式化し,提案アルゴリズムが対数係数まで最適であることを示す。 高次元設定のために開発された技術ツールを古典的な低次元潜在変数モデルに拡張し、この設定で差分プライバシーを保証する近似EMアルゴリズムを提案する。 シミュレーション研究と実データ解析は,本研究の成果を裏付けるものである。

In this paper, we develop a general framework to design differentially private expectation-maximiza tion (EM) algorithms in high-dimensional latent variable models, based on the noisy iterative hard-thresholding. We derive the statistical guarantees of the proposed framework and apply it to three specific models: Gaussian mixture, mixture of regression, and regression with missing covariates. In each model, we establish the near-optimal rate of convergence with differential privacy constraints, and show the proposed algorithm is minimax rate optimal up to logarithm factors. The technical tools developed for the high-dimensional setting are then extended to the classic low-dimensional latent variable models, and we propose a near rate-optimal EM algorithm with differential privacy guarantees in this setting. Simulation studies and real data analysis are conducted to support our results.
翻訳日:2021-04-02 13:46:24 公開日:2021-04-01
# 質問応答のための部分グラフ認識関係と方向調整の統合

Integrating Subgraph-aware Relation and DirectionReasoning for Question Answering ( http://arxiv.org/abs/2104.00218v1 )

ライセンス: Link先を確認
Xu Wang, Shuai Zhao, Bo Cheng, Jiale Han, Yingting Li, Hao Yang, Ivan Sekulic, Guoshun Nan(参考訳) 知識ベース(KB)上の質問回答(QA)モデルは、エンティティ間の関係情報を利用してより正確な回答を提供することができる。 有効ではあるが、これらのモデルのほとんどは、異なる質問関連KBサブグラフに対する回答を得るために、固定関係表現のみに依存する。 したがって、これらの部分グラフの豊富な構造化情報は、関係表現ベクトルによって見落とされうる。 一方、グラフの回答予測に有効であることが証明された推論の方向情報は、既存の研究で完全には検討されていない。 これらの課題に対処するために、各サブグラフ内の関係を付加ノードに変換して構造情報を学習するリレーショナル更新指向型アンサーセレクタ(RDAS)を提案する。 さらに,方向情報を利用して推論能力を向上させる。 実験結果から,2つの広く使用されているデータセットに対して,本モデルによる大幅な改善が得られた。

Question Answering (QA) models over Knowledge Bases (KBs) are capable of providing more precise answers by utilizing relation information among entities. Although effective, most of these models solely rely on fixed relation representations to obtain answers for different question-related KB subgraphs. Hence, the rich structured information of these subgraphs may be overlooked by the relation representation vectors. Meanwhile, the direction information of reasoning, which has been proven effective for the answer prediction on graphs, has not been fully explored in existing work. To address these challenges, we propose a novel neural model, Relation-updated Direction-guided Answer Selector (RDAS), which converts relations in each subgraph to additional nodes to learn structure information. Additionally, we utilize direction information to enhance the reasoning ability. Experimental results show that our model yields substantial improvements on two widely used datasets.
翻訳日:2021-04-02 13:45:46 公開日:2021-04-01
# 発話のための高次元分布意味空間

High-dimensional distributed semantic spaces for utterances ( http://arxiv.org/abs/2104.00424v1 )

ライセンス: Link先を確認
Jussi Karlgren and Pentti Kanerva(参考訳) 高次元分散意味空間は、人間の生成したデータに関連する多くのタスクの視覚的、聴覚的、語彙的情報を集約し処理するのに有用かつ効果的であることが証明されている。 人間の言語は、多種多様な特徴、語彙的および構成的項目、および様々なタイプの文脈的および談話固有のデータを使用しており、これらは全て、コミュニケーション情報の様々な側面を表現するために相互作用する。 これらの機能のいくつかは、主にローカルで、例えば組織にとって有用である。 述語における議論の構造;他のものは言論の過程で永続的であり、内容の合理的な理解を達成するために必要なものである。 本稿では,言語情報を表現するための数学的原理と行動学的に妥当なアプローチに基づいて,構成や文脈データなどの特徴を含む発話・テキストレベルの高次元表現モデルについて述べる。 この表現の実装は、以前語彙言語項目に使われたランダムインデックスモデルの直接的な拡張である。 本論文は,従属解析や連続表現などの記号的表現の橋渡しとして好適な,固定次元の共通積分フレームワークにおいて,実装されたモデルが言語的特徴を広範囲に表すことができることを示す。 分類器や機械学習のアプローチで。 これは、ベクトルの連想メモリを伴う強力な計算代数学を構成するベクトルの演算によって達成される。 本稿では,フレームワークの技術的概要と,様々な言語的特徴にどのように適用できるかの具体例を紹介する。

High-dimensional distributed semantic spaces have proven useful and effective for aggregating and processing visual, auditory, and lexical information for many tasks related to human-generated data. Human language makes use of a large and varying number of features, lexical and constructional items as well as contextual and discourse-specific data of various types, which all interact to represent various aspects of communicative information. Some of these features are mostly local and useful for the organisation of e.g. argument structure of a predication; others are persistent over the course of a discourse and necessary for achieving a reasonable level of understanding of the content. This paper describes a model for high-dimensional representation for utterance and text level data including features such as constructions or contextual data, based on a mathematically principled and behaviourally plausible approach to representing linguistic information. The implementation of the representation is a straightforward extension of Random Indexing models previously used for lexical linguistic items. The paper shows how the implemented model is able to represent a broad range of linguistic features in a common integral framework of fixed dimensionality, which is computationally habitable, and which is suitable as a bridge between symbolic representations such as dependency analysis and continuous representations used e.g. in classifiers or further machine-learning approaches. This is achieved with operations on vectors that constitute a powerful computational algebra, accompanied with an associative memory for the vectors. The paper provides a technical overview of the framework and a worked through implemented example of how it can be applied to various types of linguistic features.
翻訳日:2021-04-02 13:45:32 公開日:2021-04-01
# 小さなイベントログによるビジネスプロセス監視手法の評価

Evaluating Predictive Business Process Monitoring Approaches on Small Event Logs ( http://arxiv.org/abs/2104.00362v1 )

ライセンス: Link先を確認
Martin K\"appel, Stefan Jablonski, Stefan Sch\"onig(参考訳) 予測的なビジネスプロセス監視は、実行中のプロセスインスタンスが実行時にその完了までどのように展開されるかを予測することです。 提案されたアプローチのほとんどは、さまざまな機械学習(ML)技術に依存している。 過去数年間、これらのアプローチの比較研究、レビュー、ベンチマークが公開され、異なる予測ターゲットに対してうまく適用できることが明らかになった。 ml技術は質的かつ定量的に十分なデータセットを必要とする。 しかし、量的に不十分なデータセットしか利用できないビジネスプロセス管理(BPM)には多くの状況があります。 bpmのコンテキストにおけるデータ不足の問題は、いまだに無視されている。 したがって、比較研究やベンチマークでは、小さなデータセットを持つ環境での予測ビジネスプロセス監視技術の性能を調査していない。 本稿では,既存の手法と小規模データセットの適合性を比較するための評価フレームワークを開発し,予測的ビジネスプロセスモニタリングにおける最先端手法への適用例を示す。

Predictive business process monitoring is concerned with the prediction how a running process instance will unfold up to its completion at runtime. Most of the proposed approaches rely on a wide number of different machine learning (ML) techniques. In the last years numerous comparative studies, reviews, and benchmarks of such approaches where published and revealed that they can be successfully applied for different prediction targets. ML techniques require a qualitatively and quantitatively sufficient data set. However, there are many situations in business process management (BPM) where only a quantitatively insufficient data set is available. The problem of insufficient data in the context of BPM is still neglected. Hence, none of the comparative studies or benchmarks investigates the performance of predictive business process monitoring techniques in environments with small data sets. In this paper an evaluation framework for comparing existing approaches with regard to their suitability for small data sets is developed and exemplarily applied to state-of-the-art approaches in predictive business process monitoring.
翻訳日:2021-04-02 13:44:44 公開日:2021-04-01
# エゴと目標車両の道路勾配を用いた車間距離推定の効率化と効率化

Improved and efficient inter-vehicle distance estimation using road gradients of both ego and target vehicles ( http://arxiv.org/abs/2104.00169v1 )

ライセンス: Link先を確認
Muhyun Back, Jinkyu Lee, Kyuho Bae, Sung Soo Hwang, Il Yong Chun(参考訳) 先進運転支援システムと自律運転では,エゴ車と目標車との距離を推定することが重要である。 既存の車間距離推定法では、エゴと目標車両は同じ地上を走行していると仮定する。 しかし、実際の運転環境では、異なる地上機で運転することができる。 本稿では,2次元物体検出深層ネットを用いて,emph{both} ego車両と目標車両の道路勾配を推定し,車間距離推定手法を提案する。 数値実験により, 深層深部推定法と比較して, 距離推定精度と時間複雑性が有意に向上することを示した。

In advanced driver assistant systems and autonomous driving, it is crucial to estimate distances between an ego vehicle and target vehicles. Existing inter-vehicle distance estimation methods assume that the ego and target vehicles drive on a same ground plane. In practical driving environments, however, they may drive on different ground planes. This paper proposes an inter-vehicle distance estimation framework that can consider slope changes of a road forward, by estimating road gradients of \emph{both} ego vehicle and target vehicles and using a 2D object detection deep net. Numerical experiments demonstrate that the proposed method significantly improves the distance estimation accuracy and time complexity, compared to deep learning-based depth estimation methods.
翻訳日:2021-04-02 13:43:38 公開日:2021-04-01
# 効率的な活動認識推定のための選択的特徴圧縮

Selective Feature Compression for Efficient Activity Recognition Inference ( http://arxiv.org/abs/2104.00179v1 )

ライセンス: Link先を確認
Chunhui Liu, Xinyu Li, Hao Chen, Davide Modolo, Joseph Tighe(参考訳) ほとんどのアクション認識ソリューションは、情報的時間的クリップを正確にカバーするために高密度サンプリングに依存している。 時間領域の探索は、現実世界のアプリケーションには高価である。 本研究では,トリミングビデオにおける現在の動作認識バックボーンの推論効率の向上に焦点をあて,非インフォーマティブな機能をドロップすることで,ひとつのアクションモデルが適切な情報領域をカバーできることを示す。 本稿では,モデル推論効率を大幅に向上させる行動認識推論戦略であるsfc(selective feature compression)を提案する。 カーネルサイズを圧縮しチャネル次元を小さくする以前の研究とは違い、バックボーンパラメータを変更することなく時空間次元で特徴フローを圧縮することを提案する。 Kinetics-400, UCF101, ActivityNet を用いた実験により, SFC は, 一般的に使用されている30種類の高密度サンプリング法と比較して, 推論速度を6~7倍, メモリ使用量を5~6倍に低減し, またTop1 の精度もわずかに向上した。 我々は,SFCとそのすべての構成要素を定量的に定性的に評価し,SFCが重要な映像領域への参加を学習し,行動認識の課題に適さない時間的特徴をドロップする方法を示す。

Most action recognition solutions rely on dense sampling to precisely cover the informative temporal clip. Extensively searching temporal region is expensive for a real-world application. In this work, we focus on improving the inference efficiency of current action recognition backbones on trimmed videos, and illustrate that one action model can also cover then informative region by dropping non-informative features. We present Selective Feature Compression (SFC), an action recognition inference strategy that greatly increase model inference efficiency without any accuracy compromise. Differently from previous works that compress kernel sizes and decrease the channel dimension, we propose to compress feature flow at spatio-temporal dimension without changing any backbone parameters. Our experiments on Kinetics-400, UCF101 and ActivityNet show that SFC is able to reduce inference speed by 6-7x and memory usage by 5-6x compared with the commonly used 30 crops dense sampling procedure, while also slightly improving Top1 Accuracy. We thoroughly quantitatively and qualitatively evaluate SFC and all its components and show how does SFC learn to attend to important video regions and to drop temporal features that are uninformative for the task of action recognition.
翻訳日:2021-04-02 13:43:26 公開日:2021-04-01
# less is more: jpegから直接ニューラルネットワークを高速化する

Less is More: Accelerating Faster Neural Networks Straight from JPEG ( http://arxiv.org/abs/2104.00185v1 )

ライセンス: Link先を確認
Samuel Felipe dos Santos and Jurandy Almeida(参考訳) ほとんどの画像データは圧縮形式で保存されることが多く、JPEGが最も広く使われている。 このデータを畳み込みニューラルネットワーク(cnn)に供給するには、高い計算負荷とメモリ使用を要求するrgbピクセルを得るために、予備復号処理が必要である。 このため,JPEG圧縮データを処理するためのCNNの設計が近年注目されている。 多くの既存の作品において、典型的なCNNアーキテクチャはRGBピクセルではなくDCT係数で学習しやすいように適応されている。 効果はあるが、アーキテクチャの変更は計算コストを上げるか、DCT入力から関連する情報を無視する。 本稿では,DCT入力に対して設計されたCNNの高速化方法について検討し,DCT入力を最大限に活用することにより,計算複雑性を低減するための学習戦略を活用する。 実験はImageNetデータセットを用いて行った。 その結果、データ駆動方式で全てのdct入力を組み合わせる方法を学ぶことは、手で捨てるよりも良いことを示し、その層の減少と組み合わせることで、精度を維持しながら計算コストを削減できることが証明された。

Most image data available are often stored in a compressed format, from which JPEG is the most widespread. To feed this data on a convolutional neural network (CNN), a preliminary decoding process is required to obtain RGB pixels, demanding a high computational load and memory usage. For this reason, the design of CNNs for processing JPEG compressed data has gained attention in recent years. In most existing works, typical CNN architectures are adapted to facilitate the learning with the DCT coefficients rather than RGB pixels. Although they are effective, their architectural changes either raise the computational costs or neglect relevant information from DCT inputs. In this paper, we examine different ways of speeding up CNNs designed for DCT inputs, exploiting learning strategies to reduce the computational complexity by taking full advantage of DCT inputs. Our experiments were conducted on the ImageNet dataset. Results show that learning how to combine all DCT inputs in a data-driven fashion is better than discarding them by hand, and its combination with a reduction of layers has proven to be effective for reducing the computational costs while retaining accuracy.
翻訳日:2021-04-02 13:43:01 公開日:2021-04-01
# 皮膚内視鏡および臨床画像における皮膚病変のマルチラベル分類とメラノーマ診断のためのグラフベースカテゴリ間・インターモダリティネットワーク

Graph-Based Intercategory and Intermodality Network for Multilabel Classification and Melanoma Diagnosis of Skin Lesions in Dermoscopy and Clinical Images ( http://arxiv.org/abs/2104.00201v1 )

ライセンス: Link先を確認
Xiaohang Fu, Lei Bi, Ashnil Kumar, Michael Fulham, and Jinman Kim(参考訳) メラノーマの同定には, 臨床および皮膚内視鏡検査で得られた皮膚病変の画像の統合的解析が関与する。 皮膚内視鏡画像は、マクロな臨床像を補う表面の視覚構造を詳細に観察する。 メラノーマの診断は一般に7-point visual category checklist (7pc)に基づいている。 7pcには、特徴の共有、相関、診断へのカテゴリの寄与など、分類を支援するカテゴリ間の固有の関係が含まれている。 手動の分類は主観的であり、生体内および生体内変動の傾向が強い。 これにより、診断を改善する自動化手法が提案される。 現在の最先端の手法は、単一の画像のモダリティに焦点を合わせ、他方からの情報を無視するか、あるいは両方のモダリティからの補完情報を十分に活用しない。 さらに、7PCにおけるカテゴリ間関係を利用する方法も存在しない。 本研究では,2つのモジュールでグラフベースの相互カテゴリ間ネットワーク(GIIN)を提案する。 グラフベースリレーショナルモジュール(grm)は、グラフネットワークでカテゴリ表現を符号化することにより、カテゴリ間関係、モード間関係を活用し、皮膚内視鏡から視覚構造詳細を優先する。 カテゴリ埋め込み学習モジュール(CELM)は、各カテゴリに特化した表現をキャプチャし、GRMをサポートする。 本手法は,dermoscopy-clinical imageの公開データセットを用いた分類性能の向上に有効であることを示し,7pc分類と診断における最先端技術を上回ることを示す。

The identification of melanoma involves an integrated analysis of skin lesion images acquired using the clinical and dermoscopy modalities. Dermoscopic images provide a detailed view of the subsurface visual structures that supplement the macroscopic clinical images. Melanoma diagnosis is commonly based on the 7-point visual category checklist (7PC). The 7PC contains intrinsic relationships between categories that can aid classification, such as shared features, correlations, and the contributions of categories towards diagnosis. Manual classification is subjective and prone to intra- and interobserver variability. This presents an opportunity for automated methods to improve diagnosis. Current state-of-the-art methods focus on a single image modality and ignore information from the other, or do not fully leverage the complementary information from both modalities. Further, there is not a method to exploit the intercategory relationships in the 7PC. In this study, we address these issues by proposing a graph-based intercategory and intermodality network (GIIN) with two modules. A graph-based relational module (GRM) leverages intercategorical relations, intermodal relations, and prioritises the visual structure details from dermoscopy by encoding category representations in a graph network. The category embedding learning module (CELM) captures representations that are specialised for each category and support the GRM. We show that our modules are effective at enhancing classification performance using a public dataset of dermoscopy-clinical images, and show that our method outperforms the state-of-the-art at classifying the 7PC categories and diagnosis.
翻訳日:2021-04-02 13:42:42 公開日:2021-04-01
# 擬似地層真理採掘による二相弱教師対象検出

Two-phase weakly supervised object detection with pseudo ground truth mining ( http://arxiv.org/abs/2104.00231v1 )

ライセンス: Link先を確認
Jun Wang(参考訳) 画像レベルのデータセットのみを用いて検出器を訓練することを目的としたweakly supervised object detection(wsod)は、研究者の注目を集めている。 本プロジェクトでは,強力な検出器と純粋なwsodモデルを統合する2相wsodアーキテクチャに焦点を当てる。 2相WSODにおける第2相検出器として用いられる代表検出器の有効性について検討し,2相WSODアーキテクチャを提案する。 さらに,第2相検出器の訓練に用いる擬似基底真理(PGT)を確立するための戦略を提案する。 上位1つの境界ボックスをPGTとみなす以前の研究とは異なり、我々はPGTアノテーションを確立するためにより多くの境界ボックスを考える。 これにより、PGTの低リコールに起因する学習問題が軽減される。 また,第2検出器の訓練中にPGTを改良する戦略を提案する。 我々の戦略は、特定の時期における訓練を中断し、第2相検出器の出力によってpgtを精錬する。 その後、アルゴリズムは、サスペンション前と同じ勾配と重みでトレーニングを継続する。 本手法の有効性を検証するため,PASCAL VOC 2007データセットを用いて実験を行った。 その結果,二相構造は単一pclモデルと比較して49.17%から53.21%に改善した。 さらに、最高PGT生成戦略は0.7%のmAPインクリメントを得る。 最高のリファインメント戦略は、パフォーマンスを1.74%向上させる。 これらの手法を全て適用した最良の結果は55.231% mAPであり、これは最先端のパフォーマンスである。

Weakly Supervised Object Detection (WSOD), aiming to train detectors with only image-level dataset, has arisen increasing attention for researchers. In this project, we focus on two-phase WSOD architecture which integrates a powerful detector with a pure WSOD model. We explore the effectiveness of some representative detectors utilized as the second-phase detector in two-phase WSOD and propose a two-phase WSOD architecture. In addition, we present a strategy to establish the pseudo ground truth (PGT) used to train the second-phase detector. Unlike previous works that regard top one bounding boxes as PGT, we consider more bounding boxes to establish the PGT annotations. This alleviates the insufficient learning problem caused by the low recall of PGT. We also propose some strategies to refine the PGT during the training of the second detector. Our strategies suspend the training in specific epoch, then refine the PGT by the outputs of the second-phase detector. After that, the algorithm continues the training with the same gradients and weights as those before suspending. Elaborate experiments are conduceted on the PASCAL VOC 2007 dataset to verify the effectiveness of our methods. As results demonstrate, our two-phase architecture improves the mAP from 49.17% to 53.21% compared with the single PCL model. Additionally, the best PGT generation strategy obtains a 0.7% mAP increment. Our best refinement strategy boosts the performance by 1.74% mAP. The best results adopting all of our methods achieve 55.231% mAP which is the state-of-the-art performance.
翻訳日:2021-04-02 13:42:19 公開日:2021-04-01
# 静止画像からの自己教師ありモーション学習

Self-supervised Motion Learning from Static Images ( http://arxiv.org/abs/2104.00240v1 )

ライセンス: Link先を確認
Ziyuan Huang, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Rong Jin, Marcelo Ang(参考訳) 動きはピクセルの動きとしてビデオに反映され、アクションは基本的に前景と背景の間の一貫性のない動きのパターンである。 動作をよく区別するため、特に時空間相互作用が複雑である場合には、目立った動き領域を正確に特定することが重要となる。 しかし、既存の動画の動作情報のほとんどは、優れた動作表現を持つモデルのラベル付けや訓練が難しいため、アノテーションのために大量の人的労働を必要とする。 本稿では,自己教師型学習によってこの問題に対処する。 具体的には、静的画像(MoSI)から動きを学ぶことを提案する。 モデルは、MoSIによって生成された擬似動作を分類することにより、動き情報を符号化することを学ぶ。 さらに、疑似動作に静的マスクを導入し、局所的な動きパターンを作成することにより、モデルに適切な分類のための注目すべき動き領域を付加させ、下流データセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証する。 その結果、学習された動き表現は、複雑なシーンや動き、すなわちアクション認識の理解を必要とするタスクのパフォーマンスを高める。 大規模な実験は、MoSIによって達成された一貫性と伝達可能な改善を示している。 コードはすぐにリリースされる。

Motions are reflected in videos as the movement of pixels, and actions are essentially patterns of inconsistent motions between the foreground and the background. To well distinguish the actions, especially those with complicated spatio-temporal interactions, correctly locating the prominent motion areas is of crucial importance. However, most motion information in existing videos are difficult to label and training a model with good motion representations with supervision will thus require a large amount of human labour for annotation. In this paper, we address this problem by self-supervised learning. Specifically, we propose to learn Motion from Static Images (MoSI). The model learns to encode motion information by classifying pseudo motions generated by MoSI. We furthermore introduce a static mask in pseudo motions to create local motion patterns, which forces the model to additionally locate notable motion areas for the correct classification.We demonstrate that MoSI can discover regions with large motion even without fine-tuning on the downstream datasets. As a result, the learned motion representations boost the performance of tasks requiring understanding of complex scenes and motions, i.e., action recognition. Extensive experiments show the consistent and transferable improvements achieved by MoSI. Codes will be soon released.
翻訳日:2021-04-02 13:41:57 公開日:2021-04-01
# 雑音領域適応のための発散最適化

Divergence Optimization for Noisy Universal Domain Adaptation ( http://arxiv.org/abs/2104.00246v1 )

ライセンス: Link先を確認
Qing Yu, Atsushi Hashimoto, Yoshitaka Ushiku(参考訳) ユニバーサルドメイン適応 (unida) はラベル豊富なソースドメインから学習した知識をラベル集合に制約なくラベル-スカース対象ドメインに転送するために提案されている。 しかし、実際には、リソースが限られたソースドメイン内の完全なラベル付きデータを大量に取得することは困難である。 既存のUniDAメソッドは、正しいアノテーションを持つソースサンプルに依存しており、実世界のアプリケーションを大幅に制限します。 そこで,本研究では,対象ドメインからのノイズラベル付きデータと,対象ドメインからの未知のクラス分布を持つ未ラベルデータを用いて分類器を訓練する,Noisy UniDAと呼ばれる新しい現実的な設定について考察する。 本稿では,全ての問題を同時に解くために,両頭部畳み込みニューラルネットワークフレームワークを提案する。 我々のネットワークは1つの共通特徴生成器と2つの決定境界を持つ分類器で構成されている。 2つの分類器の出力のばらつきを最適化することにより、ノイズの多いソースサンプルを検出し、ターゲットドメインの"未知"クラスを見つけ、ソースとターゲットドメインの分布を調整できる。 異なるドメイン適応設定の広範囲な評価において、提案手法は、ほとんどの設定において、既存の手法を大きく上回っている。

Universal domain adaptation (UniDA) has been proposed to transfer knowledge learned from a label-rich source domain to a label-scarce target domain without any constraints on the label sets. In practice, however, it is difficult to obtain a large amount of perfectly clean labeled data in a source domain with limited resources. Existing UniDA methods rely on source samples with correct annotations, which greatly limits their application in the real world. Hence, we consider a new realistic setting called Noisy UniDA, in which classifiers are trained with noisy labeled data from the source domain and unlabeled data with an unknown class distribution from the target domain. This paper introduces a two-head convolutional neural network framework to solve all problems simultaneously. Our network consists of one common feature generator and two classifiers with different decision boundaries. By optimizing the divergence between the two classifiers' outputs, we can detect noisy source samples, find "unknown" classes in the target domain, and align the distribution of the source and target domains. In an extensive evaluation of different domain adaptation settings, the proposed method outperformed existing methods by a large margin in most settings.
翻訳日:2021-04-02 13:41:41 公開日:2021-04-01
# Mesh Graphormer

Mesh Graphormer ( http://arxiv.org/abs/2104.00272v1 )

ライセンス: Link先を確認
Kevin Lin, Lijuan Wang, Zicheng Liu(参考訳) グラフ畳み込み強化変換器であるMesh Graphormerを1枚の画像から3次元の人間のポーズとメッシュ再構成を行う。 近年、トランスフォーマーとグラフ畳み込みニューラルネットワーク(gcnn)は、ヒトのメッシュ再構成に有望な進歩を示している。 トランスフォーマーベースのアプローチは、3次元メッシュ頂点と身体関節の間の非局所的相互作用のモデル化に有効であるが、gcnnは予め特定されたメッシュトポロジーに基づいた近傍頂点相互作用の活用に優れている。 本稿では,グラフ畳み込みと自己アテンションを組み合わせて局所的相互作用と大域的相互作用をモデル化する方法について検討する。 実験の結果,提案手法であるMesh Graphormerは,Human3.6M, 3DPW, FreiHANDデータセットを含む複数のベンチマークにおいて,従来の最先端手法よりも大幅に優れていた。

We present a graph-convolution-re inforced transformer, named Mesh Graphormer, for 3D human pose and mesh reconstruction from a single image. Recently both transformers and graph convolutional neural networks (GCNNs) have shown promising progress in human mesh reconstruction. Transformer-based approaches are effective in modeling non-local interactions among 3D mesh vertices and body joints, whereas GCNNs are good at exploiting neighborhood vertex interactions based on a pre-specified mesh topology. In this paper, we study how to combine graph convolutions and self-attentions in a transformer to model both local and global interactions. Experimental results show that our proposed method, Mesh Graphormer, significantly outperforms the previous state-of-the-art methods on multiple benchmarks, including Human3.6M, 3DPW, and FreiHAND datasets
翻訳日:2021-04-02 13:41:22 公開日:2021-04-01
# CUPID:ビデオ・ランゲージ表現学習のための事前学習データの適応的キュレーション

CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning ( http://arxiv.org/abs/2104.00285v1 )

ライセンス: Link先を確認
Luowei Zhou, Jingjing Liu, Yu Cheng, Zhe Gan, Lei Zhang(参考訳) この研究はビデオ言語による事前学習と表現学習に関するものである。 このユビキタスなトレーニングスキームでは、モデルはまず、特定の下流タスクに転送する前に、大きな未完のソースコーパスからペアのビデオやテキスト(ビデオクリップや副タイトルなど)を事前トレーニングします。 この2段階トレーニングプロセスは、ソースデータとターゲットデータ(例えば、指導的調理ビデオと映画)の間に有能なドメインギャップが存在する場合に特に顕著な事前訓練モデルの一般化能力に関する疑問を必然的に提起する。 本稿では,まず,事前学習対象(コントラスト型対再構成型)のドメイン間差に対する感度について述べる。 そこで本研究では,対象データにソースデータをフィルタリング,適応させることで,ドメイン間ギャップを埋める,シンプルで効果的なフレームワークであるCUPIDを提案する。 包括的実験により、ドメイン中心のデータのかなり小さなサブセットでの事前トレーニングは、ランダムサンプリングや完全な事前トレーニングデータセットの活用と比較して、ソースとターゲットのドメインギャップを効果的に閉鎖し、大幅なパフォーマンス向上を達成できることが示された。 CUPIDは、テキスト・ツー・ビデオ検索[72, 37]、ビデオ質問応答[36]、ビデオキャプション[72]など、複数のビデオ言語およびビデオタスクにまたがって、新しい最先端のパフォーマンスを提供する。

This work concerns video-language pre-training and representation learning. In this now ubiquitous training scheme, a model first performs pre-training on paired videos and text (e.g., video clips and accompanied subtitles) from a large uncurated source corpus, before transferring to specific downstream tasks. This two-stage training process inevitably raises questions about the generalization ability of the pre-trained model, which is particularly pronounced when a salient domain gap exists between source and target data (e.g., instructional cooking videos vs. movies). In this paper, we first bring to light the sensitivity of pre-training objectives (contrastive vs. reconstructive) to domain discrepancy. Then, we propose a simple yet effective framework, CUPID, to bridge this domain gap by filtering and adapting source data to the target data, followed by domain-focused pre-training. Comprehensive experiments demonstrate that pre-training on a considerably small subset of domain-focused data can effectively close the source-target domain gap and achieve significant performance gain, compared to random sampling or even exploiting the full pre-training dataset. CUPID yields new state-of-the-art performance across multiple video-language and video tasks, including text-to-video retrieval [72, 37], video question answering [36], and video captioning [72], with consistent performance lift over different pre-training methods.
翻訳日:2021-04-02 13:41:05 公開日:2021-04-01
# ビデオアノテーションなしでインスタンスを追跡する学習

Learning to Track Instances without Video Annotations ( http://arxiv.org/abs/2104.00287v1 )

ライセンス: Link先を確認
Yang Fu, Sifei Liu, Umar Iqbal, Shalini De Mello, Humphrey Shi, Jan Kautz(参考訳) 複数のインスタンスのセグメンテーションマスクの追跡は研究されているが,1)大規模かつフレームワイドなアノテーションの要求,2)2段階のアプローチの複雑さという2つの根本的な課題に直面している。 これらの課題を解決するために,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。 インスタンスの対照的な目的によって、各インスタンスを他のインスタンスと区別する埋め込みを学びます。 画像のみをトレーニングしても,学習した特徴表現はインスタンスの出現変動に頑健であり,フレーム間でオブジェクトを着実に追跡できることを示す。 我々は、ラベルなしビデオからの対応を自己監督的に学習することで、埋め込みのトラッキング能力をさらに強化する。 さらに、このモジュールをシングルステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合し、2段階のネットワークと比較して追跡の計算の複雑さを大幅に削減した。 YouTube-VIS と PoseTrack のデータセットで実験を行う。 ビデオアノテーションを使わずに、提案手法は、多くの完全教師付き手法と同等あるいはそれ以上の性能を達成できる。

Tracking segmentation masks of multiple instances has been intensively studied, but still faces two fundamental challenges: 1) the requirement of large-scale, frame-wise annotation, and 2) the complexity of two-stage approaches. To resolve these challenges, we introduce a novel semi-supervised framework by learning instance tracking networks with only a labeled image dataset and unlabeled video sequences. With an instance contrastive objective, we learn an embedding to discriminate each instance from the others. We show that even when only trained with images, the learned feature representation is robust to instance appearance variations, and is thus able to track objects steadily across frames. We further enhance the tracking capability of the embedding by learning correspondence from unlabeled videos in a self-supervised manner. In addition, we integrate this module into single-stage instance segmentation and pose estimation frameworks, which significantly reduce the computational complexity of tracking compared to two-stage networks. We conduct experiments on the YouTube-VIS and PoseTrack datasets. Without any video annotation efforts, our proposed method can achieve comparable or even better performance than most fully-supervised methods.
翻訳日:2021-04-02 13:40:37 公開日:2021-04-01
# 適応テキスト領域表現を用いた任意形テキスト検出

Arbitrary-Shaped Text Detection withAdaptive Text Region Representation ( http://arxiv.org/abs/2104.00297v1 )

ライセンス: Link先を確認
Xiufeng Jiang, Shugong Xu (Fellow, IEEE), Shunqing Zhang (Senior Member, IEEE), and Shan Cao(参考訳) コンピュータビジョンにおける重要なタスクであるテキスト検出/局所化は、畳み込みニューラルネットワークによる方法論と性能の大幅な進歩を目撃している。 しかし、一般的な方法の大多数は長方形や四角形を使ってテキスト領域を記述している。 これらの表現は固有の欠点、特に密接な隣接テキストと緩やかな地域テキスト境界に関するものであり、通常は任意の形のテキストを検出するのが困難である。 本稿では, 隣接したテキストを任意形状で高精度に検出できる, 頑健なパイプラインを用いた新しいテキスト領域表現法を提案する。 テキストインスタンスは、適応型中央テキスト領域マスクと、中央テキスト領域と全テキスト領域との伸長比とからなると考えられる。 より具体的には、我々のパイプラインは適応的な中央テキスト領域と対応する拡張比をトレーニング戦略で生成し、続いて、対応する拡張比で中央テキスト領域を全テキストインスタンスに拡張する新しい後処理アルゴリズムを提案する。 我々は,新しいテキスト領域表現が有効であることを実証し,そのパイプラインが近接するテキストインスタンスの構内形状を正確に検出できることを示した。 共通データセットにおける実験結果はoに優れた性能を示す

Text detection/localizati on, as an important task in computer vision, has witnessed substantialadvanceme nts in methodology and performance with convolutional neural networks. However, the vastmajority of popular methods use rectangles or quadrangles to describe text regions. These representationshave inherent drawbacks, especially relating to dense adjacent text and loose regional text boundaries,which usually cause difficulty detecting arbitrarily shaped text. In this paper, we propose a novel text regionrepresentation method, with a robust pipeline, which can precisely detect dense adjacent text instances witharbitrary shapes. We consider a text instance to be composed of an adaptive central text region mask anda corresponding expanding ratio between the central text region and the full text region. More specifically,our pipeline generates adaptive central text regions and corresponding expanding ratios with a proposedtraining strategy, followed by a new proposed post-processing algorithm which expands central text regionsto the complete text instance with the corresponding expanding ratios. We demonstrated that our new textregion representation is effective, and that the pipeline can precisely detect closely adjacent text instances ofarbitrary shapes. Experimental results on common datasets demonstrate superior performance o
翻訳日:2021-04-02 13:40:20 公開日:2021-04-01
# EfficientNetV2: より小さなモデルと高速トレーニング

EfficientNetV2: Smaller Models and Faster Training ( http://arxiv.org/abs/2104.00298v1 )

ライセンス: Link先を確認
Mingxing Tan, Quoc V. Le(参考訳) 本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。 学習速度とパラメータ効率を共同で最適化するために,学習認識型ニューラルネットワークの探索とスケーリングを組み合わせたモデルを開発した。 モデルはFused-MBConvのような新しいオペに富んだ検索空間から検索された。 実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。 トレーニング中に画像サイズを徐々に増やすことで、トレーニングをさらに加速することができるが、精度が低下することが多い。 この精度低下を補うために,正規化(例えば,ドロップアウトとデータ拡張)を適応的に調整し,高速なトレーニングと精度の両立を可能にすることを提案する。 プログレッシブラーニングでは、当社のEfficientNetV2は、ImageNetとCIFAR/Cars/Flowersデータセットで以前のモデルよりも大幅に優れています。 同じImageNet21kで事前トレーニングを行うことで、当社のEfficientNetV2は、ImageNet ILSVRC2012で87.3%のトップ-1の精度を達成し、最新のViTを2.0%上回り、同じコンピューティングリソースを使用して5x-11倍高速にトレーニングします。 コードはhttps://github.com/g oogle/automl/ efficientnetv2で入手できる。

This paper introduces EfficientNetV2, a new family of convolutional networks that have faster training speed and better parameter efficiency than previous models. To develop this family of models, we use a combination of training-aware neural architecture search and scaling, to jointly optimize training speed and parameter efficiency. The models were searched from the search space enriched with new ops such as Fused-MBConv. Our experiments show that EfficientNetV2 models train much faster than state-of-the-art models while being up to 6.8x smaller. Our training can be further sped up by progressively increasing the image size during training, but it often causes a drop in accuracy. To compensate for this accuracy drop, we propose to adaptively adjust regularization (e.g., dropout and data augmentation) as well, such that we can achieve both fast training and good accuracy. With progressive learning, our EfficientNetV2 significantly outperforms previous models on ImageNet and CIFAR/Cars/Flowers datasets. By pretraining on the same ImageNet21k, our EfficientNetV2 achieves 87.3% top-1 accuracy on ImageNet ILSVRC2012, outperforming the recent ViT by 2.0% accuracy while training 5x-11x faster using the same computing resources. Code will be available at https://github.com/g oogle/automl/efficie ntnetv2.
翻訳日:2021-04-02 13:40:00 公開日:2021-04-01
# Selective Pseudo LabelingとProgressive Self-Trainingによる半教師付きドメイン適応

Semi-Supervised Domain Adaptation via Selective Pseudo Labeling and Progressive Self-Training ( http://arxiv.org/abs/2104.00319v1 )

ライセンス: Link先を確認
Yoonhyung Kim and Changick Kim(参考訳) ドメイン適応 (da) は、知識をラベル不足のソースドメインからラベル対応対象ドメインに転送する表現学習手法である。 初期の手法のほとんどは教師なしDA(UDA)に重点を置いているが、最近は半教師なしDA(SSDA)の研究もいくつか提案されている。 SSDAでは,少数のラベル付き対象画像がトレーニング用に付与され,これらのデータの有効性が以前の研究で実証された。 しかし、従来のSSDAアプローチでは、通常の監視された損失を埋め込むためにのみ、これらのデータを採用していた。 本稿では,この観察に基づいて,ssaのラベル付きターゲット画像をさらに活用する新しい手法を提案する。 具体的には、ラベル付きターゲット画像を用いて、ラベルなしターゲット画像の擬似ラベルを選択的に生成する。 また,疑似ラベルが必然的にうるさいという観測に基づいて,ラベルノイズロバスト学習方式を適用し,ネットワークと疑似ラベルの集合を順次更新する。 広範な実験結果から,提案手法は他の最先端ssda法よりも優れていた。

Domain adaptation (DA) is a representation learning methodology that transfers knowledge from a label-sufficient source domain to a label-scarce target domain. While most of early methods are focused on unsupervised DA (UDA), several studies on semi-supervised DA (SSDA) are recently suggested. In SSDA, a small number of labeled target images are given for training, and the effectiveness of those data is demonstrated by the previous studies. However, the previous SSDA approaches solely adopt those data for embedding ordinary supervised losses, overlooking the potential usefulness of the few yet informative clues. Based on this observation, in this paper, we propose a novel method that further exploits the labeled target images for SSDA. Specifically, we utilize labeled target images to selectively generate pseudo labels for unlabeled target images. In addition, based on the observation that pseudo labels are inevitably noisy, we apply a label noise-robust learning scheme, which progressively updates the network and the set of pseudo labels by turns. Extensive experimental results show that our proposed method outperforms other previous state-of-the-art SSDA methods.
翻訳日:2021-04-02 13:39:37 公開日:2021-04-01
# 教師なし視覚表現学習のためのJigsawクラスタリング

Jigsaw Clustering for Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2104.00323v1 )

ライセンス: Link先を確認
Pengguang Chen, Shu Liu, Jiaya Jia(参考訳) 教師なし表現学習と対照学習は大きな成功を収めた。 この一連のメソッドは、各トレーニングバッチを複製してコントラストペアを構築し、各トレーニングバッチとその拡張バージョンを同時に転送し、追加の計算に繋がる。 本論文では,各トレーニングバッチを前進させるだけで,トレーニングコストを削減できる新しいjigsawクラスタリングプリテキストタスクを提案する。 本手法は画像内と画像間の両方からの情報を活用し、従来のシングルバッチベースの情報よりも大きなマージンで勝る。 トレーニングバッチの半分しか使用していない場合、対照的な学習方法にさえ匹敵する。 提案手法は,訓練中の複数のバッチは不要であり,単一バッチ非教師なし手法の今後の研究への扉を開くものである。 ImageNetデータセットでトレーニングしたモデルでは,線形分類による最先端の結果が得られ,従来の単一バッチ手法よりも2.6%向上した。 COCOデータセットに転送されたモデルは、トレーニングバッチの半分でMoCo v2を0.4%上回る。 我々の事前学習モデルは、CIFAR-10とCIFAR-100データセットでそれぞれ0.9%と4.1%の教師付きImageNetモデルより優れています。 コードはhttps://github.com/J ia-Research-Lab/Jigs awClusteringで入手できる。

Unsupervised representation learning with contrastive learning achieved great success. This line of methods duplicate each training batch to construct contrastive pairs, making each training batch and its augmented version forwarded simultaneously and leading to additional computation. We propose a new jigsaw clustering pretext task in this paper, which only needs to forward each training batch itself, and reduces the training cost. Our method makes use of information from both intra- and inter-images, and outperforms previous single-batch based ones by a large margin. It is even comparable to the contrastive learning methods when only half of training batches are used. Our method indicates that multiple batches during training are not necessary, and opens the door for future research of single-batch unsupervised methods. Our models trained on ImageNet datasets achieve state-of-the-art results with linear classification, outperforming previous single-batch methods by 2.6%. Models transferred to COCO datasets outperform MoCo v2 by 0.4% with only half of the training batches. Our pretrained models outperform supervised ImageNet pretrained models on CIFAR-10 and CIFAR-100 datasets by 0.9% and 4.1% respectively. Code is available at https://github.com/J ia-Research-Lab/Jigs awClustering
翻訳日:2021-04-02 13:39:17 公開日:2021-04-01
# STMTrack: 時空間メモリネットワークによるテンプレートなしのビジュアルトラッキング

STMTrack: Template-free Visual Tracking with Space-time Memory Networks ( http://arxiv.org/abs/2104.00324v1 )

ライセンス: Link先を確認
Zhihong Fu, Qingjie Liu, Zehua Fu, Yunhong Wang(参考訳) オフライントレーニングされたシアームトラッカーの性能向上は,第1フレームから切り出されたテンプレートの固定情報がほぼ完全に採掘されているため,近年は難しくなっているが,ターゲットの外観変化に抵抗する能力は乏しい。 テンプレート更新機構を持つ既存のトラッカーは、時間を要する数値最適化と複雑な手設計の戦略を頼りに、競合する性能を達成する。 本稿では,標的に関する歴史的情報を十分に活用し,追跡時の外観変化への適応性を高めることのできる,時空間記憶ネットワーク上に構築した新たな追跡フレームワークを提案する。 具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。 さらに、メモリネットワークのピクセルレベルの類似度計算により、ターゲットのバウンディングボックスをより正確に生成することができる。 otb-2015、trackingnet、got-10k、lasot、uav123、vot2018など、多くの競合トラッカとの広範な実験と比較によって、37fpsで動作中の従来の最先端のリアルタイムメソッドよりも優れています。 コードはhttps://github.com/f zh0917/stmtrackで入手できる。

Boosting performance of the offline trained siamese trackers is getting harder nowadays since the fixed information of the template cropped from the first frame has been almost thoroughly mined, but they are poorly capable of resisting target appearance changes. Existing trackers with template updating mechanisms rely on time-consuming numerical optimization and complex hand-designed strategies to achieve competitive performance, hindering them from real-time tracking and practical applications. In this paper, we propose a novel tracking framework built on top of a space-time memory network that is competent to make full use of historical information related to the target for better adapting to appearance variations during tracking. Specifically, a novel memory mechanism is introduced, which stores the historical information of the target to guide the tracker to focus on the most informative regions in the current frame. Furthermore, the pixel-level similarity computation of the memory network enables our tracker to generate much more accurate bounding boxes of the target. Extensive experiments and comparisons with many competitive trackers on challenging large-scale benchmarks, OTB-2015, TrackingNet, GOT-10k, LaSOT, UAV123, and VOT2018, show that, without bells and whistles, our tracker outperforms all previous state-of-the-art real-time methods while running at 37 FPS. The code is available at https://github.com/f zh0917/STMTrack.
翻訳日:2021-04-02 13:38:59 公開日:2021-04-01
# 有名な企業はロゴにもっと文字を使う:ロゴのテキスト領域の大規模分析

Famous Companies Use More Letters in Logo:A Large-Scale Analysis of Text Area in Logo ( http://arxiv.org/abs/2104.00327v1 )

ライセンス: Link先を確認
Shintaro Nishi, Takeaki Kadota, Seiichi Uchida(参考訳) 本稿では,近年の深層学習技術を用いて,LDD-logoデータセットからの多数のロゴ画像を分析し,ロゴ画像の設計動向だけでなく,所有企業との関係も理解している。 特に,ロゴ画像とテキスト領域,テキスト領域とtwitterのフォロワー数,ロゴ画像とフォロワー数との間に,3つの相関関係に注目した。 テキスト面積比と企業のフォロワー数との間には, 有意な相関関係がみられた。 さらに, ロゴ画像とフォロワー数との相関関係を, 深部回帰法と深部ランキング法で求めることができる。

This paper analyzes a large number of logo images from the LLD-logo dataset, by recent deep learning-based techniques, to understand not only design trends of logo images and but also the correlation to their owner company. Especially, we focus on three correlations between logo images and their text areas, between the text areas and the number of followers on Twitter, and between the logo images and the number of followers. Various findings include the weak positive correlation between the text area ratio and the number of followers of the company. In addition, deep regression and deep ranking methods can catch correlations between the logo images and the number of followers.
翻訳日:2021-04-02 13:38:33 公開日:2021-04-01
# UC2: 共通言語間クロスモーダルビジョン・ランゲージ事前訓練

UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training ( http://arxiv.org/abs/2104.00332v1 )

ライセンス: Link先を確認
Mingyang Zhou, Luowei Zhou, Shuohang Wang, Yu Cheng, Linjie Li, Zhou Yu, Jingjing Liu(参考訳) 視覚と言語の事前学習は、視覚と言語の間のマルチモーダル表現を学ぶことで素晴らしい成功を収めた。 この成功を非英語言語に一般化するために、言語間相互モーダル表現学習のための最初の機械翻訳拡張フレームワークUC2を紹介する。 画像データセットの多言語キャプションの不足問題に対処するため,機械翻訳(MT)により,既存の英語のみのデータセットを他の言語で拡張する。 次に、標準のマスキング言語モデリングと画像テキストマッチングトレーニング対象を多言語設定に拡張し、異なる言語間のアライメントを共有ビジュアルコンテキスト(イメージをピボットとして使用する)でキャプチャする。 画像の埋め込み空間とすべての言語を学習しやすくするため,MT強調データを利用したMRTM(Masked Region-to-Token Modeling)とVTLM(Visual Translation Language Modeling)という2つの新しい事前学習タスクを提案する。 多言語画像テキスト検索と多言語視覚質問応答ベンチマークの評価により,提案手法は,英語タスクにおける単言語前学習モデルと同等の性能を維持しつつ,多言語非英語ベンチマークにおいて,新たな最先端を実現した。

Vision-and-language pre-training has achieved impressive success in learning multimodal representations between vision and language. To generalize this success to non-English languages, we introduce UC2, the first machine translation-augmente d framework for cross-lingual cross-modal representation learning. To tackle the scarcity problem of multilingual captions for image datasets, we first augment existing English-only datasets with other languages via machine translation (MT). Then we extend the standard Masked Language Modeling and Image-Text Matching training objectives to multilingual setting, where alignment between different languages is captured through shared visual context (i.e, using image as pivot). To facilitate the learning of a joint embedding space of images and all languages of interest, we further propose two novel pre-training tasks, namely Masked Region-to-Token Modeling (MRTM) and Visual Translation Language Modeling (VTLM), leveraging MT-enhanced translated data. Evaluation on multilingual image-text retrieval and multilingual visual question answering benchmarks demonstrates that our proposed framework achieves new state-of-the-art on diverse non-English benchmarks while maintaining comparable performance to monolingual pre-trained models on English tasks.
翻訳日:2021-04-02 13:38:23 公開日:2021-04-01
# 複雑なシーン画像生成のための爆発的関係

Exploiting Relationship for Complex-scene Image Generation ( http://arxiv.org/abs/2104.00356v1 )

ライセンス: Link先を確認
Tianyu Hua, Hongdong Zheng, Yalong Bai, Wei Zhang, Xiao-Ping Zhang, Tao Mei(参考訳) GAN(Generative Adversarial Networks)の大幅な進歩により、言語入力に基づく現実的な単一オブジェクト画像生成が容易になった。 しかし、複雑なシーン生成(複数のオブジェクト間の様々な相互作用)は、レイアウトや外観の多様な構成のため、いまだに乱雑なレイアウトやオブジェクトの歪みに悩まされている。 従来のメソッドはほとんどがオブジェクト駆動であり、複雑なシーンイメージにおいて重要な役割を果たす相互関係を無視する。 本研究は、複数のオブジェクトがシーングラフとして相互に関連づけられる、関係を意識した複雑なシーン画像生成を探求する。 関係の助けを借りて、生成フレームワークに3つの大きなアップデートを提案する。 第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。 標準的な位置回帰と比較すると、相対的なスケールと距離はより信頼性の高いターゲットとなる。 第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。 第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。 本手法は,画像中の複数のオブジェクトの相互作用を考慮し,妥当なレイアウトとオブジェクトを合成する傾向がある。 視覚ゲノムとHICO-DETデータセットによる実験結果から,提案手法はISとFIDの指標で先行技術よりも有意に優れていた。 本手法は, ユーザ調査と視覚検査により, 複雑なシーンの論理レイアウトや外観生成に有効である。

The significant progress on Generative Adversarial Networks (GANs) has facilitated realistic single-object image generation based on language input. However, complex-scene generation (with various interactions among multiple objects) still suffers from messy layouts and object distortions, due to diverse configurations in layouts and appearances. Prior methods are mostly object-driven and ignore their inter-relations that play a significant role in complex-scene images. This work explores relationship-aware complex-scene image generation, where multiple objects are inter-related as a scene graph. With the help of relationships, we propose three major updates in the generation framework. First, reasonable spatial layouts are inferred by jointly considering the semantics and relationships among objects. Compared to standard location regression, we show relative scales and distances serve a more reliable target. Second, since the relations between objects significantly influence an object's appearance, we design a relation-guided generator to generate objects reflecting their relationships. Third, a novel scene graph discriminator is proposed to guarantee the consistency between the generated image and the input scene graph. Our method tends to synthesize plausible layouts and objects, respecting the interplay of multiple objects in an image. Experimental results on Visual Genome and HICO-DET datasets show that our proposed method significantly outperforms prior arts in terms of IS and FID metrics. Based on our user study and visual inspection, our method is more effective in generating logical layout and appearance for complex-scenes.
翻訳日:2021-04-02 13:38:00 公開日:2021-04-01
# クロスタスクシナジーを用いたオンラインマルチオブジェクトトラッキング

Online Multiple Object Tracking with Cross-Task Synergy ( http://arxiv.org/abs/2104.00380v1 )

ライセンス: Link先を確認
Song Guo, Jingya Wang, Xinchao Wang, Dacheng Tao(参考訳) 現代のオンラインマルチオブジェクトトラッキング(MOT)手法は通常、トラッキング性能を改善するために2つの方向に焦点を当てる。 1つは、前のフレームからの追跡情報に基づいて、入ってくるフレームの新しい位置を予測し、もう1つは、より識別的なアイデンティティ埋め込みを生成して、データアソシエーションを強化することである。 1つのフレームワーク内で両方の方向を結合して、2つのタスクとして処理する作業もあるため、相互利益はほとんど得られない。 本稿では,位置予測と埋め込み関係の相乗効果を考慮した新しい統一モデルを提案する。 2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。 具体的には、注意モジュールによって、予測がターゲットに焦点をあて、邪魔者を減らすことができるため、より信頼性の高い埋め込みを関連付けて抽出することができる。 一方で、このような信頼性の高い埋め込みは、メモリアグリゲーションによるアイデンティティ認識を促進し、アテンションモジュールを強化し、ドリフトを抑制する。 このように、位置予測と埋め込みアソシエーションの相乗効果が達成され、オクルージョンに対する強い堅牢性をもたらす。 大規模な実験により,MOTChallengeベンチマーク上での既存手法に対する提案手法の優位性を実証した。 私たちのコードとモデルはhttps://github.com/s ongguocode/TADAMで公開されています。

Modern online multiple object tracking (MOT) methods usually focus on two directions to improve tracking performance. One is to predict new positions in an incoming frame based on tracking information from previous frames, and the other is to enhance data association by generating more discriminative identity embeddings. Some works combined both directions within one framework but handled them as two individual tasks, thus gaining little mutual benefits. In this paper, we propose a novel unified model with synergy between position prediction and embedding association. The two tasks are linked by temporal-aware target attention and distractor attention, as well as identity-aware memory aggregation model. Specifically, the attention modules can make the prediction focus more on targets and less on distractors, therefore more reliable embeddings can be extracted accordingly for association. On the other hand, such reliable embeddings can boost identity-awareness through memory aggregation, hence strengthen attention modules and suppress drifts. In this way, the synergy between position prediction and embedding association is achieved, which leads to strong robustness to occlusions. Extensive experiments demonstrate the superiority of our proposed model over a wide range of existing methods on MOTChallenge benchmarks. Our code and models are publicly available at https://github.com/s ongguocode/TADAM.
翻訳日:2021-04-02 13:37:38 公開日:2021-04-01
# 正確な追跡のためのターゲット変換回帰

Target Transformed Regression for Accurate Tracking ( http://arxiv.org/abs/2104.00403v1 )

ライセンス: Link先を確認
Yutao Cui, Cheng Jiang, Limin Wang and Gangshan Wu(参考訳) 正確な追跡は、ビデオ中のターゲットの外観の変化、ポーズとビューの変化、および幾何学的変形のために依然として難しい課題である。 最近のアンカーフリートラッカーは効率的な回帰機構を提供するが、正確な境界ボックス推定はできない。 これらの問題に対処するため,本論文では,TREG(Target Transformed Regression)と呼ばれるTransformer-alike回帰分岐を用いて,正確なアンカーフリートラッキングを行う。 TREGのコアとなるのは、ターゲットテンプレートと検索領域の要素間のペアワイズ関係をモデル化し、その結果のターゲット拡張視覚表現を正確なバウンディングボックス回帰に利用することである。 この対象のコンテキスト化表現は、対象の関連情報を強化して、ボックス境界を正確に特定し、局所的かつ高密度なマッチング機構により、ある程度オブジェクトの変形に対処することができる。 さらに,信頼性の高いテンプレートを選択するための簡単なオンラインテンプレート更新機構を考案し,出現変動のロバスト性や対象の時間的変形を増大させる。 VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT, TrackingNetなどのビジュアルトラッキングベンチマークの実験結果は、TREGが30FPSで動作しながら、LaSOTで0.640の成功率を達成したことを示す。 コードとモデルはhttps://github.com/M CG-NJU/TREGで公開される。

Accurate tracking is still a challenging task due to appearance variations, pose and view changes, and geometric deformations of target in videos. Recent anchor-free trackers provide an efficient regression mechanism but fail to produce precise bounding box estimation. To address these issues, this paper repurposes a Transformer-alike regression branch, termed as Target Transformed Regression (TREG), for accurate anchor-free tracking. The core to our TREG is to model pair-wise relation between elements in target template and search region, and use the resulted target enhanced visual representation for accurate bounding box regression. This target contextualized representation is able to enhance the target relevant information to help precisely locate the box boundaries, and deal with the object deformation to some extent due to its local and dense matching mechanism. In addition, we devise a simple online template update mechanism to select reliable templates, increasing the robustness for appearance variations and geometric deformations of target in time. Experimental results on visual tracking benchmarks including VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT and TrackingNet demonstrate that TREG obtains the state-of-the-art performance, achieving a success rate of 0.640 on LaSOT, while running at around 30 FPS. The code and models will be made available at https://github.com/M CG-NJU/TREG.
翻訳日:2021-04-02 13:37:18 公開日:2021-04-01
# ブラインド超解像のための教師なし劣化表現学習

Unsupervised Degradation Representation Learning for Blind Super-Resolution ( http://arxiv.org/abs/2104.00416v1 )

ライセンス: Link先を確認
Longguang Wang, Yingqian Wang, Xiaoyu Dong, Qingyu Xu, Jungang Yang, Wei An, Yulan Guo(参考訳) 既存のcnnベースのスーパーレゾリューション(sr)法は、劣化が固定され知られているという仮定に基づいて開発されている(例えば、bicubic downsampling)。 しかし、実際の劣化が仮定と異なる場合、これらの手法は深刻な性能低下に苦しむ。 実世界の様々な未知の劣化に対処するため、従来の手法ではSR画像の再構成に劣化推定を頼っていた。 それでも、劣化推定法は通常時間を要するため、大きな推定誤差のためにSR故障につながる可能性がある。 本稿では,暗黙的劣化推定を伴わない盲点SRのための教師なし劣化表現学習手法を提案する。 具体的には、画素空間における明示的な推定よりも、表現空間における様々な劣化を区別するために抽象表現を学ぶ。 さらに、学習した表現に基づいて様々な劣化に柔軟に対応可能な劣化認識SR(DASR)ネットワークを導入する。 本手法は, 識別表現を抽出し, 正確な劣化情報を得ることができることを示す。 合成画像と実画像の両方で実験した結果,本ネットワークはブラインドsrタスクの最先端の性能を達成できた。 コードは、https://github.com/L ongguangWang/DASR.co mで入手できる。

Most existing CNN-based super-resolution (SR) methods are developed based on an assumption that the degradation is fixed and known (e.g., bicubic downsampling). However, these methods suffer a severe performance drop when the real degradation is different from their assumption. To handle various unknown degradations in real-world applications, previous methods rely on degradation estimation to reconstruct the SR image. Nevertheless, degradation estimation methods are usually time-consuming and may lead to SR failure due to large estimation errors. In this paper, we propose an unsupervised degradation representation learning scheme for blind SR without explicit degradation estimation. Specifically, we learn abstract representations to distinguish various degradations in the representation space rather than explicit estimation in the pixel space. Moreover, we introduce a Degradation-Aware SR (DASR) network with flexible adaption to various degradations based on the learned representations. It is demonstrated that our degradation representation learning scheme can extract discriminative representations to obtain accurate degradation information. Experiments on both synthetic and real images show that our network achieves state-of-the-art performance for the blind SR task. Code is available at: https://github.com/L ongguangWang/DASR.
翻訳日:2021-04-02 13:36:47 公開日:2021-04-01
# SCALoss: ボックス回帰をバウンディングするためのサイドとコーナーアライメントの損失

SCALoss: Side and Corner Aligned Loss for Bounding Box Regression ( http://arxiv.org/abs/2104.00462v1 )

ライセンス: Link先を確認
Tu Zheng, Shuai Zhao, Yang Liu, Zili Liu, Deng Cai(参考訳) 境界ボックスの回帰は、オブジェクト検出において重要な要素である。 最近の研究は、IoU(Intersection over Union)を損失として最適化することで、有望なパフォーマンスを示している。 しかし、IoUベースの損失は、重なり合いの低い有界箱の場合、勾配がなくなる問題があり、これらの単純なケースは容易に無視できる。 本稿では,2つのバウンディングボックスのサイドオーバーラップを最大化することで,バウンディングボックスの低オーバーラップに対してよりペナルティを課すサイドオーバーラップ(so)ロスを提案する。 さらに、収束を高速化するために、コーナー距離(CD)を目的関数に追加する。 Side Overlap と Corner Distance を組み合わせることで,新たな回帰目標関数 Side と Corner Align Loss (SCALoss) が得られる。 SCALossはIoU損失とよく相関しており、評価指標にもメリットがあるが、重複の少ないケースではペナルティが増大する。 包括的類似性尺度として機能し、ローカライズ性能の向上と収束速度の向上に寄与する。 COCOとPASCAL VOCベンチマークの実験によると、SCALossは、YOLOV3、SSD、Reppoints、Faster-RCNNなどの一般的なオブジェクト検出器で、一貫した改善と、$\ell_n$損失とIoUベースの損失を上回り得る。

Bounding box regression is an important component in object detection. Recent work has shown the promising performance by optimizing the Intersection over Union (IoU) as loss. However, IoU-based loss has the gradient vanish problem in the case of low overlapping bounding boxes, and the model could easily ignore these simple cases. In this paper, we propose Side Overlap (SO) loss by maximizing the side overlap of two bounding boxes, which puts more penalty for low overlapping bounding box cases. Besides, to speed up the convergence, the Corner Distance (CD) is added into the objective function. Combining the Side Overlap and Corner Distance, we get a new regression objective function, Side and Corner Align Loss (SCALoss). The SCALoss is well-correlated with IoU loss, which also benefits the evaluation metric but produces more penalty for low-overlapping cases. It can serve as a comprehensive similarity measure, leading the better localization performance and faster convergence speed. Experiments on COCO and PASCAL VOC benchmarks show that SCALoss can bring consistent improvement and outperform $\ell_n$ loss and IoU based loss with popular object detectors such as YOLOV3, SSD, Reppoints, Faster-RCNN.
翻訳日:2021-04-02 13:36:31 公開日:2021-04-01
# ロングテール認識のための校正の改善

Improving Calibration for Long-Tailed Recognition ( http://arxiv.org/abs/2104.00466v1 )

ライセンス: Link先を確認
Zhisheng Zhong, Jiequan Cui, Shu Liu, Jiaya Jia(参考訳) 深層ニューラルネットワークは、トレーニングデータセットがかなりクラス不均衡である場合、パフォーマンスが悪くなる可能性がある。 近年,2段階の手法が表現学習と分類学習を分離し,性能が向上している。 しかし、いまだに誤診の重大な問題がある。 そこで我々は,このようなシナリオにおけるキャリブレーションと性能を改善する2つの手法を設計した。 クラスの予測確率分布がクラスインスタンス数に強く関連していることから,クラスに対する自信の度合いの相違に対処し,分類器学習を改善するラベル認識スムーシングを提案する。 サンプルの異なる2つのステージ間のデータセットバイアスについて、デカップリングフレームワークにおけるシフトバッチ正規化を提案する。 提案手法は,CIFAR-10-LT,CIFAR-1 00-LT,ImageNet-LT,Pl aces-LT,iNaturalist 2018など,複数の一般的な長周期認識ベンチマークデータセットに新たなレコードを設定した。 コードはhttps://github.com/J ia-Research-Lab/MiSL ASで入手できる。

Deep neural networks may perform poorly when training datasets are heavily class-imbalanced. Recently, two-stage methods decouple representation learning and classifier learning to improve performance. But there is still the vital issue of miscalibration. To address it, we design two methods to improve calibration and performance in such scenarios. Motivated by the fact that predicted probability distributions of classes are highly related to the numbers of class instances, we propose label-aware smoothing to deal with different degrees of over-confidence for classes and improve classifier learning. For dataset bias between these two stages due to different samplers, we further propose shifted batch normalization in the decoupling framework. Our proposed methods set new records on multiple popular long-tailed recognition benchmark datasets, including CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, Places-LT, and iNaturalist 2018. Code will be available at https://github.com/J ia-Research-Lab/MiSL AS.
翻訳日:2021-04-02 13:36:01 公開日:2021-04-01
# 局所的・大域的形状の階層構造を学習した一視点3次元再構成における一般化

Fostering Generalization in Single-view 3D Reconstruction by Learning a Hierarchy of Local and Global Shape Priors ( http://arxiv.org/abs/2104.00476v1 )

ライセンス: Link先を確認
Jan Bechtold, Maxim Tatarchenko, Volker Fischer, Thomas Brox(参考訳) 単一視点の3dオブジェクトの再構築は大きな進歩を遂げているが、訓練中に目に見えない新しい形状に一般化する手法はいまだに苦戦している。 一般的なアプローチは、主に学習されたグローバルな形に頼り、したがって詳細な局所的な観察を無視している。 本研究では,地中真理入力深度マップから,様々な局地性レベルの事前階層を学習することでこの問題に対処する。 局所前置法を活用すれば,入力観測を効率的に利用することが可能となり,新しい形状の可視領域の一般化が向上する。 同時に、局所的および大域的プリエントの組み合わせにより、観察されていない部分の有意義な幻覚が実現され、一貫した3d形状が得られる。 階層的アプローチがグローバルアプローチよりもはるかに優れていることを示す。 クラスの異なるインスタンス間だけでなく、クラス間でも一般化し、オブジェクトの配置を見えなくする。

Single-view 3D object reconstruction has seen much progress, yet methods still struggle generalizing to novel shapes unseen during training. Common approaches predominantly rely on learned global shape priors and, hence, disregard detailed local observations. In this work, we address this issue by learning a hierarchy of priors at different levels of locality from ground truth input depth maps. We argue that exploiting local priors allows our method to efficiently use input observations, thus improving generalization in visible areas of novel shapes. At the same time, the combination of local and global priors enables meaningful hallucination of unobserved parts resulting in consistent 3D shapes. We show that the hierarchical approach generalizes much better than the global approach. It generalizes not only between different instances of a class but also across classes and to unseen arrangements of objects.
翻訳日:2021-04-02 13:35:45 公開日:2021-04-01
# sketch2mesh: スケッチからの3d形状の再構築と編集

Sketch2Mesh: Reconstructing and Editing 3D Shapes from Sketches ( http://arxiv.org/abs/2104.00482v1 )

ライセンス: Link先を確認
Benoit Guillard and Edoardo Remelli and Pierre Yvernay and Pascal Fua(参考訳) 2Dのスケッチから3Dの形状を再構築することは、長い間オープンな問題だった。 本稿では,メッシュ変換のためのスケッチにエンコーダ/デコーダアーキテクチャを用いる。 これにより、潜在パラメトリゼーションを利用して3Dメッシュを表現・洗練し、プロジェクションがスケッチで概略された外部の輪郭にマッチするようにします。 このアプローチはデプロイが容易であり、スタイル変更に堅牢であり、効果的であることを示します。 また、一本のペンストロークしか持たない形状の精細化にも使用できる。 我々は、手書きと合成の両方でスケッチの最先端の手法と比較し、それらよりも優れていることを示す。

Reconstructing 3D shape from 2D sketches has long been an open problem because the sketches only provide very sparse and ambiguous information. In this paper, we use an encoder/decoder architecture for the sketch to mesh translation. This enables us to leverage its latent parametrization to represent and refine a 3D mesh so that its projections match the external contours outlined in the sketch. We will show that this approach is easy to deploy, robust to style changes, and effective. Furthermore, it can be used for shape refinement given only single pen strokes. We compare our approach to state-of-the-art methods on sketches -- both hand-drawn and synthesized -- and demonstrate that we outperform them.
翻訳日:2021-04-02 13:35:29 公開日:2021-04-01
# 深部2次元構造-運動からの再考

Deep Two-View Structure-from-Motio n Revisited ( http://arxiv.org/abs/2104.00556v1 )

ライセンス: Link先を確認
Jianyuan Wang, Yiran Zhong, Yuchao Dai, Stan Birchfield, Kaihao Zhang, Nikolai Smolyanskiy, Hongdong Li(参考訳) 2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。 既存のディープラーニングベースのアプローチは、2つの連続するフレームから絶対的なポーズスケールを復元するか、1つのイメージから深度マップを予測することで問題を定式化する。 対照的に,我々は古典的パイプラインの適切さを活かし,深部2視点sfmの問題を再考する。 本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。 提案手法は,KITTI深度,KITTI VO,MVS,Scenes11,SUN3 Dデータセットの相対的ポーズと深度推定において,最先端の2次元SfM手法よりも優れていることを示す。

Two-view structure-from-motio n (SfM) is the cornerstone of 3D reconstruction and visual SLAM. Existing deep learning-based approaches formulate the problem by either recovering absolute pose scales from two consecutive frames or predicting a depth map from a single image, both of which are ill-posed problems. In contrast, we propose to revisit the problem of deep two-view SfM by leveraging the well-posedness of the classic pipeline. Our method consists of 1) an optical flow estimation network that predicts dense correspondences between two frames; 2) a normalized pose estimation module that computes relative camera poses from the 2D optical flow correspondences, and 3) a scale-invariant depth estimation network that leverages epipolar geometry to reduce the search space, refine the dense correspondences, and estimate relative depth maps. Extensive experiments show that our method outperforms all state-of-the-art two-view SfM methods by a clear margin on KITTI depth, KITTI VO, MVS, Scenes11, and SUN3D datasets in both relative pose and depth estimation.
翻訳日:2021-04-02 13:35:17 公開日:2021-04-01
# LED2-Net:微分深度レンダリングによる単眼360度レイアウト推定

LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth Rendering ( http://arxiv.org/abs/2104.00568v1 )

ライセンス: Link先を確認
Fu-En Wang, Yu-Hsuan Yeh, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 部屋配置推定では大きな進歩があったが、ほとんどの手法は3次元空間の部屋構造を利用するよりも2次元画素座標の損失を減らすことを目的としている。 部屋のレイアウトを3Dで再構築するために,パノラマの水平線の深さを予測する問題として,360度レイアウト推定のタスクを定式化する。 具体的には、レイアウトから深度予測への変換を微分可能とし、3次元の幾何情報を活用しながらエンド・ツー・エンドのトレーニングを可能にするための微分可能な深度レンダリング手法を提案する。 提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。 さらに,本定式化により,深度データセットの事前学習が可能となり,レイアウト推定モデルの一般化性が向上する。

Although significant progress has been made in room layout estimation, most methods aim to reduce the loss in the 2D pixel coordinate rather than exploiting the room structure in the 3D space. Towards reconstructing the room layout in 3D, we formulate the task of 360 layout estimation as a problem of predicting depth on the horizon line of a panorama. Specifically, we propose the Differentiable Depth Rendering procedure to make the conversion from layout to depth prediction differentiable, thus making our proposed model end-to-end trainable while leveraging the 3D geometric information, without the need of providing the ground truth depth. Our method achieves state-of-the-art performance on numerous 360 layout benchmark datasets. Moreover, our formulation enables a pre-training step on the depth dataset, which further improves the generalizability of our layout estimation model.
翻訳日:2021-04-02 13:34:56 公開日:2021-04-01
# 多様性誘導型サーチスペーススライキングによるワンショットニューラルアンサンブルアーキテクチャ検索

One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking ( http://arxiv.org/abs/2104.00597v1 )

ライセンス: Link先を確認
Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling(参考訳) 顕著な進歩にもかかわらず、ほとんどのニューラルアーキテクチャサーチ(NAS)手法は、1つの正確で堅牢なアーキテクチャを探すことに重点を置いている。 一般化能力と性能が向上したモデルをさらに構築するために、通常モデルアンサンブルが採用され、単独モデルよりも優れた性能を発揮する。 モデルアンサンブルの利点に触発されて,強力なモデルを見つけるための代替方法として,複数の多様なモデルを同時に探索することを提案する。 アンサンブルの検索は簡単ではなく、2つの大きな課題がある。 本稿では,この2つの課題を解決する一発ニューラルアンサンブル・アーキテクチャ・サーチ(neas)ソリューションを提案する。 第1の課題として,探索空間の縮小を導くために,候補演算子のポテンシャルと多様性を考慮し,新たな多様性に基づく指標を提案する。 第2の課題として,異なるモデル間の階層共有を効率向上のために学習する新たな探索次元を実現する。 ImageNetの実験は、我々のソリューションがスーパーネットのランキングアンサンブルアーキテクチャの能力を向上させることを明らかに示し、さらに検索結果の改善につながった。 検出されたアーキテクチャは、MobileNetV3やEfficientNetファミリのような、整列した設定下での最先端技術よりも優れたパフォーマンスを実現する。 さらに,COCO検出ベンチマークにおける検索アーキテクチャの一般化能力とロバスト性を評価し,MobileNetV3と比較してAPの3.1%の改善を実現した。 コードとモデルはhttps://github.com/r esearchmm/neasで入手できる。

Despite remarkable progress achieved, most neural architecture search (NAS) methods focus on searching for one single accurate and robust architecture. To further build models with better generalization capability and performance, model ensemble is usually adopted and performs better than stand-alone models. Inspired by the merits of model ensemble, we propose to search for multiple diverse models simultaneously as an alternative way to find powerful models. Searching for ensembles is non-trivial and has two key challenges: enlarged search space and potentially more complexity for the searched model. In this paper, we propose a one-shot neural ensemble architecture search (NEAS) solution that addresses the two challenges. For the first challenge, we introduce a novel diversity-based metric to guide search space shrinking, considering both the potentiality and diversity of candidate operators. For the second challenge, we enable a new search dimension to learn layer sharing among different models for efficiency purposes. The experiments on ImageNet clearly demonstrate that our solution can improve the supernet's capacity of ranking ensemble architectures, and further lead to better search results. The discovered architectures achieve superior performance compared with state-of-the-arts such as MobileNetV3 and EfficientNet families under aligned settings. Moreover, we evaluate the generalization ability and robustness of our searched architecture on the COCO detection benchmark and achieve a 3.1% improvement on AP compared with MobileNetV3. Codes and models are available at https://github.com/r esearchmm/NEAS.
翻訳日:2021-04-02 13:34:43 公開日:2021-04-01
# マスクヘッドアーキテクチャが新しいクラスセグメンテーションに与える影響

The surprising impact of mask-head architecture on novel class segmentation ( http://arxiv.org/abs/2104.00613v1 )

ライセンス: Link先を確認
Vighnesh Birodkar, Zhichao Lu, Siyang Li, Vivek Rathod, Jonathan Huang(参考訳) 現在のインスタンスセグメンテーションモデルは、大規模なアノテートデータセットでトレーニングする場合は非常に正確だが、大規模なマスクアノテーションの収集は非常に高価である。 部分教師付きインスタンスセグメンテーションの問題に対処し、すべてのカテゴリに対して(非常に安価で)有界なボックスをトレーニングできるが、マスクはカテゴリのサブセットにのみ使用できる。 本研究では,特徴地図に微分可能な切り分けを適用し,得られた作物に基づいてマスクを予測する,人気のあるモデル群に注目した。 このファミリー内では、トレーニング中にマスクを観察しないクラスへの一般化において、マスクヘッドのアーキテクチャが驚くほど重要な役割を果たすことを示す。 多くのアーキテクチャは、完全に教師付きモードでトレーニングした場合も同様に機能するが、新しいクラスを劇的に異なる方法で一般化することが多い。 この現象を強いマスク一般化効果と呼び、2-4層からなる典型的なマスクヘッドをはるかに深いオフザシェルフアーキテクチャに置き換える(例)。 ResNet, Hourglass Model)。 また,マスクヘッドアーキテクチャを選択すれば,従来の文献で提案された特別なモジュールや損失を必要とせずに,部分的に監督されたCOCOベンチマーク上でSOTA結果が得られることを示す。 最後に、我々の効果が一般的なことを示し、基礎となる検出手法(例)にまたがって保持する。 アンカーベース、アンカーベース、またはアンカーフリー、または全く検出できない)および異なるバックボーンネットワーク。 コードと事前トレーニングされたモデルは、https://git.io/deepm ac.orgで入手できる。

Instance segmentation models today are very accurate when trained on large annotated datasets, but collecting mask annotations at scale is prohibitively expensive. We address the partially supervised instance segmentation problem in which one can train on (significantly cheaper) bounding boxes for all categories but use masks only for a subset of categories. In this work, we focus on a popular family of models which apply differentiable cropping to a feature map and predict a mask based on the resulting crop. Within this family, we show that the architecture of the mask-head plays a surprisingly important role in generalization to classes for which we do not observe masks during training. While many architectures perform similarly when trained in fully supervised mode, we show that they often generalize to novel classes in dramatically different ways. We call this phenomenon the strong mask generalization effect, which we exploit by replacing the typical mask-head of 2-4 layers with significantly deeper off-the-shelf architectures (e.g. ResNet, Hourglass models). We also show that the choice of mask-head architecture alone can lead to SOTA results on the partially supervised COCO benchmark without the need of specialty modules or losses proposed by prior literature. Finally, we demonstrate that our effect is general, holding across underlying detection methodologies, (e.g. both anchor-based or anchor free or no detector at all) and across different backbone networks. Code and pre-trained models are available at https://git.io/deepm ac.
翻訳日:2021-04-02 13:34:20 公開日:2021-04-01
# 映像表現学習のための構成可能拡張符号化

Composable Augmentation Encoding for Video Representation Learning ( http://arxiv.org/abs/2104.00616v1 )

ライセンス: Link先を確認
Chen Sun, Arsha Nagrani, Yonglong Tian and Cordelia Schmid(参考訳) 自己教師型ビデオ表現学習におけるコントラスト手法に着目した。 対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。 これらの手法は、ビュー選択機構(例えば、時間的シフトのあるフレームをサンプリングする)に対する表現的不変性の集合を暗黙的に仮定し、これらの不変性(時間的情報から恩恵を受けるきめ細かいビデオアクション認識)に違反する下流タスクのパフォーマンスを低下させる可能性がある。 この制限を克服するために、コントラスト学習のためのビデオ表現を投影する際のモデルに、構成可能な拡張符号化(CATE)として、拡張パラメータ化(データビューの作成に使用される時間シフトの値など)のシーケンスを明示的に提供する「拡張対応」コントラスト学習フレームワークを提案する。 本手法で学習した表現は,特定の空間的あるいは時間的拡張に関する貴重な情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。

We focus on contrastive methods for self-supervised video representation learning. A common paradigm in contrastive learning is to construct positive pairs by sampling different data views for the same instance, with different data instances as negatives. These methods implicitly assume a set of representational invariances to the view selection mechanism (eg, sampling frames with temporal shifts), which may lead to poor performance on downstream tasks which violate these invariances (fine-grained video action recognition that would benefit from temporal information). To overcome this limitation, we propose an 'augmentation aware' contrastive learning framework, where we explicitly provide a sequence of augmentation parameterisations (such as the values of the time shifts used to create data views) as composable augmentation encodings (CATE) to our model when projecting the video representations for contrastive learning. We show that representations learned by our method encode valuable information about specified spatial or temporal augmentation, and in doing so also achieve state-of-the-art performance on a number of video benchmarks.
翻訳日:2021-04-02 13:33:59 公開日:2021-04-01
# クロスドメインFew-Shot学習のためのモジュール適応

Modular Adaptation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2104.00619v1 )

ライセンス: Link先を確認
Xiao Lin, Meng Ye, Yunye Gong, Giedrius Buracas, Nikoletta Basiou, Ajay Divakaran, Yi Yao(参考訳) 事前訓練された表現の適応は、限られた例で新しい下流タスクを学ぶためのゴートレシピとなっている。 文学は表現学習を通じて大きな成功を収めてきたが,本研究では,適応プロセスの適切な設計により,下流タスクの実質的な性能向上も達成できることを示す。 具体的には,sof(state-of-the-ar t)適応法を逐次的に選択的に実行するモジュール適応法を提案する。 異なる下流タスクは異なるタイプの適応を必要とする可能性があるため、モジュール適応は下流タスクに基づいて最も適切なモジュールの動的構成を可能にする。 さらに、既存のクロスドメイン5ウェイkショットベンチマーク(miniimagenet -> cubなど)の拡張として、10の異なるデータセットからのデータを含む新しいハイウェイ(~100)kショットベンチマークを作成します。 このベンチマークは多様なドメインセットを提供し、ImageNetから学んだより強力な表現の使用を可能にする。 実験の結果,下流タスクへの適応プロセスのカスタマイズにより,ファインタニングやプロトタイプネットワークのベースラインよりも5ショットの分類精度が3.1%向上した。

Adapting pre-trained representations has become the go-to recipe for learning new downstream tasks with limited examples. While literature has demonstrated great successes via representation learning, in this work, we show that substantial performance improvement of downstream tasks can also be achieved by appropriate designs of the adaptation process. Specifically, we propose a modular adaptation method that selectively performs multiple state-of-the-art (SOTA) adaptation methods in sequence. As different downstream tasks may require different types of adaptation, our modular adaptation enables the dynamic configuration of the most suitable modules based on the downstream task. Moreover, as an extension to existing cross-domain 5-way k-shot benchmarks (e.g., miniImageNet -> CUB), we create a new high-way (~100) k-shot benchmark with data from 10 different datasets. This benchmark provides a diverse set of domains and allows the use of stronger representations learned from ImageNet. Experimental results show that by customizing adaptation process towards downstream tasks, our modular adaptation pipeline (MAP) improves 3.1% in 5-shot classification accuracy over baselines of finetuning and Prototypical Networks.
翻訳日:2021-04-02 13:33:35 公開日:2021-04-01
# 動画からのインタラクション認識のための動作ガイド付注意融合

Motion Guided Attention Fusion to Recognize Interactions from Videos ( http://arxiv.org/abs/2104.00646v1 )

ライセンス: Link先を確認
Tae Soo Kim, Jonathan Jones, Gregory D. Hager(参考訳) 本稿では,ビデオからのきめ細かいインタラクションを認識するための双方向アプローチを提案する。 従来の二重ストリームアプローチの成功に基づいて構築するが、物体の静的表現と動的表現を区別し、物体検出経路と物体検出経路を分離することにより、その相互作用を明示する。 次に,新しいモーションガイド型アテンション・フュージョン・モジュールを用いて,動作経路のボトムアップ特徴と物体検出から抽出した特徴を融合し,動作の時間的側面を学習する。 提案手法は外見を効果的に一般化し,アクターが未確認のオブジェクトと相互作用する動作を認識する。 提案手法は, 既存の最先端手法に勝る, something-something- v2データセットから合成動作認識タスクを用いて検証する。 また,ikea-asmデータセット上で様々なikea家具を組み立てた人間の認識において,最先端のパフォーマンスを示すことにより,実世界のタスクにうまく一般化できることを示す。

We present a dual-pathway approach for recognizing fine-grained interactions from videos. We build on the success of prior dual-stream approaches, but make a distinction between the static and dynamic representations of objects and their interactions explicit by introducing separate motion and object detection pathways. Then, using our new Motion-Guided Attention Fusion module, we fuse the bottom-up features in the motion pathway with features captured from object detections to learn the temporal aspects of an action. We show that our approach can generalize across appearance effectively and recognize actions where an actor interacts with previously unseen objects. We validate our approach using the compositional action recognition task from the Something-Something- v2 dataset where we outperform existing state-of-the-art methods. We also show that our method can generalize well to real world tasks by showing state-of-the-art performance on recognizing humans assembling various IKEA furniture on the IKEA-ASM dataset.
翻訳日:2021-04-02 13:33:13 公開日:2021-04-01
# In&Out : GANインバージョンによる横画像出力

In&Out : Diverse Image Outpainting via GAN Inversion ( http://arxiv.org/abs/2104.00675v1 )

ライセンス: Link先を確認
Yen-Chi Cheng, Chieh Hubert Lin, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Ming-Hsuan Yang(参考訳) image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。 隣接するピクセルとのコヒーレントな方法で、欠落したピクセルを埋めることと比較すると、問題は周囲のピクセルに制約されないため、より多様な方法で得られる。 既存の画像出力方式は、条件付き画像から画像への変換タスクとして問題を起こし、しばしば入力画像で利用可能なコンテンツを複製することで、繰り返し構造やテクスチャを生成する。 本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。 我々のジェネレータは、画像中の個々の位置だけでなく、彼らのジョイント潜在コードに条件付きマイクロパッチをレンダリングする。 イメージをオーバーペイントするために、利用可能なパッチを復元するだけでなく、パッチベースの生成によって様々なアウトパインを合成する複数の潜在コードを求める。 これにより、塗装された領域におけるよりリッチな構造と内容が得られる。 さらに, カテゴリ入力の条件を上回ることにより, フレキシブルなユーザ制御を実現する。 広範な実験結果から,提案手法は既存のイン・イン・アウト・ペインティング法に好適な効果を示し,高い視覚品質と多様性を示した。

Image outpainting seeks for a semantically consistent extension of the input image beyond its available content. Compared to inpainting -- filling in missing pixels in a way coherent with the neighboring pixels -- outpainting can be achieved in more diverse ways since the problem is less constrained by the surrounding pixels. Existing image outpainting methods pose the problem as a conditional image-to-image translation task, often generating repetitive structures and textures by replicating the content available in the input image. In this work, we formulate the problem from the perspective of inverting generative adversarial networks. Our generator renders micro-patches conditioned on their joint latent code as well as their individual positions in the image. To outpaint an image, we seek for multiple latent codes not only recovering available patches but also synthesizing diverse outpainting by patch-based generation. This leads to richer structure and content in the outpainted regions. Furthermore, our formulation allows for outpainting conditioned on the categorical input, thereby enabling flexible user controls. Extensive experimental results demonstrate the proposed method performs favorably against existing in- and outpainting methods, featuring higher visual quality and diversity.
翻訳日:2021-04-02 13:32:57 公開日:2021-04-01
# Tsallis Divergence を用いた変分推定 MPC

Variational Inference MPC using Tsallis Divergence ( http://arxiv.org/abs/2104.00241v1 )

ライセンス: Link先を確認
Ziyi Wang, Oswin So, Jason Gibson, Bogdan Vlahov, Manan S. Gandhi, Guan-Horng Liu and Evangelos A. Theodorou(参考訳) 本稿では,拡張型 tsallis 発散を用いた変分推論・確率的最適制御のための一般化フレームワークを提案する。 変形した指数関数を最適度推定関数に組み込むことにより、変分推論モデル予測制御、モデル予測経路積分制御、クロスエントロピー法、スタイン変分参照モデル予測制御などの先行処理を特別に含む新しいツァリス変分推論モデル予測制御アルゴリズムが導出される。 提案アルゴリズムはコスト/リワード変換を効果的に制御することができ、関連するコストの平均と分散の低減の点で優れた性能を特徴とする。 上記の特徴は,提案アルゴリズムのリスク感度のレベルに関する理論的および数値的な解析と,3つの異なるポリシーパラメータを持つ5つのロボットシステムのシミュレーション実験によって支持される。

In this paper, we provide a generalized framework for Variational Inference-Stochastic Optimal Control by using thenon-extensive Tsallis divergence. By incorporating the deformed exponential function into the optimality likelihood function, a novel Tsallis Variational Inference-Model Predictive Control algorithm is derived, which includes prior works such as Variational Inference-Model Predictive Control, Model Predictive PathIntegral Control, Cross Entropy Method, and Stein VariationalInference Model Predictive Control as special cases. The proposed algorithm allows for effective control of the cost/reward transform and is characterized by superior performance in terms of mean and variance reduction of the associated cost. The aforementioned features are supported by a theoretical and numerical analysis on the level of risk sensitivity of the proposed algorithm as well as simulation experiments on 5 different robotic systems with 3 different policy parameterizations.
翻訳日:2021-04-02 13:31:06 公開日:2021-04-01
# ディープラーニングにおけるモデル推論にPythonを使用する

Using Python for Model Inference in Deep Learning ( http://arxiv.org/abs/2104.00254v1 )

ライセンス: Link先を確認
Zachary DeVito, Jason Ansel, Will Constable, Michael Suo, Ailing Zhang, Kim Hazelwood(参考訳) Pythonはディープニューラルネットワークのトレーニングのためのデファクト言語となり、科学計算ライブラリをPyTorchやTensorFlowといったテンソル計算のための効率的なライブラリと結合した。 しかし、モデルが推論に使用される場合、通常はパフォーマンスとパッケージングの制約を満たすために、TensorFlowグラフまたはTorchScriptプログラムとしてPythonから抽出される。 抽出過程は時間がかかり、高速なプロトタイピングを阻害する。 我々は、Pythonで推論を実行しながら、これらのパフォーマンスとパッケージングの制約を満たす方法を示す。 特に,単一プロセス内で複数のPythonインタプリタを使用して,スケーラブルな推論を実現し,ネイティブPythonコードとデータの両方を含むモデル用の新しいコンテナフォーマットを記述する。 このアプローチは、モデル抽出のステップをなくすことで、モデルデプロイメントのストーリーを単純化し、既存のパフォーマンス向上のPythonライブラリとの統合を簡単にする。 Github上で人気のPyTorchモデルのスイートで設計を評価し、推論フォーマットでどのようにパッケージ化できるかを示し、パフォーマンスをTorchScriptと比較した。 より大きなモデルでは、パッケージ化されたpythonモデルはtorchscriptと同じパフォーマンスで、pythonのオーバーヘッドがある小さなモデルでは、マルチインタープリタアプローチによって、推論のスケーラビリティが保たれます。

Python has become the de-facto language for training deep neural networks, coupling a large suite of scientific computing libraries with efficient libraries for tensor computation such as PyTorch or TensorFlow. However, when models are used for inference they are typically extracted from Python as TensorFlow graphs or TorchScript programs in order to meet performance and packaging constraints. The extraction process can be time consuming, impeding fast prototyping. We show how it is possible to meet these performance and packaging constraints while performing inference in Python. In particular, we present a way of using multiple Python interpreters within a single process to achieve scalable inference and describe a new container format for models that contains both native Python code and data. This approach simplifies the model deployment story by eliminating the model extraction step, and makes it easier to integrate existing performance-enhancin g Python libraries. We evaluate our design on a suite of popular PyTorch models on Github, showing how they can be packaged in our inference format, and comparing their performance to TorchScript. For larger models, our packaged Python models perform the same as TorchScript, and for smaller models where there is some Python overhead, our multi-interpreter approach ensures inference is still scalable.
翻訳日:2021-04-02 13:30:51 公開日:2021-04-01
# 不完全csi下の無線ネットワーク上での連合学習の収束時間について

On the Convergence Time of Federated Learning Over Wireless Networks Under Imperfect CSI ( http://arxiv.org/abs/2104.00331v1 )

ライセンス: Link先を確認
Francesco Pase, Marco Giordani, Michele Zorzi(参考訳) フェデレートラーニング(FL)は、データをローカライズしながら共有モデルを協調訓練する無線ネットワークのための魅力的な分散ソリューションとして最近登場した。 一般的なアプローチとして、既存のfl法は、トレーニングフェーズ中にチャネル状態情報(csi)の完全な知識を想定する傾向がある。 さらに、文献分析では、フェデレーションモデルのトレーニングに参加している一定の数のクライアントを考慮するか、モデルデータを送信するために、すべてのクライアントが最大到達率で動作していると仮定するかのどちらかである。 本稿では,不完全なCSIの下での収束時間を最小化するために,チャネル統計をバイアスとするトレーニングプロセスを提案する。 シミュレーション実験により,最小限の事前定義された送信速度を維持できないクライアントからのモデル更新を無視することにより,トレーニング時間を短縮できることを示した。 また,学習過程に関わるクライアント数とモデル精度とのトレードオフを,異なる流行状態の関数として検討した。

Federated learning (FL) has recently emerged as an attractive decentralized solution for wireless networks to collaboratively train a shared model while keeping data localized. As a general approach, existing FL methods tend to assume perfect knowledge of the Channel State Information (CSI) during the training phase, which may not be easy to acquire in case of fast fading channels. Moreover, literature analyses either consider a fixed number of clients participating in the training of the federated model, or simply assume that all clients operate at the maximum achievable rate to transmit model data. In this paper, we fill these gaps by proposing a training process that takes channel statistics as a bias to minimize the convergence time under imperfect CSI. Numerical experiments demonstrate that it is possible to reduce the training time by neglecting model updates from clients that cannot sustain a minimum predefined transmission rate. We also examine the trade-off between number of clients involved in the training process and model accuracy as a function of different fading regimes.
翻訳日:2021-04-02 13:30:32 公開日:2021-04-01
# TRS: グラディエント多様性とモデル平滑性の向上による伝達可能性の低減

TRS: Transferability Reduced Ensemble via Encouraging Gradient Diversity and Model Smoothness ( http://arxiv.org/abs/2104.00671v1 )

ライセンス: Link先を確認
Zhuolin Yang, Linyi Li, Xiaojun Xu, Shiliang Zuo, Qian Chen, Benjamin Rubinstein, Ce Zhang, Bo Li(参考訳) 敵の移動可能性(adversarial transferability)は、敵の例の興味深い特性であり、あるモデルに対して作られた摂動は、別のモデルファミリーやトレーニングプロセスから生じる可能性のある他のモデルにも有効である。 mlシステムを敵の攻撃からより良く守るために、いくつかの疑問が提起されている。 そのような転送可能性の制限は可能か? アンサンブルMLモデルの堅牢性を改善するために、転送可能性を低減する方法はあるか? これらの質問に答えるために,まずモデル間の伝達可能性の十分条件を理論的に解析し,そのロバスト性を改善するためにアンサンブル内の伝達可能性を低減するための実用的なアルゴリズムを提案する。 我々の理論解析は、異なるモデルの勾配間の直交性だけが低い対角移動性を保証するには不十分であることを示している。 特に, 勾配直交性とモデル平滑性に基づく低リスク分類器に対して, モデル勾配類似性に基づく逆移動可能性の下/上限を提供する。 勾配直交条件下では、スムーズな分類器は低い対角移動性を保証する。 さらに,モデルスムーズさとベースモデル間の勾配直交性を強制することにより,トランスファービリティの低いロバストアンサンブルをトレーニングするための効果的なトランスファービリティ低減スムーズアンサンブル(TRS)トレーニング戦略を提案する。 提案するtrsは,異なるデータセット上の他の最先端のベースラインと比較することにより,trsの広範な実験を行い,提案手法がすべてのベースラインを大きく上回ることを示した。 我々は、これらの対向トランスファビリティ特性を考慮に入れた堅牢なMLモデル開発に向けた将来の研究に刺激を与えると信じている。

Adversarial Transferability is an intriguing property of adversarial examples -- a perturbation that is crafted against one model is also effective against another model, which may arise from a different model family or training process. To better protect ML systems against adversarial attacks, several questions are raised: what are the sufficient conditions for adversarial transferability? Is it possible to bound such transferability? Is there a way to reduce the transferability in order to improve the robustness of an ensemble ML model? To answer these questions, we first theoretically analyze sufficient conditions for transferability between models and propose a practical algorithm to reduce transferability within an ensemble to improve its robustness. Our theoretical analysis shows only the orthogonality between gradients of different models is not enough to ensure low adversarial transferability: the model smoothness is also an important factor. In particular, we provide a lower/upper bound of adversarial transferability based on model gradient similarity for low risk classifiers based on gradient orthogonality and model smoothness. We demonstrate that under the condition of gradient orthogonality, smoother classifiers will guarantee lower adversarial transferability. Furthermore, we propose an effective Transferability Reduced Smooth-ensemble(TRS) training strategy to train a robust ensemble with low transferability by enforcing model smoothness and gradient orthogonality between base models. We conduct extensive experiments on TRS by comparing with other state-of-the-art baselines on different datasets, showing that the proposed TRS outperforms all baselines significantly. We believe our analysis on adversarial transferability will inspire future research towards developing robust ML models taking these adversarial transferability properties into account.
翻訳日:2021-04-02 13:30:13 公開日:2021-04-01
# AdaPool: モデルレスディープ強化学習と変更点検出を用いた日次適応フリート管理フレームワーク

AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free Deep Reinforcement Learning and Change Point Detection ( http://arxiv.org/abs/2104.00203v1 )

ライセンス: Link先を確認
Marina Haliem, Vaneet Aggarwal and Bharat Bhargava(参考訳) 本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。 深層強化学習(Deep Reinforcement Learning, RL)は、経験の分布の変化の時間スケールに依存しないため、破滅的な忘れ込みに悩まされる。 RLアルゴリズムはマルコフ決定過程(MDP)において最適ポリシーに収束することが保証されているが、これは静的環境の存在にのみ当てはまる。 しかし、この仮定は非常に限定的である。 ライドシェアリングやトラヒックコントロールといった現実の多くの問題では、RLメソッドが最適以下の決定しか得られない、非常にダイナミックな環境に対処しています。 この問題を高ダイナミックな環境で緩和するために、(1)経験の分布の変化を検出するオンラインディリクレ変化点検出(ODCP)アルゴリズムを採用し、(2)日中のパターンを認識し、基礎環境の変化に応じて情報伝達決定を行うディープQネットワーク(DQN)エージェントを開発した。 提案手法は,週毎にパターンを修正するのではなく,MDPが変化したことを自動で検出し,新しいモデルの結果を使用する。 また, 配車時の適応論理に加えて, オンライン需要, 車両能力, 位置に基づいて, 車両毎の最適経路を動的に生成する動的かつ需要対応の車両通行者マッチングおよび経路計画フレームワークを提案する。 ニューヨーク市税の公的データセットの評価は、当社のアプローチが艦隊利用の改善に有効であることを示しており、艦隊の50%未満は、最大90%の要求に応えつつ、利益の最大化とアイドルタイムの最小化を実現している。

This paper introduces an adaptive model-free deep reinforcement approach that can recognize and adapt to the diurnal patterns in the ride-sharing environment with car-pooling. Deep Reinforcement Learning (RL) suffers from catastrophic forgetting due to being agnostic to the timescale of changes in the distribution of experiences. Although RL algorithms are guaranteed to converge to optimal policies in Markov decision processes (MDPs), this only holds in the presence of static environments. However, this assumption is very restrictive. In many real-world problems like ride-sharing, traffic control, etc., we are dealing with highly dynamic environments, where RL methods yield only sub-optimal decisions. To mitigate this problem in highly dynamic environments, we (1) adopt an online Dirichlet change point detection (ODCP) algorithm to detect the changes in the distribution of experiences, (2) develop a Deep Q Network (DQN) agent that is capable of recognizing diurnal patterns and making informed dispatching decisions according to the changes in the underlying environment. Rather than fixing patterns by time of week, the proposed approach automatically detects that the MDP has changed, and uses the results of the new model. In addition to the adaptation logic in dispatching, this paper also proposes a dynamic, demand-aware vehicle-passenger matching and route planning framework that dynamically generates optimal routes for each vehicle based on online demand, vehicle capacities, and locations. Evaluation on New York City Taxi public dataset shows the effectiveness of our approach in improving the fleet utilization, where less than 50% of the fleet are utilized to serve the demand of up to 90% of the requests, while maximizing profits and minimizing idle times.
翻訳日:2021-04-02 13:29:24 公開日:2021-04-01
# 展望、調査、トレンド: 自律運転バーチャルテストのための公共運転データセットとツールセット

Perspective, Survey and Trends: Public Driving Datasets and Toolsets for Autonomous Driving Virtual Test ( http://arxiv.org/abs/2104.00273v1 )

ライセンス: Link先を確認
Pengliang Ji, Li Ruan, Yunzhi Xue, Limin Xiao, Qian Dong(参考訳) 初期の安全性と信頼性保証のメリットから、自動運転のバーチャルテストは、現実のシナリオでのクローズドループテストに比べて注目を集めている。 自律運転データセットとツールセットの可用性と品質は、自律運転システムのボトルネックを診断し、システムパフォーマンスを改善するための前提であるが、データセットとツールセットの多様性とプライバシーのために、それらの視点と品質の収集と特徴付けは、時間を要するだけでなく、ますます困難になっている。 本稿では,まず,自律走行テストのための体系的文献レビュー(slr)アプローチを提案し,2000年から2020年までの既存の公開データセットとツールセットの概要を紹介する。 シナリオに関する定量的な知見や展望、傾向推論、35の自動運転テストツールセットと70のテストデータセットによる提案も紹介されている。 私たちの知る限りでは、SLAベースの調査アプローチを使用して、データセットとツールセットの両方に関する最近の経験的な調査を初めて実施しています。 マルチフェイス分析と新たな知見により,システム設計者,実践者,ユーザにとって有用であると考えられる洞察が明らかにされるだけでなく,データセットやツールセットに関する自律運転調査において,系統的調査分析に関するさらなる研究が促進される。

Owing to the merits of early safety and reliability guarantee, autonomous driving virtual testing has recently gains increasing attention compared with closed-loop testing in real scenarios. Although the availability and quality of autonomous driving datasets and toolsets are the premise to diagnose the autonomous driving system bottlenecks and improve the system performance, due to the diversity and privacy of the datasets and toolsets, collecting and featuring the perspective and quality of them become not only time-consuming but also increasingly challenging. This paper first proposes a Systematic Literature Review (SLR) approach for autonomous driving tests, then presents an overview of existing publicly available datasets and toolsets from 2000 to 2020. Quantitative findings with the scenarios concerned, perspectives and trend inferences and suggestions with 35 automated driving test tool sets and 70 test data sets are also presented. To the best of our knowledge, we are the first to perform such recent empirical survey on both the datasets and toolsets using a SLA based survey approach. Our multifaceted analyses and new findings not only reveal insights that we believe are useful for system designers, practitioners and users, but also can promote more researches on a systematic survey analysis in autonomous driving surveys on dataset and toolsets.
翻訳日:2021-04-02 13:28:52 公開日:2021-04-01
# ヒューマンai共同創造システム設計における9つの落とし穴

Nine Potential Pitfalls when Designing Human-AI Co-Creative Systems ( http://arxiv.org/abs/2104.00358v1 )

ライセンス: Link先を確認
Daniel Buschek, Lukas Mecke, Florian Lehmann, Hai Dang(参考訳) 本稿では,利用者の興味に有益な生成モデルによる人間とAIの共創の実現に向けた潜在的な落とし穴について検討する。 特に、文献と、HCIとAIの交差点で働く研究者としての経験に基づいて、9つの潜在的な落とし穴のセットを収集しました。 それぞれの落とし穴を例で説明し、それに取り組むためのアイデアを提案する。 すべての落とし穴を振り返って,今後の研究の方向性について考察し,結論づける。 このコレクションでは、創造的な実践などに対する、関連する仮定と潜在的な副作用に注目しながら、共同創造的な相互作用における人間とAIの役割に関する批判的で建設的な議論に貢献したいと考えています。

This position paper examines potential pitfalls on the way towards achieving human-AI co-creation with generative models in a way that is beneficial to the users' interests. In particular, we collected a set of nine potential pitfalls, based on the literature and our own experiences as researchers working at the intersection of HCI and AI. We illustrate each pitfall with examples and suggest ideas for addressing it. Reflecting on all pitfalls, we discuss and conclude with implications for future research directions. With this collection, we hope to contribute to a critical and constructive discussion on the roles of humans and AI in co-creative interactions, with an eye on related assumptions and potential side-effects for creative practices and beyond.
翻訳日:2021-04-02 13:28:31 公開日:2021-04-01
# 文脈的需要予測のためのセマンティックXAI

Semantic XAI for contextualized demand forecasting explanations ( http://arxiv.org/abs/2104.00452v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec and Dunja Mladeni\'c(参考訳) 本稿ではセマンティック技術とAIに基づく説明可能なAIのための新しいアーキテクチャを提案する。 需要予測の領域のアーキテクチャを調整し、実世界のケーススタディでそれを検証します。 提供された説明は、特定の予測、関連するメディアイベント、関心のある外部データセットに関するメタデータに関連する特徴を記述する概念を組み合わせる。 知識グラフは、より抽象的なレベルで特徴情報を伝達する概念を提供する。 それらを使用することで、需要予測モデルに関するセンシティブな詳細を説明できない。 説明はまた、適切な動作可能な次元を強調する。 私たちは、知識グラフでドメイン知識、予測値、予測説明をリンクします。 このユースケースのために開発したオントロジーとデータセットは、さらなる研究のために公開されています。

The paper proposes a novel architecture for explainable AI based on semantic technologies and AI. We tailor the architecture for the domain of demand forecasting and validate it on a real-world case study. The provided explanations combine concepts describing features relevant to a particular forecast, related media events, and metadata regarding external datasets of interest. The knowledge graph provides concepts that convey feature information at a higher abstraction level. By using them, explanations do not expose sensitive details regarding the demand forecasting models. The explanations also emphasize actionable dimensions where suitable. We link domain knowledge, forecasted values, and forecast explanations in a Knowledge Graph. The ontology and dataset we developed for this use case are publicly available for further research.
翻訳日:2021-04-02 13:28:21 公開日:2021-04-01
# fusing rgbd tracking and segmentation tree sampling for multi-hypothesis volumetric segmentation

Fusing RGBD Tracking and Segmentation Tree Sampling for Multi-Hypothesis Volumetric Segmentation ( http://arxiv.org/abs/2104.00205v1 )

ライセンス: Link先を確認
Andrew Price, Kun Huang, Dmitry Berenson(参考訳) 近年のシーンセグメンテーションの急速な進歩にもかかわらず, 3次元セグメンテーション法は, 厳密な閉塞がある場合に限定されている。 鍵となる課題は、(部分的に)オクルードされたオブジェクトのセグメント境界を推定することである。 本研究では,シーンのあいまいさをトラッキングし,シーンと対話しながら推定値を時間とともに調整する,シーン変更におけるボリュームセグメンテーションの新しい手法であるMultihypothesis Segmentation Tracking (MST)を提案する。 1)セグメンテーションツリーから可能なセグメンテーションをサンプリングする新しい方法、2)複数のセグメンテーション推定で結果を追跡する新しいアプローチである。 これらの手法により、MSTは時間とともにセグメンテーション状態を追跡し、新しいオブジェクトなどの新しい情報を組み込むことができる。 本手法は,シミュレーションおよび現実におけるいくつかの乱雑なテーブルトップ環境において評価する。 以上の結果から,MSTは全テストシーンにおいてベースラインよりも優れていた。

Despite rapid progress in scene segmentation in recent years, 3D segmentation methods are still limited when there is severe occlusion. The key challenge is estimating the segment boundaries of (partially) occluded objects, which are inherently ambiguous when considering only a single frame. In this work, we propose Multihypothesis Segmentation Tracking (MST), a novel method for volumetric segmentation in changing scenes, which allows scene ambiguity to be tracked and our estimates to be adjusted over time as we interact with the scene. Two main innovations allow us to tackle this difficult problem: 1) A novel way to sample possible segmentations from a segmentation tree; and 2) A novel approach to fusing tracking results with multiple segmentation estimates. These methods allow MST to track the segmentation state over time and incorporate new information, such as new objects being revealed. We evaluate our method on several cluttered tabletop environments in simulation and reality. Our results show that MST outperforms baselines in all tested scenes.
翻訳日:2021-04-02 13:27:12 公開日:2021-04-01
# 自然言語ビデオのローカライズに関する調査研究

A Survey on Natural Language Video Localization ( http://arxiv.org/abs/2104.00234v1 )

ライセンス: Link先を確認
Xinfang Liu, Xiushan Nie (Member, IEEE), Zhifang Tan, Jie Guo, Yilong Yin(参考訳) テキストクエリに意味的に対応したビデオからターゲットモーメントを見つけることを目的とした自然言語ビデオローカライゼーション(nlvl)は、新しくて挑戦的なタスクである。 そこで本研究では,まずnlvlのパイプラインを提案するnlvlアルゴリズムの包括的調査を行い,そのパイプラインを教師あり,弱い教師ありの手法に分類し,各手法の長所と短所を分析した。 次に,データセット,評価プロトコル,一般性能解析について述べる。 最後に、既存の手法を要約することで可能な視点を得る。

Natural language video localization (NLVL), which aims to locate a target moment from a video that semantically corresponds to a text query, is a novel and challenging task. Toward this end, in this paper, we present a comprehensive survey of the NLVL algorithms, where we first propose the pipeline of NLVL, and then categorize them into supervised and weakly-supervised methods, following by the analysis of the strengths and weaknesses of each kind of methods. Subsequently, we present the dataset, evaluation protocols and the general performance analysis. Finally, the possible perspectives are obtained by summarizing the existing methods.
翻訳日:2021-04-02 13:26:54 公開日:2021-04-01
# 畳み込みニューラルネットワークを用いた高画質低線量CT再構成

High-quality Low-dose CT Reconstruction Using Convolutional Neural Networks with Spatial and Channel Squeeze and Excitation ( http://arxiv.org/abs/2104.00325v1 )

ライセンス: Link先を確認
Jingfeng Lu, Shuo Wang, Ping Li, Dong Ye(参考訳) 低線量CTは、画像品質を犠牲にして臨床応用における放射線リスクの低減を可能にし、放射線医の診断精度を低下させる。 本研究では,低線量CTによるCT画像再構成のための高画質イメージングネットワーク(HQINet)を提案する。 hqinetは畳み込みエンコーダ-デコーダアーキテクチャであり、エンコーダは3つの連続したスライスから空間情報と時間情報を抽出し、デコーダは中間スライスの空間情報を復元するために用いられた。 我々は,低線量CT画像と投影データ(LDCT-and-Projection -data)の実際の投影データについて実験を行い,提案手法が画像品質において顕著に向上し,ピーク信号対雑音比(PSNR)では5.5dB,相互情報(MI)では0.29となったことを示す。

Low-dose computed tomography (CT) allows the reduction of radiation risk in clinical applications at the expense of image quality, which deteriorates the diagnosis accuracy of radiologists. In this work, we present a High-Quality Imaging network (HQINet) for the CT image reconstruction from Low-dose computed tomography (CT) acquisitions. HQINet was a convolutional encoder-decoder architecture, where the encoder was used to extract spatial and temporal information from three contiguous slices while the decoder was used to recover the spacial information of the middle slice. We provide experimental results on the real projection data from low-dose CT Image and Projection Data (LDCT-and-Projection -data), demonstrating that the proposed approach yielded a notable improvement of the performance in terms of image quality, with a rise of 5.5dB in terms of peak signal-to-noise ratio (PSNR) and 0.29 in terms of mutual information (MI).
翻訳日:2021-04-02 13:26:44 公開日:2021-04-01
# マルチマスクによる単眼深度・自我運動の教師なし学習

Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple Masks ( http://arxiv.org/abs/2104.00431v1 )

ライセンス: Link先を確認
Guangming Wang, Hesheng Wang, Yiling Liu and Weidong Chen(参考訳) 本稿では,モノクロ映像からの複数のマスクを用いた深度・エゴモーションの教師なし学習手法を提案する。 深度推定ネットワークとエゴモーション推定ネットワークは、真理値のない深度とエゴモーションの制約に応じて訓練される。 本手法の主な貢献は、隣接するフレームが互いに投影された際に発生する画素の閉塞と、投影対象撮像面で発生する空白問題を慎重に検討することである。 2つの優れたマスクは、カメラの動きによる画像画素ミスマッチのほとんどを解決するように設計されている。 また,比較的稀な状況が考慮され,繰り返しマスキングが提案されている。 ある程度は、幾何学的関係を利用して、ミスマッチした画素をフィルタリングし、教師なし学習をより効率的かつ正確にする。 KITTIデータセットを用いた実験により,提案手法は深度とエゴモーションの点で優れた性能を示す。 提案手法の一般化能力は,低品質の自転車ビデオデータセットのトレーニングと,KITTIデータセットの評価によって実証され,その結果は依然として良好である。

A new unsupervised learning method of depth and ego-motion using multiple masks from monocular video is proposed in this paper. The depth estimation network and the ego-motion estimation network are trained according to the constraints of depth and ego-motion without truth values. The main contribution of our method is to carefully consider the occlusion of the pixels generated when the adjacent frames are projected to each other, and the blank problem generated in the projection target imaging plane. Two fine masks are designed to solve most of the image pixel mismatch caused by the movement of the camera. In addition, some relatively rare circumstances are considered, and repeated masking is proposed. To some extent, the method is to use a geometric relationship to filter the mismatched pixels for training, making unsupervised learning more efficient and accurate. The experiments on KITTI dataset show our method achieves good performance in terms of depth and ego-motion. The generalization capability of our method is demonstrated by training on the low-quality uncalibrated bike video dataset and evaluating on KITTI dataset, and the results are still good.
翻訳日:2021-04-02 13:26:23 公開日:2021-04-01
# スパースモデリングによる画像生成の改善

Improved Image Generation via Sparse Modeling ( http://arxiv.org/abs/2104.00464v1 )

ライセンス: Link先を確認
Roy Ganz and Michael Elad(参考訳) 近年,画像合成における深層学習コミュニティの関心が高まっている。 今日では、深層生成法、特にGAN(Generative Adversarial Networks)は、現実的な画像の合成が可能な最先端のパフォーマンスを実現している。 生成した画像の品質を改善する努力は広いが、ほとんどの試みは生成部を非相関の「ブラックボックス」と見なしている。 本稿では,画像生成プロセスのより深い理解と設計を実現することを目的とする。 既存のジェネレータは、スパーシティに触発されたモデルに暗黙的に依存していると解釈する。 より具体的には、生成元を畳み込みスパース符号化(CSC)とその多層化(ML-CSC)合成プロセスのマニフェストとみなすことができる。 我々は、この観測を、生成器内で適切に選択されたアクティベーション層にスパース化正規化を明示的に実施することにより、画像合成の改善につながることを示す。 さらに,Deep Image Prior (DIP) 法では,逆問題に対処するジェネレータにも同様の論理と利点が適用されることを示した。

The interest of the deep learning community in image synthesis has grown massively in recent years. Nowadays, deep generative methods, and especially Generative Adversarial Networks (GANs), are leading to state-of-the-art performance, capable of synthesizing images that appear realistic. While the efforts for improving the quality of the generated images are extensive, most attempts still consider the generator part as an uncorroborated "black-box". In this paper, we aim to provide a better understanding and design of the image generation process. We interpret existing generators as implicitly relying on sparsity-inspired models. More specifically, we show that generators can be viewed as manifestations of the Convolutional Sparse Coding (CSC) and its Multi-Layered version (ML-CSC) synthesis processes. We leverage this observation by explicitly enforcing a sparsifying regularization on appropriately chosen activation layers in the generator, and demonstrate that this leads to improved image synthesis. Furthermore, we show that the same rationale and benefits apply to generators serving inverse problems, demonstrated on the Deep Image Prior (DIP) method.
翻訳日:2021-04-02 13:26:07 公開日:2021-04-01
# 一貫性モデリングによるリアルタイムでのニューラルビデオポートレートリライティング

Neural Video Portrait Relighting in Real-time via Consistency Modeling ( http://arxiv.org/abs/2104.00484v1 )

ライセンス: Link先を確認
Longwen Zhang, Qixuan Zhang, Minye Wu, Jingyi Yu, Lan Xu(参考訳) ビデオのポートレートリライティングは、ユーザーの顔写真、特に没入型VR/AR体験に不可欠だ。 近年の進歩は、ビデオの整合性管理の欠如に悩まされ、単分子RGBストリームからの動的照度による一貫した信頼性の回復には至っていない。 本稿では,新しい動的olatデータセットを用いて意味的,時間的,照明的一貫性を協調的にモデル化する,リアルタイム,高品質,コヒーレントな映像ポートレートライトライティングのためのニューラルアプローチを提案する。 本稿では,マルチタスクと対向的な学習戦略を組み合わせるエンコーダ・デコーダアーキテクチャにおける,意味・認識一貫性モデリングのためのハイブリッド構造と照明絡み合いを提案する。 本研究では,フローベース制御による時間的モデリング手法を採用し,共役時間的一貫性を横断的に符号化する。 また,実世界における自然ポートレート光操作の照明一貫性と突然変異をモデル化する照明サンプリング戦略を提案する。 広範にわたる実験により, モバイル・コンピューティングを用いても, コンテンシブ・ビデオ・ポートレートの光編集, ライトライティングへのアプローチの有効性が実証された。

Video portraits relighting is critical in user-facing human photography, especially for immersive VR/AR experience. Recent advances still fail to recover consistent relit result under dynamic illuminations from monocular RGB stream, suffering from the lack of video consistency supervision. In this paper, we propose a neural approach for real-time, high-quality and coherent video portrait relighting, which jointly models the semantic, temporal and lighting consistency using a new dynamic OLAT dataset. We propose a hybrid structure and lighting disentanglement in an encoder-decoder architecture, which combines a multi-task and adversarial training strategy for semantic-aware consistency modeling. We adopt a temporal modeling scheme via flow-based supervision to encode the conjugated temporal consistency in a cross manner. We also propose a lighting sampling strategy to model the illumination consistency and mutation for natural portrait light manipulation in real-world. Extensive experiments demonstrate the effectiveness of our approach for consistent video portrait light-editing and relighting, even using mobile computing.
翻訳日:2021-04-02 13:25:47 公開日:2021-04-01
# 自然言語コマンドに基づく把持検出のための協調ネットワーク

A Joint Network for Grasp Detection Conditioned on Natural Language Commands ( http://arxiv.org/abs/2104.00492v1 )

ライセンス: Link先を確認
Yiye Chen, Ruinian Xu, Yunzhi Lin, and Patricio A. Vela(参考訳) 自然言語のコマンドクエリに基づいて対象オブジェクトを把握するタスクについて検討する。 以前の作業は主に、クエリが与えられたオブジェクトをローカライズすることに焦点を当てていた。 2つのパイプラインのカスケード適用は、個々の出力のあいまいさによって重複する複数オブジェクトのケースでエラーを発生させる。 本研究は,RGB画像およびテキストコマンド入力からの把握を満足するコマンドを直接出力するCommand Grasping Network(CGNet)というモデルを提案する。 vmrdデータセットに基づいて、基底真理(画像、コマンド、把持)タプルを持つデータセットを生成し、提案ネットワークをトレーニングする。 生成したテストセットの実験結果から,CGNetはカスケードされたオブジェクト検索に優れ,検出基準線を大きなマージンで把握することがわかった。 3つの物理実験はCGNetの機能と性能を示す。

We consider the task of grasping a target object based on a natural language command query. Previous work primarily focused on localizing the object given the query, which requires a separate grasp detection module to grasp it. The cascaded application of two pipelines incurs errors in overlapping multi-object cases due to ambiguity in the individual outputs. This work proposes a model named Command Grasping Network(CGNet) to directly output command satisficing grasps from RGB image and textual command inputs. A dataset with ground truth (image, command, grasps) tuple is generated based on the VMRD dataset to train the proposed network. Experimental results on the generated test set show that CGNet outperforms a cascaded object-retrieval and grasp detection baseline by a large margin. Three physical experiments demonstrate the functionality and performance of CGNet.
翻訳日:2021-04-02 13:25:27 公開日:2021-04-01
# 学習外乱マスクを用いた高密度単眼SLAMのフロントエンド

A Front-End for Dense Monocular SLAM using a Learned Outlier Mask Prior ( http://arxiv.org/abs/2104.00562v1 )

ライセンス: Link先を確認
Yihao Zhang and John J. Leonard(参考訳) 単一のRGB画像からの深度予測の最近の成果は、畳み込みニューラルネットワーク(CNN)と古典的同時ローカライゼーションとマッピング(SLAM)アルゴリズムを組み合わせた新しい研究領域に力を入れている。 CNNからの深度予測は、従来のSLAMアルゴリズムの最適化プロセスにおいて合理的な初期点を提供する一方、SLAMアルゴリズムはCNNの予測をさらに改善する。 しかし、現在のCNN-SLAMアプローチのほとんどは、深さ予測のみを生かしているが、CNNの他の製品ではない。 本研究では,ビデオからの奥行きの教師なし学習の副産物である外れ値マスク(outlier mask)を,奥行き推定融合の古典的確率モデルにおいて,SLAMフロントエンドの外れ値耐性追跡性能を向上させるための先行モデルとして用いることを検討する。 一方、以前のCNN-SLAMの作業は特徴ベースのスパースSLAM法に基づいており、CNNからのピクセルごとの密度予測を無駄にしている。 これらのスパース手法とは対照的に、TensorFlowで実装可能な高密度CNN支援SLAMフロントエンドを考案し、屋内および屋外両方のデータセットで評価する。

Recent achievements in depth prediction from a single RGB image have powered the new research area of combining convolutional neural networks (CNNs) with classical simultaneous localization and mapping (SLAM) algorithms. The depth prediction from a CNN provides a reasonable initial point in the optimization process in the traditional SLAM algorithms, while the SLAM algorithms further improve the CNN prediction online. However, most of the current CNN-SLAM approaches have only taken advantage of the depth prediction but not yet other products from a CNN. In this work, we explore the use of the outlier mask, a by-product from unsupervised learning of depth from video, as a prior in a classical probability model for depth estimate fusion to step up the outlier-resistant tracking performance of a SLAM front-end. On the other hand, some of the previous CNN-SLAM work builds on feature-based sparse SLAM methods, wasting the per-pixel dense prediction from a CNN. In contrast to these sparse methods, we devise a dense CNN-assisted SLAM front-end that is implementable with TensorFlow and evaluate it on both indoor and outdoor datasets.
翻訳日:2021-04-02 13:25:12 公開日:2021-04-01
# Sub-GMN:Subgraph Matching Network Model

Sub-GMN: The Subgraph Matching Network Model ( http://arxiv.org/abs/2104.00186v1 )

ライセンス: Link先を確認
Zixun Lan, Limin Yu, Linglong Yuan, Zili Wu, Fei Ma(参考訳) 本稿では,サブグラフマッチングネットワーク(Sub-GMN)と呼ばれるサブグラフマッチングタスクのエンドツーエンド学習に基づく近似手法を提案する。 まず、サブgmnはグラフ表現学習を使用してノードをノードレベルの埋め込みにマッピングし、メトリクス学習とアテンション機構を組み合わせて、データグラフとクエリグラフのマッチしたノードの関係をモデル化する。 従来のサブグラフマッチングタスクのgnnsベースの方法と比較して、sub-gmnはノード対ノードマッチング関係を取得して、クエリグラフとデータグラフからなる入力をテストフェーズで変更することが可能であり、従来のgnnsベースのサブグラフマッチングタスクの方法は固定および不変サブグラフのみをマッチングでき、ノード対ノードマッチング関係を出力することができない。 この論文には2つの貢献がある。 最初のコントリビューションは、Sub-GMNがサブグラフマッチングタスクのための最初の学習ベースのメソッドであり、ノード間マッチング関係を出力できることである。 我々の知る限り、グラフマッチングタスクのクエリやデータグラフの変化を許容しながら、ノード間マッチング関係を出力する形式的なジャーナルでは学習ベースの手法は提案されていない。 第2の貢献は、サブGMNが、精度と実行時間の観点から、従来のGNNベースのサブグラフマッチングタスクよりも優れた実験結果を得たことである。

We propose an end-to-end learning-based approximate method for subgraph matching task, called subgraph matching network (Sub-GMN). First, Sub-GMN uses graph representation learning to map nodes to node-level embedding, and then combines metric learning and attention mechanisms to model the relationship between matched nodes in the data graph and query graph. Compared with the previous GNNs-based method for subgraph matching task, Sub-GMN can obtain the node-to-node matching relationships and allow varying the input composed of query graph and data graph in the test phase, while previous GNNs-based methods for subgraph matching task can only match a fixed and unchanged subgraph and cannot output the node-to-node matching relationships. In this paper, there are two contribution. The first contribution is that Sub-GMN is the first learning based methods for subgraph matching task and can output node-to-node matching relationships. To our best knowledge, no learning based methods have been proposed in formal journals that match subgraphs, and output node-to-node matching relationships, while allow varying query and data graphes for subgraph matching task. The second contribution is that Sub-GMN has achieved better experimental results than previous GNNs-based method for subgraph matching task from the perspective of accuracy and running time.
翻訳日:2021-04-02 13:23:24 公開日:2021-04-01
# Optimizer Fusion: 局所性と並列性を向上した効率的なトレーニング

Optimizer Fusion: Efficient Training with Better Locality and Parallelism ( http://arxiv.org/abs/2104.00237v1 )

ライセンス: Link先を確認
Zixuan Jiang, Jiaqi Gu, Mingjie Liu, Keren Zhu, David Z. Pan(参考訳) 機械学習フレームワークは、ニューラルネットワークのトレーニングに反復オプティマイザを採用する。 従来の熱心な実行は、トレーニング可能なパラメータの更新を前方および後方の計算から分離する。 しかし、このアプローチは、データの局所性や計算並列性の欠如により、非自明なトレーニング時間オーバーヘッドをもたらす。 本研究では,学習中の局所性と並列性をよりよく活用するために,最適化器を前方あるいは後方の計算に融合することを提案する。 提案手法は,フォワード計算,勾配計算,パラメータ更新を並べ替えることで,反復オプティマイザの効率を向上する。 実験の結果,様々な構成で最大20%のトレーニング時間を短縮できることがわかった。 提案手法はオプティマイザアルゴリズムを変更しないため,トレーニングプロセスの一般的な「プラグイン」技術として利用することができる。

Machine learning frameworks adopt iterative optimizers to train neural networks. Conventional eager execution separates the updating of trainable parameters from forward and backward computations. However, this approach introduces nontrivial training time overhead due to the lack of data locality and computation parallelism. In this work, we propose to fuse the optimizer with forward or backward computation to better leverage locality and parallelism during training. By reordering the forward computation, gradient calculation, and parameter updating, our proposed method improves the efficiency of iterative optimizers. Experimental results demonstrate that we can achieve an up to 20% training time reduction on various configurations. Since our methods do not alter the optimizer algorithm, they can be used as a general "plug-in" technique to the training process.
翻訳日:2021-04-02 13:23:01 公開日:2021-04-01
# CycleDRUMS:CycleGANを用いたバスラインの自動ドラムアレンジメント

CycleDRUMS: Automatic Drum Arrangement For Bass Lines Using CycleGAN ( http://arxiv.org/abs/2104.00353v1 )

ライセンス: Link先を確認
Giorgio Barnab\`o, Giovanni Trappolini, Lorenzo Lastilla, Cesare Campagnano, Angela Fan, Fabio Petroni and Fabrizio Silvestri(参考訳) コンピュータベースの音楽生成における2つの研究スレッドは、自律的な音楽制作システムの構築と、ミュージシャンを支援するコンピュータベースの環境の設計である。 シンボリックドメインでは、楽曲を自動アレンジする鍵となる問題は広範囲に研究され、オーディオ領域では比較的少ないシステムがこの問題に対処した。 そこで本研究では,ベースラインが与えられた新しいドラム生成法であるcycledrumsを提案する。 音の波形をメル・スペクトログラムに変換した後、ビートに追従する原音のドラムを自動生成し、入力ベースと直接混合することができる。 我々は,この課題を画像間翻訳問題として定式化し,画像処理用に設計された教師なしスタイル転送フレームワークであるCycleGANで対処した。 生のオーディオとメル・スペクトログラムを配置することで、人間が音楽をどのように知覚するかをより良く表現し、過去1世紀に蓄積された膨大な音楽録音から新たなアレンジメントのために音を描き出せるようになりました。 生成的敵対的ネットワークと音楽生成システムの双方の出力を評価する客観的な方法が存在しないため,提案課題について,部分的には人間(および専門家)の判断に基づいて,さらに評価基準を定めている。 最後に、画像と画像のペア翻訳ネットワークであるPix2Pixで結果を再現し、我々のアプローチがそれより優れていることを示した。

The two main research threads in computer-based music generation are: the construction of autonomous music-making systems, and the design of computer-based environments to assist musicians. In the symbolic domain, the key problem of automatically arranging a piece music was extensively studied, while relatively fewer systems tackled this challenge in the audio domain. In this contribution, we propose CycleDRUMS, a novel method for generating drums given a bass line. After converting the waveform of the bass into a mel-spectrogram, we are able to automatically generate original drums that follow the beat, sound credible and can be directly mixed with the input bass. We formulated this task as an unpaired image-to-image translation problem, and we addressed it with CycleGAN, a well-established unsupervised style transfer framework, originally designed for treating images. The choice to deploy raw audio and mel-spectrograms enabled us to better represent how humans perceive music, and to potentially draw sounds for new arrangements from the vast collection of music recordings accumulated in the last century. In absence of an objective way of evaluating the output of both generative adversarial networks and music generative systems, we further defined a possible metric for the proposed task, partially based on human (and expert) judgement. Finally, as a comparison, we replicated our results with Pix2Pix, a paired image-to-image translation network, and we showed that our approach outperforms it.
翻訳日:2021-04-02 13:22:49 公開日:2021-04-01
# センシング障害にロバストなロボット制御のためのフィードバックとフィードフォワードの最適化アルゴリズム

Optimization Algorithm for Feedback and Feedforward Policies towards Robot Control Robust to Sensing Failures ( http://arxiv.org/abs/2104.00385v1 )

ライセンス: Link先を確認
Taisuke Kobayashi, Kenta Yoshizawa(参考訳) モデルフリーまたは学習に基づく制御、特に強化学習(RL)は複雑なロボットタスクに適用されることが期待される。 従来のRLでは、最適化されるポリシーは状態依存であり、つまり、ポリシーはフィードバック(FB)コントローラの一種である。 このようなfbコントローラでは、状態の正しい観測が必要であるため、障害の検知に敏感である。 このfbコントローラの欠点を軽減するために、フィードバックエラー学習は、その1つをfeedforward(ff)コントローラに統合する。 RLはFB/FFポリシーに対処することで改善できるが、私たちの知る限り、それらを統一的に学習するための方法論は開発されていない。 本稿では,FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。 制御を推論として着想を得た最適化問題は、合成ポリシーと確率力学モデルによって予測される軌道間のばらつきの最小化と最大化、最適/非最適軌道モデルを考える。 変動法を用いて確率力学モデルを近似することにより、FB/FFポリシー間の規則化を自然に導出する。 数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。 さらに, FFポリシが検知障害に対して堅牢であり, 最適動作を維持できることを実証した。 添付ビデオもyoutubeにアップロードされている: https://youtu.be/zll 4uxirmre

Model-free or learning-based control, in particular, reinforcement learning (RL), is expected to be applied for complex robotic tasks. Traditional RL requires a policy to be optimized is state-dependent, that means, the policy is a kind of feedback (FB) controllers. Due to the necessity of correct state observation in such a FB controller, it is sensitive to sensing failures. To alleviate this drawback of the FB controllers, feedback error learning integrates one of them with a feedforward (FF) controller. RL can be improved by dealing with the FB/FF policies, but to the best of our knowledge, a methodology for learning them in a unified manner has not been developed. In this paper, we propose a new optimization problem for optimizing both the FB/FF policies simultaneously. Inspired by control as inference, the optimization problem considers minimization/maximiz ation of divergences between trajectory, predicted by the composed policy and a stochastic dynamics model, and optimal/non-optimal trajectories. By approximating the stochastic dynamics model using variational method, we naturally derive a regularization between the FB/FF policies. In numerical simulations and a robot experiment, we verified that the proposed method can stably optimize the composed policy even with the different learning law from the traditional RL. In addition, we demonstrated that the FF policy is robust to the sensing failures and can hold the optimal motion. Attached video is also uploaded on youtube: https://youtu.be/zLL 4uXIRmrE
翻訳日:2021-04-02 13:22:24 公開日:2021-04-01
# マルチタスク正規化ネットワークの学習率

Learning Rates for Multi-task Regularization Networks ( http://arxiv.org/abs/2104.00453v1 )

ライセンス: Link先を確認
Jie Gui and Haizhang Zhang(参考訳) マルチタスク学習は、人工知能とビッグデータの時代に直面する機械学習の重要なトレンドである。 様々なシングルタスク機械学習アルゴリズムの学習率推定に関する膨大な研究にもかかわらず、マルチタスク学習の並列処理は少ない。 本稿では,ベクトル値再現核ヒルベルト空間と行列値再生核の理論に基づくマルチタスク学習の学習率推定に関する数学的解析を行う。 典型的なマルチタスク正規化ネットワークでは、サンプルデータ数とタスク数の両方に依存する明示的な学習率が得られる。 タスク数の増加に伴い、マルチタスク学習アルゴリズムの一般化能力が実際に影響を受けることが明らかになった。

Multi-task learning is an important trend of machine learning in facing the era of artificial intelligence and big data. Despite a large amount of researches on learning rate estimates of various single-task machine learning algorithms, there is little parallel work for multi-task learning. We present mathematical analysis on the learning rate estimate of multi-task learning based on the theory of vector-valued reproducing kernel Hilbert spaces and matrix-valued reproducing kernels. For the typical multi-task regularization networks, an explicit learning rate dependent both on the number of sample data and the number of tasks is obtained. It reveals that the generalization ability of multi-task learning algorithms is indeed affected as the number of tasks increases.
翻訳日:2021-04-02 13:21:59 公開日:2021-04-01
# fpgaプラットフォーム上での自律機械のための省エネルギークアッドカメラ視覚システム

An Energy-Efficient Quad-Camera Visual System for Autonomous Machines on FPGA Platform ( http://arxiv.org/abs/2104.00192v1 )

ライセンス: Link先を確認
Zishen Wan, Yuyang Zhang, Arijit Raychowdhury, Bo Yu, Yanjun Zhang, Shaoshan Liu(参考訳) 過去数年間の商用展開経験では、ローカライゼーションは自律型マシンアプリケーションにおいて重要なタスクであり、大きな加速目標であると見なしています。 本稿では,orb(oriented-fast and rotationd- brief)ベースのfpgaローカライズシステムのためのエネルギー効率の高いハードウェアアーキテクチャの設計と実装について述べる。 マルチセンサ自律型マシンローカライズシステムをサポートするために,ハードウェア同期,フレーム多重化,並列化技術を提案する。 Nvidia TX1とIntel i7と比較して、FPGAベースの実装では、それぞれ5.6xと3.4xのスピードアップ、3.0xと34.6xの消費電力削減を実現しています。

In our past few years' of commercial deployment experiences, we identify localization as a critical task in autonomous machine applications, and a great acceleration target. In this paper, based on the observation that the visual frontend is a major performance and energy consumption bottleneck, we present our design and implementation of an energy-efficient hardware architecture for ORB (Oriented-Fast and Rotated- BRIEF) based localization system on FPGAs. To support our multi-sensor autonomous machine localization system, we present hardware synchronization, frame-multiplexing, and parallelization techniques, which are integrated in our design. Compared to Nvidia TX1 and Intel i7, our FPGA-based implementation achieves 5.6x and 3.4x speedup, as well as 3.0x and 34.6x power reduction, respectively.
翻訳日:2021-04-02 13:20:51 公開日:2021-04-01
# 音声-視覚イベントラインに沿った正のサンプル伝搬

Positive Sample Propagation along the Audio-Visual Event Line ( http://arxiv.org/abs/2104.00239v1 )

ライセンス: Link先を確認
Jinxing Zhou, Liang Zheng, Yiran Zhong, Shijie Hao, Meng Wang(参考訳) 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する。 AVEを含むビデオセグメントをローカライズし,そのカテゴリを同定することを目的としている。 分類器の識別的特徴を学習するためには, 同期の有無に関わらず, 有益(あるいは肯定的)な音声と視覚のセグメントペアを識別し, 無関係なセグメントをフィルタリングすることが重要である。 そこで本研究では,各ペア内の関係性を評価することによって,近縁な音声と視覚のペアを発見・活用する,新たな正のサンプル伝搬(PSP)モジュールを提案する。 これは、各オーディオと視覚セグメント間の全ペア類似度マップを構築し、高い類似度スコアを持つペアからのみ機能を集約することで実現できます。 正のサンプルに対して高い相関性を持つ特徴を抽出するようネットワークに促すため,新しい音声-視覚対類似性損失を提案する。 また,弱教師付き設定における時間相関をよりよく活用する新しい重み付け枝を提案する。 我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現し,提案手法の有効性を検証した。

Visual and audio signals often coexist in natural environments, forming audio-visual events (AVEs). Given a video, we aim to localize video segments containing an AVE and identify its category. In order to learn discriminative features for a classifier, it is pivotal to identify the helpful (or positive) audio-visual segment pairs while filtering out the irrelevant ones, regardless whether they are synchronized or not. To this end, we propose a new positive sample propagation (PSP) module to discover and exploit the closely related audio-visual pairs by evaluating the relationship within every possible pair. It can be done by constructing an all-pair similarity map between each audio and visual segment, and only aggregating the features from the pairs with high similarity scores. To encourage the network to extract high correlated features for positive samples, a new audio-visual pair similarity loss is proposed. We also propose a new weighting branch to better exploit the temporal correlations in weakly supervised setting. We perform extensive experiments on the public AVE dataset and achieve new state-of-the-art accuracy in both fully and weakly supervised settings, thus verifying the effectiveness of our method.
翻訳日:2021-04-02 13:20:35 公開日:2021-04-01
# 反復的コントラスト学習による教師なし音像定位

Unsupervised Sound Localization via Iterative Contrastive Learning ( http://arxiv.org/abs/2104.00315v1 )

ライセンス: Link先を確認
Yan-Bo Lin, Hung-Yu Tseng, Hsin-Ying Lee, Yen-Yu Lin, Ming-Hsuan Yang(参考訳) 音像定位は、視覚シーンにおける音声信号の源を見つけることを目的としている。 しかし、音声からサンプリングされた信号と視覚モダリティとの相関関係を注釈付けるのに手間がかかるため、このタスクのために機械の学習を監督することは困難である。 本研究では,データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。 各イテレーションにおいて,提案手法は,1)前回のイテレーションで予測された画像のローカライズ結果と,2)擬似ラベルとして音声信号から推定される意味的関係を抽出する。 次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係(フレーム内サンプリング)と、ビデオ間で抽出された信号の相関関係(フレーム間関係)を学習する。 我々の反復的戦略は徐々に音像の局所化を促し、非響き領域と参照音声との相関を減少させる。 定量的および定性的な実験結果から,提案手法は音像定位作業において既存の教師なし・弱教師付き手法に対して良好に機能することが示された。

Sound localization aims to find the source of the audio signal in the visual scene. However, it is labor-intensive to annotate the correlations between the signals sampled from the audio and visual modalities, thus making it difficult to supervise the learning of a machine for this task. In this work, we propose an iterative contrastive learning framework that requires no data annotations. At each iteration, the proposed method takes the 1) localization results in images predicted in the previous iteration, and 2) semantic relationships inferred from the audio signals as the pseudo-labels. We then use the pseudo-labels to learn the correlation between the visual and audio signals sampled from the same video (intra-frame sampling) as well as the association between those extracted across videos (inter-frame relation). Our iterative strategy gradually encourages the localization of the sounding objects and reduces the correlation between the non-sounding regions and the reference audio. Quantitative and qualitative experimental results demonstrate that the proposed framework performs favorably against existing unsupervised and weakly-supervised methods on the sound localization task.
翻訳日:2021-04-02 13:20:13 公開日:2021-04-01
# 分散とモデルなしのフェデレーション学習:関数空間における合意に基づく蒸留

Decentralized and Model-Free Federated Learning: Consensus-Based Distillation in Function Space ( http://arxiv.org/abs/2104.00352v1 )

ライセンス: Link先を確認
Akihito Taya, Takayuki Nishio, Masahiro Morikura, Koji Yamamoto(参考訳) 本稿では,マルチホップネットワークを介して接続されたIoEデバイスのための分散FL方式を提案する。 FLはプライバシー保護アルゴリズムの実現手段として注目されているが、分散パラメータ平均化方式を使用する場合の非凸性のため、FLアルゴリズムが最適点に収束することが保証されていない。 したがって、最適な解に収束する分散アルゴリズムを開発する必要がある。 提案アルゴリズムの鍵となる考え方は,パラメータ空間ではなく関数空間に局所予測関数を集約することである。 機械学習タスクは凸関数最適化問題とみなすことができるため、コンセンサスに基づく最適化アルゴリズムは、関数空間で機能するように調整された場合、大域最適化を実現する。 本稿では,まず関数空間における提案アルゴリズムの収束を解析し,その収束をメタアルゴリズムと呼ぶ。 スペクトルグラフ理論は、数値ベクトルと同様の方法で函数空間に適用できることが示されている。 次に、メタアルゴリズムの実装として、NN用のCMFDを開発する。 CMFDは知識蒸留を利用して、パラメータ平均化なしで隣り合うデバイス間の機能集約を実現する。 CMFDの利点の1つは、分散学習者間でNNモデルが異なる場合でも動作することである。 本稿では,CMFDが弱い接続ネットワーク下でのパラメータ集約よりも高い精度を実現することを示す。 CMFDの安定性はパラメータ凝集法よりも高い。

This paper proposes a decentralized FL scheme for IoE devices connected via multi-hop networks. FL has gained attention as an enabler of privacy-preserving algorithms, but it is not guaranteed that FL algorithms converge to the optimal point because of non-convexity when using decentralized parameter averaging schemes. Therefore, a distributed algorithm that converges to the optimal solution should be developed. The key idea of the proposed algorithm is to aggregate the local prediction functions, not in a parameter space but in a function space. Since machine learning tasks can be regarded as convex functional optimization problems, a consensus-based optimization algorithm achieves the global optimum if it is tailored to work in a function space. This paper at first analyzes the convergence of the proposed algorithm in a function space, which is referred to as a meta-algorithm. It is shown that spectral graph theory can be applied to the function space in a similar manner as that of numerical vectors. Then, a CMFD is developed for NN as an implementation of the meta-algorithm. CMFD leverages knowledge distillation to realize function aggregation among adjacent devices without parameter averaging. One of the advantages of CMFD is that it works even when NN models are different among the distributed learners. This paper shows that CMFD achieves higher accuracy than parameter aggregation under weakly-connected networks. The stability of CMFD is also higher than that of parameter aggregation methods.
翻訳日:2021-04-02 13:19:36 公開日:2021-04-01
# 離散不規則な自己スーパービジョン表現からの音声合成

Speech Resynthesis from Discrete Disentangled Self-Supervised Representations ( http://arxiv.org/abs/2104.00355v1 )

ライセンス: Link先を確認
Adam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux(参考訳) 音声合成作業に自己教師付き離散表現を用いることを提案する。 そこで, 音声コンテンツ, 韻律情報, 話者識別のための低ビット表現を別々に抽出する。 これにより、音声を制御可能な方法で合成することができる。 我々は,様々な最先端,自己指導型表現学習手法を解析し,再構成品質と非絡み合い特性を考慮して,各手法の利点について光を当てた。 具体的には、F0再構成、話者識別性能(再生と音声変換の両方)、録音の可知性、全体的な品質を主観的人間評価を用いて評価する。 最後に、これらの表現が超軽量音声コーデックにどのように使用できるかを示す。 得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。 オーディオサンプルは以下のリンクで見ることができる。

We propose using self-supervised discrete representations for the task of speech resynthesis. To generate disentangled representation, we separately extract low-bitrate representations for speech content, prosodic information, and speaker identity. This allows to synthesize speech in a controllable manner. We analyze various state-of-the-art, self-supervised representation learning methods and shed light on the advantages of each method while considering reconstruction quality and disentanglement properties. Specifically, we evaluate the F0 reconstruction, speaker identification performance (for both resynthesis and voice conversion), recordings' intelligibility, and overall quality using subjective human evaluation. Lastly, we demonstrate how these representations can be used for an ultra-lightweight speech codec. Using the obtained representations, we can get to a rate of 365 bits per second while providing better speech quality than the baseline methods. Audio samples can be found under the following link: \url{https://resynthesis- ssl.github.io/}.
翻訳日:2021-04-02 13:19:16 公開日:2021-04-01
# 複製か移転か? パラメータサーバにおける非一様アクセス

Replicate or Relocate? Non-Uniform Access in Parameter Servers ( http://arxiv.org/abs/2104.00501v1 )

ライセンス: Link先を確認
Alexander Renz-Wieland, Rainer Gemulla, Zoi Kaoudi, Volker Markl(参考訳) パラメータサーバ(pss)は、大規模機械学習タスクのための分散トレーニングの実装を容易にする。 PSパフォーマンスの重要な課題は、パラメータアクセスが多くの実世界の機械学習タスクにおいて一様でないことである。 非一様性の2つの主要な源としてスキューと非決定主義を同定する。 既存のPSは、全てのパラメータに同じパラメータ管理技術を適用するため、このような一様でないアクセスを管理するのに不適である。 その結果、既存のPSの性能は負の影響を受け、単一ノードのベースラインよりも劣る可能性がある。 本稿では,PSが非一様アクセスを効率的に管理する方法について検討する。 我々は,PSが複数の管理手法をサポートし,各パラメータに適した管理手法を活用することが重要であることを発見した。 ホットスポットパラメータを複製し、アクセス頻度の低いパラメータをリロケーションするPSであるLapse2を提案し、ランダムサンプリングから生じる非決定性を管理するために特殊な手法を用いる。 実験では、Lapse2は既存の単一技術PSを最大1桁の性能で上回り、複数の機械学習タスクに対してほぼ直線的なスケーラビリティを提供しました。

Parameter servers (PSs) facilitate the implementation of distributed training for large machine learning tasks. A key challenge for PS performance is that parameter access is non-uniform in many real-world machine learning tasks, i.e., different parameters exhibit drastically different access patterns. We identify skew and nondeterminism as two major sources for non-uniformity. Existing PSs are ill-suited for managing such non-uniform access because they uniformly apply the same parameter management technique to all parameters. As consequence, the performance of existing PSs is negatively affected and may even fall behind that of single node baselines. In this paper, we explore how PSs can manage non-uniform access efficiently. We find that it is key for PSs to support multiple management techniques and to leverage a well-suited management technique for each parameter. We present Lapse2, a PS that replicates hot spot parameters, relocates less frequently accessed parameters, and employs specialized techniques to manage nondeterminism that arises from random sampling. In our experimental study, Lapse2 outperformed existing, single-technique PSs by up to one order of magnitude and provided near-linear scalability across multiple machine learning tasks.
翻訳日:2021-04-02 13:19:01 公開日:2021-04-01
# 一定の目標関数に対するReLUアクティベーションを持つ人工ニューラルネットワークのトレーニングにおける確率勾配降下の収束の証明

A proof of convergence for stochastic gradient descent in the training of artificial neural networks with ReLU activation for constant target functions ( http://arxiv.org/abs/2104.00277v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Adrian Riekert(参考訳) 本稿では、ReLUを活性化した完全連結フィードフォワード人工ニューラルネットワークのトレーニングにおける確率勾配降下(SGD)最適化法について検討する。 この研究の主な結果は、対象関数が定数であれば、SGD過程のリスクはゼロに収束することを証明している。 確立された収束結果において、考慮された人工ニューラルネットワークは、1つの入力層、1つの隠れ層、1つの出力層で構成される(入力層に$d \in \mathbb{n}$ニューロン、隠れ層に$h \in \mathbb{n}$ニューロン、出力層に1つのニューロン)。 SGDプロセスの学習速度は十分に小さく、SGDプロセスで人工ニューラルネットワークを訓練するために使用される入力データは独立で同一の分散であると仮定する。

In this article we study the stochastic gradient descent (SGD) optimization method in the training of fully-connected feedforward artificial neural networks with ReLU activation. The main result of this work proves that the risk of the SGD process converges to zero if the target function under consideration is constant. In the established convergence result the considered artificial neural networks consist of one input layer, one hidden layer, and one output layer (with $d \in \mathbb{N}$ neurons on the input layer, $H \in \mathbb{N}$ neurons on the hidden layer, and one neuron on the output layer). The learning rates of the SGD process are assumed to be sufficiently small and the input data used in the SGD process to train the artificial neural networks is assumed to be independent and identically distributed.
翻訳日:2021-04-02 13:17:58 公開日:2021-04-01
# (参考訳) データサブサンプリングによる測光赤方偏移のスケーラブルな統計的推定 [全文訳有]

Scalable Statistical Inference of Photometric Redshift via Data Subsampling ( http://arxiv.org/abs/2103.16041v2 )

ライセンス: CC BY 4.0
Arindam Fadikar, Stefan M. Wild, Jonas Chaves-Montero(参考訳) ビッグデータを扱うことは、従来の統計モデルにおいて大きなボトルネックとなっている。 したがって、正確な点予測が主なターゲットである場合、機械学習モデルはより大きな問題に対して統計モデルよりも好まれる。 しかし、完全な確率的統計モデルは、モデル予測に関連する不確かさを定量化するために、しばしば他のモデルを上回る。 我々は,入力空間における不均衡を考慮に入れたデータの部分集合から学習した統計モデルのアンサンブルからの不確実性を組み合わせた,データ駆動型統計モデリングフレームワークを開発する。 本研究では、宇宙論において、遠方銀河の光を観測する際の赤方偏移の分布を推定する光度赤方偏移推定問題において、空の天体で観測される多変量色情報について示す。 提案手法は,バランスの取れたパーティショニング,グラフベースのデータサブサンプリング,およびガウス過程モデルのアンサンブルのトレーニングを行う。

Handling big data has largely been a major bottleneck in traditional statistical models. Consequently, when accurate point prediction is the primary target, machine learning models are often preferred over their statistical counterparts for bigger problems. But full probabilistic statistical models often outperform other models in quantifying uncertainties associated with model predictions. We develop a data-driven statistical modeling framework that combines the uncertainties from an ensemble of statistical models learned on smaller subsets of data carefully chosen to account for imbalances in the input space. We demonstrate this method on a photometric redshift estimation problem in cosmology, which seeks to infer a distribution of the redshift -- the stretching effect in observing the light of far-away galaxies -- given multivariate color information observed for an object in the sky. Our proposed method performs balanced partitioning, graph-based data subsampling across the partitions, and training of an ensemble of Gaussian process models.
翻訳日:2021-04-02 13:15:36 公開日:2021-04-01
# (参考訳) E-GraphSAGE: グラフニューラルネットワークによる侵入検知システム [全文訳有]

E-GraphSAGE: A Graph Neural Network based Intrusion Detection System ( http://arxiv.org/abs/2103.16329v2 )

ライセンス: CC BY 4.0
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, Marius Portmann(参考訳) 本稿では,グラフニューラルネットワーク(GNN)に基づく新しいネットワーク侵入検知システム(NIDS)を提案する。 GNNはディープニューラルネットワークの比較的新しいサブフィールドであり、グラフベースのデータ固有の構造を活用するユニークな能力を持っている。 NIDSのトレーニングと評価データは一般的にフローレコードとして表現され、グラフ形式で自然に表現できる。 これにより,ネットワーク侵入検出を目的としたGNNの探索の可能性とモチベーションが確立され,本論文の焦点となる。 e-graphsage,提案する新しいアプローチは確立されたgraphsageモデルに基づいているが,エッジ分類のエッジ機能をサポートするために必要な修正を提供し,ネットワークフローを良性クラスと攻撃クラスに分類する。 最近の6つのNIDSベンチマークデータセットに基づく広範な実験的評価は、最先端のNIDSと比較して、E-GraphSAGEベースのNIDSの優れた性能を示している。

This paper presents a new network intrusion detection system (NIDS) based on Graph Neural Networks (GNNs). GNNs are a relatively new sub-field of deep neural networks, which have the unique ability to leverage the inherent structure of graph-based data. Training and evaluation data for NIDSs are typically represented as flow records, which can naturally be represented in a graph format. This establishes the potential and motivation for exploring GNNs for the purpose of network intrusion detection, which is the focus of this paper. E-GraphSAGE, our proposed new approach is based on the established GraphSAGE model, but provides the necessary modifications in order to support edge features for edge classification, and hence the classification of network flows into benign and attack classes. An extensive experimental evaluation based on six recent NIDS benchmark datasets shows the excellent performance of our E-GraphSAGE based NIDS in comparison with the state-of-the-art.
翻訳日:2021-04-02 12:14:41 公開日:2021-04-01
# (参考訳) グラフ畳み込みネットワークを用いた弱教師付き画像意味セグメンテーション [全文訳有]

Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks ( http://arxiv.org/abs/2103.16762v2 )

ライセンス: CC BY 4.0
Shun-Yi Pan, Cheng-You Lu, Shih-Po Lee, Wen-Hsiao Peng(参考訳) この研究は、画像レベルのクラスラベルに基づく弱教師付きイメージセマンティックセグメンテーションに対処する。 このタスクの一般的なアプローチは、クラスアクティベーションマップ(cams)のアクティベーションスコアをランダムウォーク機構を用いて伝達し、完全な擬似ラベルに到達し、意味セグメンテーションネットワークを完全に教師付きで訓練することである。 しかし、ランダムウォークのフィードフォワード性は、結果として得られる完全な擬似ラベルの品質に正規化を課さない。 この問題を解決するために,我々はGCN(Graph Convolutional Network)ベースの機能伝搬フレームワークを提案する。 半教師付き学習課題として完全な擬似ラベルの生成を定式化し、ラプラシアンとエントロピー正規化損失をバックプロパゲートすることにより、トレーニング画像毎に2層GCNを個別に学習する。 PASCAL VOC 2012データセットの実験結果から,いくつかの最先端ベースラインに対する提案手法の優位性が確認された。 私たちのコードはhttps://github.com/x avier-pan/wsgcnで利用可能です。

This work addresses weakly-supervised image semantic segmentation based on image-level class labels. One common approach to this task is to propagate the activation scores of Class Activation Maps (CAMs) using a random-walk mechanism in order to arrive at complete pseudo labels for training a semantic segmentation network in a fully-supervised manner. However, the feed-forward nature of the random walk imposes no regularization on the quality of the resulting complete pseudo labels. To overcome this issue, we propose a Graph Convolutional Network (GCN)-based feature propagation framework. We formulate the generation of complete pseudo labels as a semi-supervised learning task and learn a 2-layer GCN separately for every training image by back-propagating a Laplacian and an entropy regularization loss. Experimental results on the PASCAL VOC 2012 dataset confirm the superiority of our scheme to several state-of-the-art baselines. Our code is available at https://github.com/X avier-Pan/WSGCN.
翻訳日:2021-04-02 11:56:46 公開日:2021-04-01
# (参考訳) $\alpha$-geodesical Skew Divergence [全文訳有]

$\alpha$-Geodesical Skew Divergence ( http://arxiv.org/abs/2103.17060v2 )

ライセンス: CC BY 4.0
Masanari Kimura and Hideitsu Hino(参考訳) 非対称スキュー発散は、パラメータ $\lambda$ によって決定された次数と他の分布とを混合することによって、分布の1つを滑らかにする。 このような発散はkl発散の近似であり、対象分布がソース分布に関して絶対連続である必要はない。 本稿では,$\alpha$-geodesical skew divergenceと呼ばれるスキュー分岐の情報幾何学的一般化を提案し,その特性について検討する。

The asymmetric skew divergence smooths one of the distributions by mixing it, to a degree determined by the parameter $\lambda$, with the other distribution. Such divergence is an approximation of the KL divergence that does not require the target distribution to be absolutely continuous with respect to the source distribution. In this paper, an information geometric generalization of the skew divergence called the $\alpha$-geodesical skew divergence is proposed, and its properties are studied.
翻訳日:2021-04-02 11:21:22 公開日:2021-04-01
# (参考訳) Chatbotをインターロケータシューズに組み込む - 意図に反応するChatbotを学習するためのフレームワーク [全文訳有]

Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention ( http://arxiv.org/abs/2103.16429v3 )

ライセンス: CC BY 4.0
Hsuan Su, Jiun-Hao Jhan, Fan-yun Sun, Saurav Sahay, Hung-yi Lee(参考訳) チャットボットの文学の多くは、チャットボットの流動性とコヒーレンスを改善することに焦点を当てており、チャットボットをより人間らしくすることに注力している。 しかし、人間とチャットボットを本当に区別するものは、ほとんどない -- 人間は、反応が対話者に与える影響を本質的に理解し、対話者の気分を改善するために楽観的な視点を提案するなど、しばしば反応する。 本稿では,人間のような意図を持つチャットボットを訓練するための革新的な枠組みを提案する。 我々のフレームワークには、人間の役割を担う案内チャットボットとインターロケータモデルが含まれていた。 案内チャットボットは意図を割り当て,その意図に合致する応答,例えば,長応答,快楽応答,特定の単語による応答などの応答をインターロケータに誘導するように学習した。 3つの実験的な設定を用いてフレームワークを検証し、4つの異なるメトリクスでガイドボットを評価し、柔軟性と性能の優位性を実証した。 さらに,人間評価の結果は,特定の程度にヒトの反応に影響を与える指導的チャットボットの有効性を十分に裏付けるものである。 コードは一般公開される予定だ。

Most chatbot literature focuses on improving the fluency and coherence of a chatbot, is dedicated to making chatbots more human-like. However, very little work delves into what really separates humans from chatbots -- humans intrinsically understand the effect their responses have on the interlocutor and often respond with an intention such as proposing an optimistic view to make the interlocutor feel better. This paper proposes an innovative framework to train chatbots to possess human-like intentions. Our framework included a guiding chatbot and an interlocutor model that plays the role of humans. The guiding chatbot was assigned an intention and learned to induce the interlocutor to reply with responses matching the intention, for example, long responses, joyful responses, responses with specific words, etc. We examined our framework using three experimental setups and evaluate the guiding chatbot with four different metrics to demonstrated flexibility and performance advantages. Additionally, human evaluation results sufficiently substantiate the guiding chatbot's effectiveness in influencing humans' responses to a certain extent. Code will be made available to the public.
翻訳日:2021-04-02 11:05:23 公開日:2021-04-01
# より良い初期化と短いウォームアップによる高速認定ロバストトレーニング

Fast Certified Robust Training via Better Initialization and Shorter Warmup ( http://arxiv.org/abs/2103.17268v2 )

ライセンス: Link先を確認
Zhouxing Shi, Yihan Wang, Huan Zhang, Jinfeng Yi, Cho-Jui Hsieh(参考訳) 近年,有界伝播に基づく認証逆防御法が,堅牢性を保証するニューラルネットワークのトレーニングのために提案されている。 インターバルバウンド伝搬(IBP)やCROWN-IBPといった最先端(SOTA)の手法は、標準的なニューラルネットワークトレーニングと同様のバッチ単位のトレーニング複雑性を持つが、SOTAのパフォーマンスに到達するには、通常は数百から数千のエポックで長いウォームアップスケジュールが必要であるため、トレーニングには依然として非常にコストがかかる。 本稿では,Xavierや直交初期化などの先行研究で採用されている重み初期化が,もともと標準ネットワークトレーニング用に設計されたもので,初期化時に非常に緩やかに認証された境界が生じるため,より長いウォームアップスケジュールを使わなければならないことを明らかにする。 また,IPPに基づくトレーニングがReLUアクティベーション状態の大幅な不均衡を招き,モデル性能を損なう可能性がある。 以上の結果から,新しいipp初期化法とウォームアップ段階における基本正規化法を導出し,初期化とウォームアップ段階の認定境界を安定化し,ウォームアップスケジュールを大幅に短縮し,relu活性化状態のバランスを改善する。 さらに、バッチ正規化(BN)は、制約分散の安定化とReLUアクティベーション状態の均衡を支援するため、認定トレーニングのために最高の性能のネットワークを構築する上で重要なアーキテクチャ要素であることがわかった。 提案する初期化,正規化,アーキテクチャ変更を組み合わせることで,cifar-10 (\epsilon=\frac{8}{255}$) の65.03%,tinyimagenetの82.13% (\epsilon=\frac{1}{255}$) の検証エラーを非常に短いトレーニングスケジュール (160 と 80 つの総エポック) で取得することが可能となり,数百 から000 のエポックでトレーニングされた文献よりも優れています。

Recently, bound propagation based certified adversarial defense have been proposed for training neural networks with certifiable robustness guarantees. Despite state-of-the-art (SOTA) methods including interval bound propagation (IBP) and CROWN-IBP have per-batch training complexity similar to standard neural network training, to reach SOTA performance they usually need a long warmup schedule with hundreds or thousands epochs and are thus still quite costly for training. In this paper, we discover that the weight initialization adopted by prior works, such as Xavier or orthogonal initialization, which was originally designed for standard network training, results in very loose certified bounds at initialization thus a longer warmup schedule must be used. We also find that IBP based training leads to a significant imbalance in ReLU activation states, which can hamper model performance. Based on our findings, we derive a new IBP initialization as well as principled regularizers during the warmup stage to stabilize certified bounds during initialization and warmup stage, which can significantly reduce the warmup schedule and improve the balance of ReLU activation states. Additionally, we find that batch normalization (BN) is a crucial architectural element to build best-performing networks for certified training, because it helps stabilize bound variance and balance ReLU activation states. With our proposed initialization, regularizers and architectural changes combined, we are able to obtain 65.03% verified error on CIFAR-10 ($\epsilon=\frac{8}{255}$) and 82.13% verified error on TinyImageNet ($\epsilon=\frac{1}{255}$) using very short training schedules (160 and 80 total epochs, respectively), outperforming literature SOTA trained with a few hundreds or thousands epochs.
翻訳日:2021-04-02 10:52:02 公開日:2021-04-01
# ガーナ語のためのNLP

NLP for Ghanaian Languages ( http://arxiv.org/abs/2103.15475v2 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) NLP Ghanaは、最先端のNLP技術とデジタル言語ツールの開発と導入を、ガーナの言語や問題に進めるための、オープンソースの非営利組織である。 本稿では,ガーナにおけるNLPの現状を呈示しながら,いくつかの人気のあるガーナ語を導入することで,組織の取り組みの動機と必要性を最初に提示する。 次に、NLPガーナの組織を紹介し、その目的、作業範囲、採用方法、ガーナのNLPコミュニティで現在行われているコントリビューションについて概説する。

NLP Ghana is an open-source non-profit organization aiming to advance the development and adoption of state-of-the-art NLP techniques and digital language tools to Ghanaian languages and problems. In this paper, we first present the motivation and necessity for the efforts of the organization; by introducing some popular Ghanaian languages while presenting the state of NLP in Ghana. We then present the NLP Ghana organization and outline its aims, scope of work, some of the methods employed and contributions made thus far in the NLP community in Ghana.
翻訳日:2021-04-02 10:51:16 公開日:2021-04-01
# 機械翻訳のための英語-twi並列コーパス

English-Twi Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2103.15625v3 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) 本稿では,25,421文対のAkuapem Twiと英語の並列機械翻訳学習コーパスを提案する。 Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母国語話者が翻訳文の出現を除去するために必要に応じて検証・修正した。 また、下流自然言語処理(NLP)タスクの評価セットとして、697の高品質なクラウドソース文が提供されている。 より大きな人間検証データセットの典型的なユースケースは、akapem twiの機械翻訳モデルのさらなるトレーニングである。 高品質な697クラウドソースデータセットは、twiとtwiから英語モデルへの機械翻訳のためのテストデータセットとして推奨されている。 さらに、クラウドソースされたデータのTwi部分は、表現学習や分類など、他のタスクにも使用することができる。 トレーニングコーパスのトランスフォーマー翻訳モデルを微調整し,クラウドソーステストセットのベンチマークを報告する。

We present a parallel machine translation training corpus for English and Akuapem Twi of 25,421 sentence pairs. We used a transformer-based translator to generate initial translations in Akuapem Twi, which were later verified and corrected where necessary by native speakers to eliminate any occurrence of translationese. In addition, 697 higher quality crowd-sourced sentences are provided for use as an evaluation set for downstream Natural Language Processing (NLP) tasks. The typical use case for the larger human-verified dataset is for further training of machine translation models in Akuapem Twi. The higher quality 697 crowd-sourced dataset is recommended as a testing dataset for machine translation of English to Twi and Twi to English models. Furthermore, the Twi part of the crowd-sourced data may also be used for other tasks, such as representation learning, classification, etc. We fine-tune the transformer translation model on the training corpus and report benchmarks on the crowd-sourced test set.
翻訳日:2021-04-02 10:51:05 公開日:2021-04-01
# 接触した関節剛体に対する高速かつ完全微分可能な物理

Fast and Feature-Complete Differentiable Physics for Articulated Rigid Bodies with Contact ( http://arxiv.org/abs/2103.16021v2 )

ライセンス: Link先を確認
Keenon Werling, Dalton Omens, Jeongseok Lee, Ioannis Exarchos, C. Karen Liu(参考訳) ラグランジアン力学と剛体シミュレーションのためのハードコンタクト制約をサポートする高速で特徴完備な微分可能な物理エンジンを提案する。 私たちの微分可能な物理エンジンは、ロボティクスアプリケーションで一般的に使用される非微分可能な物理シミュレータでのみ使用可能な、完全な機能セットを提供します。 線形相補性問題(LCP)を用いて接触制約を正確に解く。 LCP溶液の疎性を利用した非弾性接触のLCP定式化による効率的で新しい解析勾配を示す。 複素接触幾何学と連続時間弾性衝突を近似する勾配をサポートする。 また,下流最適化タスクがサドルポイントの失速を回避するために,相補性認識勾配を計算する新しい手法を提案する。 既存の物理エンジン(DART)におけるこの組み合わせの実装は、計算解析ヤコビアンにおける有限差分よりも45倍の単一コアの高速化が可能であり、元のDARTの表現性を保っていることを示す。

We present a fast and feature-complete differentiable physics engine that supports Lagrangian dynamics and hard contact constraints for articulated rigid body simulation. Our differentiable physics engine offers a complete set of features that are typically only available in non-differentiable physics simulators commonly used by robotics applications. We solve contact constraints precisely using linear complementarity problems (LCPs). We present efficient and novel analytical gradients through the LCP formulation of inelastic contact that exploit the sparsity of the LCP solution. We support complex contact geometry, and gradients approximating continuous-time elastic collision. We also introduce a novel method to compute complementarity-awar e gradients that help downstream optimization tasks avoid stalling in saddle points. We show that an implementation of this combination in an existing physics engine (DART) is capable of a 45x single-core speedup over finite-differencing in computing analytical Jacobians for a single timestep, while preserving all the expressiveness of original DART.
翻訳日:2021-04-02 10:50:52 公開日:2021-04-01
# 汎用知能の一般理論 : プラグマティック・パターン主義の視点から

The General Theory of General Intelligence: A Pragmatic Patternist Perspective ( http://arxiv.org/abs/2103.15100v2 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 一連の書籍や論文で表現され、一連の実用および研究プロトタイプソフトウェアシステムのガイドに使用される、人工的および自然的汎用知性の理論的基礎に関する多年にわたる調査が、適度なレベルでレビューされている。 このレビューでは、基礎となる哲学(心のパターン哲学、基礎現象論と論理オントロジー)、知性の概念の形式化、そしてこれらの形式化と哲学によって部分的に駆動されるagiシステムのための高レベルアーキテクチャの提案などを取り上げている。 論理的推論、プログラム学習、クラスタリング、注意割当てといった特定の認知過程の実装は、このハイレベルアーキテクチャの文脈と言語において、共通の(例えば)重要性と同様に考慮される。 タイプ付きメタグラフベース) 様々なプロセス間の「認知シナジー」を可能にする知識表現。 人間のような認知アーキテクチャの特質は、これらの一般的な原則の表象として提示され、機械意識と機械倫理の重要な側面もこの文脈で扱われる。 OpenCog Hyperonのようなフレームワークにおける高度なAGIの実践的な実装の教訓を簡潔に検討する。

A multi-decade exploration into the theoretical foundations of artificial and natural general intelligence, which has been expressed in a series of books and papers and used to guide a series of practical and research-prototype software systems, is reviewed at a moderate level of detail. The review covers underlying philosophies (patternist philosophy of mind, foundational phenomenological and logical ontology), formalizations of the concept of intelligence, and a proposed high level architecture for AGI systems partly driven by these formalizations and philosophies. The implementation of specific cognitive processes such as logical reasoning, program learning, clustering and attention allocation in the context and language of this high level architecture is considered, as is the importance of a common (e.g. typed metagraph based) knowledge representation for enabling "cognitive synergy" between the various processes. The specifics of human-like cognitive architecture are presented as manifestations of these general principles, and key aspects of machine consciousness and machine ethics are also treated in this context. Lessons for practical implementation of advanced AGI in frameworks such as OpenCog Hyperon are briefly considered.
翻訳日:2021-04-02 10:50:35 公開日:2021-04-01
# SIENet:ポイントクラウドからの3次元物体検出のための空間情報強調ネットワーク

SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud ( http://arxiv.org/abs/2103.15396v2 )

ライセンス: Link先を確認
Ziyu Li, Yuncong Yao, Zhibin Quan, Wankou Yang, Jin Xie(参考訳) LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。 LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。 この不均衡な点雲密度は検出精度を低下させるが、従来の研究では無視されている。 そこで我々は,SIENetという新しい2段階の3Dオブジェクト検出フレームワークを提案する。 具体的には,提案中の前景点の空間形状を予測するための空間情報拡張(sie)モジュールを設計し,その構造情報を抽出し,その代表的特徴を学習し,さらにボックスリファインメントを行う。 予測された空間形状は完全かつ密接な点集合であり、抽出された構造情報はより意味的な表現を含む。 さらに,識別特徴を学習し,SIEモジュールの正確な提案を生成するために複数の分岐を含むHybrid-Paradigm Region Proposal Network (HP-RPN) を設計する。 KITTIの3Dオブジェクト検出ベンチマークによる大規模な実験により、精巧に設計されたSIENetは最先端の手法よりも大きなマージンで性能が向上した。

LiDAR-based 3D object detection pushes forward an immense influence on autonomous vehicles. Due to the limitation of the intrinsic properties of LiDAR, fewer points are collected at the objects farther away from the sensor. This imbalanced density of point clouds degrades the detection accuracy but is generally neglected by previous works. To address the challenge, we propose a novel two-stage 3D object detection framework, named SIENet. Specifically, we design the Spatial Information Enhancement (SIE) module to predict the spatial shapes of the foreground points within proposals, and extract the structure information to learn the representative features for further box refinement. The predicted spatial shapes are complete and dense point sets, thus the extracted structure information contains more semantic representation. Besides, we design the Hybrid-Paradigm Region Proposal Network (HP-RPN) which includes multiple branches to learn discriminate features and generate accurate proposals for the SIE module. Extensive experiments on the KITTI 3D object detection benchmark show that our elaborately designed SIENet outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-04-02 10:50:15 公開日:2021-04-01
# ピラミッド型メッシュアライメントフィードバックループを用いた3次元人間のポーズと形状回帰

3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop ( http://arxiv.org/abs/2103.16507v2 )

ライセンス: Link先を確認
Hongwen Zhang, Yating Tian, Xinchi Zhou, Wanli Ouyang, Yebin Liu, Limin Wang, Zhenan Sun(参考訳) 回帰に基づく手法は、最近、単眼画像からヒトのメッシュを再構築する有望な結果を示している。 生のピクセルからモデルパラメータに直接マッピングすることで、ニューラルネットワークを介してパラメトリックモデルをフィードフォワードで生成することができる。 しかし、パラメータの小さな偏差は、推定メッシュと画像証拠の間に顕著な不一致をもたらす可能性がある。 この問題に対処するため、我々は、機能ピラミッドを活用し、深い回帰器のメッシュイメージアライメント状態に基づいて予測パラメータを明示的に修正するピラミッドメッシュアライメントフィードバック(PyMAF)ループを提案する。 現在予測されているパラメータから、PyMAFでは、より微細な特徴からメッシュに沿ったエビデンスを抽出し、パラメータの修正のためにフィードバックする。 ノイズを低減し,これらの証拠の信頼性を高めるため,特徴エンコーダに補助画素の監督を課し,空間的特徴の最も関連性の高い情報を保持するためのメッシュ画像対応ガイダンスを提供する。 提案手法の有効性はHuman3.6M, 3DPW, LSP, COCOなどいくつかのベンチマークで検証され, 実験結果から再現のメッシュイメージアライメントが一貫して改善されていることが示された。 私たちのコードはhttps://hongwenzhang .github.io/pymafで公開されています。

Regression-based methods have recently shown promising results in reconstructing human meshes from monocular images. By directly mapping from raw pixels to model parameters, these methods can produce parametric models in a feed-forward manner via neural networks. However, minor deviation in parameters may lead to noticeable misalignment between the estimated meshes and image evidences. To address this issue, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status in our deep regressor. In PyMAF, given the currently predicted parameters, mesh-aligned evidences will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To reduce noise and enhance the reliability of these evidences, an auxiliary pixel-wise supervision is imposed on the feature encoder, which provides mesh-image correspondence guidance for our network to preserve the most related information in spatial features. The efficacy of our approach is validated on several benchmarks, including Human3.6M, 3DPW, LSP, and COCO, where experimental results show that our approach consistently improves the mesh-image alignment of the reconstruction. Our code is publicly available at https://hongwenzhang .github.io/pymaf .
翻訳日:2021-04-02 10:49:56 公開日:2021-04-01
# AlphaEvolve: 定量的投資で新たなアルファを発見するための学習フレームワーク

AlphaEvolve: A Learning Framework to Discover Novel Alphas in Quantitative Investment ( http://arxiv.org/abs/2103.16196v2 )

ライセンス: Link先を確認
Can Cui, Wei Wang, Meihui Zhang, Gang Chen, Zhaojing Luo, Beng Chin Ooi(参考訳) アルファは株式市場のトレーディングシグナルを捉えた株価予測モデルである。 有効なアルファのセットは、リスクを多様化するために弱い相関の高いリターンを生成することができる。 既存のアルファは2つのクラスに分類できる: 公式アルファはスカラーの特徴の単純な代数的表現であり、よく一般化され弱い相関集合にマイニングされる。 機械学習アルファは、ベクトルおよび行列機能に関するデータ駆動モデルである。 これらは公式アルファよりも予測的であるが、弱い相関集合にマイニングするには複雑すぎる。 本稿では,これら2つの既存クラスの強みを持つスカラー,ベクトル,行列の特徴をモデル化するための新しいアルファクラスを提案する。 新しいアルファは高い精度で戻りを予測し、弱い相関集合にマイニングすることができる。 さらに,新たなアルファを生成するために,automlに基づく新しいアルファマイニングフレームワークであるalphaevolveを提案する。 そこで我々はまず,新しいアルファを生成し,関係領域の知識を選択的に注入し,株間の関係をモデル化する演算子を提案する。 次に,冗長アルファの刈り込み手法を提案することにより,アルファマイニングを加速する。 実験の結果、alphaevolveは初期アルファを高いリターンと弱い相関を持つ新しいアルファへと進化させることが示されている。

Alphas are stock prediction models capturing trading signals in a stock market. A set of effective alphas can generate weakly correlated high returns to diversify the risk. Existing alphas can be categorized into two classes: Formulaic alphas are simple algebraic expressions of scalar features, and thus can generalize well and be mined into a weakly correlated set. Machine learning alphas are data-driven models over vector and matrix features. They are more predictive than formulaic alphas, but are too complex to mine into a weakly correlated set. In this paper, we introduce a new class of alphas to model scalar, vector, and matrix features which possess the strengths of these two existing classes. The new alphas predict returns with high accuracy and can be mined into a weakly correlated set. In addition, we propose a novel alpha mining framework based on AutoML, called AlphaEvolve, to generate the new alphas. To this end, we first propose operators for generating the new alphas and selectively injecting relational domain knowledge to model the relations between stocks. We then accelerate the alpha mining by proposing a pruning technique for redundant alphas. Experiments show that AlphaEvolve can evolve initial alphas into the new alphas with high returns and weak correlations.
翻訳日:2021-04-02 10:49:33 公開日:2021-04-01
# 自動音声認識におけるバイアスの定量化

Quantifying Bias in Automatic Speech Recognition ( http://arxiv.org/abs/2103.15122v2 )

ライセンス: Link先を確認
Siyuan Feng, Olya Kudina, Bence Mark Halpern and Odette Scharenborg(参考訳) 自動音声認識(ASR)システムは、人間の発話を客観的に解釈することを約束する。 実践的および最近の証拠は、最先端(SotA)のASRが、性別、年齢、言語障害、人種、アクセントなどによるスピーチの大きなバリエーションに苦しむことを示唆している。 多くの要因がASRシステムのバイアスを引き起こす可能性がある。 我々の包括的なゴールは、ASRシステムのバイアスを明らかにすることであり、ASRの積極的なバイアス緩和に向けたものである。 本稿は,この目標に向けた第一歩であり,性別,年齢,地域アクセント,非母語アクセントに対するオランダのsota asrシステムのバイアスを体系的に定量化する。 単語誤り率を比較し、より深い音素レベルの誤り分析を行い、バイアスが発生する場所を理解する。 データセットの明瞭度の違いによるバイアスに主眼を置きます。 以上の結果から,ASR開発におけるバイアス緩和戦略を提案する。

Automatic speech recognition (ASR) systems promise to deliver objective interpretation of human speech. Practice and recent evidence suggests that the state-of-the-art (SotA) ASRs struggle with the large variation in speech due to e.g., gender, age, speech impairment, race, and accents. Many factors can cause the bias of an ASR system. Our overarching goal is to uncover bias in ASR systems to work towards proactive bias mitigation in ASR. This paper is a first step towards this goal and systematically quantifies the bias of a Dutch SotA ASR system against gender, age, regional accents and non-native accents. Word error rates are compared, and an in-depth phoneme-level error analysis is conducted to understand where bias is occurring. We primarily focus on bias due to articulation differences in the dataset. Based on our findings, we suggest bias mitigation strategies for ASR development.
翻訳日:2021-04-02 10:49:17 公開日:2021-04-01
# 効率的な学習画像圧縮のためのチェッカーボードコンテキストモデル

Checkerboard Context Model for Efficient Learned Image Compression ( http://arxiv.org/abs/2103.15306v2 )

ライセンス: Link先を確認
Dailan He, Yaoyan Zheng, Baocheng Sun, Yan Wang, Hongwei Qin(参考訳) 学習画像圧縮では、自己回帰文脈モデルがRDの性能向上に有効であることが証明された。 潜在表現間の空間的冗長性を取り除くのに役立つからです しかし、復号処理は厳密なスキャン順序で行わなければならないため、並列化を損なう。 この問題を解決するために,並列化可能なチェッカーボードコンテキストモデル(CCM)を提案する。 この2パスチェッカーボードコンテキスト計算は,デコード順序を再編成することにより,空間的位置の制限を解消する。 私たちの実験では40回以上の復号処理を高速化し、ほぼ同じレートゆらぎ性能で計算効率を大幅に向上させました。 私たちの知る限りでは、これは学習画像圧縮のための並列化フレンドリな空間コンテキストモデルに関する最初の調査です。

For learned image compression, the autoregressive context model is proved effective in improving the rate-distortion (RD) performance. Because it helps remove spatial redundancies among latent representations. However, the decoding process must be done in a strict scan order, which breaks the parallelization. We propose a parallelizable checkerboard context model (CCM) to solve the problem. Our two-pass checkerboard context calculation eliminates such limitations on spatial locations by re-organizing the decoding order. Speeding up the decoding process more than 40 times in our experiments, it achieves significantly improved computational efficiency with almost the same rate-distortion performance. To the best of our knowledge, this is the first exploration on parallelization-frie ndly spatial context model for learned image compression.
翻訳日:2021-04-02 10:49:00 公開日:2021-04-01
# スパースランダム3次行列を用いた1次元時間チャネル分離畳み込み圧縮

Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices ( http://arxiv.org/abs/2103.17142v2 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Matthijs Van Keirsbilck, and Alexander Keller(参考訳) 1次元の時間チャネル分離可能な畳み込みにおける1x1-畳み込みは、$\{-1,0,+1\}$ の重みを持つ無作為な三元行列に置き換えられることを実証する。 このようなレイヤは、いかなる乗算も行わず、トレーニングも必要としない。 さらに、行列は計算中にチップ上で生成され、そのためメモリアクセスは不要である。 同じパラメータ予算で、より深くより表現力のあるモデルを提供し、いくつかのタスクで既存のモデルのParetoフロンティアを改善することができます。 google speech commands v1でのコマンド認識では、最先端の精度を同じネットワークサイズで97.21\%$から97.41\%$に改善する。 あるいは、既存のモデルのコストを下げることもできます。 librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1/%を犠牲にします。

We demonstrate that 1x1-convolutions in 1D time-channel separable convolutions may be replaced by constant, sparse random ternary matrices with weights in $\{-1,0,+1\}$. Such layers do not perform any multiplications and do not require training. Moreover, the matrices may be generated on the chip during computation and therefore do not require any memory access. With the same parameter budget, we can afford deeper and more expressive models, improving the Pareto frontiers of existing models on several tasks. For command recognition on Google Speech Commands v1, we improve the state-of-the-art accuracy from $97.21\%$ to $97.41\%$ at the same network size. Alternatively, we can lower the cost of existing models. For speech recognition on Librispeech, we half the number of weights to be trained while only sacrificing about $1\%$ of the floating-point baseline's word error rate.
翻訳日:2021-04-02 10:48:48 公開日:2021-04-01
# アドホックマイクロホンアレイを用いた音声認識のためのスパースマックスに基づくチャネル選択

Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays ( http://arxiv.org/abs/2103.15305v3 )

ライセンス: Link先を確認
Junqi Chen, Xiao-Lei Zhang(参考訳) 近年,アドホックマイクロホンアレイを用いた音声認識が注目されている。 アドホックマイクロホンアレイではチャネル選択が重要な問題であることが知られているが、特に大規模アドホックマイクロホンアレイを用いた音声認識では、この話題はまだ検討されていないようである。 そこで本研究では,大規模アドホックマイクロホンアレイを用いた音声認識におけるチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。 具体的には,マルチチャネル・エンド・ツー・エンド音声認識システムのストリームアテンション機構における従来のソフトマックス演算子を,ノイズチャネルのチャネル重みをゼロにすることでチャネル選択を行うスパースマックスに置き換える。 sparsemaxは多数のチャネルの重みをゼロに厳しく罰するので、非常にノイズの多いチャネルの重みをゼロにすることで、チャネルを軽度に罰するスケールsparsemaxを提案する。 コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling Sparsemaxは,シミュレーションデータセット上ではSoftmaxよりも30%以上,半現実データセットでは20%以上,一致したチャネル番号と不一致のチャネル番号を持つテストシナリオにおいてワードエラー率が得られることがわかった。

Recently, speech recognition with ad-hoc microphone arrays has received much attention. It is known that channel selection is an important problem of ad-hoc microphone arrays, however, this topic seems far from explored in speech recognition yet, particularly with a large-scale ad-hoc microphone array. To address this problem, we propose a Scaling Sparsemax algorithm for the channel selection problem of the speech recognition with large-scale ad-hoc microphone arrays. Specifically, we first replace the conventional Softmax operator in the stream attention mechanism of a multichannel end-to-end speech recognition system with Sparsemax, which conducts channel selection by forcing the channel weights of noisy channels to zero. Because Sparsemax punishes the weights of many channels to zero harshly, we propose Scaling Sparsemax which punishes the channels mildly by setting the weights of very noisy channels to zero only. Experimental results with ad-hoc microphone arrays of over 30 channels under the conformer speech recognition architecture show that the proposed Scaling Sparsemax yields a word error rate of over 30% lower than Softmax on simulation data sets, and over 20% lower on semi-real data sets, in test scenarios with both matched and mismatched channel numbers.
翻訳日:2021-04-02 10:48:32 公開日:2021-04-01