このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210511となっている論文です。

PDF登録状況(公開日: 20210511)

TitleAuthorsAbstract論文公表日・翻訳日
# 無限幅ニューラルネットワークにおける特徴学習

Feature Learning in Infinite-Width Neural Networks ( http://arxiv.org/abs/2011.14522v2 )

ライセンス: Link先を確認
Greg Yang, Edward J. Hu(参考訳) 幅が無限大になる傾向があるため、勾配降下下でのディープニューラルネットワークの挙動は単純化され、予測可能である(例)。 ニューラル・タンジェント・カーネル(NTK)によって与えられる、もしそれが適切にパラメータ化されているなら(例えば) NTKパラメトリゼーション)。 しかし、ニューラルネットワークの標準およびntkパラメトリゼーションは、特徴を学習できる無限幅限界を許容しないことを示す。 本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。 The *Tensor Programs* technique, we derived the explicit formulas for such limits。 Word2VecとMAMLによるOmniglotでの少数ショット学習では、機能学習に大きく依存する2つの標準タスクが、これらの制限を正確に計算する。 ntkベースラインと有限幅ネットワークを上回っており、後者は幅が大きくなるにつれて無限幅の特徴学習性能に近づいている。 より一般的に、標準、NTK、平均場パラメトリゼーションを一般化するニューラルネットワークパラメトリゼーションの自然な空間を分類する。 この空間におけるパラメトリゼーションは、特徴学習またはカーネル勾配降下によって与えられる無限幅のトレーニング力学を持つが、両方ではない; 2)そのような無限幅の極限は、Tensor Programs技術を用いて計算できる。 実験のコードはgithub.com/edwardjhu /TP4で確認できます。

As its width tends to infinity, a deep neural network's behavior under gradient descent can become simplified and predictable (e.g. given by the Neural Tangent Kernel (NTK)), if it is parametrized appropriately (e.g. the NTK parametrization). However, we show that the standard and NTK parametrizations of a neural network do not admit infinite-width limits that can learn features, which is crucial for pretraining and transfer learning such as with BERT. We propose simple modifications to the standard parametrization to allow for feature learning in the limit. Using the *Tensor Programs* technique, we derive explicit formulas for such limits. On Word2Vec and few-shot learning on Omniglot via MAML, two canonical tasks that rely crucially on feature learning, we compute these limits exactly. We find that they outperform both NTK baselines and finite-width networks, with the latter approaching the infinite-width feature learning performance as width increases. More generally, we classify a natural space of neural network parametrizations that generalizes standard, NTK, and Mean Field parametrizations. We show 1) any parametrization in this space either admits feature learning or has an infinite-width training dynamics given by kernel gradient descent, but not both; 2) any such infinite-width limit can be computed using the Tensor Programs technique. Code for our experiments can be found at github.com/edwardjhu /TP4.
翻訳日:2021-06-06 14:30:48 公開日:2021-05-11
# (参考訳) 対外貿易モデル最適化のための制約に基づくヒューリスティックスの推論 [全文訳有]

Constraint-Based Inference of Heuristics for Foreign Exchange Trade Model Optimization ( http://arxiv.org/abs/2105.14194v1 )

ライセンス: CC BY 4.0
Nikolay Ivanov and Qiben Yan(参考訳) 外国為替(Forex)は大規模な分散市場であり、取引分析とアルゴリズム取引が人気である。 研究は特定の技術指標の効率性の証明に重点を置いている。 しかしながら,指標関数の値は再現可能ではなく,価格取引に比べて貿易機会の数を少なくすることが多いことを実証する。 本研究では,高いトレーディング信号率を持つ2つのデータセット非依存なforexトレーディングヒューリスティックテンプレートを開発した。 与えられたヒューリスティックプロトタイプの最適パラメータを決定するため、3つの低マージン機器と6つのOHLC粒度に対して10年間のForex価格データの機械学習シミュレーションを行った。 その結果,各機器と粒度の組み合わせごとに最も最適な貿易パラメータの具体的かつ再現可能なリストが開発され,最適化された構成の日平均利益は118ペップであった。

The Foreign Exchange (Forex) is a large decentralized market, on which trading analysis and algorithmic trading are popular. Research efforts have been focusing on proof of efficiency of certain technical indicators. We demonstrate, however, that the values of indicator functions are not reproducible and often reduce the number of trade opportunities, compared to price-action trading. In this work, we develop two dataset-agnostic Forex trading heuristic templates with high rate of trading signals. In order to determine most optimal parameters for the given heuristic prototypes, we perform a machine learning simulation of 10 years of Forex price data over three low-margin instruments and 6 different OHLC granularities. As a result, we develop a specific and reproducible list of most optimal trade parameters found for each instrument-granulari ty pair, with 118 pips of average daily profit for the optimized configuration.
翻訳日:2021-06-06 11:26:55 公開日:2021-05-11
# (参考訳) 感情型オンライン共感型チャットボットを目指して [全文訳有]

Towards an Online Empathetic Chatbot with Emotion Causes ( http://arxiv.org/abs/2105.11903v1 )

ライセンス: CC BY 4.0
Yanran Li and Ke Li and Hongke Ning and xiaoqiang Xia and Yalong Guo and Chen Wei and Jianwei Cui and Bin Wang(参考訳) 既存の感情を意識した会話モデルは、通常、特定の感情クラスに合わせて応答内容を制御することに集中するが、共感は他人の感情や経験を理解し、関心を抱く能力である。 したがって、共感的反応のためにユーザの感情を喚起する原因を学ぶことが重要である。 感情が原因。 オンライン環境における感情要因の収集には,カウンセリング戦略と共感型チャットボットを用いて因果感情情報を活用する。 実世界のオンラインデータセット上では,チャットボットと複数のSOTA手法を自動計測,専門家による人的判断,ユーザによるオンライン評価を用いて比較することにより,提案手法の有効性を検証する。

Existing emotion-aware conversational models usually focus on controlling the response contents to align with a specific emotion class, whereas empathy is the ability to understand and concern the feelings and experience of others. Hence, it is critical to learn the causes that evoke the users' emotion for empathetic responding, a.k.a. emotion causes. To gather emotion causes in online environments, we leverage counseling strategies and develop an empathetic chatbot to utilize the causal emotion information. On a real-world online dataset, we verify the effectiveness of the proposed approach by comparing our chatbot with several SOTA methods using automatic metrics, expert-based human judgements as well as user-based online evaluation.
翻訳日:2021-06-06 11:06:38 公開日:2021-05-11
# 機械学習を用いた地球近傍空間におけるソフトプロトン強度の予測

Prediction of soft proton intensities in the near-Earth space using machine learning ( http://arxiv.org/abs/2105.15108v1 )

ライセンス: Link先を確認
Elena A. Kronberg, Tanveer Hannan, Jens Huthmacher, Marcus M\"unzer, Florian Peste, Ziyang Zhou, Max Berrendorf, Evgeniy Faerman, Fabio Gastaldello, Simona Ghizzardi, Philippe Escoubet, Stein Haaland, Artem Smirnov, Nithin Sivadas, Robert C. Allen, Andrea Tiengo, and Raluca Ilie(参考訳) エネルギー的陽子の空間分布は、磁気圏力学の理解に寄与する。 クラスター/RAPID観測から17年を経た結果,6~22 REの3次元地磁気圏において,28~1,885keVのエネルギーで陽子強度を予測する機械学習モデルが得られた。 衛星の位置と指標を用いて,太陽・太陽風・地磁気活動の予測を行った。 その結果、ニューラルネットワーク(多層パーセプトロン回帰器)は、k-Nearest Neighborsと履歴ビンニングに基づくベースラインモデルよりも平均で約80%、平均で約33\%優れていた。 観測データと予測データの平均相関は約56%であり、磁気圏における高速運動するエネルギープロトンの複雑なダイナミクスから見て妥当である。 予測結果の定量的解析に加えて,モデルにおけるパラメータの重要性についても検討した。 陽子強度を予測するための最も決定的なパラメータは、ZGSE方向と放射距離である。 活動指標の中では、太陽風の動的圧力が最も重要である。 結果は、例えば、放射帯の上を公転するX線天文学のためのX線望遠鏡における汚染粒子背景を評価するための直接的な実用的応用がある。 再現可能な研究を育成し、コミュニティが仕事を積み上げるために、私たちは、トレーニングされたモデルの重みだけでなく、完全なコード、データを公開します。 詳細はgithubプロジェクトのhttps://github.com/t anveer81/deep_horizo nにある。

The spatial distribution of energetic protons contributes towards the understanding of magnetospheric dynamics. Based upon 17 years of the Cluster/RAPID observations, we have derived machine learning-based models to predict the proton intensities at energies from 28 to 1,885 keV in the 3D terrestrial magnetosphere at radial distances between 6 and 22 RE. We used the satellite location and indices for solar, solar wind and geomagnetic activity as predictors. The results demonstrate that the neural network (multi-layer perceptron regressor) outperforms baseline models based on the k-Nearest Neighbors and historical binning on average by ~80% and ~33\%, respectively. The average correlation between the observed and predicted data is about 56%, which is reasonable in light of the complex dynamics of fast-moving energetic protons in the magnetosphere. In addition to a quantitative analysis of the prediction results, we also investigate parameter importance in our model. The most decisive parameters for predicting proton intensities are related to the location: ZGSE direction and the radial distance. Among the activity indices, the solar wind dynamic pressure is the most important. The results have a direct practical application, for instance, for assessing the contamination particle background in the X-Ray telescopes for X-ray astronomy orbiting above the radiation belts. To foster reproducible research and to enable the community to build upon our work we publish our complete code, the data, as well as weights of trained models. Further description can be found in the GitHub project at https://github.com/T anveer81/deep_horizo n.
翻訳日:2021-06-06 08:48:55 公開日:2021-05-11
# (参考訳) 物理学における深層学習:一様電場における誘電体準立方体粒子の研究 [全文訳有]

Deep learning in physics: a study of dielectric quasi-cubic particles in a uniform electric field ( http://arxiv.org/abs/2105.09866v1 )

ライセンス: CC BY 4.0
Zhe Wang and Claude Guet(参考訳) 方程式、境界条件、対称性を知っている物理問題を解くことは、深層学習によってなされる。 制約は損失関数の項として課されるか、神経アンサッツを定式化するために用いられる。 本研究では,一様電場に配置した誘電体立方体の内部および外側の誘導場を計算し,立方体のエッジとコーナーにおける誘電体ミスマッチを数値的に計算する。 電位は既知の主次挙動と対称性を持つニューラルネットワークを組み込んだアンサッツとして表現され、ラプラス方程式は損失関数を最小化し誘電体界面の境界条件で解く。 損失関数は、ラプラス方程式と境界条件の両方が大きな溶液領域の至る所で満たされることを保証する。 準立方体粒子の内側と外側の電位が球面から立方体への一連の形状を通じてどのように進化するかを考察する。 ニューラルネットワークは微分可能であり、領域全体の電場、誘導表面電荷分布、偏光率を計算することは容易である。 ニューラルネットワークは、かつて収束した溶液から反復することにより、粒子の形状や誘電率によって磁場がどのように変化するかを効率的に追跡することができる。 本研究の目的は、まず、ニューラルネットワークに先行知識を組み込んで効率的な学習を実現する方法を示し、次に、誘電体粒子が球体から立方体へ徐々に形を変えるとき、誘導場と偏光性がどのように変化するかを研究することである。

Solving physics problems for which we know the equations, boundary conditions and symmetries can be done by deep learning. The constraints can be either imposed as terms in a loss function or used to formulate a neural ansatz. In the present case study, we calculate the induced field inside and outside a dielectric cube placed in a uniform electric field, wherein the dielectric mismatch at edges and corners of the cube makes accurate calculations numerically challenging. The electric potential is expressed as an ansatz incorporating neural networks with known leading order behaviors and symmetries and the Laplace's equation is then solved with boundary conditions at the dielectric interface by minimizing a loss function. The loss function ensures that both Laplace's equation and boundary conditions are satisfied everywhere inside a large solution domain. We study how the electric potential inside and outside a quasi-cubic particle evolves through a sequence of shapes from a sphere to a cube. The neural network being differentiable, it is straightforward to calculate the electric field over the whole domain, the induced surface charge distribution and the polarizability. The neural network being retentive, one can efficiently follow how the field changes upon particle's shape or dielectric constant by iterating from any previously converged solution. The present work's objective is two-fold, first to show how an a priori knowledge can be incorporated into neural networks to achieve efficient learning and second to apply the method and study how the induced field and polarizability change when a dielectric particle progressively changes its shape from a sphere to a cube.
翻訳日:2021-05-22 02:24:28 公開日:2021-05-11
# (参考訳) 3U-EdgeAI:ウルトラローメモリトレーニング、ウルトラロービット幅量子化、ウルトラローレイテンシ高速化 [全文訳有]

3U-EdgeAI: Ultra-Low Memory Training, Ultra-Low BitwidthQuantization , and Ultra-Low Latency Acceleration ( http://arxiv.org/abs/2105.06250v1 )

ライセンス: CC0 1.0
Yao Chen, Cole Hawkins, Kaiqi Zhang, Zheng Zhang, Cong Hao(参考訳) エッジ上のディープニューラルネットワーク(DNN)ベースのAIアプリケーションは、低コストのコンピューティングプラットフォームと高品質なサービスの両方を必要とする。 しかし、エッジデバイスのメモリ、コンピューティングリソース、電力予算の制限により、DNNアルゴリズムの有効性は制限される。 エッジ指向のAIアルゴリズムと実装(例えばアクセラレータ)の開発は難しい。 本稿では、トレーニングと推論の両方を含む3つの側面から、効率的なオンデバイスai開発に向けた最近の取り組みを要約する。 まず,メモリ使用量の低いデバイス上でのトレーニングについて述べる。 そこで本研究では,トレーニング中のオーダー・オブ・マグニチュード・メモリ削減を実現する,ランク適応型テンソル型テンソル型ニューラルネットワークモデルを提案する。 第二に、DNNモデル圧縮のための超低ビット幅量子化法を導入し、同じ圧縮比で最先端の精度を実現する。 第3に,ソフトウェア/ハードウェア共同設計手法を実践する超低レイテンシdnnアクセラレータ設計を導入する。 本稿では、トレーニング、量子化、加速器設計の重要性と有効性を強調し、エッジ上のAI分野におけるさらなる研究のブレークスルーを求める。

The deep neural network (DNN) based AI applications on the edge require both low-cost computing platforms and high-quality services. However, the limited memory, computing resources, and power budget of the edge devices constrain the effectiveness of the DNN algorithms. Developing edge-oriented AI algorithms and implementations (e.g., accelerators) is challenging. In this paper, we summarize our recent efforts for efficient on-device AI development from three aspects, including both training and inference. First, we present on-device training with ultra-low memory usage. We propose a novel rank-adaptive tensor-based tensorized neural network model, which offers orders-of-magnitude memory reduction during training. Second, we introduce an ultra-low bitwidth quantization method for DNN model compression, achieving the state-of-the-art accuracy under the same compression ratio. Third, we introduce an ultra-low latency DNN accelerator design, practicing the software/hardware co-design methodology. This paper emphasizes the importance and efficacy of training, quantization and accelerator design, and calls for more research breakthroughs in the area for AI on the edge.
翻訳日:2021-05-15 04:41:09 公開日:2021-05-11
# (参考訳) 変分オートエンコーダの勾配クラスタリング [全文訳有]

Variational Auto Encoder Gradient Clustering ( http://arxiv.org/abs/2105.06246v1 )

ライセンス: CC BY 4.0
Adam Lindhe, Carl Ringqvist and Henrik Hult(参考訳) 近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。 最も人気のあるフレームワークはvaeとganフレームワークで、エンコーダ/デコーダニューラルネットワーク構造を通じてデータの潜在的な特徴表現を学ぶ。 これはクラスタリングタスクに適した基盤であり、潜在空間はデータの本質を効果的に捉え、その多様体を単純化し、ノイズを減らすように思われる。 本稿では,より優れたクラスタリングを実現するために,データポイント上の確率関数勾配を用いてデータを処理する方法について検討する。 分類の改善は未処理のデータと比較して観察されるが、成果は得られない。 しかし、勾配降下でデータを処理すると、クラスタの分離がより明確になり、クラスタ数などの適切なハイパーパラメータの設定を調べるのがより簡単になる。 dbscanクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡易かつ効果的な手法を提案し,勾配処理によりクラスタ数決定が容易になることを示す。 付加的な好奇心として、我々のベースラインモデルは、トレーニング中の再構築(オートエンコーダ)における重み付きVAE構造に対するt-SNE潜在空間上のGMMと、MNISTデータに基づくアート結果の出力状態と、既存のモデルに勝たない知識とを比較した。

Clustering using deep neural network models have been extensively studied in recent years. Among the most popular frameworks are the VAE and GAN frameworks, which learns latent feature representations of data through encoder / decoder neural net structures. This is a suitable base for clustering tasks, as the latent space often seems to effectively capture the inherent essence of data, simplifying its manifold and reducing noise. In this article, the VAE framework is used to investigate how probability function gradient ascent over data points can be used to process data in order to achieve better clustering. Improvements in classification is observed comparing with unprocessed data, although state of the art results are not obtained. Processing data with gradient descent however results in more distinct cluster separation, making it simpler to investigate suitable hyper parameter settings such as the number of clusters. We propose a simple yet effective method for investigating suitable number of clusters for data, based on the DBSCAN clustering algorithm, and demonstrate that cluster number determination is facilitated with gradient processing. As an additional curiosity, we find that our baseline model used for comparison; a GMM on a t-SNE latent space for a VAE structure with weight one on reconstruction during training (autoencoder), yield state of the art results on the MNIST data, to our knowledge not beaten by any other existing model.
翻訳日:2021-05-15 04:30:30 公開日:2021-05-11
# (参考訳) カード承認のための機械支援? ランダムホイールは推奨と説明ができる [全文訳有]

Machine Assistance for Credit Card Approval? Random Wheel can Recommend and Explain ( http://arxiv.org/abs/2105.06255v1 )

ライセンス: CC BY 4.0
Anupam Khan, Soumya K. Ghosh(参考訳) クレジットカード申請の承認は、銀行員が定期的に行う検閲的なビジネス判断の1つです。 最近のパンデミックで、新規のカードアプリケーションが増え、クレジットカードの請求額が膨大になったことで、この状況はますます難しくなっている。 先行研究のいくつかは、この課題を軽減するために承認プロセスの自動化にマシンインテリジェンスを使うことを示唆している。 しかしながら、このような自動化の有効性は、トレーニングデータセットの豊かさとモデルの効率に依存する可能性がある。 我々は最近,より解釈可能な出力を提供するランダムホイールという新しい分類器を開発した。 本研究では,ランダムホイールの強化版を用いて,クレジットカード認証プロセスに対する信頼度の高いレコメンデーションを行う。 より正確で正確なレコメンデーションをもたらすだけでなく、解釈可能な信頼度指標を提供する。 さらに、各クレジットカードアプリケーションに対するマシンレコメンデーションについても説明している。 推奨信頼と説明が利用可能になれば、マシンが提供する情報に対する信頼が高まり、クレジットカード承認プロセスの効率が向上する可能性がある。

Approval of credit card application is one of the censorious business decision the bankers are usually taking regularly. The growing number of new card applications and the enormous outstanding amount of credit card bills during the recent pandemic make this even more challenging nowadays. Some of the previous studies suggest the usage of machine intelligence for automating the approval process to mitigate this challenge. However, the effectiveness of such automation may depend on the richness of the training dataset and model efficiency. We have recently developed a novel classifier named random wheel which provides a more interpretable output. In this work, we have used an enhanced version of random wheel to facilitate a trustworthy recommendation for credit card approval process. It not only produces more accurate and precise recommendation but also provides an interpretable confidence measure. Besides, it explains the machine recommendation for each credit card application as well. The availability of recommendation confidence and explanation could bring more trust in the machine provided intelligence which in turn can enhance the efficiency of the credit card approval process.
翻訳日:2021-05-15 04:20:31 公開日:2021-05-11
# 視覚に基づく宇宙機のニューラルシーン表現

Vision-based Neural Scene Representations for Spacecraft ( http://arxiv.org/abs/2105.06405v1 )

ライセンス: Link先を確認
Anne Mergy, Gurvan Lecuyer, Dawa Derksen, Dario Izzo(参考訳) 高レベルの自律性を持つ先進的なミッション概念では、宇宙船は近くの軌道上の物体の姿勢と形状を内部的にモデル化する必要がある。 ニューラルシーン表現における最近の研究は、光学画像から汎用的な3次元シーンを推定する有望な結果を示している。 ニューラル・ラジアンス・フィールド(NeRF)は、多数の画像とそれらのポーズを使って、高精細な表面をレンダリングすることに成功した。 最近では、GAAF(Generative Radiance Fields)は、NeRFのトレーニングに対向的なフレームワークを使用することにより、未提示の画像のみからシーンをフルボリュームに再構築することに成功した。 本稿では,ESAのリビングプラネットプログラムの土壌水分とオーシャンサリニティ衛星と一般的な立方体座の2つの異なる宇宙船の3次元形状を抽出するために,NeRFとGRAFのポテンシャルを比較して評価する。 両モデルの最高の性能を考えると、NeRFは宇宙船の材質の特異性とそのポーズに関するより正確な画像をレンダリングすることができる。 GRAFはその部分で、衛星の一部がシャドーされている場合でも正確な詳細で正確な新しいビューを生成するが、相対的なポーズに関する情報は必要ないという大きな利点がある。

In advanced mission concepts with high levels of autonomy, spacecraft need to internally model the pose and shape of nearby orbiting objects. Recent works in neural scene representations show promising results for inferring generic three-dimensional scenes from optical images. Neural Radiance Fields (NeRF) have shown success in rendering highly specular surfaces using a large number of images and their pose. More recently, Generative Radiance Fields (GRAF) achieved full volumetric reconstruction of a scene from unposed images only, thanks to the use of an adversarial framework to train a NeRF. In this paper, we compare and evaluate the potential of NeRF and GRAF to render novel views and extract the 3D shape of two different spacecraft, the Soil Moisture and Ocean Salinity satellite of ESA's Living Planet Programme and a generic cube sat. Considering the best performances of both models, we observe that NeRF has the ability to render more accurate images regarding the material specularity of the spacecraft and its pose. For its part, GRAF generates precise novel views with accurate details even when parts of the satellites are shadowed while having the significant advantage of not needing any information about the relative pose.
翻訳日:2021-05-14 13:56:46 公開日:2021-05-11
# (参考訳) サッカーのパフォーマンススコアを検索・比較するためのインタラクティブダッシュボード [全文訳有]

An interactive dashboard for searching and comparing soccer performance scores ( http://arxiv.org/abs/2105.04293v1 )

ライセンス: CC BY 4.0
Paolo Cintia, Giovanni Mauro, Luca Pappalardo, Paolo Ferragina(参考訳) サッカー選手のパフォーマンスは、サッカー業界における多くの俳優によって最も議論された側面の1つであり、サポーターからジャーナリスト、コーチからタレントスカウトまでである。 残念ながら、オンラインで利用可能なダッシュボードは、プレイヤーのパフォーマンスの進化を比較したり、フィールドで同じように振る舞うプレイヤーを見つける効果的な方法を提供していません。 本稿では,apiを介してパフォーマンス評価アルゴリズムと対話するwebダッシュボードの設計について述べるとともに,プレイヤーの年齢,役割,成長傾向によるプレイヤーの探索や比較,投球行動に基づく類似のプレイヤーの探索,アルゴリズムのパラメータの変更によるパフォーマンススコアのカスタマイズなど,多くのタスクをユーザに提供するグラフィカルツールを提供する。 また、タレントスカウトがダッシュボードと対話して、若く有望なタレントを見つける方法の例についても説明する。

The performance of soccer players is one of most discussed aspects by many actors in the soccer industry: from supporters to journalists, from coaches to talent scouts. Unfortunately, the dashboards available online provide no effective way to compare the evolution of the performance of players or to find players behaving similarly on the field. This paper describes the design of a web dashboard that interacts via APIs with a performance evaluation algorithm and provides graphical tools that allow the user to perform many tasks, such as to search or compare players by age, role or trend of growth in their performance, find similar players based on their pitching behavior, change the algorithm's parameters to obtain customized performance scores. We also describe an example of how a talent scout can interact with the dashboard to find young, promising talents.
翻訳日:2021-05-14 07:19:06 公開日:2021-05-11
# (参考訳) 情報ボトルネック理論の批判的考察とその深層学習への応用

A Critical Review of Information Bottleneck Theory and its Applications to Deep Learning ( http://arxiv.org/abs/2105.04405v2 )

ライセンス: CC BY 4.0
Mohammad Ali Alomrani(参考訳) 過去10年間で、ディープニューラルネットワークは、今日の社会のあらゆる側面に影響を与え続ける、例外なく改善されている。 高性能GPUの開発と大量のデータの提供により、MLシステムの学習能力は飛躍的に向上し、画像中の桁の分類から、超人的なパフォーマンスを持つゲームの世界チャンピオンを圧倒した。 しかし、MLモデルは新たなフロンティアを達成し続けているが、その実践的な成功は、内部の動作に関する深い理論的理解の欠如によって妨げられている。 幸いなことに、情報ボトルネック理論と呼ばれる既知の情報理論的手法が、ニューラルネットワークの学習ダイナミクスをよりよく理解するための有望なアプローチとして登場した。 原則として、IB理論はデータの圧縮と情報の保持の間のトレードオフとして学習をモデル化する。 本研究の目的は、情報理論のルーツと最近提案された深層学習モデル理解への応用をカバーするib理論の包括的レビューを提供することである。

In the past decade, deep neural networks have seen unparalleled improvements that continue to impact every aspect of today's society. With the development of high performance GPUs and the availability of vast amounts of data, learning capabilities of ML systems have skyrocketed, going from classifying digits in a picture to beating world-champions in games with super-human performance. However, even as ML models continue to achieve new frontiers, their practical success has been hindered by the lack of a deep theoretical understanding of their inner workings. Fortunately, a known information-theoreti c method called the information bottleneck theory has emerged as a promising approach to better understand the learning dynamics of neural networks. In principle, IB theory models learning as a trade-off between the compression of the data and the retainment of information. The goal of this survey is to provide a comprehensive review of IB theory covering it's information theoretic roots and the recently proposed applications to understand deep learning models.
翻訳日:2021-05-14 05:58:43 公開日:2021-05-11
# (参考訳) ネットワーク干渉による因果推論の局所的アプローチ

The Local Approach to Causal Inference under Network Interference ( http://arxiv.org/abs/2105.03810v2 )

ライセンス: CC BY 4.0
Eric Auerbach and Max Tabord-Meehan(参考訳) 因果推論のための新しい統一フレームワークを提案する。結果がエージェントが社会や経済ネットワークでどのようにリンクされているかに依存する場合である。 このようなネットワーク干渉は、治療の流出、社会的相互作用、社会学習、情報拡散、社会資本形成などに関する多くの文献を記述している。 提案手法では, エージェントがネットワーク内でどのようにリンクされているかを, 経路距離で測定した他のエージェントと近傍の接続の設定を用いて特徴付ける。 ポリシーや治療課題の影響は、同様に構成されたエージェント間で結果データをプールすることで学習される。 本稿では,新しい非パラメトリックモデリング手法を提案し,因果推論の2つの応用について検討する。 最初のアプリケーションは、治療効果の無関係/無影響のポリシーをテストすることである。 第2のアプリケーションは、政策効果/処理応答の推定である。 シミュレーションによる推定と推論手順の有限サンプル特性の評価により結論づける。

We propose a new unified framework for causal inference when outcomes depend on how agents are linked in a social or economic network. Such network interference describes a large literature on treatment spillovers, social interactions, social learning, information diffusion, social capital formation, and more. Our approach works by first characterizing how an agent is linked in the network using the configuration of other agents and connections nearby as measured by path distance. The impact of a policy or treatment assignment is then learned by pooling outcome data across similarly configured agents. In the paper, we propose a new nonparametric modeling approach and consider two applications to causal inference. The first application is to testing policy irrelevance/no treatment effects. The second application is to estimating policy effects/treatment response. We conclude by evaluating the finite-sample properties of our estimation and inference procedures via simulation.
翻訳日:2021-05-14 03:33:03 公開日:2021-05-11
# (参考訳) 仮説検定に基づく選択的確率的分類器 [全文訳有]

Selective Probabilistic Classifier Based on Hypothesis Testing ( http://arxiv.org/abs/2105.03876v2 )

ライセンス: CC BY 4.0
Saeed Bakhshi Germi and Esa Rahtu and Heikki Huttunen(参考訳) 本稿では,分類器に対するクローズドワールド仮定の違反に対処するための,単純かつ効果的な手法を提案する。 先行研究は、仮定に違反した入力を拒絶する分類スコアまたは損失関数にしきい値を適用する傾向がある。 しかし、これらの手法は安全適用に必要な低偽陽性率(fpr)を達成できない。 提案手法は確率的ネットワークを用いた仮説テストに基づく拒絶オプションである。 確率的ネットワークでは、単一の出力ではなく結果の分布を推定することができる。 各クラスの平均偏差と標準偏差にZ-testを適用することにより,ネットワークの確実性の統計的意義を推定し,不確実な出力を補正することができる。 提案手法はCOCOデータセットとCIFARデータセットの異なる構成で実験した。 提案手法の性能は,既知のトップパフォーマンス法であるsoftmax応答と比較した。 その結果,提案手法はより広い範囲の操作が可能であり,FPRの低減が可能であることがわかった。

In this paper, we propose a simple yet effective method to deal with the violation of the Closed-World Assumption for a classifier. Previous works tend to apply a threshold either on the classification scores or the loss function to reject the inputs that violate the assumption. However, these methods cannot achieve the low False Positive Ratio (FPR) required in safety applications. The proposed method is a rejection option based on hypothesis testing with probabilistic networks. With probabilistic networks, it is possible to estimate the distribution of outcomes instead of a single output. By utilizing Z-test over the mean and standard deviation for each class, the proposed method can estimate the statistical significance of the network certainty and reject uncertain outputs. The proposed method was experimented on with different configurations of the COCO and CIFAR datasets. The performance of the proposed method is compared with the Softmax Response, which is a known top-performing method. It is shown that the proposed method can achieve a broader range of operation and cover a lower FPR than the alternative.
翻訳日:2021-05-14 03:32:08 公開日:2021-05-11
# (参考訳) ReadTwice: 非常に大きなドキュメントを思い出で読む [全文訳有]

ReadTwice: Reading Very Large Documents with Memories ( http://arxiv.org/abs/2105.04241v2 )

ライセンス: CC BY 4.0
Yury Zemlyanskiy, Joshua Ainslie, Michiel de Jong, Philip Pham, Ilya Eckstein, Fei Sha(参考訳) 質問応答のような知識集約的なタスクは、書籍や記事コレクションのような大きな入力の異なるセクションからの情報を同化する必要があることが多い。 トランスフォーマーと長距離依存性をモデル化するために,事前アプローチのいくつかの長所を組み合わせる,シンプルで効果的な手法であるreadtwiceを提案する。 主なアイデアは、テキストを小さなセグメントで並列に読み、各セグメントを1つのメモリテーブルに要約して、テキストの2番目の読み出しに使用することである。 本手法は,いくつかの質問応答(QA)データセットにおいて,同等の大きさのモデルよりも優れており,課題であるナラティブQAタスク上で,本全体に関する質問に対して,新たな技術状況を設定する。 ReadTwiceのソースコードと事前トレーニングされたチェックポイントはhttps://goo.gle/rese arch-readtwice.comで見ることができる。

Knowledge-intensive tasks such as question answering often require assimilating information from different sections of large inputs such as books or article collections. We propose ReadTwice, a simple and effective technique that combines several strengths of prior approaches to model long-range dependencies with Transformers. The main idea is to read text in small segments, in parallel, summarizing each segment into a memory table to be used in a second read of the text. We show that the method outperforms models of comparable size on several question answering (QA) datasets and sets a new state of the art on the challenging NarrativeQA task, with questions about entire books. Source code and pre-trained checkpoints for ReadTwice can be found at https://goo.gle/rese arch-readtwice.
翻訳日:2021-05-14 03:10:09 公開日:2021-05-11
# (参考訳) グラフ埋め込みのためのエルミート対称空間 [全文訳有]

Hermitian Symmetric Spaces for Graph Embeddings ( http://arxiv.org/abs/2105.05275v1 )

ライセンス: CC BY 4.0
Federico L\'opez, Beatrice Pozzetti, Steve Trettel, Anna Wienhard(参考訳) 頂点埋め込みのセットとして忠実なグラフ表現を学ぶことは、幅広い機械学習アプリケーションにおける基本的な中間的ステップとなっている。 埋め込みの質は、通常、対象空間の幾何がデータの構造にどの程度よく一致するかによって決定される。 これらの空間は、双曲部分空間とユークリッド部分空間を同時に含むリッチな幾何学を提供し、解析や明示的な計算に適している。 組込みを学習し,距離を計算するための効率的な手法を実装し,そのような空間で操作するツールを開発した。 提案するモデルは, apriori のグラフ特徴を見積もることなく, まったく異なる配置に自動的に適応することができる。 非常に多様な構造的特性と再構成尺度を持つ各種データセットについて,本モデルは,幾何学的純粋グラフの競合ベースラインの結果を関連付け,混合幾何学的特徴を持つグラフに対して比較し,我々のアプローチの汎用性を示す。

Learning faithful graph representations as sets of vertex embeddings has become a fundamental intermediary step in a wide range of machine learning applications. The quality of the embeddings is usually determined by how well the geometry of the target space matches the structure of the data. In this work we learn continuous representations of graphs in spaces of symmetric matrices over C. These spaces offer a rich geometry that simultaneously admits hyperbolic and Euclidean subspaces, and are amenable to analysis and explicit computations. We implement an efficient method to learn embeddings and compute distances, and develop the tools to operate with such spaces. The proposed models are able to automatically adapt to very dissimilar arrangements without any apriori estimates of graph features. On various datasets with very diverse structural properties and reconstruction measures our model ties the results of competitive baselines for geometrically pure graphs and outperforms them for graphs with mixed geometric features, showcasing the versatility of our approach.
翻訳日:2021-05-14 02:28:46 公開日:2021-05-11
# (参考訳) 簡易化によるオンラインPOMDP計画 [全文訳有]

Online POMDP Planning via Simplification ( http://arxiv.org/abs/2105.05296v1 )

ライセンス: CC BY 4.0
Ori Sztyglic and Vadim Indelman(参考訳) 本稿では,部分可観測領域におけるオンライン計画について考察する。 対応するPOMDP問題を解決するのは、特にオンライン環境では非常に難しい作業です。 提案手法は,提案手法の精度を損なうことなく,信念依存報酬を考慮したpomdp計画の高速化を目標とする,簡易な情報理論的信念空間計画(sith-bsp)である。 我々は、問題の単純化された要素と元の問題の対応する要素とを数学的に関連付ける。 具体的には、信念の単純化に焦点をあて、それを用いて、対応する信念に依存した報酬の限界を定式化する。 これらの境界は、最適方針を計算する過程において、信念ツリー上で枝刈りを行うために使用される。 さらに,異なる単純化レベル間の計算を再使用しながら,適応的単純化の概念を導入し,信念ツリーの各レベルにおいて,すべての分岐を1つを除いてpruneに活用する。 したがって、我々のアプローチは、オリジナルの問題の最適解を見つけることは保証されているが、かなりのスピードアップがある。 第2の鍵となる貢献として、サンプリングに基づく信念表現を考えると、微分エントロピーに対する新しい解析的境界を導出する。 これらの境界を用いてシミュレーションを行い, 簡易化がサンプル数の減少に対応し, 最適解を導出しながら, 計算速度を著しく向上させる手法を検証した。

In this paper, we consider online planning in partially observable domains. Solving the corresponding POMDP problem is a very challenging task, particularly in an online setting. Our key contribution is a novel algorithmic approach, Simplified Information Theoretic Belief Space Planning (SITH-BSP), which aims to speed-up POMDP planning considering belief-dependent rewards, without compromising on the solution's accuracy. We do so by mathematically relating the simplified elements of the problem to the corresponding counterparts of the original problem. Specifically, we focus on belief simplification and use it to formulate bounds on the corresponding original belief-dependent rewards. These bounds in turn are used to perform branch pruning over the belief tree, in the process of calculating the optimal policy. We further introduce the notion of adaptive simplification, while re-using calculations between different simplification levels and exploit it to prune, at each level in the belief tree, all branches but one. Therefore, our approach is guaranteed to find the optimal solution of the original problem but with substantial speedup. As a second key contribution, we derive novel analytical bounds for differential entropy, considering a sampling-based belief representation, which we believe are of interest on their own. We validate our approach in simulation using these bounds and where simplification corresponds to reducing the number of samples, exhibiting a significant computational speedup while yielding the optimal solution.
翻訳日:2021-05-14 02:14:14 公開日:2021-05-11
# (参考訳) 低リソース手書きテキスト認識のためのワンショット合成データ生成 [全文訳有]

One-shot Compositional Data Generation for Low Resource Handwritten Text Recognition ( http://arxiv.org/abs/2105.05300v1 )

ライセンス: CC BY 4.0
Mohamed Ali Souibgui, Ali Furkan Biten, Sounak Dey, Alicia Forn\'es, Yousri Kessentini, Lluis Gomez, Dimosthenis Karatzas, Josep Llad\'os(参考訳) 低リソース手書き文字認識(HTR)は、注釈付きデータと非常に限られた言語情報(辞書と言語モデル)のために難しい問題である。 例えば、歴史的に解読された写本は、通常、その内容を隠すために発明されたアルファベットで書かれている。 そこで本稿では,ベイズプログラム学習(BPL)に基づくデータ生成手法を用いてこの問題に対処する。 大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。 シンボルを生成した後、我々は最新のHTRアーキテクチャをセグメンテーションフリーで訓練するための合成ラインを作成します。 定量的・定性的な分析を行い,提案手法の有効性を確認し,実注データと比較し,比較検討を行った。

Low resource Handwritten Text Recognition (HTR) is a hard problem due to the scarce annotated data and the very limited linguistic information (dictionaries and language models). This appears, for example, in the case of historical ciphered manuscripts, which are usually written with invented alphabets to hide the content. Thus, in this paper we address this problem through a data generation technique based on Bayesian Program Learning (BPL). Contrary to traditional generation approaches, which require a huge amount of annotated images, our method is able to generate human-like handwriting using only one sample of each symbol from the desired alphabet. After generating symbols, we create synthetic lines to train state-of-the-art HTR architectures in a segmentation free fashion. Quantitative and qualitative analyses were carried out and confirm the effectiveness of the proposed method, achieving competitive results compared to the usage of real annotated data.
翻訳日:2021-05-14 01:49:27 公開日:2021-05-11
# (参考訳) メンタルヘルスと幸福のためのインテリジェントインタラクティブ技術 [全文訳有]

Intelligent interactive technologies for mental health and well-being ( http://arxiv.org/abs/2105.05306v1 )

ライセンス: CC BY 4.0
Mladjan Jovanovic, Aleksandar Jevremovic, Milica Pejovic-Milovancevic (参考訳) メンタルヘルスケアはインタラクティブ技術や人工知能から多くの恩恵を受けている。 様々な介入が知的技術を用いて心理的治療や精神的幸福、機能の評価と評価を自動化している。 これらの技術には、さまざまなタイプのロボット、ビデオゲーム、会話エージェントが含まれる。 この論文は、既存のソリューションとその将来の展望を批判的に分析する。 特に, i) メンタルヘルス技術の概観, ii) 提案された基準に対して批判的に分析し, iii) それらの技術の設計上の展望を提供する。

Mental healthcare has seen numerous benefits from interactive technologies and artificial intelligence. Various interventions have successfully used intelligent technologies to automate the assessment and evaluation of psychological treatments and mental well-being and functioning. These technologies include different types of robots, video games, and conversational agents. The paper critically analyzes existing solutions with the outlooks for their future. In particular, we: i)give an overview of the technology for mental health, ii) critically analyze the technology against the proposed criteria, and iii) provide the design outlooks for these technologies.
翻訳日:2021-05-14 01:37:53 公開日:2021-05-11
# (参考訳) 時間遅延時空間データに対するマルチバージョンテンソル補完 [全文訳有]

Multi-version Tensor Completion for Time-delayed Spatio-temporal Data ( http://arxiv.org/abs/2105.05326v1 )

ライセンス: CC BY 4.0
Cheng Qian, Nikos Kargas, Cao Xiao, Lucas Glass, Nicholas Sidiropoulos, Jimeng Sun(参考訳) 実世界の時空間データは、様々なデータ読み込み遅延のために不完全または不正確な場合が多い。 例えば、ケースカウントのロケーション・ディスリーズ時間テンソルは、いくつかの場所や病気に対する最近の時間スライスを複数の遅延で更新することができる。 このような入力テンソルの欠落またはノイズ(報告されていない)要素の復元は、一般化テンソル完備問題と見なすことができる。 既存のテンソル補完法は、i) 欠落要素がランダムに分布していると仮定し、ii) 各テンソル要素のノイズは i.i.d である。 ゼロ平均。 両方の仮定は時空間テンソルデータに対して違反することができる。 ノイズレベルが異なる入力テンソルの複数のバージョンを観察することがよくあります。 テンソルにより多くの更新が徐々に導入されるため、ノイズの量は時間や位置に依存します。 このような動的データを,データ更新をキャプチャする余分なテンソルモードを備えたマルチバージョンテンソルとしてモデル化する。 時間とともに更新を予測するために,低ランクテンソルモデルを提案する。 本手法は実世界テンソルの基底値を正確に予測できることを実証する。 最良基準法に比べて最大27.2%低いルート平均二乗誤差が得られる。 最後に,テンソルデータを時間とともに追跡する手法を拡張し,計算量を大幅に削減する。

Real-world spatio-temporal data is often incomplete or inaccurate due to various data loading delays. For example, a location-disease-tim e tensor of case counts can have multiple delayed updates of recent temporal slices for some locations or diseases. Recovering such missing or noisy (under-reported) elements of the input tensor can be viewed as a generalized tensor completion problem. Existing tensor completion methods usually assume that i) missing elements are randomly distributed and ii) noise for each tensor element is i.i.d. zero-mean. Both assumptions can be violated for spatio-temporal tensor data. We often observe multiple versions of the input tensor with different under-reporting noise levels. The amount of noise can be time- or location-dependent as more updates are progressively introduced to the tensor. We model such dynamic data as a multi-version tensor with an extra tensor mode capturing the data updates. We propose a low-rank tensor model to predict the updates over time. We demonstrate that our method can accurately predict the ground-truth values of many real-world tensors. We obtain up to 27.2% lower root mean-squared-error compared to the best baseline method. Finally, we extend our method to track the tensor data over time, leading to significant computational savings.
翻訳日:2021-05-14 01:16:06 公開日:2021-05-11
# (参考訳) ニューロシンボリック人工知能の現状 [全文訳有]

Neuro-Symbolic Artificial Intelligence Current Trends ( http://arxiv.org/abs/2105.05330v1 )

ライセンス: CC BY 4.0
Md Kamruzzaman Sarker, Lu Zhou, Aaron Eberhart, Pascal Hitzler(参考訳) ニューロ・シンボリック・人工知能(Neuro-Symbolic Artificial Intelligence) - 人工ニューラルネットワークに基づく手法とシンボリック・メソッドの組み合わせ。 本稿では,最近の出版物を主要なカンファレンスから分類し,その動向を構造化した概要を述べる。 この記事は、一般的なトピックを研究するための便利な出発点となることを意図しています。

Neuro-Symbolic Artificial Intelligence -- the combination of symbolic methods with methods that are based on artificial neural networks -- has a long-standing history. In this article, we provide a structured overview of current trends, by means of categorizing recent publications from key conferences. The article is meant to serve as a convenient starting point for research on the general topic.
翻訳日:2021-05-14 01:02:50 公開日:2021-05-11
# (参考訳) 戻り値ベースのスケーリング:さらに、Deep RLの正規化トリック [全文訳有]

Return-based Scaling: Yet Another Normalisation Trick for Deep RL ( http://arxiv.org/abs/2105.05347v1 )

ライセンス: CC BY 4.0
Tom Schaul, Georg Ostrovski, Iurii Kemaev, Diana Borsa(参考訳) スケーリングの問題は平凡だが、強化学習を実践する人にとってはイライラする。 エラースケールは、学習のドメイン、タスク、ステージによって異なります。 これは学習速度と安定性に有害であり、学習タスク間の干渉が生じ、実質的なチューニングを必要とする。 我々は,時間差学習に基づくエージェントについて再検討し,デシデラタをスケッチし,単純な修正が不足するシナリオを検討する。 提案するメカニズムは、チューニング、クリップング、適応を必要としない。 atariゲームスイートの有効性と堅牢性を検証する。 私たちのスケーリング手法は、報酬スケールやディスカウントが異なる複数のターゲットで共有ニューラルネットワークをトレーニングする場合、干渉を軽減するのに特に役立ちます。

Scaling issues are mundane yet irritating for practitioners of reinforcement learning. Error scales vary across domains, tasks, and stages of learning; sometimes by many orders of magnitude. This can be detrimental to learning speed and stability, create interference between learning tasks, and necessitate substantial tuning. We revisit this topic for agents based on temporal-difference learning, sketch out some desiderata and investigate scenarios where simple fixes fall short. The mechanism we propose requires neither tuning, clipping, nor adaptation. We validate its effectiveness and robustness on the suite of Atari games. Our scaling method turns out to be particularly helpful at mitigating interference, when training a shared neural network on multiple targets that differ in reward scale or discounting.
翻訳日:2021-05-14 00:30:43 公開日:2021-05-11
# (参考訳) 並列カルマンフィルタによるS4シンチレーションのリアルタイム電離層イメージングと平滑化 [全文訳有]

Real-time Ionospheric Imaging of S4 Scintillation from Limited Data with Parallel Kalman Filters and Smoothness ( http://arxiv.org/abs/2105.05360v1 )

ライセンス: CC BY 4.0
Alexandra Koulouri(参考訳) 本稿では,s4指数で測定した電離層不規則性を監視するために,高時空間分解能の2次元電離層像を作成するベイズ的枠組みを提案する。 ここでは,線状ガウス状態空間モデル(カルマンフィルタとも呼ばれる)に対する標準ベイズ再帰フィルタを,電離層におけるシンチレーション活性の空間分布に関する洞察・仮定・標準モデルから導かれる接続情報を用いた(ピアス点)観測モデルを350km高度で拡張することによって再送する。 したがって,時空間観測の時間的制限に対処できる。 そして,並列に動作するカルマンフィルタを導入することにより,提案した拡張モデルのチューニングパラメータに関する不確実性を緩和する。 出力画像は、個々のフィルタの状態推定の重み付き平均である。 南アメリカ上空350kmでs4振幅シンチレーションの2次元実時間電離層像を1分間の時間分解能で描画し,本手法を実証した。 さらに、これらの電離球画像の生成に使われなかった余分なS4データを用いて、この余分なデータを特に電離球のピアス点で予測する能力を確認し検証する。 その結果, 地上受信機網が比較的良好なエリア(例えば, 地上受信機網)では, 数km以内で)生成した画像は、信頼できるリアルタイム結果を提供することができる。 提案手法は, 利用可能なWebサーバから提供されるシンチレーションデータを入力として, リアルタイムな電離球画像の可視化に利用することができる。

In this paper, we propose a Bayesian framework to create two dimensional ionospheric images of high spatio-temporal resolution to monitor ionospheric irregularities as measured by the S4 index. Here, we recast the standard Bayesian recursive filtering for a linear Gaussian state-space model, also referred to as the Kalman filter, first by augmenting the (pierce point) observation model with connectivity information stemming from the insight and assumptions/standard modeling about the spatial distribution of the scintillation activity on the ionospheric shell at 350 km altitude. Thus, we achieve to handle the limited spatio-temporal observations. Then, by introducing a set of Kalman filters running in parallel, we mitigate the uncertainty related to a tuning parameter of the proposed augmented model. The output images are a weighted average of the state estimates of the individual filters. We demonstrate our approach by rendering two dimensional real-time ionospheric images of S4 amplitude scintillation at 350 km over South America with temporal resolution of one minute. Furthermore, we employ extra S4 data that was not used in producing these ionospheric images, to check and verify the ability of our images to predict this extra data in particular ionospheric pierce points. Our results show that in areas with a network of ground receivers with a relatively good coverage (e.g. within a couple of kilometers distance) the produced images can provide reliable real-time results. Our proposed algorithmic framework can be readily used to visualize real-time ionospheric images taking as inputs the available scintillation data provided from freely available web-servers.
翻訳日:2021-05-14 00:04:39 公開日:2021-05-11
# 概要ループ: 例のない抽象的な要約を書くことを学ぶ

The Summary Loop: Learning to Write Abstractive Summaries Without Examples ( http://arxiv.org/abs/2105.05361v1 )

ライセンス: Link先を確認
Philippe Laban, Andrew Hsi, John Canny, Marti A. Hearst(参考訳) 本研究は,与えられた長さ制約に対するカバレッジとフラエンシの組み合わせを最大化することに基づく,教師なし抽象的要約に対する新しいアプローチを提案する。 キーワードは元のドキュメントから隠ぺいされ、現在生成された要約を使用してカバレッジモデルによって埋められなければならない。 新たな教師なしのトレーニング手順では、このカバレッジモデルとフルエンシーモデルを利用して要約を生成しスコア付けする。 人気ニュース要約データセットでテストすると、従来の教師なし手法を2 R-1 点以上で上回り、競争的教師付き手法の結果にアプローチする。 本モデルは,先行作業の約2倍の短い文を複写することで,高い抽象度を達成し,管理なしで文を圧縮・マージすることを学ぶ。

This work presents a new approach to unsupervised abstractive summarization based on maximizing a combination of coverage and fluency for a given length constraint. It introduces a novel method that encourages the inclusion of key terms from the original document into the summary: key terms are masked out of the original document and must be filled in by a coverage model using the current generated summary. A novel unsupervised training procedure leverages this coverage model along with a fluency model to generate and score summaries. When tested on popular news summarization datasets, the method outperforms previous unsupervised methods by more than 2 R-1 points, and approaches results of competitive supervised methods. Our model attains higher levels of abstraction with copied passages roughly two times shorter than prior work, and learns to compress and merge sentences without supervision.
翻訳日:2021-05-13 12:33:43 公開日:2021-05-11
# 特徴選択における解釈性と説明可能性の比較

Comparing interpretability and explainability for feature selection ( http://arxiv.org/abs/2105.05328v1 )

ライセンス: Link先を確認
Jack Dunn, Luca Mingardi, Ying Daisy Zhuo(参考訳) 特徴選択の一般的なアプローチは、どの特徴が予測に最も関係しているかを理解する方法として、機械学習モデルの変数重要度スコアを調べることである。 特徴選択の重要性を考えると、計算された重要度スコアは現実を反映することが重要である。 無関係な機能の重要性を誤って過小評価することは誤った発見につながるが、関連する機能の重要性を過小評価することで重要な機能を破棄し、結果としてモデルのパフォーマンスが低下する可能性がある。 さらに、XGBoostのようなブラックボックスモデルは、最先端の予測性能を提供するが、人間によって容易に理解できないため、SHAPのような説明可能性に関する様々な重要度スコアや方法に依存している。 本稿では,様々なブラックボックスおよび解釈可能な機械学習手法における特徴選択手法として,変数重要度の性能について検討する。 我々は,cart,optimize tree,xgboost,shap を用いて,変数の関連部分集合を複数の実験で正しく識別する能力を比較した。 その結果,XGBoost はネイティブ変数重要度法や SHAP によらず,関連する特徴と無関係な特徴を明確に区別することができないことがわかった。 一方, 解釈可能な手法は, 無関係な特徴を正しく, 効率的に識別し, 特徴選択のための性能を著しく向上させることができる。

A common approach for feature selection is to examine the variable importance scores for a machine learning model, as a way to understand which features are the most relevant for making predictions. Given the significance of feature selection, it is crucial for the calculated importance scores to reflect reality. Falsely overestimating the importance of irrelevant features can lead to false discoveries, while underestimating importance of relevant features may lead us to discard important features, resulting in poor model performance. Additionally, black-box models like XGBoost provide state-of-the art predictive performance, but cannot be easily understood by humans, and thus we rely on variable importance scores or methods for explainability like SHAP to offer insight into their behavior. In this paper, we investigate the performance of variable importance as a feature selection method across various black-box and interpretable machine learning methods. We compare the ability of CART, Optimal Trees, XGBoost and SHAP to correctly identify the relevant subset of variables across a number of experiments. The results show that regardless of whether we use the native variable importance method or SHAP, XGBoost fails to clearly distinguish between relevant and irrelevant features. On the other hand, the interpretable methods are able to correctly and efficiently identify irrelevant features, and thus offer significantly better performance for feature selection.
翻訳日:2021-05-13 12:31:54 公開日:2021-05-11
# 多方向コントラスト予測符号化による病理画像からの教師なし表現学習

Unsupervised Representation Learning from Pathology Images with Multi-directional Contrastive Predictive Coding ( http://arxiv.org/abs/2105.05345v1 )

ライセンス: Link先を確認
Jacob Carse, Frank Carey, Stephen McKenna(参考訳) デジタル病理学のタスクは、現代のディープラーニングアルゴリズムから大きな恩恵を受けてきた。 しかし、大量の注釈付きデータの必要性は重要な課題として認識されている。 このデータの必要性は、データが豊富だがアノテーションへのアクセスが制限されている状況で教師なし学習を使用することで対処できる。 比較予測符号化(CPC)を用いて無注釈データから学習した特徴表現は,比較的少量のアノテートコンピュータビジョンデータから,分類器が技術性能の状態を得ることを可能にする。 本稿では,デジタル病理パッチを用いたcpcフレームワークの修正について述べる。 これは潜在コンテキストを構築するための代替マスクを導入し、多方向のpixelcnnオートレグレッシャを使用することで実現される。 提案手法を実証するために,Patch Camelyonヒストロジーデータセットから特徴表現を学習する。 提案法は, 組織学的パッチの深部分類を改良できることを示す。

Digital pathology tasks have benefited greatly from modern deep learning algorithms. However, their need for large quantities of annotated data has been identified as a key challenge. This need for data can be countered by using unsupervised learning in situations where data are abundant but access to annotations is limited. Feature representations learned from unannotated data using contrastive predictive coding (CPC) have been shown to enable classifiers to obtain state of the art performance from relatively small amounts of annotated computer vision data. We present a modification to the CPC framework for use with digital pathology patches. This is achieved by introducing an alternative mask for building the latent context and using a multi-directional PixelCNN autoregressor. To demonstrate our proposed method we learn feature representations from the Patch Camelyon histology dataset. We show that our proposed modification can yield improved deep classification of histology patches.
翻訳日:2021-05-13 12:30:41 公開日:2021-05-11
# 医用画像合成用ガン:実証的研究

GANs for Medical Image Synthesis: An Empirical Study ( http://arxiv.org/abs/2105.05318v1 )

ライセンス: Link先を確認
Youssef Skandarani, Pierre-Marc Jodoin, Alain Lalande(参考訳) GAN(Generative Adversarial Networks)はますます強力になり、学習したデータセットの内容に似せた、心に浮かぶフォトリアリスティックなイメージを生成する。 医用画像における繰り返しのテーマの1つは、現実的なRGB画像を生成するために、GANが実行可能な医療データを生成するのにも有効であるかどうかである。 本稿では,医療画像におけるGANのメリットを評価するために,マルチGANおよびマルチアプリケーション研究を行う。 心血管画像,肝CT,RGB網膜画像の3つの画像モダリティと臓器に対して,基礎的DCGANからより洗練されたスタイルベースGANまで,さまざまなGANアーキテクチャを試験した。 GANは、そのFIDスコアを計算し、生成された画像の視力を測定するために、よく知られ、広く利用されているデータセットで訓練された。 さらに,これらの画像に基づいてトレーニングしたU-Netのセグメンテーション精度を測定し,その有用性を検証した。 結果から、GANは医療画像の用途に適さないものもあれば、それよりもはるかに優れているものもあることが分かる。 トップパフォーマンスのGANは、ビジュアルチューリングテストで訓練された専門家を騙し、いくつかのメトリクスを遵守するFID標準によって現実的な医療画像を生成することができる。 しかし、セグメンテーションの結果から、GANが医療データセットの完全な豊かさを再現できないことが示唆されている。

Generative Adversarial Networks (GANs) have become increasingly powerful, generating mind-blowing photorealistic images that mimic the content of datasets they were trained to replicate. One recurrent theme in medical imaging is whether GANs can also be effective at generating workable medical data as they are for generating realistic RGB images. In this paper, we perform a multi-GAN and multi-application study to gauge the benefits of GANs in medical imaging. We tested various GAN architectures from basic DCGAN to more sophisticated style-based GANs on three medical imaging modalities and organs namely : cardiac cine-MRI, liver CT and RGB retina images. GANs were trained on well-known and widely utilized datasets from which their FID score were computed to measure the visual acuity of their generated images. We further tested their usefulness by measuring the segmentation accuracy of a U-Net trained on these generated images. Results reveal that GANs are far from being equal as some are ill-suited for medical imaging applications while others are much better off. The top-performing GANs are capable of generating realistic-looking medical images by FID standards that can fool trained experts in a visual Turing test and comply to some metrics. However, segmentation results suggests that no GAN is capable of reproducing the full richness of a medical datasets.
翻訳日:2021-05-13 12:29:07 公開日:2021-05-11
# モデレーションを用いた表現体の協調回帰

Collaborative Regression of Expressive Bodies using Moderation ( http://arxiv.org/abs/2105.05301v1 )

ライセンス: Link先を確認
Yao Feng, Vasileios Choutas, Timo Bolkart, Dimitrios Tzionas, Michael J. Black(参考訳) 画像から表現力のある人間を復元することは人間の行動を理解するのに不可欠である。 3Dの体や顔、手を推定する手法は、いまだに大きく進歩している。 顔の手法は正確な3d形状と幾何学的詳細を復元するが、厳密な収穫と極端な視点と解像度の低さに苦しむ必要がある。 全身のメソッドは、さまざまなポーズや解像度に頑丈だが、しわのような詳細がなくても、粗い3d顔形しか提供しない。 両世界を最大限に活用するために,単一の画像からアニマタブルで全身の3Dアバターを、現実的な顔のディテールで生成するPIXIEを導入する。 ピクシーは2つの重要な観測結果を用いている。 まず、身体の一部が関連づけられるが、既存の作業では、身体、顔、手の専門家からの独立した見積もりを等しく信頼することで組み合わせる。 PIXIEは、専門家の特徴を融合させる新しいモデレーターを導入した。 SMPL-Xの共有形状空間を全部位にわたって使用することにより、部分の専門家が全体の貢献をすることができる。 第二に、人間の形は性別と非常に相関するが、既存の研究はこれを無視している。 トレーニング画像を男性,女性,非バイナリとしてラベル付けし,ピクシーを訓練し,新たな形状損失を伴う3次元身体形状を推定した。 3Dボディポーズと形状パラメータに加えて、PIXIEは顔の表情、照明、アルベド、および3D表面変位を推定する。 定量的・質的評価により、ピクシーは3dの人間を、芸術の状況よりも正確な全身形状と詳細な顔形状で見積もっている。 私たちのモデルとコードは、https://pixie.is.tue .mpg.deで研究できます。

Recovering expressive humans from images is essential for understanding human behavior. Methods that estimate 3D bodies, faces, or hands have progressed significantly, yet separately. Face methods recover accurate 3D shape and geometric details, but need a tight crop and struggle with extreme views and low resolution. Whole-body methods are robust to a wide range of poses and resolutions, but provide only a rough 3D face shape without details like wrinkles. To get the best of both worlds, we introduce PIXIE, which produces animatable, whole-body 3D avatars from a single image, with realistic facial detail. To get accurate whole bodies, PIXIE uses two key observations. First, body parts are correlated, but existing work combines independent estimates from body, face, and hand experts, by trusting them equally. PIXIE introduces a novel moderator that merges the features of the experts, weighted by their confidence. Uniquely, part experts can contribute to the whole, using SMPL-X's shared shape space across all body parts. Second, human shape is highly correlated with gender, but existing work ignores this. We label training images as male, female, or non-binary, and train PIXIE to infer "gendered" 3D body shapes with a novel shape loss. In addition to 3D body pose and shape parameters, PIXIE estimates expression, illumination, albedo and 3D surface displacements for the face. Quantitative and qualitative evaluation shows that PIXIE estimates 3D humans with a more accurate whole-body shape and detailed face shape than the state of the art. Our models and code are available for research at https://pixie.is.tue .mpg.de.
翻訳日:2021-05-13 12:26:17 公開日:2021-05-11
# インクリメンタルショットインスタンスセグメンテーション

Incremental Few-Shot Instance Segmentation ( http://arxiv.org/abs/2105.05312v1 )

ライセンス: Link先を確認
Dan Andrei Ganea, Bas Boom and Ronald Poppe(参考訳) 新規クラスのラベル付きトレーニングデータが不足している場合、少数インスタンスのセグメンテーションメソッドは有望である。 しかし、現在のアプローチでは、新しいクラスを柔軟に追加することは容易ではない。 また、各クラスの例は、メモリ集約型の列車およびテスト時に提供される必要がある。 本稿では,この制限に対処するために,マイナショットインスタンスセグメンテーションに対する最初のインクリメンタルアプローチであるimtfaを提案する。 クラス代表にマージされたオブジェクトインスタンスに対する識別的埋め込みを学習する。 画像ではなく埋め込みベクトルをストアすることはメモリオーバーヘッドを効果的に解決する。 これらのクラス埋め込みをコサイン類似性を用いてRoIレベルでマッチングする。 これにより、さらなるトレーニングや以前のトレーニングデータへのアクセスを必要とせずに、新しいクラスを追加できます。 一連の実験では、現在の最先端を一貫して上回っています。 さらに、メモリ要件の低減により、COCOの全クラスにおいて、初めて、数発のインスタンスセグメンテーション性能を共同で評価することができる。

Few-shot instance segmentation methods are promising when labeled training data for novel classes is scarce. However, current approaches do not facilitate flexible addition of novel classes. They also require that examples of each class are provided at train and test time, which is memory intensive. In this paper, we address these limitations by presenting the first incremental approach to few-shot instance segmentation: iMTFA. We learn discriminative embeddings for object instances that are merged into class representatives. Storing embedding vectors rather than images effectively solves the memory overhead problem. We match these class embeddings at the RoI-level using cosine similarity. This allows us to add new classes without the need for further training or access to previous training data. In a series of experiments, we consistently outperform the current state-of-the-art. Moreover, the reduced memory requirements allow us to evaluate, for the first time, few-shot instance segmentation performance on all classes in COCO jointly.
翻訳日:2021-05-13 12:25:49 公開日:2021-05-11
# the devil is in the details: a diagnostic evaluation benchmark for video inpainting

The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video Inpainting ( http://arxiv.org/abs/2105.05332v1 )

ライセンス: Link先を確認
Ryan Szeto, Jason J. Corso(参考訳) 近年の映像塗装作品では定量的評価が劇的に向上しているが,性能評価に使用される映像やマスクの内容は比較的注目されていない。 カメラや背景映像などの属性は、タスクの難易度を本質的に変化させ、メソッドに異なる影響を与えるが、既存の評価スキームはそれらの制御に失敗し、その結果、障害モードに対する最小限の洞察を与える。 このギャップに対処するため,2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークを提案する。 (i) 主要なインパインティング障害モードに基づいてラベル付けされたビデオとマスクの新たなデータセット, (ii) 固定コンテンツ属性によって特徴付けられるデータセットのスライスをスライスし, 再現性, リアリズム, 時間的整合性の品質に応じて各スライスのパフォーマンスを評価する評価スキームである。 入力コンテンツの特徴によって生じる性能の体系的変化を明らかにすることで,映像の塗布方法に対するより洞察に富んだ分析を可能にし,現場の診断ツールとして役立てる。 私たちのコードはhttps://github.com/m ichigancog/devil.com で利用可能です。

Quantitative evaluation has increased dramatically among recent video inpainting work, but the video and mask content used to gauge performance has received relatively little attention. Although attributes such as camera and background scene motion inherently change the difficulty of the task and affect methods differently, existing evaluation schemes fail to control for them, thereby providing minimal insight into inpainting failure modes. To address this gap, we propose the Diagnostic Evaluation of Video Inpainting on Landscapes (DEVIL) benchmark, which consists of two contributions: (i) a novel dataset of videos and masks labeled according to several key inpainting failure modes, and (ii) an evaluation scheme that samples slices of the dataset characterized by a fixed content attribute, and scores performance on each slice according to reconstruction, realism, and temporal consistency quality. By revealing systematic changes in performance induced by particular characteristics of the input content, our challenging benchmark enables more insightful analysis into video inpainting methods and serves as an invaluable diagnostic tool for the field. Our code is available at https://github.com/M ichiganCOG/devil .
翻訳日:2021-05-13 12:25:36 公開日:2021-05-11
# 空間表現と周波数表現の統合によるFew-Shot Learning

Few-Shot Learning by Integrating Spatial and Frequency Representation ( http://arxiv.org/abs/2105.05348v1 )

ライセンス: Link先を確認
Xiangyu Chen and Guanghui Wang(参考訳) 人間はいくつかのラベル付き例で新しいオブジェクトを認識できるが、機械学習システムにとって難しい課題は、ほとんどない。 それまでのアルゴリズムのほとんどは、画像の空間情報のみを利用する。 本稿では,システムの識別能力を高めるために,周波数情報を学習モデルに統合することを提案する。 周波数表現を生成するために離散コサイン変換(dct)を用い,その特徴を空間領域と周波数領域の両方から統合して分類する。 提案した戦略とその有効性は、異なるバックボーン、データセット、アルゴリズムで検証される。 広範囲な実験により、周波数情報は少ないショット分類で空間表現と相補的であることが示されている。 分類精度は、空間領域と周波数領域の両方の特徴を異なる数ショット学習タスクに組み込むことで大幅に向上する。

Human beings can recognize new objects with only a few labeled examples, however, few-shot learning remains a challenging problem for machine learning systems. Most previous algorithms in few-shot learning only utilize spatial information of the images. In this paper, we propose to integrate the frequency information into the learning model to boost the discrimination ability of the system. We employ Discrete Cosine Transformation (DCT) to generate the frequency representation, then, integrate the features from both the spatial domain and frequency domain for classification. The proposed strategy and its effectiveness are validated with different backbones, datasets, and algorithms. Extensive experiments demonstrate that the frequency information is complementary to the spatial representations in few-shot classification. The classification accuracy is boosted significantly by integrating features from both the spatial and frequency domains in different few-shot learning tasks.
翻訳日:2021-05-13 12:25:12 公開日:2021-05-11
# 構造運動に基づく反復融合による映像フレーム補間

Video Frame Interpolation via Structure-Motion based Iterative Fusion ( http://arxiv.org/abs/2105.05353v1 )

ライセンス: Link先を確認
Xi Li, Meng Cao, Yingying Tang, Scott Johnston, Zhendong Hong, Huimin Ma, Jiulong Shan(参考訳) ビデオフレーム補間は、滑らかで一貫した視覚体験を提供することを目的として、隣接するフレーム間の非存在画像を合成する。 この課題を解決する2つのアプローチは、オプティカルフローベースとカーネルベースの方法である。 既存の研究において、光学フローに基づく手法は、正確な点間運動記述を提供することができるが、それらはオブジェクト構造に制約を欠いている。 逆にカーネルベースの手法は、意味的特徴と明らかな特徴に依存する構造的アライメントに重点を置いている。 これらの観測に基づいて,構造運動に基づく反復融合法を提案する。 フレームワークはエンドツーエンドの学習可能な構造で、2つのステージがある。 まず、補間フレームをそれぞれ構造ベースおよび運動ベース学習枝で合成し、空間的特徴統合と時間的特徴統合により反復的洗練モジュールを確立する。 観客が前景や背景の物体に対して異なる視覚的嗜好を持つという観察に触発されて,私たちは初めて,映像フレーム補間作業の評価プロセスにサリエンシマスクを使うことを提案する。 3つの典型的なベンチマークにおける実験結果から,提案手法は他の手法の10分の1のデータしか使用していないモデルでも,最先端手法よりも評価指標において優れた性能が得られることがわかった。

Video Frame Interpolation synthesizes non-existent images between adjacent frames, with the aim of providing a smooth and consistent visual experience. Two approaches for solving this challenging task are optical flow based and kernel-based methods. In existing works, optical flow based methods can provide accurate point-to-point motion description, however, they lack constraints on object structure. On the contrary, kernel-based methods focus on structural alignment, which relies on semantic and apparent features, but tends to blur results. Based on these observations, we propose a structure-motion based iterative fusion method. The framework is an end-to-end learnable structure with two stages. First, interpolated frames are synthesized by structure-based and motion-based learning branches respectively, then, an iterative refinement module is established via spatial and temporal feature integration. Inspired by the observation that audiences have different visual preferences on foreground and background objects, we for the first time propose to use saliency masks in the evaluation processes of the task of video frame interpolation. Experimental results on three typical benchmarks show that the proposed method achieves superior performance on all evaluation metrics over the state-of-the-art methods, even when our models are trained with only one-tenth of the data other methods use.
翻訳日:2021-05-13 12:24:59 公開日:2021-05-11
# (参考訳) Dynamic-OFA:不均一な組み込みプラットフォーム上でのパフォーマンススケーリングのための実行時DNNアーキテクチャスイッチ [全文訳有]

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms ( http://arxiv.org/abs/2105.03596v2 )

ライセンス: CC BY 4.0
Wei Lou, Lei Xun, Amin Sabet, Jia Bi, Jonathon Hare, Geoff V. Merrett(参考訳) モバイルおよび組み込みプラットフォームは、不均一な処理要素をまたいだ計算要求のDNNを効率的に実行するためにますます必要となる。 実行時に、DNNに利用可能なハードウェアリソースは、他の並列実行アプリケーションによって大きく異なる可能性がある。 アプリケーションのパフォーマンス要件は、異なるシナリオの下でも変更できる。 所望の性能を達成するために,様々な資源制約の下で異なる要求を満たすために,チャネル/レイヤの数をリアルタイムでスケールできる動的dnnが提案されている。 しかし、このような動的DNNのトレーニングプロセスは、異なるデプロイメントシナリオのプラットフォーム対応モデルを再トレーニングする必要があるため、コストがかかる可能性がある。 本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。 全ネットワーク(OFA)。 dynamic-ofaは静的ofaバックボーンモデルからサブネットワークのファミリーをプリサンプリングし、異なるランタイム環境下で異なるサブネットワークを選択するランタイムマネージャを含む。 そのため、Dynamic-OFAは従来の動的DNNトレーニングパイプラインを必要としない。 最新技術と比較すると、Jetson Xavier NX上でのImageNetを用いた実験結果は、アプローチが類似のImageNet Top-1精度で3.5x(CPU)、2.4x(GPU)、または3.8%(CPU)、同様のレイテンシで5.1%(GPU)の精度であることを示している。

Mobile and embedded platforms are increasingly required to efficiently execute computationally demanding DNNs across heterogeneous processing elements. At runtime, the available hardware resources to DNNs can vary considerably due to other concurrently running applications. The performance requirements of the applications could also change under different scenarios. To achieve the desired performance, dynamic DNNs have been proposed in which the number of channels/layers can be scaled in real time to meet different requirements under varying resource constraints. However, the training process of such dynamic DNNs can be costly, since platform-aware models of different deployment scenarios must be retrained to become dynamic. This paper proposes Dynamic-OFA, a novel dynamic DNN approach for state-of-the-art platform-aware NAS models (i.e. Once-for-all network (OFA)). Dynamic-OFA pre-samples a family of sub-networks from a static OFA backbone model, and contains a runtime manager to choose different sub-networks under different runtime environments. As such, Dynamic-OFA does not need the traditional dynamic DNN training pipeline. Compared to the state-of-the-art, our experimental results using ImageNet on a Jetson Xavier NX show that the approach is up to 3.5x (CPU), 2.4x (GPU) faster for similar ImageNet Top-1 accuracy, or 3.8% (CPU), 5.1% (GPU) higher accuracy at similar latency.
翻訳日:2021-05-13 11:29:22 公開日:2021-05-11
# (参考訳) 非IIDデータからの音声強調のための教師なしフェデレーション学習 [全文訳有]

Separate but Together: Unsupervised Federated Learning for Speech Enhancement from Non-IID Data ( http://arxiv.org/abs/2105.04727v1 )

ライセンス: CC BY 4.0
Efthymios Tzinis, Jonah Casebeer, Zhepei Wang, Paris Smaragdis(参考訳) FEDENHANCEは、複数のクライアントにまたがる非IID分散データによる音声強調と分離のための、教師なしフェデレーション学習(FL)アプローチである。 各クライアントが限られた数のスピーカー(hence non-iid)からのノイズの多い録音へのアクセスしかできない現実のシナリオをシミュレートする。 各クライアントは、中央サーバのアップデートを定期的に提供しながら、混合不変トレーニングを使用してモデルを分離してトレーニングする。 実験の結果,本手法は単一デバイスでのIDDトレーニングと比較して競争力向上性能が向上し,サーバ側での転送学習による収束速度と全体的な性能の向上が期待できることがわかった。 さらに,ローカルにトレーニングしたクライアントからの更新と教師なしおよび教師なしの損失を効果的に組み合わせられることを示す。 また,新しいデータセットlibrifsd50kとその生成レシピをリリースし,ソース分離問題に対するfl研究を容易にする。

We propose FEDENHANCE, an unsupervised federated learning (FL) approach for speech enhancement and separation with non-IID distributed data across multiple clients. We simulate a real-world scenario where each client only has access to a few noisy recordings from a limited and disjoint number of speakers (hence non-IID). Each client trains their model in isolation using mixture invariant training while periodically providing updates to a central server. Our experiments show that our approach achieves competitive enhancement performance compared to IID training on a single device and that we can further facilitate the convergence speed and the overall performance using transfer learning on the server-side. Moreover, we show that we can effectively combine updates from clients trained locally with supervised and unsupervised losses. We also release a new dataset LibriFSD50K and its creation recipe in order to facilitate FL research for source separation problems.
翻訳日:2021-05-13 04:11:04 公開日:2021-05-11
# (参考訳) 高信頼擬似ラベルに基づく二重分類器による教師なしドメイン適応 [全文訳有]

Unsupervised domain adaptation via double classifiers based on high confidence pseudo label ( http://arxiv.org/abs/2105.04729v1 )

ライセンス: CC BY 4.0
Huihuang Chen, Li Li, Jie Chen, Kuo-Yi Lin(参考訳) unsupervised domain adaptation(uda)は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識転送の問題を解決することを目的としている。 近年、多くのドメイン適応(DA)手法は、異なるドメインの局所分布、すなわち異なるクラスを整列するために、セントロイドを用いている。 これにより、ドメイン適応の効果が向上するが、クラス間だけでなく、サンプル間もドメインの違いが存在する。 この研究は、異なるドメイン間のアライメントを再考し、異なるドメイン間の真のアライメントを達成する方法を研究する。 従来のDA法では, 完全分布や局所分布など, 整列したサンプルの分布特性のみを考慮していた。 グローバル分布の整合性に加えて、実際のドメイン適応はメソ分布とマイクロ分布の整合性も必要である。 そこで本研究では,高信頼ラベル(DCP)に基づく二重分類法を提案する。 異なる分類器のセントロイドとサンプル間の分布を整合させることにより、異なるドメインのメソおよびマイクロ分布アライメントを実現する。 また,誤りマーキングによるチェーンエラーを低減するために,マーキングエラーを低減するための信頼性の高いマーキング手法を提案する。 本研究は,その汎用性を検証するため,デジタル認識およびターゲット認識データセットにおけるdcpを評価する。 その結果,本手法は現在のドメイン適応ベンチマークデータセットのほとんどにおいて最先端の結果が得られることがわかった。

Unsupervised domain adaptation (UDA) aims to solve the problem of knowledge transfer from labeled source domain to unlabeled target domain. Recently, many domain adaptation (DA) methods use centroid to align the local distribution of different domains, that is, to align different classes. This improves the effect of domain adaptation, but domain differences exist not only between classes, but also between samples. This work rethinks what is the alignment between different domains, and studies how to achieve the real alignment between different domains. Previous DA methods only considered one distribution feature of aligned samples, such as full distribution or local distribution. In addition to aligning the global distribution, the real domain adaptation should also align the meso distribution and the micro distribution. Therefore, this study propose a double classifier method based on high confidence label (DCP). By aligning the centroid and the distribution between centroid and sample of different classifiers, the meso and micro distribution alignment of different domains is realized. In addition, in order to reduce the chain error caused by error marking, This study propose a high confidence marking method to reduce the marking error. To verify its versatility, this study evaluates DCP on digital recognition and target recognition data sets. The results show that our method achieves state-of-the-art results on most of the current domain adaptation benchmark datasets.
翻訳日:2021-05-13 03:59:33 公開日:2021-05-11
# (参考訳) リアルタイム機械学習のためのリソース対応分散ガウスプロセス回帰 [全文訳有]

Resource-aware Distributed Gaussian Process Regression for Real-time Machine Learning ( http://arxiv.org/abs/2105.04738v1 )

ライセンス: CC BY 4.0
Zhenyuan Yuan, Minghui Zhu(参考訳) 本研究では,あるエージェント集団が,ストリーミングデータを通じて共通潜伏関数を協調的に学習する問題について検討する。 本稿では,通信,計算,メモリにおけるエージェントの限られた能力を認識する資源対応ガウス過程回帰アルゴリズムを提案する。 エージェント間通信の制限が、予測分散および予測平均における過渡的および定常的性能にもたらす改善を定量化する。 開発したアルゴリズムを評価するために一連のシミュレーションを行う。

We study the problem where a group of agents aim to collaboratively learn a common latent function through streaming data. We propose a Resource-aware Gaussian process regression algorithm that is cognizant of agents' limited capabilities in communication, computation and memory. We quantify the improvement that limited inter-agent communication brings to the transient and steady-state performance in predictive variance and predictive mean. A set of simulations is conducted to evaluate the developed algorithm.
翻訳日:2021-05-13 03:47:08 公開日:2021-05-11
# (参考訳) ブラックボックス音声効果を用いた微分可能信号処理 [全文訳有]

Differentiable Signal Processing With Black-Box Audio Effects ( http://arxiv.org/abs/2105.04752v1 )

ライセンス: CC BY 4.0
Marco A. Mart\'inez Ram\'irez, Oliver Wang, Paris Smaragdis, Nicholas J. Bryan(参考訳) 本稿では,ステートフルなサードパーティの音声効果をディープニューラルネットワーク内のレイヤとして組み込むことで,音声信号処理を自動化するデータ駆動手法を提案する。 次に、入力音声と制御効果パラメータを分析するためにディープエンコーダを訓練し、所望の信号操作を行う。 ネットワークを非微分可能なブラックボックス効果層でトレーニングするために、標準的な自己微分グラフ内で高速で並列な確率勾配近似スキームを用いて、効率的なエンドツーエンドのバックプロパゲーションを実現する。 提案手法は,チューブアンプエミュレーション,音声録音からの呼吸やポップの自動除去,自動音楽マスタリングという,3つの異なる自動オーディオ制作アプリケーションによって実現されている。 提案手法を主観的聴取テストで検証し,新たな音響効果タスクを実現するだけでなく,音楽マスタリングのための専門的で最先端の商用ソリューションに匹敵する結果を得られることを示す。

We present a data-driven approach to automate audio signal processing by incorporating stateful third-party, audio effects as layers within a deep neural network. We then train a deep encoder to analyze input audio and control effect parameters to perform the desired signal manipulation, requiring only input-target paired audio data as supervision. To train our network with non-differentiable black-box effects layers, we use a fast, parallel stochastic gradient approximation scheme within a standard auto differentiation graph, yielding efficient end-to-end backpropagation. We demonstrate the power of our approach with three separate automatic audio production applications: tube amplifier emulation, automatic removal of breaths and pops from voice recordings, and automatic music mastering. We validate our results with a subjective listening test, showing our approach not only can enable new automatic audio effects tasks, but can yield results comparable to a specialized, state-of-the-art commercial solution for music mastering.
翻訳日:2021-05-13 02:08:01 公開日:2021-05-11
# (参考訳) 深層畳み込みニューラルネットワークの脳波への応用:生データ対スペクトル特徴 [全文訳有]

Deep Convolutional Neural Network Applied to Electroencephalograp hy: Raw Data vs Spectral Features ( http://arxiv.org/abs/2105.04762v1 )

ライセンス: CC BY 4.0
Dung Truong, Michael Milham, Scott Makeig, Arnaud Delorme(参考訳) コンピュータビジョンにおけるディープラーニングの成功は、科学コミュニティに新たな分析方法を探らせた。 神経科学の分野、特に電気生理学的神経画像学の分野では、ディープラーニングを利用して広範な機能工学を使わずにデータを予測する研究が始まっている。 本稿では、2つの異なる深層畳み込みニューラルネットワークを用いた脳波スペクトル特徴を用いた脳波データと深部学習の比較を行った。 そのうちの1つはPutten et alである。 (2018)は生データを処理するために調整されており、もう1つは脳波のスペクトル特徴を処理するために設計されたvgg16 vision network (simonyan and zisserman, 2015)に由来する。 我々は24チャンネル脳波の性別を1,574人の大集団から分類する。 この種の分類問題に対して最先端の分類性能を向上させるだけでなく,全ての場合において生データ分類がスペクトル脳波機能に比べて優れた性能をもたらすことを示す。 興味深いことに、脳波スペクトルの特徴を処理できるニューラルネットワークは、生のデータ分類に適用すると性能が向上している。 提案手法は,脳波スペクトル特徴の処理に使用される同じ畳み込みネットワークが,脳波生データに適用した場合に優れた性能をもたらすことを示唆する。

The success of deep learning in computer vision has inspired the scientific community to explore new analysis methods. Within the field of neuroscience, specifically in electrophysiological neuroimaging, researchers are starting to explore leveraging deep learning to make predictions on their data without extensive feature engineering. This paper compares deep learning using minimally processed EEG raw data versus deep learning using EEG spectral features using two different deep convolutional neural architectures. One of them from Putten et al. (2018) is tailored to process raw data; the other was derived from the VGG16 vision network (Simonyan and Zisserman, 2015) which is designed to process EEG spectral features. We apply them to classify sex on 24-channel EEG from a large corpus of 1,574 participants. Not only do we improve on state-of-the-art classification performance for this type of classification problem, but we also show that in all cases, raw data classification leads to superior performance as compared to spectral EEG features. Interestingly we show that the neural network tailored to process EEG spectral features has increased performance when applied to raw data classification. Our approach suggests that the same convolutional networks used to process EEG spectral features yield superior performance when applied to EEG raw data.
翻訳日:2021-05-13 01:57:01 公開日:2021-05-11
# (参考訳) 一般ハイパーグラフ確率ブロックモデルにおける厳密な回復 [全文訳有]

Exact Recovery in the General Hypergraph Stochastic Block Model ( http://arxiv.org/abs/2105.04770v1 )

ライセンス: CC0 1.0
Qiaosheng Zhang, Vincent Y. F. Tan(参考訳) 本稿では,d-uniform hypergraph stochastic block model (d-HSBM) において,nノードを相対サイズ(p1。 基数 d のノードの各部分集合は、d のノードが属する基底真理群に依存する確率のある位数d ハイパーエッジとして独立に生成される。 目標は、観測されたハイパーグラフに基づいて、k隠れのコミュニティを正確に回復することである。 精度の高いしきい値が存在して、正確な回復がしきい値より上にあり、しきい値以下では不可能であることが示される(正確に指定されるパラメータの小さな規則とは別に)。 この閾値は、コミュニティ間での一般化されたチェルノフ・ヘリンジャーの分岐と呼ばれる量で表される。 この一般モデルの結果は,2つの対称群落を持つ標準sbmとd-hsbmの先行結果を特別に復元する。 達成可能性を証明するために,しきい値を満たす多項式時間2段階アルゴリズムを開発した。 第1段階は、あるハイパーグラフスペクトルクラスタリング手法を採用して、コミュニティの粗い推定を行い、第2段階は、各ノードを局所的な精錬ステップを通じて個別に精錬し、正確な回復を確保する。

This paper investigates fundamental limits of exact recovery in the general d-uniform hypergraph stochastic block model (d-HSBM), wherein n nodes are partitioned into k disjoint communities with relative sizes (p1,..., pk). Each subset of nodes with cardinality d is generated independently as an order-d hyperedge with a certain probability that depends on the ground-truth communities that the d nodes belong to. The goal is to exactly recover the k hidden communities based on the observed hypergraph. We show that there exists a sharp threshold such that exact recovery is achievable above the threshold and impossible below the threshold (apart from a small regime of parameters that will be specified precisely). This threshold is represented in terms of a quantity which we term as the generalized Chernoff-Hellinger divergence between communities. Our result for this general model recovers prior results for the standard SBM and d-HSBM with two symmetric communities as special cases. En route to proving our achievability results, we develop a polynomial-time two-stage algorithm that meets the threshold. The first stage adopts a certain hypergraph spectral clustering method to obtain a coarse estimate of communities, and the second stage refines each node individually via local refinement steps to ensure exact recovery.
翻訳日:2021-05-13 01:49:39 公開日:2021-05-11
# (参考訳) 会話レコメンデーションにおける適切な質問への学習 [全文訳有]

Learning to Ask Appropriate Questions in Conversational Recommendation ( http://arxiv.org/abs/2105.04774v1 )

ライセンス: CC BY 4.0
Xuhui Ren, Hongzhi Yin, Tong Chen, Hao Wang, Zi Huang, Kai Zheng(参考訳) 対話型推薦システム (CRS) は, 対話エージェントを取り入れ, ユーザの好みを動的に把握することで, 従来の推薦パラダイムに革命をもたらした。 典型的な会話レコメンデーションシナリオでは、CRSはまず質問を生成し、ユーザの要求を明確にし、適切なレコメンデーションを行う。 したがって、適切な明確な質問を生成する能力は、ユーザの動的好みをタイムリーに追跡し、適切な推奨を達成するための鍵となる。 しかし、既存のCRSは、(1)システム生成応答は、あらゆる状況をカバーするために、巨大な会話コーパスで訓練する必要がある対話ポリシーエージェントの性能に大きく依存している、(2)学習済みユーザプロファイルを適切にパーソナライズされた応答を生成するために、完全に活用できないため、高品質な質問に不足している。 そこで本研究では,会話推薦のための新しい枠組みである知識ベース質問生成システム(kbqg)を提案する。 従来の会話レコメンデータシステムとは違い、KBQGは構造化知識グラフ(KG)から最も関連性の高い関係を識別することにより、ユーザの好みをより細かい粒度でモデル化する。 異なる関係のさまざまな重要性を条件として、生成された明確化質問は、ユーザに好みに関するより詳細な情報を提供するよう促すのに役立つかもしれない。 最終的には、正確な推奨は会話の順番を少なくして生成できる。 さらに,提案したKBQGは,実世界の2つのデータセットを用いた実験において,すべてのベースラインを上回ります。

Conversational recommender systems (CRSs) have revolutionized the conventional recommendation paradigm by embracing dialogue agents to dynamically capture the fine-grained user preference. In a typical conversational recommendation scenario, a CRS firstly generates questions to let the user clarify her/his demands and then makes suitable recommendations. Hence, the ability to generate suitable clarifying questions is the key to timely tracing users' dynamic preferences and achieving successful recommendations. However, existing CRSs fall short in asking high-quality questions because: (1) system-generated responses heavily depends on the performance of the dialogue policy agent, which has to be trained with huge conversation corpus to cover all circumstances; and (2) current CRSs cannot fully utilize the learned latent user profiles for generating appropriate and personalized responses. To mitigate these issues, we propose the Knowledge-Based Question Generation System (KBQG), a novel framework for conversational recommendation. Distinct from previous conversational recommender systems, KBQG models a user's preference in a finer granularity by identifying the most relevant relations from a structured knowledge graph (KG). Conditioned on the varied importance of different relations, the generated clarifying questions could perform better in impelling users to provide more details on their preferences. Finially, accurate recommendations can be generated in fewer conversational turns. Furthermore, the proposed KBQG outperforms all baselines in our experiments on two real-world datasets.
翻訳日:2021-05-13 01:05:23 公開日:2021-05-11
# (参考訳) 視覚質問応答のためのクロスモーダル生成拡張法 [全文訳有]

Cross-Modal Generative Augmentation for Visual Question Answering ( http://arxiv.org/abs/2105.04780v1 )

ライセンス: CC BY 4.0
Zixu Wang, Yishu Miao, Lucia Specia(参考訳) データ拡張は、マルチモーダル機械学習のパフォーマンスを効果的に改善するアプローチである。 本稿では,複数のモダリティ間の相関を利用したデータ拡張のための生成モデルを提案する。 決定論的ヒューリスティックスを用いて低レベル操作を適用する従来のデータ拡張アプローチとは異なり,本手法では,変分オートエンコーダフレームワークで観測されたモダリティに基づく対象モダリティのサンプルを生成する拡張サンプラーを学習する。 さらに,提案モデルでは,生成確率によって拡張データの信頼度を定量化し,下流パイプラインと共同で更新することが可能である。 Visual Question Answeringタスクの実験では、強力なUpDnベースのモデルを最先端のパフォーマンスに拡張できる生成モデルの有効性が示されている。

Data augmentation is an approach that can effectively improve the performance of multimodal machine learning. This paper introduces a generative model for data augmentation by leveraging the correlations among multiple modalities. Different from conventional data augmentation approaches that apply low level operations with deterministic heuristics, our method proposes to learn an augmentation sampler that generates samples of the target modality conditioned on observed modalities in the variational auto-encoder framework. Additionally, the proposed model is able to quantify the confidence of augmented data by its generative probability, and can be jointly updated with a downstream pipeline. Experiments on Visual Question Answering tasks demonstrate the effectiveness of the proposed generative model, which is able to boost the strong UpDn-based models to the state-of-the-art performance.
翻訳日:2021-05-13 00:48:43 公開日:2021-05-11
# (参考訳) 時間グラフに基づく行動的実体分類のアプローチ [全文訳有]

Temporal graph-based approach for behavioural entity classification ( http://arxiv.org/abs/2105.04798v1 )

ライセンス: CC BY 4.0
Francesco Zola, Lander Segurola, Jan Lukas Bruse, Mikel Galar Idoate(参考訳) グラフベースの分析は、関係するアクター、それらの関係、それらの振る舞いを詳述することで複雑なシステムを記述する可能性が高く、過去数年間で多くの関連性を得てきた。 それでも、これらの側面が時間とともに進化しているシナリオでは、価値ある情報を抽出したり、すべてのアクターを正しく特徴付けることは容易ではない。 本研究では,サイバーセキュリティ領域におけるグラフ構造の可能性を活用するための2段階的なアプローチを提案する。 主なアイデアは、ネットワーク分類問題をグラフベースの行動問題に変換することである。 我々は,これらのグラフ構造を抽出し,通常の物体と攻撃物体の両方の進化を表現し,そのミクロ力学を強調するために時間分解アプローチを適用した。 さらに, 3つのクラスタリング手法を適用し, 類似の挙動を集約し, 不均衡問題を緩和し, ノイズデータを低減する。 本稿では,グラフ畳み込みネットワークに基づくエンティティ分類のための2つの有望なディープラーニングパラダイムの実装を提案する。

Graph-based analyses have gained a lot of relevance in the past years due to their high potential in describing complex systems by detailing the actors involved, their relations and their behaviours. Nevertheless, in scenarios where these aspects are evolving over time, it is not easy to extract valuable information or to characterize correctly all the actors. In this study, a two phased approach for exploiting the potential of graph structures in the cybersecurity domain is presented. The main idea is to convert a network classification problem into a graph-based behavioural one. We extract these graph structures that can represent the evolution of both normal and attack entities and apply a temporal dissection approach in order to highlight their micro-dynamics. Further, three clustering techniques are applied to the normal entities in order to aggregate similar behaviours, mitigate the imbalance problem and reduce noisy data. Our approach suggests the implementation of two promising deep learning paradigms for entity classification based on Graph Convolutional Networks.
翻訳日:2021-05-13 00:32:53 公開日:2021-05-11
# (参考訳) 音声感情認識のためのディープ散乱ネットワーク [全文訳有]

Deep scattering network for speech emotion recognition ( http://arxiv.org/abs/2105.04806v1 )

ライセンス: CC BY 4.0
Premjeet Singh, Goutam Saha, Md Sahidullah(参考訳) 本稿では,音声感情認識のための散乱変換を提案する。 散乱変換は変形に対して安定であり、情報を失うことなく時間と周波数をシフトする特徴表現を生成する。 音声では、感情の手がかりは時間に分散し、頻度で局所化される。 散乱係数の時間と周波数の不変性は、異なる話者、言語、性別など、感情と無関係な変動に対して頑健な表現を提供する。 感情の手がかりによって引き起こされる 変化を保ちながら したがって、このような表現は、音声からより効率的に感情情報をキャプチャする。 分散係数と標準メル周波数ケプストラム係数(MFCC)を異なるデータベース上で比較する実験を行った。 周波数散乱は時間領域散乱やMFCCよりも優れていることが観察された。 また, 時間シフトと変形安定なスカルグラムおよび変調スペクトル係数の重要性を解析するために, 層間散乱係数についても検討した。 独立に取られた層次係数は、MFCCよりも優れた性能を示す。

This paper introduces scattering transform for speech emotion recognition (SER). Scattering transform generates feature representations which remain stable to deformations and shifting in time and frequency without much loss of information. In speech, the emotion cues are spread across time and localised in frequency. The time and frequency invariance characteristic of scattering coefficients provides a representation robust against emotion irrelevant variations e.g., different speakers, language, gender etc. while preserving the variations caused by emotion cues. Hence, such a representation captures the emotion information more efficiently from speech. We perform experiments to compare scattering coefficients with standard mel-frequency cepstral coefficients (MFCCs) over different databases. It is observed that frequency scattering performs better than time-domain scattering and MFCCs. We also investigate layer-wise scattering coefficients to analyse the importance of time shift and deformation stable scalogram and modulation spectrum coefficients for SER. We observe that layer-wise coefficients taken independently also perform better than MFCCs.
翻訳日:2021-05-13 00:24:20 公開日:2021-05-11
# (参考訳) 極小映像分類のための暗黙的時間アライメントの学習 [全文訳有]

Learning Implicit Temporal Alignment for Few-shot Video Classification ( http://arxiv.org/abs/2105.04823v1 )

ライセンス: CC BY 4.0
Songyang Zhang, Jiale Zhou, Xuming He(参考訳) ビデオの分類は、いくつかのラベル付き例で新しいビデオカテゴリーを学習することを目的としており、現実世界のアプリケーションにおけるコストのかかるアノテーションの負担を軽減する。 しかし、このような設定でクラス不変な時空間表現を学ぶことは特に困難である。 そこで本稿では,本研究におけるビデオシーケンスのマッチングに基づく複数ショット学習手法を提案する。 私たちの主なアイデアは、ビデオペアの暗黙の時間的アライメントを導入し、それらの間の類似性を正確かつ堅牢な方法で推定することです。 さらに,空間および特徴チャネルのコンテキストを組み込んだ効果的なコンテキスト符号化モジュールを設計し,クラス内変動のモデル化を改良する。 モデルをトレーニングするために,ビデオマッチングを学習するマルチタスクロスを開発し,より一般化したビデオ機能を実現する。 その結果,本手法は,Something-V2とKineeticsの競合的な結果に対して,大差で先行技術よりも優れていることがわかった。

Few-shot video classification aims to learn new video categories with only a few labeled examples, alleviating the burden of costly annotation in real-world applications. However, it is particularly challenging to learn a class-invariant spatial-temporal representation in such a setting. To address this, we propose a novel matching-based few-shot learning strategy for video sequences in this work. Our main idea is to introduce an implicit temporal alignment for a video pair, capable of estimating the similarity between them in an accurate and robust manner. Moreover, we design an effective context encoding module to incorporate spatial and feature channel context, resulting in better modeling of intra-class variations. To train our model, we develop a multi-task loss for learning video matching, leading to video features with better generalization. Extensive experimental results on two challenging benchmarks, show that our method outperforms the prior arts with a sizable margin on SomethingSomething-V 2 and competitive results on Kinetics.
翻訳日:2021-05-13 00:15:12 公開日:2021-05-11
# (参考訳) 理由を見つけたのか? カプセルを用いた弱教師付き視覚質問応答 [全文訳有]

Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules ( http://arxiv.org/abs/2105.04836v1 )

ライセンス: CC BY 4.0
Aisha Urooj Khan, Hilde Kuehne, Kevin Duarte, Chuang Gan, Niels Lobo, Mubarak Shah(参考訳) VQAタスクの接地問題は、最近研究コミュニティで注目され、ほとんどの試みは、事前訓練された物体検出器を用いてこのタスクを解決することに重点を置いている。 しかし、事前学習されたオブジェクト検出器は、語彙内の関連するオブジェクトを検出するために境界ボックスアノテーションを必要とする。 本稿では,VQAタスクのみをトレーニングすることで,関連性のある視覚的実体を弱教師付きで基礎付けるという,よりリラックスした設定に焦点を当てる。 この問題に対処するために,カプセル特徴のクエリに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。 提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。 CLEVR-Answersベンチマークでは2つの最先端VQAシステム(NMNとMAC)、CLEVR-Answersベンチマーク(CLEVR-Answersベンチマーク)、CLEVRシーンをベースとした新たな評価セット、正解に関連のあるオブジェクトの真理境界ボックス、および構成質問を含む実世界VQAデータセット(GQA)に対するアプローチの有効性を実証した。 提案するカプセルモジュールを用いたシステムは,VQAタスクにおいて同等の性能を達成しつつ,各ベースラインシステムより一貫して優れていることを示す。

The problem of grounding VQA tasks has seen an increased attention in the research community recently, with most attempts usually focusing on solving this task by using pretrained object detectors. However, pre-trained object detectors require bounding box annotations for detecting relevant objects in the vocabulary, which may not always be feasible for real-life large-scale applications. In this paper, we focus on a more relaxed setting: the grounding of relevant visual entities in a weakly supervised manner by training on the VQA task alone. To address this problem, we propose a visual capsule module with a query-based selection mechanism of capsule features, that allows the model to focus on relevant regions based on the textual cues about visual information in the question. We show that integrating the proposed capsule module in existing VQA systems significantly improves their performance on the weakly supervised grounding task. Overall, we demonstrate the effectiveness of our approach on two state-of-the-art VQA systems, stacked NMN and MAC, on the CLEVR-Answers benchmark, our new evaluation set based on CLEVR scenes with ground truth bounding boxes for objects that are relevant for the correct answer, as well as on GQA, a real world VQA dataset with compositional questions. We show that the systems with the proposed capsule module consistently outperform the respective baseline systems in terms of answer grounding, while achieving comparable performance on VQA task.
翻訳日:2021-05-13 00:01:05 公開日:2021-05-11
# (参考訳) レバノンにおけるCOVID-19流行の予測分析 : 今後の疫学予測とより効果的な制御プログラムの計画 [全文訳有]

Forecast Analysis of the COVID-19 Incidence in Lebanon: Prediction of Future Epidemiological Trends to Plan More Effective Control Programs ( http://arxiv.org/abs/2105.04848v1 )

ライセンス: CC BY 4.0
Salah El Falou, Fouad Trad(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが始まって以来、すべての政府は国民や国に対する影響を制限してきた。 このパンデミックは、世界中のほぼすべての人々にとって、さまざまなレベルにおいて厳しいものであったため、研究者や科学者は、このウイルスについてより深い洞察を得るために、様々なシミュレーションに携わるようになり、可能な限り早く予防することが可能になった。 本研究では,レバノンにおけるcovid-19の拡散を,モンテカルロアルゴリズムを用いて,特定の特性と行動を持つエージェントとしてモデル化したエージェントモデルを用いてシミュレートする。 これらのエージェントは世界に入り、相互に相互作用し、互いに感染する。 これがウイルスの拡散である。 シミュレーションでは、ウイルスの拡散を制限(マスク着用、閉鎖場所など)することを目的とした、さまざまな非薬剤的介入(またはより一般的なnpis)を導入することができる。 私たちのシミュレータはまず概念(例)で検証されました。 曲線と第2波のシナリオを平坦化) し、レバノンの場合に適用した。 レバノンの教育省が2021年4月21日から段階的に実施する計画なので、学校・大学開設が国内のパンデミック状況に及ぼす影響について検討した。 その結果から,全国の予防接種活動が遅れているのに学校開校を遅らせる方がよいと結論づけた。

Ever since the COVID-19 pandemic started, all the governments have been trying to limit its effects on their citizens and countries. This pandemic was harsh on different levels for almost all populations worldwide and this is what drove researchers and scientists to get involved and work on several kinds of simulations to get a better insight into this virus and be able to stop it the earliest possible. In this study, we simulate the spread of COVID-19 in Lebanon using an Agent-Based Model where people are modeled as agents that have specific characteristics and behaviors determined from statistical distributions using Monte Carlo Algorithm. These agents can go into the world, interact with each other, and thus, infect each other. This is how the virus spreads. During the simulation, we can introduce different Non-Pharmaceutical Interventions - or more commonly NPIs - that aim to limit the spread of the virus (wearing a mask, closing locations, etc). Our Simulator was first validated on concepts (e.g. Flattening the Curve and Second Wave scenario), and then it was applied on the case of Lebanon. We studied the effect of opening schools and universities on the pandemic situation in the country since the Lebanese Ministry of Education is planning to do so progressively, starting from 21 April 2021. Based on the results we obtained, we conclude that it would be better to delay the school openings while the vaccination campaign is still slow in the country.
翻訳日:2021-05-12 23:37:50 公開日:2021-05-11
# (参考訳) runge-kuttaインスパイアされた辞書型スパース回帰法による非線形力学系の発見 [全文訳有]

Discovery of Nonlinear Dynamical Systems using a Runge-Kutta Inspired Dictionary-based Sparse Regression Approach ( http://arxiv.org/abs/2105.04869v1 )

ライセンス: CC BY 4.0
Pawan Goyal and Peter Benner(参考訳) 動的挙動を記述するための力学モデルを明らかにすることは、決定的な結論を引き出すために不可欠である。 実験データの可用性は大幅に増加したが、科学と工学における解釈可能で説明可能なモデルはまだ理解できないままである。 本研究では,機械学習と辞書ベースの学習を数値解析ツールと組み合わせて,雑音やスパースサンプリングによる測定データから微分方程式を決定する。 巨大な非線型関数を含む辞書が与えられた場合、動的モデルはしばしば適切に選択されたいくつかの候補によって記述される。 その結果、サンプリング体制を超えてより良く一般化する傾向にある解釈可能モデルと擬似モデルが得られる。 さらに、任意の段階で微分情報を必要とせずに微分方程式を生成する辞書学習と数値積分フレームワークを統合する。 したがって、これは完全に破壊され、まばらにサンプリングされたデータに効果がある。 生物ネットワークに通常現れる有理非線形性を含む支配方程式の拡張について論じる。 さらに,パラメータ変動と外部制御入力を対象とする方程式の制御法を一般化した。 本研究では, ニューラルダイナミクスモデル, カオス・ロレンツモデル, マイカリス・メンテン運動学モデル, パラメータ化ホップ正規形など, ノイズ測定を用いて多種多様な微分方程式を探索する手法の有効性を示す。

Discovering dynamical models to describe underlying dynamical behavior is essential to draw decisive conclusions and engineering studies, e.g., optimizing a process. Experimental data availability notwithstanding has increased significantly, but interpretable and explainable models in science and engineering yet remain incomprehensible. In this work, we blend machine learning and dictionary-based learning with numerical analysis tools to discover governing differential equations from noisy and sparsely-sampled measurement data. We utilize the fact that given a dictionary containing huge candidate nonlinear functions, dynamical models can often be described by a few appropriately chosen candidates. As a result, we obtain interpretable and parsimonious models which are prone to generalize better beyond the sampling regime. Additionally, we integrate a numerical integration framework with dictionary learning that yields differential equations without requiring or approximating derivative information at any stage. Hence, it is utterly effective in corrupted and sparsely-sampled data. We discuss its extension to governing equations, containing rational nonlinearities that typically appear in biological networks. Moreover, we generalized the method to governing equations that are subject to parameter variations and externally controlled inputs. We demonstrate the efficiency of the method to discover a number of diverse differential equations using noisy measurements, including a model describing neural dynamics, chaotic Lorenz model, Michaelis-Menten Kinetics, and a parameterized Hopf normal form.
翻訳日:2021-05-12 23:25:30 公開日:2021-05-11
# (参考訳) マルチビュークラスタリングのための一貫性のある多重グラフ埋め込み [全文訳有]

Consistent Multiple Graph Embedding for Multi-View Clustering ( http://arxiv.org/abs/2105.04880v1 )

ライセンス: CC BY 4.0
Yiming Wang, Dongxia Chang, Zhiqiang Fu and Yao Zhao(参考訳) 近年,複数のビューにまたがるデータの分割を目的としたグラフベースのマルチビュークラスタリングが注目されている。 グラフベースのマルチビュークラスタリングには多大な努力が払われているが、さまざまなビューの特徴を融合してクラスタリングの共通表現を学ぶことは依然として困難である。 本稿では,新しい一貫性のある複数グラフ埋め込みクラスタリングフレームワーク(cmgec)を提案する。 具体的には、マルチグラフアテンション融合エンコーダを用いて、マルチビューデータの補完情報を柔軟に符号化するマルチグラフオートエンコーダ(M-GAE)を設計する。 各ビューにおける隣り合う特徴の類似性を維持するための学習共通表現を導くため、MMIM(Multi-view Mutual Information Maximization Module)を導入する。 さらに、異なる視点からグラフ間の関係を探索し、M-GAEに必要な共通コンセンサスグラフを提供するために、グラフ融合ネットワーク(GFN)が考案された。 これらのモデルを共同でトレーニングすることで、複数のビューからより補完的な情報をエンコードし、より包括的にデータを描写する共通潜在表現を得ることができる。 3種類のマルチビューデータセットの実験では、CMGECは最先端のクラスタリング手法よりも優れていた。

Graph-based multi-view clustering aiming to obtain a partition of data across multiple views, has received considerable attention in recent years. Although great efforts have been made for graph-based multi-view clustering, it remains a challenge to fuse characteristics from various views to learn a common representation for clustering. In this paper, we propose a novel Consistent Multiple Graph Embedding Clustering framework(CMGEC). Specifically, a multiple graph auto-encoder(M-GAE) is designed to flexibly encode the complementary information of multi-view data using a multi-graph attention fusion encoder. To guide the learned common representation maintaining the similarity of the neighboring characteristics in each view, a Multi-view Mutual Information Maximization module(MMIM) is introduced. Furthermore, a graph fusion network(GFN) is devised to explore the relationship among graphs from different views and provide a common consensus graph needed in M-GAE. By jointly training these models, the common latent representation can be obtained which encodes more complementary information from multiple views and depicts data more comprehensively. Experiments on three types of multi-view datasets demonstrate CMGEC outperforms the state-of-the-art clustering methods.
翻訳日:2021-05-12 22:37:16 公開日:2021-05-11
# (参考訳) ニューラルアーキテクチャ探索のための操作埋め込み [全文訳有]

Operation Embeddings for Neural Architecture Search ( http://arxiv.org/abs/2105.04885v1 )

ライセンス: CC BY 4.0
Michail Chatzianastasis, George Dasoulas, Georgios Siolas, Michalis Vazirgiannis(参考訳) neural architecture search(nas)は最近、ネットワークアーキテクチャの入力空間で自動的に検索するアプローチのクラスとして、注目を集めている。 NASパイプラインの重要な部分は、適用された計算ブロック、すなわち操作とそれらの間のリンクで構成されるアーキテクチャの符号化である。 既存のアプローチのほとんどは、アーキテクチャの構造的特性のキャプチャに失敗するか、手作業によるベクトルを使ってオペレータ情報をエンコードする。 本稿では,最適化過程における固定演算子エンコーディングを学習可能な表現に置き換える手法を提案する。 このアプローチは、異なる操作の関係を効果的に捉え、アーキテクチャをよりスムーズに正確に表現し、結果として最終タスクのパフォーマンスを向上させる。 ENASベンチマークによる広範囲な評価は,提案した操作埋め込みが高精度なモデル生成に有効であることを示し,最先端の性能を実現している。 最後に,本手法は,類似の操作パターンとグラフパターンを共用し,アーキテクチャの構造特性と性能との間に強い相関関係を示す。

Neural Architecture Search (NAS) has recently gained increased attention, as a class of approaches that automatically searches in an input space of network architectures. A crucial part of the NAS pipeline is the encoding of the architecture that consists of the applied computational blocks, namely the operations and the links between them. Most of the existing approaches either fail to capture the structural properties of the architectures or use a hand-engineered vector to encode the operator information. In this paper, we propose the replacement of fixed operator encoding with learnable representations in the optimization process. This approach, which effectively captures the relations of different operations, leads to smoother and more accurate representations of the architectures and consequently to improved performance of the end task. Our extensive evaluation in ENAS benchmark demonstrates the effectiveness of the proposed operation embeddings to the generation of highly accurate models, achieving state-of-the-art performance. Finally, our method produces top-performing architectures that share similar operation and graph patterns, highlighting a strong correlation between architecture's structural properties and performance.
翻訳日:2021-05-12 22:20:57 公開日:2021-05-11
# (参考訳) 美術館絵画検索 [全文訳有]

Museum Painting Retrieval ( http://arxiv.org/abs/2105.04891v1 )

ライセンス: CC BY 4.0
\`Oscar Lorente, Ian Riera, Shauryadeep Chaudhuri, Oriol Catalan, V\'ictor Casales(参考訳) コンテンツに基づいて画像を取得することは、コンピュータビジョンの分野で最も研究されているトピックの1つである。 現在では、機械学習を用いた特徴抽出などの現代的手法でこの問題に対処できるが、近年では様々な古典的手法が開発されている。 本稿では,古典的なコンピュータビジョン技術を用いて,美術館画像コレクション内の絵画を検索するためのサンプル検索システムを提案する。 具体的には,色,テクスチャ,テキスト,特徴記述子の性能について,ノイズ,重なり合うテキストボックス,色劣化,回転など,様々な摂動を持つデータセットを用いて検討する。 平均精度(MAP)測定値を用いて各症例を評価し,問題条件に応じて0.5~1.0の値が変化する結果を得た。

To retrieve images based on their content is one of the most studied topics in the field of computer vision. Nowadays, this problem can be addressed using modern techniques such as feature extraction using machine learning, but over the years different classical methods have been developed. In this paper, we implement a query by example retrieval system for finding paintings in a museum image collection using classic computer vision techniques. Specifically, we study the performance of the color, texture, text and feature descriptors in datasets with different perturbations in the images: noise, overlapping text boxes, color corruption and rotation. We evaluate each of the cases using the Mean Average Precision (MAP) metric, and we obtain results that vary between 0.5 and 1.0 depending on the problem conditions.
翻訳日:2021-05-12 22:05:54 公開日:2021-05-11
# (参考訳) 古典的・深層学習手法による画像分類 [全文訳有]

Image Classification with Classic and Deep Learning Techniques ( http://arxiv.org/abs/2105.04895v1 )

ライセンス: CC BY 4.0
\`Oscar Lorente, Ian Riera, Aditya Rana(参考訳) コンテンツに基づいて画像を分類することは、コンピュータビジョンの分野で最も研究されているトピックの1つである。 現在、この問題は畳み込みニューラルネットワーク(cnn)のような現代的な手法で解決できるが、長年にわたって様々な古典的手法が開発されてきた。 本稿では,従来のコンピュータビジョンとディープラーニングの両方を用いた画像分類器を提案する。 具体的には,サポートベクターマシン,多層パーセプトロン,inceptionv3という既存のアーキテクチャ,およびスクラッチから設計された独自のcnnであるtinynetを用いて,視覚単語分類器の袋の性能について検討した。 それぞれのケースを精度と損失の観点から評価し,使用するモデルと構成によって0.6から0.09の範囲で結果を得た。

To classify images based on their content is one of the most studied topics in the field of computer vision. Nowadays, this problem can be addressed using modern techniques such as Convolutional Neural Networks (CNN), but over the years different classical methods have been developed. In this report, we implement an image classifier using both classic computer vision and deep learning techniques. Specifically, we study the performance of a Bag of Visual Words classifier using Support Vector Machines, a Multilayer Perceptron, an existing architecture named InceptionV3 and our own CNN, TinyNet, designed from scratch. We evaluate each of the cases in terms of accuracy and loss, and we obtain results that vary between 0.6 and 0.96 depending on the model and configuration used.
翻訳日:2021-05-12 21:58:32 公開日:2021-05-11
# (参考訳) 会話型エンティティリンク:問題定義とデータセット [全文訳有]

Conversational Entity Linking: Problem Definition and Datasets ( http://arxiv.org/abs/2105.04903v1 )

ライセンス: CC BY 4.0
Hideaki Joko, Faegheh Hasibi, Krisztian Balog, Arjen P. de Vries(参考訳) 会話システムにおけるユーザ発話の機械的理解は、ユーザと有意義な会話を可能にする上で最も重要である。 エンティティリンク(EL)はテキスト理解の手段の1つであり、情報検索において様々な下流タスクに有効であることが証明されている。 本稿では,会話システムにおけるエンティティリンクについて検討する。 会話環境におけるELの理解を深めるために,既存の会話データセットからの対話を多数分析し,クラウドソーシングを用いた概念,名前付きエンティティ,個人エンティティへの注釈付けを行う。 注釈付き対話に基づいて,対話型エンティティリンクの主な特徴を同定する。 さらに,我々の会話型エンティティリンクデータであるconelにおける従来のelシステムの性能を報告し,会話型設定に適合するためのこれらの手法の拡張を提案する。 この論文でリリースされたリソースには、注釈付きデータセット、クラウドソーシングセットアップの詳細な説明、様々なelシステムによって生成されたアノテーションが含まれる。 これらの新しいリソースは、会話におけるエンティティの役割が文書やクエリやツイートのような孤立した短いテキスト発話とどのように異なるかの調査を可能にし、既存の会話データセットを補完する。

Machine understanding of user utterances in conversational systems is of utmost importance for enabling engaging and meaningful conversations with users. Entity Linking (EL) is one of the means of text understanding, with proven efficacy for various downstream tasks in information retrieval. In this paper, we study entity linking for conversational systems. To develop a better understanding of what EL in a conversational setting entails, we analyze a large number of dialogues from existing conversational datasets and annotate references to concepts, named entities, and personal entities using crowdsourcing. Based on the annotated dialogues, we identify the main characteristics of conversational entity linking. Further, we report on the performance of traditional EL systems on our Conversational Entity Linking dataset, ConEL, and present an extension to these methods to better fit the conversational setting. The resources released with this paper include annotated datasets, detailed descriptions of crowdsourcing setups, as well as the annotations produced by various EL systems. These new resources allow for an investigation of how the role of entities in conversations is different from that in documents or isolated short text utterances like queries and tweets, and complement existing conversational datasets.
翻訳日:2021-05-12 21:44:42 公開日:2021-05-11
# (参考訳) 自動運転のためのシーン理解 [全文訳有]

Scene Understanding for Autonomous Driving ( http://arxiv.org/abs/2105.04905v1 )

ライセンス: CC BY 4.0
\`Oscar Lorente, Ian Riera, Aditya Rana(参考訳) 画像中のオブジェクトをそのコンテンツに基づいて検出・分割することは、コンピュータビジョンの分野でもっとも活発なトピックの1つだ。 今日では、より高速なR-CNNやYOLOといったディープラーニングアーキテクチャを使ってこの問題に対処できる。 本稿では, RetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の動作について検討する。 まず,KITTI-MOTSおよびMOTSChallengeデータセットを用いた事前学習モデルの質的,定量的な評価を行った。 興味のあるデータセットに基づいてこれらのモデルを微調整し、ハイパーパラメーターを最適化した後、性能を著しく改善する。 最後に、コンテキストデータセットを使い、異常な状況で推論を実行し、ネットワークをよりよく理解するための興味深い結果を提示します。

To detect and segment objects in images based on their content is one of the most active topics in the field of computer vision. Nowadays, this problem can be addressed using Deep Learning architectures such as Faster R-CNN or YOLO, among others. In this paper, we study the behaviour of different configurations of RetinaNet, Faster R-CNN and Mask R-CNN presented in Detectron2. First, we evaluate qualitatively and quantitatively (AP) the performance of the pre-trained models on KITTI-MOTS and MOTSChallenge datasets. We observe a significant improvement in performance after fine-tuning these models on the datasets of interest and optimizing hyperparameters. Finally, we run inference in unusual situations using out of context datasets, and present interesting results that help us understanding better the networks.
翻訳日:2021-05-12 21:29:43 公開日:2021-05-11
# (参考訳) 道路交通モニタリングのためのビデオサーベイランス [全文訳有]

Video Surveillance for Road Traffic Monitoring ( http://arxiv.org/abs/2105.04908v1 )

ライセンス: CC BY 4.0
Pol Albacar, \`Oscar Lorente, Eduard Mainou, Ian Riera(参考訳) 本稿では,バルセロナ大学アット・オノマ・デ・バルセロナ校のコンピュータビジョンのマスターのビデオ解析モジュールにおいて,AI-City Challengeの第3トラックの解決に利用した学習手法について述べる。 この課題は、都市に広がる複数の交差点に配置された複数のカメラで車両を追跡することである。 その方法論は、まず1台のカメラでマルチトラッキングを解き、次に複数のカメラに拡張する。 オブジェクト検出のためのmAPやトラッキングのためのIDF1などのビデオ分析のための標準指標を用いて,実装手法の質的な結果を示す。 ソースコードはhttps://github.com/m cv-m6-video/mcv-m6-2 021-team4で公開されている。

This paper presents the learned techniques during the Video Analysis Module of the Master in Computer Vision from the Universitat Aut\`onoma de Barcelona, used to solve the third track of the AI-City Challenge. This challenge aims to track vehicles across multiple cameras placed in multiple intersections spread out over a city. The methodology followed focuses first in solving multi-tracking in a single camera and then extending it to multiple cameras. The qualitative results of the implemented techniques are presented using standard metrics for video analysis such as mAP for object detection and IDF1 for tracking. The source code is publicly available at: https://github.com/m cv-m6-video/mcv-m6-2 021-team4.
翻訳日:2021-05-12 21:17:15 公開日:2021-05-11
# (参考訳) ソーシャルメディア上でのHinglishデータに対するHateful Speechの検出における人工知能の役割 [全文訳有]

Role of Artificial Intelligence in Detection of Hateful Speech for Hinglish Data on Social Media ( http://arxiv.org/abs/2105.04913v1 )

ライセンス: CC BY 4.0
Ananya Srivastava, Mohammed Hasan, Bhargav Yagnik, Rahee Walambe and Ketan Kotecha(参考訳) ソーシャルネットワーキングプラットフォームは、私たちのアイデア、見解、思考を広め、情報を広めるためのコンジットを提供します。 このことが英語とネイティブ言語との融合につながった。 ヒンズー語と英語の混成データ(ヒンズー語)の普及は、世界中の都市人口の増加と共に進んでいる。 ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。 したがって、世界中のヘイトスピーチ検出率は、インドの口語言語やスラングのコンテンツを考えると、さらに44%減少している。 本稿では,非構造化コード混合hinglish言語の効率的な検出手法を提案する。 Hindi- English code-mixed Languageの微調整に基づくアプローチは、ELMo (Embeddings for Language Models)、FLAIR、および変換器ベースのBERT (Bidirectional Encoder Representations from Transformers)のような文脈ベースの埋め込みを利用する。 提案手法は既存の手法と比較し,その結果を各種データセットと比較した。 私たちのモデルは他のメソッドやフレームワークよりも優れています。

Social networking platforms provide a conduit to disseminate our ideas, views and thoughts and proliferate information. This has led to the amalgamation of English with natively spoken languages. Prevalence of Hindi-English code-mixed data (Hinglish) is on the rise with most of the urban population all over the world. Hate speech detection algorithms deployed by most social networking platforms are unable to filter out offensive and abusive content posted in these code-mixed languages. Thus, the worldwide hate speech detection rate of around 44% drops even more considering the content in Indian colloquial languages and slangs. In this paper, we propose a methodology for efficient detection of unstructured code-mix Hinglish language. Fine-tuning based approaches for Hindi-English code-mixed language are employed by utilizing contextual based embeddings such as ELMo (Embeddings for Language Models), FLAIR, and transformer-based BERT (Bidirectional Encoder Representations from Transformers). Our proposed approach is compared against the pre-existing methods and results are compared for various datasets. Our model outperforms the other methods and frameworks.
翻訳日:2021-05-12 21:10:25 公開日:2021-05-11
# (参考訳) ディープニューラルネットワークを用いた極性コードの性能予測と改善 [全文訳有]

Using Deep Neural Networks to Predict and Improve the Performance of Polar Codes ( http://arxiv.org/abs/2105.04922v1 )

ライセンス: CC BY 4.0
Mathieu L\'eonardon and Vincent Gripon(参考訳) 極性符号は理論的に非常に競争の激しいフレーム誤差率を達成することができる。 実際には、それらの性能は、選択された復号処理と、それらがデプロイされる通信システムの他のパラメータに依存する可能性がある。 その結果、特定のコンテキストに対する効率的な極性コードの設計は、すぐに難しくなる可能性がある。 本稿では,その凍結ビット構築シーケンスに基づいて,極性符号のフレーム誤り率を予測するために,ディープニューラルネットワークを訓練する手法を提案する。 本稿では、ニューラルネットワーク関数の勾配を利用して期待できる凍ったビット列を生成するプロジェクテッドグラディエントDescentに基づくアルゴリズムを提案する。 提案手法がニューラルネットワークのトレーニングに使用されるものよりも効率的にコードを生成することができるような,生成されたデータセットについて紹介する。

Polar codes can theoretically achieve very competitive Frame Error Rates. In practice, their performance may depend on the chosen decoding procedure, as well as other parameters of the communication system they are deployed upon. As a consequence, designing efficient polar codes for a specific context can quickly become challenging. In this paper, we introduce a methodology that consists in training deep neural networks to predict the frame error rate of polar codes based on their frozen bit construction sequence. We introduce an algorithm based on Projected Gradient Descent that leverages the gradient of the neural network function to generate promising frozen bit sequences. We showcase on generated datasets the ability of the proposed methodology to produce codes more efficient than those used to train the neural networks, even when the latter are selected among the most efficient ones.
翻訳日:2021-05-12 21:00:05 公開日:2021-05-11
# (参考訳) メガピクセルで撮影するショットフェイススワップ [全文訳有]

One Shot Face Swapping on Megapixels ( http://arxiv.org/abs/2105.04932v1 )

ライセンス: CC BY 4.0
Yuhao Zhu, Qi Li, Jian Wang, Chengzhong Xu, Zhenan Sun(参考訳) フェイススワッピングは、エンターテイメント、人間とコンピュータの相互作用など、ポジティブな応用と、政治や経済などに対するディープフェイクの脅威のようなネガティブな応用の両方がある。 それでも、高品質な顔交換のための高度な手法の体系を理解し、DeepFake検出アルゴリズムを訓練するために十分な代表顔交換画像を生成する必要がある。 本稿では,ワンショット顔スワッピング(略してMegaFS)のための最初のメガピクセルレベル法を提案する。 第一に、MegaFSは、従来の顔スワッピング法で圧縮された表現よりも、より詳細な顔情報を維持するために、拡張潜在空間で提案された階層表現顔エンコーダ(HieRFE)によって階層的に顔表現を編成する。 第二に,FTM (Face Transfer Module) を慎重に設計し,特徴のゆがみを伴わない非線形軌道による画像からターゲットへのアイデンティティの転送を提案する。 最後に、スワップされた顔は、トレーニング安定性と強力な生成能力の恩恵によりStyleGAN2によって合成できる。 MegaFSの各部分は個別にトレーニングできるので、GPUメモリのモデルの要求はメガピクセルの顔スワップに充足できる。 要約すると, 完全な顔表現, 安定した訓練, 限られた記憶使用量などは, 本手法の成功に対する3つの新しい貢献である。 パブリックドメインにおけるディープフェイク検出と顔画像編集の研究のために,MegaFSの優位性を実証し,最初のメガピクセルレベルの顔交換データベースをリリースした。 データセットはこのリンクにあります。

Face swapping has both positive applications such as entertainment, human-computer interaction, etc., and negative applications such as DeepFake threats to politics, economics, etc. Nevertheless, it is necessary to understand the scheme of advanced methods for high-quality face swapping and generate enough and representative face swapping images to train DeepFake detection algorithms. This paper proposes the first Megapixel level method for one shot Face Swapping (or MegaFS for short). Firstly, MegaFS organizes face representation hierarchically by the proposed Hierarchical Representation Face Encoder (HieRFE) in an extended latent space to maintain more facial details, rather than compressed representation in previous face swapping methods. Secondly, a carefully designed Face Transfer Module (FTM) is proposed to transfer the identity from a source image to the target by a non-linear trajectory without explicit feature disentanglement. Finally, the swapped faces can be synthesized by StyleGAN2 with the benefits of its training stability and powerful generative capability. Each part of MegaFS can be trained separately so the requirement of our model for GPU memory can be satisfied for megapixel face swapping. In summary, complete face representation, stable training, and limited memory usage are the three novel contributions to the success of our method. Extensive experiments demonstrate the superiority of MegaFS and the first megapixel level face swapping database is released for research on DeepFake detection and face image editing in the public domain. The dataset is at this link.
翻訳日:2021-05-12 20:51:34 公開日:2021-05-11
# (参考訳) 多点動的集約問題に対するハイブリッド分解に基づく多目的進化アルゴリズム [全文訳有]

A Hybrid Decomposition-based Multi-objective Evolutionary Algorithm for the Multi-Point Dynamic Aggregation Problem ( http://arxiv.org/abs/2105.04934v1 )

ライセンス: CC BY 4.0
Guanqiang Gao, Bin Xin, Yi Mei, Shuxin Ding, and Juan Li(参考訳) マルチポイントダイナミックアグリゲーション(mpda)問題(multi-point dynamic aggregation)という,実世界のアプリケーションからの新たな最適化問題は,マルチロボットシステムの活発な研究テーマのひとつとなっている。 本稿では,ロボットの数とタスクの最大完了時間を最小化するために,ロボットの実行計画を設計する多目的MPDA問題に焦点を当てる。 ロボットとタスク間の強い結合関係、MPDA符号化の冗長性、MO-MPDA問題の可変サイズ決定空間は、この問題を効果的に解決するための追加の課題を提起した。 上記の問題に対処するため, $ \varepsilon $-constraint 法を用いたハイブリッド分解型多目的進化アルゴリズム (HDMOEA) を開発した。 主な目的として全てのタスクの最大完了時間を選択し、他の目的を制約に変換する。 HDMOEAは、各サブプロブレムを上界ロボット番号に割り当てることで、MO-MPDA問題を一連のスカラー制約付き最適化サブプロブレムに分解する。 すべてのサブプロブレムは、他のサブプロブレムからの知識の転送と同時に最適化される。 さらに,初期解の質を高めるハイブリッド集団初期化機構と,効果的な情報を伝達し,符号化冗長性に取り組む再生機構を開発した。 実験結果から,HDMOEA法は, 最先端の手法よりも高い性能を示した。

An emerging optimisation problem from the real-world applications, named the multi-point dynamic aggregation (MPDA) problem, has become one of the active research topics of the multi-robot system. This paper focuses on a multi-objective MPDA problem which is to design an execution plan of the robots to minimise the number of robots and the maximal completion time of all the tasks. The strongly-coupled relationships among robots and tasks, the redundancy of the MPDA encoding, and the variable-size decision space of the MO-MPDA problem posed extra challenges for addressing the problem effectively. To address the above issues, we develop a hybrid decomposition-based multi-objective evolutionary algorithm (HDMOEA) using $ \varepsilon $-constraint method. It selects the maximal completion time of all tasks as the main objective, and converted the other objective into constraints. HDMOEA decomposes a MO-MPDA problem into a series of scalar constrained optimization subproblems by assigning each subproblem with an upper bound robot number. All the subproblems are optimized simultaneously with the transferring knowledge from other subproblems. Besides, we develop a hybrid population initialisation mechanism to enhance the quality of initial solutions, and a reproduction mechanism to transmit effective information and tackle the encoding redundancy. Experimental results show that the proposed HDMOEA method significantly outperforms the state-of-the-art methods in terms of several most-used metrics.
翻訳日:2021-05-12 20:36:38 公開日:2021-05-11
# (参考訳) 複数のオントロジー上のナレッジグラフ埋め込みによる遺伝子ダイザス関連予測 [全文訳有]

Predicting Gene-Disease Associations with Knowledge Graph Embeddings over Multiple Ontologies ( http://arxiv.org/abs/2105.04944v1 )

ライセンス: CC BY 4.0
Susana Nunes, Rita T. Sousa, Catia Pesquita(参考訳) オントロジーに基づく遺伝子消失関連を予測するアプローチには、より古典的な意味的類似性法や、より最近の知識グラフの埋め込みがある。 意味的類似性は通常、オントロジー内の階層的関係に制限されるが、知識グラフの埋め込みはその全幅を考慮する。 しかし、埋め込みは単一のグラフ上で生成され、ジーン・ダイザス・アソシエーションのような複雑なタスクは追加のオントロジーを必要とする。 複数のオントロジーに基づくより豊かな意味表現を用い、遺伝子と疾患の両方を表現でき、オントロジー内の複数の種類の関係を考慮できる影響について検討する。 本研究は,ランダムウォークに基づく知識グラフ埋め込みの利用価値を実証し,異なるオントロジーのより緊密な統合の必要性を強調した。

Ontology-based approaches for predicting gene-disease associations include the more classical semantic similarity methods and more recently knowledge graph embeddings. While semantic similarity is typically restricted to hierarchical relations within the ontology, knowledge graph embeddings consider their full breadth. However, embeddings are produced over a single graph and complex tasks such as gene-disease association may require additional ontologies. We investigate the impact of employing richer semantic representations that are based on more than one ontology, able to represent both genes and diseases and consider multiple kinds of relations within the ontologies. Our experiments demonstrate the value of employing knowledge graph embeddings based on random-walks and highlight the need for a closer integration of different ontologies.
翻訳日:2021-05-12 20:16:53 公開日:2021-05-11
# (参考訳) bert は nlp に、alexnet は cv: 事前学習された言語モデルはアナロジーを識別できるか? [全文訳有]

BERT is to NLP what AlexNet is to CV: Can Pre-Trained Language Models Identify Analogies? ( http://arxiv.org/abs/2105.04949v1 )

ライセンス: CC BY 4.0
Asahi Ushio and Luis Espinosa-Anke and Steven Schockaert and Jose Camacho-Collados(参考訳) アナロジーは人間の常識推論において中心的な役割を果たす。 目のようなアナロジーを認識する能力は、耳がどんな音を聴くかを見ることであり、時にはアナロジー比例と呼ばれ、知識の構造や言語を理解する方法を形成する。 しかし、驚くべきことに、そのような類似点を特定する作業は、言語モデル時代にはまだあまり注目されていない。 本稿では,この教師なしタスクにおけるトランスフォーマティブ言語モデルの能力について,教育環境から得られたベンチマークと,より一般的なデータセットを用いて分析する。 既製の言語モデルはある程度の類似を識別できるが、抽象的・複雑な関係に苦慮し、その結果はモデルアーキテクチャやハイパーパラメータに非常に敏感である。 GPT-2とRoBERTaで最高の結果を得たが、BERTを用いた構成では単語埋め込みモデルよりも優れていなかった。 我々の実験結果は、どのようにして訓練済みの言語モデルが抽象的意味関係に関する知識を取得するか、そしてどの程度の程度で、どのようにして抽象的意味関係に関する知識を取得するかについての重要な疑問を提起する。

Analogies play a central role in human commonsense reasoning. The ability to recognize analogies such as eye is to seeing what ear is to hearing, sometimes referred to as analogical proportions, shape how we structure knowledge and understand language. Surprisingly, however, the task of identifying such analogies has not yet received much attention in the language model era. In this paper, we analyze the capabilities of transformer-based language models on this unsupervised task, using benchmarks obtained from educational settings, as well as more commonly used datasets. We find that off-the-shelf language models can identify analogies to a certain extent, but struggle with abstract and complex relations, and results are highly sensitive to model architecture and hyperparameters. Overall the best results were obtained with GPT-2 and RoBERTa, while configurations using BERT were not able to outperform word embedding models. Our results raise important questions for future work about how, and to what extent, pre-trained language models capture knowledge about abstract semantic relations\footnote{Source code and data to reproduce our experimental results are available in the following repository: \url{https://github.com/a sahi417/analogy-lang uage-model}}.
翻訳日:2021-05-12 20:10:16 公開日:2021-05-11
# (参考訳) 反応運動生成と強化学習のための構成可能エネルギー政策 [全文訳有]

Composable Energy Policies for Reactive Motion Generation and Reinforcement Learning ( http://arxiv.org/abs/2105.04962v1 )

ライセンス: CC BY 4.0
Julen Urain, Anqi Li, Puze Liu, Carlo D'Eramo, Jan Peters(参考訳) 反応運動生成問題は、通常、ポリシーの集合として計算アクションによって解決される。 しかし、これらの方針は互いに独立しており、貢献をまとめる際に矛盾する行動をとることができる。 モジュール型リアクティブモーション生成のための新しいフレームワークであるComposable Energy Policies (CEP)を紹介する。 CEPは一連の確率的ポリシーの積に対する最適化によって制御動作を計算する。 このポリシーの産物は、すべてのコンポーネントを満たすアクションに高い確率を提供し、他のコンポーネントに低い確率を提供する。 ポリシーの製品よりも最適化することは、すべての目的を満たすアクションを選択するポリシー間の相反する行動の有害な効果を避ける。 さらに,CEPは自然に強化学習問題に適応し,マルチモーダル分布から非スムース分布へ,階層的,あらゆる分布を前もって統合し,与えられた新しいポリシーを学習することができることを示す。

Reactive motion generation problems are usually solved by computing actions as a sum of policies. However, these policies are independent of each other and thus, they can have conflicting behaviors when summing their contributions together. We introduce Composable Energy Policies (CEP), a novel framework for modular reactive motion generation. CEP computes the control action by optimization over the product of a set of stochastic policies. This product of policies will provide a high probability to those actions that satisfy all the components and low probability to the others. Optimizing over the product of the policies avoids the detrimental effect of conflicting behaviors between policies choosing an action that satisfies all the objectives. Besides, we show that CEP naturally adapts to the Reinforcement Learning problem allowing us to integrate, in a hierarchical fashion, any distribution as prior, from multimodal distributions to non-smooth distributions and learn a new policy given them.
翻訳日:2021-05-12 19:48:06 公開日:2021-05-11
# (参考訳) 繰り返し言語に基づく説得ゲームのための自動エージェントの設計 [全文訳有]

Designing an Automatic Agent for Repeated Language based Persuasion Games ( http://arxiv.org/abs/2105.04976v1 )

ライセンス: CC BY 4.0
Maya Raifer, Guy Rotman, Reut Apel, Moshe Tennenholtz, Roi Reichart(参考訳) 説得ゲームは経済学とAI研究の基本であり、重要な応用の基礎として機能する。 しかし、この設定では、リッチな人間の言語を含まないスタイル化されたメッセージとの通信を想定している。 本稿では,送信者が世界の状況を十分に把握し,複数の可能な自然言語レビューの1つを送ることで,受取人に取引を受け入れるよう説得することを目的とした,繰り返し送信者(専門家)-受信者(意思決定者)ゲームについて考察する。 我々は、この繰り返しゲームをプレイする自動専門家をデザインし、最大報酬を達成することを目指している。 我々のエキスパートはモンテカルロ木探索(mcts)アルゴリズムに実装されており、意思決定者の次の行動を予測するために行動および言語信号を利用するディープラーニングモデルと、ゲームの状態と候補レビューを与えられた専門家の今後の報酬モデルを備えている。 我々は、エキスパートの強力なベースラインに対する優位性、異なる意思決定者への適応性、そして選択したレビューが提案されたディールにうまく適合していることを示します。

Persuasion games are fundamental in economics and AI research and serve as the basis for important applications. However, work on this setup assumes communication with stylized messages that do not consist of rich human language. In this paper we consider a repeated sender (expert) -- receiver (decision maker) game, where the sender is fully informed about the state of the world and aims to persuade the receiver to accept a deal by sending one of several possible natural language reviews. We design an automatic expert that plays this repeated game, aiming to achieve the maximal payoff. Our expert is implemented within the Monte Carlo Tree Search (MCTS) algorithm, with deep learning models that exploit behavioral and linguistic signals in order to predict the next action of the decision maker, and the future payoff of the expert given the state of the game and a candidate review. We demonstrate the superiority of our expert over strong baselines, its adaptability to different decision makers, and that its selected reviews are nicely adapted to the proposed deal.
翻訳日:2021-05-12 19:28:52 公開日:2021-05-11
# (参考訳) odeシミュレーションと同定のための学習ランゲ・クッタ統合手法 [全文訳有]

Learning Runge-Kutta Integration Schemes for ODE Simulation and Identification ( http://arxiv.org/abs/2105.04999v1 )

ライセンス: CC BY 4.0
Said Ouala, Laurent Debreu, Ananda Pascual, Bertrand Chapron, Fabrice Collard, Lucile Gaultier and Ronan Fablet(参考訳) 常微分方程式の分析解の導出は通常問題の小さな部分集合に制限され、数値的手法が考慮される。 必然的に、微分方程式の数値シミュレーションは常に真の解析解と区別される。 効率的な統合スキームは、与えられた状態全体を通して軌道を提供するだけでなく、生成されたシミュレーションが解析的に近いことを保証するためにも導出される。 その結果、微分方程式の異なるクラスに対していくつかの積分スキームが開発された。 残念なことに、複雑な非線形システムの積分やデータからの非線形方程式の同定を考えると、この積分スキームの選択は自明なものにはほど遠い。 本稿では,統合関連コスト関数を最小化する統合スキームを学ぶための新しいフレームワークを提案する。 非線形方程式に対する学習に基づく手法の妥当性を実証し, 定量的解析を応用した。 古典的な最先端の統合技術、特に後者が適用されない場合。

Deriving analytical solutions of ordinary differential equations is usually restricted to a small subset of problems and numerical techniques are considered. Inevitably, a numerical simulation of a differential equation will then always be distinct from a true analytical solution. An efficient integration scheme shall further not only provide a trajectory throughout a given state, but also be derived to ensure the generated simulation to be close to the analytical one. Consequently, several integration schemes were developed for different classes of differential equations. Unfortunately, when considering the integration of complex non-linear systems, as well as the identification of non-linear equations from data, this choice of the integration scheme is often far from being trivial. In this paper, we propose a novel framework to learn integration schemes that minimize an integration-related cost function. We demonstrate the relevance of the proposed learning-based approach for non-linear equations and include a quantitative analysis w.r.t. classical state-of-the-art integration techniques, especially where the latter may not apply.
翻訳日:2021-05-12 19:11:05 公開日:2021-05-11
# (参考訳) aiotアプリケーションを用いたai-fml実践における学生と機械学習のロボットアシスタントエージェント [全文訳有]

Robotic Assistant Agent for Student and Machine Co-Learning on AI-FML Practice with AIoT Application ( http://arxiv.org/abs/2105.05012v1 )

ライセンス: CC BY 4.0
Chang-Shing Lee, Mei-Hui Wang, Zong-Han Ciou, Rin-Pin Chang, Chun-Hao Tsai, Shen-Chien Chen, Tzong-Xiang Huang, Eri Sato-Shimokawara, and Toru Yamaguchi(参考訳) 本稿では,AI-FML実践におけるAIoTアプリケーションを用いた学習支援ロボットアシスタントについて述べる。 AI-FMLの構造はファジィ論理、ニューラルネットワーク、進化計算を含む3つの部分を含む。 ロボットアシスタントエージェント(RAA)は、ロボットKebbi AirとAIoT-FML学習ツールに基づいて、英語とAI-FMLの実践を共同学習する学生や機械を支援する。 2019年9月以降,台湾の2つの小学校の英語とコンピュータサイエンスの授業に,インテリジェント英語アシスタント(ISEA)アプリとAI-FMLプラットフォームを導入している。 収集した英語学習データを用いて,学生の月次試験得点に基づく予測回帰モデルを学習する。 2021年1月,先進的なai-fmlプラットフォームと新しいaiot-fml学習ツールを組み合わせることで,学生の英語学習やai-fmlに対する興味を高める。 提案されたRAAは、AI-FMLプラットフォームと通信した後、学生の学習パフォーマンスを推論し、AIoT-FML学習ツールで結果を示す責任がある。 実験結果と学生のフィードバックの収集から,このような学習モデルが小学生や高校生に普及し,小学生の学習性能が向上していることが示唆された。

In this paper, the Robotic Assistant Agent for student and machine co-learning on AI-FML practice with AIoT application is presented. The structure of AI-FML contains three parts, including fuzzy logic, neural network, and evolutionary computation. Besides, the Robotic Assistant Agent (RAA) can assist students and machines in co-learning English and AI-FML practice based on the robot Kebbi Air and AIoT-FML learning tool. Since Sept. 2019, we have introduced an Intelligent Speaking English Assistant (ISEA) App and AI-FML platform to English and computer science learning classes at two elementary schools in Taiwan. We use the collected English-learning data to train a predictive regression model based on students' monthly examination scores. In Jan. 2021, we further combined the developed AI-FML platform with a novel AIoT-FML learning tool to enhance students' interests in learning English and AI-FML with basic hands-on practice. The proposed RAA is responsible for reasoning students' learning performance and showing the results on the AIoT-FML learning tool after communicating with the AI-FML platform. The experimental results and the collection of students' feedback show that this kind of learning model is popular with elementary-school and high-school students, and the learning performance of elementary-school students is improved.
翻訳日:2021-05-12 18:48:27 公開日:2021-05-11
# (参考訳) NLP共有タスクの透明性を目指して

Towards transparency in NLP shared tasks ( http://arxiv.org/abs/2105.05020v1 )

ライセンス: CC BY 4.0
Carla Parra Escart\'in and Teresa Lynn and Joss Moorkens and Jane Dunne(参考訳) 本稿では,自然言語処理(NLP)コミュニティを対象とした調査について報告する。 この調査は、参加と組織の両方に関して、共有課題に関する研究コミュニティの意見を捉えることを目的としている。 175の回答のうち、ポジティブとネガティブの両方が観察された。 そこで我々は,これらの回答を広範囲に分析し,今後の参加者や組織を支援するための共有タスク組織チェックリストを提案する。 提案されたチェックリストは、我々の分野における共有タスクの幅広い多様性に対応するのに十分な柔軟性があり、その目標は規範的ではなく、共有タスクオーガナイザが倫理的行動のフォアグラウンドを奨励するツールとして機能することである。 その使い方は、共有タスクの重要な側面を反映する手段としてだけでなく、それらの周りの透明性を高めるためにも役立つだろう。

This article reports on a survey carried out across the Natural Language Processing (NLP) community. The survey aimed to capture the opinions of the research community on issues surrounding shared tasks, with respect to both participation and organisation. Amongst the 175 responses received, both positive and negative observations were made. We carried out and report on an extensive analysis of these responses, which leads us to propose a Shared Task Organisation Checklist that could support future participants and organisers. The proposed Checklist is flexible enough to accommodate the wide diversity of shared tasks in our field and its goal is not to be prescriptive, but rather to serve as a tool that encourages shared task organisers to foreground ethical behaviour, beginning with the common issues that the 175 respondents deemed important. Its usage would not only serve as an instrument to reflect on important aspects of shared tasks, but would also promote increased transparency around them.
翻訳日:2021-05-12 18:35:09 公開日:2021-05-11
# (参考訳) 距離最適化適応ステップサイズによる勾配流れエンコーディング [全文訳有]

Gradient flow encoding with distance optimization adaptive step size ( http://arxiv.org/abs/2105.05031v1 )

ライセンス: CC BY 4.0
Kyriakos Flouris, Anna Volokitin, Gustav Bredell, Ender Konukoglu(参考訳) オートエンコーダモデルは、データサンプルを低次元の潜在空間にマッピングするためにエンコーダを使用し、デコーダを使用して潜在空間表現をデータ空間にマッピングする。 暗黙的には、デコーダネットワークの逆を近似するためにエンコーダに依存しており、サンプルを潜在空間から忠実にマッピングすることができる。 この近似は準最適潜在空間表現に繋がるかもしれない。 本研究では,遅延空間におけるデータサンプルのエンコードに勾配流を用いるデコーダのみの手法について検討する。 勾配フローは、与えられたデコーダに基づいて定義され、最適化を通じて任意のサンプルの最適な潜在空間表現を見つけることを目的としており、エンコーダを通した近似反転の必要性がなくなる。 通常の微分方程式 (ode) による勾配流を実装し, 随伴法を用いてデコーダを訓練する。 さらに,随伴法におけるコストのかかる積分は必ずしも必要ではないことを実証的に示す。 さらに,この手法の2,^{nd}$ ode変種を提案する。これはnesterovの加速度勾配降下を近似し,反復毎に収束が速くなる。 一般的に使用されるODEソルバは、ODEの硬さに応じて、統合ステップサイズに非常に敏感である。 勾配流れエンコーディングの感度を克服するために,各積分ステップにおける損失の最小化を優先する適応解法を用いる。 提案手法を自動符号化モデルと比較して評価する。 我々の実験では、GFEは自動符号化モデルよりもはるかに高いデータ効率を示した。

The autoencoder model uses an encoder to map data samples to a lower dimensional latent space and then a decoder to map the latent space representations back to the data space. Implicitly, it relies on the encoder to approximate the inverse of the decoder network, so that samples can be mapped to and back from the latent space faithfully. This approximation may lead to sub-optimal latent space representations. In this work, we investigate a decoder-only method that uses gradient flow to encode data samples in the latent space. The gradient flow is defined based on a given decoder and aims to find the optimal latent space representation for any given sample through optimisation, eliminating the need of an approximate inversion through an encoder. Implementing gradient flow through ordinary differential equations (ODE), we leverage the adjoint method to train a given decoder. We further show empirically that the costly integrals in the adjoint method may not be entirely necessary. Additionally, we propose a $2^{nd}$ order ODE variant to the method, which approximates Nesterov's accelerated gradient descent, with faster convergence per iteration. Commonly used ODE solvers can be quite sensitive to the integration step-size depending on the stiffness of the ODE. To overcome the sensitivity for gradient flow encoding, we use an adaptive solver that prioritises minimising loss at each integration step. We assess the proposed method in comparison to the autoencoding model. In our experiments, GFE showed a much higher data-efficiency than the autoencoding model, which can be crucial for data scarce applications.
翻訳日:2021-05-12 18:34:11 公開日:2021-05-11
# (参考訳) 固有モチベーション型合成創発プロトコルを用いたゼロショット一般化 [全文訳有]

Zero-Shot Generalization using Intrinsically Motivated Compositional Emergent Protocols ( http://arxiv.org/abs/2105.05069v1 )

ライセンス: CC BY 4.0
Rishi Hazra, Sonu Dixit, Sayambhu Sen(参考訳) 人間の言語は、有限の「textit{use」を無限の思考配列を表現するシステムとして記述されている。 特に興味深いのは構成性の側面であり、複合言語表現の意味はその構成部分の意味から導出することができる。 人工エージェントが人間の言語に似た構成的コミュニケーションプロトコルを開発できれば、目に見えない組み合わせにシームレスに一般化することができる。 研究は、好奇心が子どもの言語発達に果たす役割を認識している。 本稿では,この内在的なフィードバックを,体系的かつ曖昧な原語を誘導するために利用する。 構成性によって、エージェントが未確認のオブジェクトと対話するだけでなく、ゼロショット設定でタスクから別のタスクにスキルを移すことが可能であることを示す: \textit{Can an agent, training to `pull' と `push twice', `pull twice'? }.

Human language has been described as a system that makes \textit{use of finite means to express an unlimited array of thoughts}. Of particular interest is the aspect of compositionality, whereby, the meaning of a compound language expression can be deduced from the meaning of its constituent parts. If artificial agents can develop compositional communication protocols akin to human language, they can be made to seamlessly generalize to unseen combinations. Studies have recognized the role of curiosity in enabling linguistic development in children. In this paper, we seek to use this intrinsic feedback in inducing a systematic and unambiguous protolanguage. We demonstrate how compositionality can enable agents to not only interact with unseen objects but also transfer skills from one task to another in a zero-shot setting: \textit{Can an agent, trained to `pull' and `push twice', `pull twice'?}.
翻訳日:2021-05-12 18:24:28 公開日:2021-05-11
# (参考訳) 重複する船舶目標に対するモザイク画像データ拡張に関する研究 [全文訳有]

Research on Mosaic Image Data Enhancement for Overlapping Ship Targets ( http://arxiv.org/abs/2105.05090v1 )

ライセンス: CC BY 4.0
Guangmiao Zeng, Wanneng Yu, Rongjie Wang and Anhui Lin(参考訳) 標的認識における重複咬合の問題は, 研究課題であり, 狭水域における船舶目標の相互閉塞の状況はいまだに残っている。 本稿では、データセットの読み出しを最適化し、局所特徴に対する検出アルゴリズムの学習能力を向上し、テスト速度を一定に保ちながら重なり合うターゲットの認識精度を向上させ、異なる解像度での認識能力の劣化率を低減し、アルゴリズムの堅牢性を向上する改良モザイクデータ拡張手法を提案する。 実際の実験では、元のアルゴリズムと比較して、改良されたアルゴリズムは重複するターゲットの認識精度を2.5%改善し、目標損失時間を17%削減し、異なるビデオ解像度での認識安定性を27.01%向上した。

The problem of overlapping occlusion in target recognition has been a difficult research problem, and the situation of mutual occlusion of ship targets in narrow waters still exists. In this paper, an improved mosaic data enhancement method is proposed, which optimizes the reading method of the data set, strengthens the learning ability of the detection algorithm for local features, improves the recognition accuracy of overlapping targets while keeping the test speed unchanged, reduces the decay rate of recognition ability under different resolutions, and strengthens the robustness of the algorithm. The real test experiments prove that, relative to the original algorithm, the improved algorithm improves the recognition accuracy of overlapping targets by 2.5%, reduces the target loss time by 17%, and improves the recognition stability under different video resolutions by 27.01%.
翻訳日:2021-05-12 18:17:06 公開日:2021-05-11
# (参考訳) ディアクロニック分散単語表現を幼児の語彙発達モデルとして用いる [全文訳有]

Using Diachronic Distributed Word Representations as Models of Lexical Development in Children ( http://arxiv.org/abs/2105.05091v1 )

ライセンス: CC BY 4.0
Arijit Gupta, Rajaswa Patil and Veeky Baths(参考訳) 近年の研究では、分散単語表現は、子供向け音声から抽象意味的および構文的情報をエンコードできることが示されている。 本稿では,子どもの語彙発達の時間的モデリングと分析を行うために,ダイアクロニックな単語表現を用いる。 先行研究と異なり, 時間分割音声コーパスを用いて, 子どもと子ども向け音声の分散単語表現を学習する。 本研究は, 幼児向け成人音声における語彙知識の飽和レベルと比較して, 子どもの語彙知識の時間的増加のダイナミクスを示す。 また,線形混合効果モデルとダイアクロニック表現と単語周波数における意味的変化率を適合させた。 これにより、幼児の語彙発達における単語頻度の役割を検査できる。 さらに, 幼児の心的語彙におけるカテゴリー化と単語の関連を明らかにするモデルを用いて, ダイアクロニック表現の質的分析を行った。

Recent work has shown that distributed word representations can encode abstract semantic and syntactic information from child-directed speech. In this paper, we use diachronic distributed word representations to perform temporal modeling and analysis of lexical development in children. Unlike all previous work, we use temporally sliced speech corpus to learn distributed word representations of child and child-directed speech. Through our modeling experiments, we demonstrate the dynamics of growing lexical knowledge in children over time, as compared against a saturated level of lexical knowledge in child-directed adult speech. We also fit linear mixed-effects models with the rate of semantic change in the diachronic representations and word frequencies. This allows us to inspect the role of word frequencies towards lexical development in children. Further, we perform a qualitative analysis of the diachronic representations from our model, which reveals the categorization and word associations in the mental lexicon of children.
翻訳日:2021-05-12 18:01:23 公開日:2021-05-11
# (参考訳) LSHのモデルに向けて [全文訳有]

Towards a Model for LSH ( http://arxiv.org/abs/2105.05130v1 )

ライセンス: CC0 1.0
Li Wang(参考訳) データ量が増え続けるにつれて、クラスタリングと異常検出アルゴリズムはますます時間を要するようになっている。 近隣探索のための古典的な索引構造は「次元の曲線」のためにもはや持続可能ではない。 その代わり、近似インデックス構造は、クラスタリングと異常検出の隣接探索を著しく加速し、アルゴリズムの結果において最も低い誤差率を持つ良い機会を提供する。 局所性に敏感なハッシュもその1つである。 LSHの特性をモデル化するための方向を示す。

As data volumes continue to grow, clustering and outlier detection algorithms are becoming increasingly time-consuming. Classical index structures for neighbor search are no longer sustainable due to the "curse of dimensionality". Instead, approximated index structures offer a good opportunity to significantly accelerate the neighbor search for clustering and outlier detection and to have the lowest possible error rate in the results of the algorithms. Locality-sensitive hashing is one of those. We indicate directions to model the properties of LSH.
翻訳日:2021-05-12 17:51:58 公開日:2021-05-11
# (参考訳) kdehumor at semeval-2020 task 7: a neural network model for funniness in dataset humicroedit [全文訳有]

kdehumor at semeval-2020 task 7: a neural network model for detecting funniness in dataset humicroedit ( http://arxiv.org/abs/2105.05135v1 )

ライセンス: CC BY 4.0
Rida Miraj, Masaki Aono(参考訳) 本稿では,SemEval-2020 Task 7: Assessing Humor in Edited News Headlinesについて述べる。 本稿では,ディープニューラルネットワークに基づく手法を提案する。 近年ではユーモアの制作や知覚に注目が集まっている。 私たちのチームは、Bi-Directional LSTMs(BiLSTMs)など、リカレントニューラルネットワークモデルを採用しています。 さらに、最先端の事前訓練文埋め込み技術を利用する。 提案手法の性能を解析し,アーキテクチャの各コンポーネントの貢献を実証する。

This paper describes our contribution to SemEval-2020 Task 7: Assessing Humor in Edited News Headlines. Here we present a method based on a deep neural network. In recent years, quite some attention has been devoted to humor production and perception. Our team KdeHumor employs recurrent neural network models including Bi-Directional LSTMs (BiLSTMs). Moreover, we utilize the state-of-the-art pre-trained sentence embedding techniques. We analyze the performance of our method and demonstrate the contribution of each component of our architecture.
翻訳日:2021-05-12 17:33:57 公開日:2021-05-11
# (参考訳) 医師および境界濃度損失項を用いた血管内分極感度光コヒーレンス断層撮影における解剖学的層とアーチファクトの分節化 [全文訳有]

Segmentation of Anatomical Layers and Artifacts in Intravascular Polarization Sensitive Optical Coherence Tomography Using Attending Physician and Boundary Cardinality Lost Terms ( http://arxiv.org/abs/2105.05137v1 )

ライセンス: CC BY 4.0
Mohammad Haft-Javaherian, Martin Villiger, Kenichiro Otsuka, Joost Daemen, Peter Libby, Polina Golland, and Brett E. Bouma(参考訳) 心臓血管疾患は死因の主要な疾患であり、様々な診断手順と侵襲的介入が必要である。 医療画像は医療システムにおいて不可欠な部分であり、診断と介入の指導を円滑に行う。 血管内超音波および光コヒーレンス断層撮影は冠動脈狭窄を特徴付けるために広く用いられている。 血管内偏光感応性光コヒーレンストモグラフィ(PS-OCT)は、コラーゲンや平滑筋などの先駆組織成分を呈し、同時に高分解能な血管構造の断面像を提供することができる。 これらの特徴の自動解釈は、冠状動脈腫の自然史と意義の客観的な臨床的研究を促進する。 本稿では,畳み込みニューラルネットワークモデルを提案し,ガイドワイヤやプラークアーティファクトに加えて,ルーメン,インティマ,メディア層を分類する多項損失関数を用いて,その性能を最適化する。 多クラス分類モデルは,精度,Dice係数,平均境界誤差に基づく解剖層の検出において,最先端の手法よりも優れている。 さらに,本モデルでは,2種類の主要なアーティファクトをセグメンテーションし,他の研究による解析から除外された血管壁領域内の解剖学的層を検出する。 ソースコードとトレーニングされたモデルはhttps://github.com/m haft/OCTsegで公開されている。

Cardiovascular diseases are the leading cause of death and require a spectrum of diagnostic procedures as well as invasive interventions. Medical imaging is a vital part of the healthcare system, facilitating both diagnosis and guidance for intervention. Intravascular ultrasound and optical coherence tomography are widely available for characterizing coronary stenoses and provide critical vessel parameters to optimize percutaneous intervention. Intravascular polarization-sensiti ve optical coherence tomography (PS-OCT) can simultaneously provide high-resolution cross-sectional images of vascular structures while also revealing preponderant tissue components such as collagen and smooth muscle and thereby enhance plaque characterization. Automated interpretation of these features would facilitate the objective clinical investigation of the natural history and significance of coronary atheromas. Here, we propose a convolutional neural network model and optimize its performance using a new multi-term loss function to classify the lumen, intima, and media layers in addition to the guidewire and plaque artifacts. Our multi-class classification model outperforms the state-of-the-art methods in detecting the anatomical layers based on accuracy, Dice coefficient, and average boundary error. Furthermore, the proposed model segments two classes of major artifacts and detects the anatomical layers within the thickened vessel wall regions, which were excluded from analysis by other studies. The source code and the trained model are publicly available at https://github.com/m haft/OCTseg .
翻訳日:2021-05-12 17:28:47 公開日:2021-05-11
# (参考訳) マイクロ流体チャネル評価のためのU-Netベースサロゲートモデル [全文訳有]

U-Net-Based Surrogate Model For Evaluation of Microfluidic Channels ( http://arxiv.org/abs/2105.05173v1 )

ライセンス: CC BY-SA 4.0
Quang Tuyen Le, Pao-Hsiung Chiu, Chin Chun Ooi(参考訳) マイクロ流体学は、特にバイオメディカル診断と分離において、複数の応用において大きな可能性を示してきた。 これらのマイクロ流体デバイスの流動特性は計算流体力学(CFD)などの数値計算法で解けるが、メッシュの生成と数値解法の設定にはある程度のドメイン親しみが必要であり、FluentやStarCCMのような直感的な商用プログラムは高価である。 そこで本研究では,u-net畳み込みニューラルネットワークをサーロゲートモデルとして使用することにより,特定のマイクロ流体フィルタの設計結果の速度と圧力場を予測することを実証した。 サーロゲートモデルは高速で、設定が容易であり、幾何エンコーディング行列の入力を通じて、新しい興味のある設計のためにドメイン全体の流れ速度と圧力場を予測および評価するのに使うことができる。 さらに, 速度データに基づく圧力予測のために, 同じ手法を用いてネットワークをトレーニングできることを実証し, 粒子画像速度測定による速度測定に基づく圧力計算のための数値アルゴリズムの代替として提案する。 両アプリケーションとも、1%未満の予測テスト誤差を示し、これが実際に実行可能な方法であることを示唆している。

Microfluidics have shown great promise in multiple applications, especially in biomedical diagnostics and separations. While the flow properties of these microfluidic devices can be solved by numerical methods such as computational fluid dynamics (CFD), the process of mesh generation and setting up a numerical solver requires some domain familiarity, while more intuitive commercial programs such as Fluent and StarCCM can be expensive. Hence, in this work, we demonstrated the use of a U-Net convolutional neural network as a surrogate model for predicting the velocity and pressure fields that would result for a particular set of microfluidic filter designs. The surrogate model is fast, easy to set-up and can be used to predict and assess the flow velocity and pressure fields across the domain for new designs of interest via the input of a geometry-encoding matrix. In addition, we demonstrate that the same methodology can also be used to train a network to predict pressure based on velocity data, and propose that this can be an alternative to numerical algorithms for calculating pressure based on velocity measurements from particle-image velocimetry measurements. Critically, in both applications, we demonstrate prediction test errors of less than 1%, suggesting that this is indeed a viable method.
翻訳日:2021-05-12 16:58:00 公開日:2021-05-11
# (参考訳) ソフィケーションベイズ分類器作成のための多次元データのファクタリング [全文訳有]

Factoring Multidimensional Data to Create a Sophisticated Bayes Classifier ( http://arxiv.org/abs/2105.05181v1 )

ライセンス: CC BY 4.0
Anthony LaTorre(参考訳) 本稿では,分類データセットの因数分解の限界確率を計算するための明示的な式を導出する。 限界確率は因子化の後方確率に比例するので、これらの確率はすべての可能な因子化を順序付けし、データセットが引き出される全体分布を分解する「最良の」方法を選択するために使うことができる。 最良の因子分解は、変数の相互独立な集合を分解することで恩恵を受けるベイズ分類器を構築するのに使うことができる。

In this paper we derive an explicit formula for calculating the marginal likelihood of a given factorization of a categorical dataset. Since the marginal likelihood is proportional to the posterior probability of the factorization, these likelihoods can be used to order all possible factorizations and select the "best" way to factor the overall distribution from which the dataset is drawn. The best factorization can then be used to construct a Bayes classifier which benefits from factoring out mutually independent sets of variables.
翻訳日:2021-05-12 16:52:11 公開日:2021-05-11
# (参考訳) 風力タービン発電予測における異なる機械学習アルゴリズムの性能比較 [全文訳有]

Performance Comparison of Different Machine Learning Algorithms on the Prediction of Wind Turbine Power Generation ( http://arxiv.org/abs/2105.05197v1 )

ライセンス: CC BY 4.0
Onder Eyecioglu, Batuhan Hangun, Korhan Kayisli, Mehmet Yesilbudak(参考訳) 過去10年間、風力エネルギーは世界中で注目を集めてきた。 しかし、その間接性とボラティリティ特性により、風力発電の浸透は電力系統の派遣と計画の難易度と複雑さを高めている。 そのため、電力のバランスをとるためには、高精度な風力予測を行う必要がある。 本研究では, 線形回帰, k-アレスト近傍回帰, 決定木回帰アルゴリズムの予測性能を詳細に比較する。 k-ネアレスト近傍回帰アルゴリズムは決定値の係数を低くし、決定木回帰アルゴリズムは平均絶対誤差値を低くする。 また,風速,風向,気圧,風温の気象パラメータを,風力パラメータの重要性の観点から評価した。 最も重要な要因は風速パラメータによって達成される。 その結果、風力予測に多くの有用な評価がなされた。

Over the past decade, wind energy has gained more attention in the world. However, owing to its indirectness and volatility properties, wind power penetration has increased the difficulty and complexity in dispatching and planning of electric power systems. Therefore, it is needed to make the high-precision wind power prediction in order to balance the electrical power. For this purpose, in this study, the prediction performance of linear regression, k-nearest neighbor regression and decision tree regression algorithms is compared in detail. k-nearest neighbor regression algorithm provides lower coefficient of determination values, while decision tree regression algorithm produces lower mean absolute error values. In addition, the meteorological parameters of wind speed, wind direction, barometric pressure and air temperature are evaluated in terms of their importance on the wind power parameter. The biggest importance factor is achieved by wind speed parameter. In consequence, many useful assessments are made for wind power predictions.
翻訳日:2021-05-12 16:31:27 公開日:2021-05-11
# (参考訳) 辞書のないヘブライ語の方言の復元 [全文訳有]

Restoring Hebrew Diacritics Without a Dictionary ( http://arxiv.org/abs/2105.05209v1 )

ライセンス: CC BY 4.0
Elazar Gershuni, Yuval Pinter(参考訳) 我々は,平易なダイアクリッドテキスト以外の人為的なリソースを使わずにヘブライ語の文字をダイアクリットできることを示す。 我々は、より複雑なキュレーションに依存したシステムと同等の2層キャラクタレベルLSTMであるNAKDIMONを、多様なヘブライ語ソースにまたがって提案する。

We demonstrate that it is feasible to diacritize Hebrew script without any human-curated resources other than plain diacritized text. We present NAKDIMON, a two-layer character level LSTM, that performs on par with much more complicated curation-dependent systems, across a diverse array of modern Hebrew sources.
翻訳日:2021-05-12 16:20:18 公開日:2021-05-11
# (参考訳) reflectnet -- 単一画像反射抑制のための生成的逆解析法 [全文訳有]

ReflectNet -- A Generative Adversarial Method for Single Image Reflection Suppression ( http://arxiv.org/abs/2105.05216v1 )

ライセンス: CC BY 4.0
Andreea Birhala and Ionut Mironica(参考訳) ガラス窓から写真を撮ると、写真の品質を損なうような望ましくない反射が発生します。 反射除去問題の本質は何十年もの間、多くの研究者の注目を集めてきた。 この問題の主な課題は、実際のトレーニングデータの欠如と、現実的な合成データを生成する必要性である。 本稿では,コンテキスト理解モジュールに基づく単一画像反射除去手法と,反射を伴わない伝送層を効率的に復元するための対角訓練を提案する。 また,様々な種類のリフレクションを持つ大規模トレーニングセットを作成するために,複雑なデータ生成モデルを提案する。 提案手法は,PSNR と SSIM の観点から,SIR のベンチマークデータセット上で,最先端の手法よりも優れる。

Taking pictures through glass windows almost always produces undesired reflections that degrade the quality of the photo. The ill-posed nature of the reflection removal problem reached the attention of many researchers for more than decades. The main challenge of this problem is the lack of real training data and the necessity of generating realistic synthetic data. In this paper, we proposed a single image reflection removal method based on context understanding modules and adversarial training to efficiently restore the transmission layer without reflection. We also propose a complex data generation model in order to create a large training set with various type of reflections. Our proposed reflection removal method outperforms state-of-the-art methods in terms of PSNR and SSIM on the SIR benchmark dataset.
翻訳日:2021-05-12 16:13:01 公開日:2021-05-11
# (参考訳) ホームアクションゲノム:協調的構成的行動理解 [全文訳有]

Home Action Genome: Cooperative Compositional Action Understanding ( http://arxiv.org/abs/2105.05226v1 )

ライセンス: CC BY 4.0
Nishant Rai, Haofeng Chen, Jingwei Ji, Rishi Desai, Kazuki Kozuka, Shun Ishizaka, Ehsan Adeli, Juan Carlos Niebles(参考訳) アクション認識に関する既存の研究は、アクティビティをビデオで発生するモノリシックなイベントとして扱う。 近年,このようなアノテーションを含むデータセットの出現にともなって,行動理解の向上に期待が持たれており,これらの情報を取得する表現を学習することができる。 しかし、行動構成を拡張し、表現学習に複数の視点とデータの多様性を利用する研究が不足している。 この方向の研究を促進するために,階層的な活動とアトミックなアクションラベルを付加した多視点アクションデータセットであるHome Action Genome (HOMAGE)を紹介した。 本稿では,複合行動要素を意識した階層的行動認識のための協調学習フレームワークである協調的構成行動理解(ccau)を提案する。 CCAUはすべてのモダリティに対して一貫したパフォーマンス改善を示す。 さらに,1つのサンプルで28.6%のmAPを達成し,数発のアクション認識における共学習合成の有用性を実証した。

Existing research on action recognition treats activities as monolithic events occurring in videos. Recently, the benefits of formulating actions as a combination of atomic-actions have shown promise in improving action understanding with the emergence of datasets containing such annotations, allowing us to learn representations capturing this information. However, there remains a lack of studies that extend action composition and leverage multiple viewpoints and multiple modalities of data for representation learning. To promote research in this direction, we introduce Home Action Genome (HOMAGE): a multi-view action dataset with multiple modalities and view-points supplemented with hierarchical activity and atomic action labels together with dense scene composition labels. Leveraging rich multi-modal and multi-view settings, we propose Cooperative Compositional Action Understanding (CCAU), a cooperative learning framework for hierarchical action recognition that is aware of compositional action elements. CCAU shows consistent performance improvements across all modalities. Furthermore, we demonstrate the utility of co-learning compositions in few-shot action recognition by achieving 28.6% mAP with just a single sample.
翻訳日:2021-05-12 16:02:52 公開日:2021-05-11
# (参考訳) 自然言語処理を自然に行う:オブジェクト指向知識ベースと多水準文法ベースに基づくNLPツールキット [全文訳有]

Doing Natural Language Processing in A Natural Way: An NLP toolkit based on object-oriented knowledge base and multi-level grammar base ( http://arxiv.org/abs/2105.05227v1 )

ライセンス: CC BY 4.0
Yu Guo(参考訳) オブジェクト指向知識ベースと多レベル文法ベースに基づくNLPツールキットを提案する。 このツールキットは意味解析に重点を置いており、新しい知識と文法を自動的に発見する能力を持ち、新しい知識と文法は人間によって識別され、知識ベースと文法ベースの更新に使用される。 このプロセスを何度も繰り返してツールキットを継続的に改善できます。

We introduce an NLP toolkit based on object-oriented knowledge base and multi-level grammar base. This toolkit focuses on semantic parsing, it also has abilities to discover new knowledge and grammar automatically, new discovered knowledge and grammar will be identified by human, and will be used to update the knowledge base and grammar base. This process can be iterated many times to improve the toolkit continuously.
翻訳日:2021-05-12 15:40:06 公開日:2021-05-11
# (参考訳) ブロック設計に基づく逆ストラグラーの勾配符号の変種 [全文訳有]

Variants on Block Design Based Gradient Codes for Adversarial Stragglers ( http://arxiv.org/abs/2105.05231v1 )

ライセンス: CC BY 4.0
Animesh Sakorikar and Lele Wang(参考訳) グラディエントコーディング(Gradient coding)は、分散機械学習アプリケーションにおいて、遅い、あるいはレスポンシブなマシンに対して堅牢性を提供するコーディング理論フレームワークである。 最近、Kadheら。 組み合わさった不完全ブロック設計(BIBD)と呼ばれる、組合せ設計に基づく勾配コードを提案した。 しかし、そのようなBIBD構造が存在するパラメータは非常に限られている。 本稿では,この制限を克服し,BIBD勾配符号の優れた性能を維持しつつ,幅広いパラメータに対して存在する勾配符号を構築することを目的とする。 そのような2つの構成法が提案され、1つは、厳密なBIBD勾配符号制約を緩和する確率的構造に基づくものであり、もう1つは既存の勾配符号のKronecker積を取ることに基づくものである。 最悪の逆行シナリオに対する理論的誤差境界が導出される。 シミュレーションにより,提案手法はデータ単位の冗長性に類似した既存の勾配符号よりも優れていることが示された。

Gradient coding is a coding theoretic framework to provide robustness against slow or unresponsive machines, known as stragglers, in distributed machine learning applications. Recently, Kadhe et al. proposed a gradient code based on a combinatorial design, called balanced incomplete block design (BIBD), which is shown to outperform many existing gradient codes in worst-case adversarial straggling scenarios. However, parameters for which such BIBD constructions exist are very limited. In this paper, we aim to overcome such limitations and construct gradient codes which exist for a wide range of parameters while retaining the superior performance of BIBD gradient codes. Two such constructions are proposed, one based on a probabilistic construction that relax the stringent BIBD gradient code constraints, and the other based on taking the Kronecker product of existing gradient codes. Theoretical error bounds for worst-case adversarial straggling scenarios are derived. Simulations show that the proposed constructions can outperform existing gradient codes with similar redundancy per data piece.
翻訳日:2021-05-12 15:31:03 公開日:2021-05-11
# (参考訳) 深層強化学習のためのスペクトル正規化:最適化の観点から [全文訳有]

Spectral Normalisation for Deep Reinforcement Learning: an Optimisation Perspective ( http://arxiv.org/abs/2105.05246v1 )

ライセンス: CC BY 4.0
Florin Gogianu and Tudor Berariu, Mihaela Rosca, Claudia Clopath, Lucian Busoniu, Razvan Pascanu(参考訳) 最近の深層強化学習の進歩のほとんどは、RL中心の視点で、訓練目標の洗練に焦点を当てている。 我々はこの見解から逸脱し、目的を変更するのではなく、価値関数推定器を定式化することで、これらの開発のパフォーマンスを回復できることを示した。 スペクトル正規化を用いた単一層のリプシッツ定数の制約は、カテゴリー-DQNエージェントの性能を、挑戦的なアタリ領域上のより精巧な 'rainbow{} エージェントの性能に高めるのに十分である。 本研究は,正規化が学習ダイナミクスに与える影響を解消するためにアブレーション研究を行い,スペクトル正規化の性能のほとんどを回復するためにパラメータ更新を変調するのに十分であることを示す。 これらの結果は、深層強化学習の特異性に取り組むために、神経成分とその学習ダイナミクスにも注目する必要があることを示唆する。

Most of the recent deep reinforcement learning advances take an RL-centric perspective and focus on refinements of the training objective. We diverge from this view and show we can recover the performance of these developments not by changing the objective, but by regularising the value-function estimator. Constraining the Lipschitz constant of a single layer using spectral normalisation is sufficient to elevate the performance of a Categorical-DQN agent to that of a more elaborated \rainbow{} agent on the challenging Atari domain. We conduct ablation studies to disentangle the various effects normalisation has on the learning dynamics and show that is sufficient to modulate the parameter updates to recover most of the performance of spectral normalisation. These findings hint towards the need to also focus on the neural component and its learning dynamics to tackle the peculiarities of Deep Reinforcement Learning.
翻訳日:2021-05-12 14:57:54 公開日:2021-05-11
# 画像合成における拡散モデルビートgans

Diffusion Models Beat GANs on Image Synthesis ( http://arxiv.org/abs/2105.05233v1 )

ライセンス: Link先を確認
Prafulla Dhariwal, Alex Nichol(参考訳) 拡散モデルでは,現在の生成モデルよりも画像サンプルの品質が向上することを示す。 我々は,一連のアブレーションにより,より優れたアーキテクチャを求めることにより,無条件画像合成においてこれを実現する。 条件付き画像合成では、分類器からの勾配を用いて、サンプル品質の多様性をトレードオフする単純で計算効率のよい方法である分類器ガイダンスにより、サンプル品質をさらに改善する。 ImageNet $128 \times 128$, 4.59 on ImageNet $256 \times 256$, and 7.72$ on ImageNet 5,12 \times 512$のFIDを達成しました。 最後に、分類器のガイダンスはアップサンプリング拡散モデルとうまく結合し、ImageNet 512 \times 512$でFIDを3.85に改善する。 コードをhttps://github.com/o penai/guided-diffusi onでリリースします。

We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for sample quality using gradients from a classifier. We achieve an FID of 2.97 on ImageNet $128 \times 128$, 4.59 on ImageNet $256 \times 256$, and $7.72$ on ImageNet $512 \times 512$, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.85 on ImageNet $512 \times 512$. We release our code at https://github.com/o penai/guided-diffusi on
翻訳日:2021-05-12 14:11:40 公開日:2021-05-11
# 自然言語処理における手話を含む

Including Signed Languages in Natural Language Processing ( http://arxiv.org/abs/2105.05222v1 )

ライセンス: Link先を確認
Kayo Yin, Amit Moryossef, Julie Hochgesang, Yoav Goldberg, Malihe Alikhani(参考訳) 署名された言語は多くの難聴者や難聴者にとってコミュニケーションの主要な手段である。 署名された言語は自然言語の基本的な言語的性質を全て示しているので、自然言語処理(nlp)のツールと理論はそのモデリングに不可欠であると信じている。 しかし、手話処理(slp)における既存の研究は、手話言語の言語構造の研究と活用をほとんど試みていない。 本研究は, nlpコミュニティに対して, 高い社会的, 科学的影響を有する研究分野として, 署名言語を含めるよう呼びかけている。 まず,そのモデル化時に考慮すべき符号付き言語の言語特性について論じる。 次に、現在のSLPモデルの限界を概観し、NLPを符号付き言語に拡張するためのオープンな課題を特定する。 最後に,(1)効率的なトークン化手法の採用,(2)言語的に変形したモデルの開発,(3)実世界の署名言語データの収集,(4)現地の署名言語コミュニティを研究の方向性において活発かつ指導的な声として含むこと,を要請する。

Signed languages are the primary means of communication for many deaf and hard of hearing individuals. Since signed languages exhibit all the fundamental linguistic properties of natural language, we believe that tools and theories of Natural Language Processing (NLP) are crucial towards its modeling. However, existing research in Sign Language Processing (SLP) seldom attempt to explore and leverage the linguistic organization of signed languages. This position paper calls on the NLP community to include signed languages as a research area with high social and scientific impact. We first discuss the linguistic properties of signed languages to consider during their modeling. Then, we review the limitations of current SLP models and identify the open challenges to extend NLP to signed languages. Finally, we urge (1) the adoption of an efficient tokenization method; (2) the development of linguistically-infor med models; (3) the collection of real-world signed language data; (4) the inclusion of local signed language communities as an active and leading voice in the direction of research.
翻訳日:2021-05-12 14:11:05 公開日:2021-05-11
# ダウンスケール(それほど大きくない)事前訓練言語モデルのベンチマーク

Benchmarking down-scaled (not so large) pre-trained language models ( http://arxiv.org/abs/2105.04876v1 )

ライセンス: Link先を確認
M. A{\ss}enmacher, P. Schulze, C. Heumann(参考訳) 大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。 同時に、事前訓練対象やアーキテクチャハイパーパラメータといった、より基本的なコンポーネントも修正される。 したがって、パフォーマンスの変化を特定の要因に割り当てることは困難である。 フルシステム上でハイパーパラメータ空間を探索するにはコストがかかりすぎるため、一般的な事前トレーニングコーパス上で人気のあるTransformerベースのアーキテクチャのダウンスケールバージョンを事前トレーニングし、GLUEタスクのサブセットでベンチマークする(Wang et al., 2018)。 具体的には,3つの事前学習対象を異なる形状パラメータとモデルサイズで体系的に比較するとともに,事前学習ステップ数とバッチサイズも比較した。 MLM + NSP (BERT-style) はMLM(RoBERTa-style) と標準のLM目標を一貫して上回ります。 さらに,さらなるステップのトレーニングは非効率であるのに対して,追加の計算はモデルサイズの増加に主に割り当てるべきである。 これらの観察に基づいて、最後のステップとして、トランスフォーマティブベースの言語モデルに適合した複合スケーリング(tanとle、2019)を使用して、いくつかのシステムをスケールアップすることを試みる。

Large Transformer-based language models are pre-trained on corpora of varying sizes, for a different number of steps and with different batch sizes. At the same time, more fundamental components, such as the pre-training objective or architectural hyperparameters, are modified. In total, it is therefore difficult to ascribe changes in performance to specific factors. Since searching the hyperparameter space over the full systems is too costly, we pre-train down-scaled versions of several popular Transformer-based architectures on a common pre-training corpus and benchmark them on a subset of the GLUE tasks (Wang et al., 2018). Specifically, we systematically compare three pre-training objectives for different shape parameters and model sizes, while also varying the number of pre-training steps and the batch size. In our experiments MLM + NSP (BERT-style) consistently outperforms MLM (RoBERTa-style) as well as the standard LM objective. Furthermore, we find that additional compute should be mainly allocated to an increased model size, while training for more steps is inefficient. Based on these observations, as a final step we attempt to scale up several systems using compound scaling (Tan and Le, 2019) adapted to Transformer-based language models.
翻訳日:2021-05-12 14:10:47 公開日:2021-05-11
# VICReg: 自己監督型学習のための分散不変共分散正規化

VICReg: Variance-Invariance- Covariance Regularization for Self-Supervised Learning ( http://arxiv.org/abs/2105.04906v1 )

ライセンス: Link先を確認
Adrien Bardes and Jean Ponce and Yann LeCun(参考訳) 画像表現学習における近年の自己指導的手法は,同じ画像の異なる視点からの埋め込みベクトル間の一致を最大化することに基づいている。 エンコーダが定数ベクトルを出力すると自明な解が得られる。 この崩壊問題は、しばしば学習アーキテクチャにおける暗黙のバイアスによって避けられ、明確な正当化や解釈が欠けている。 本稿では,各次元に沿った埋め込みの分散に関する単純な正規化項で,崩壊問題を明示的に回避するVICReg(可変不変共分散正規化)を導入する。 VICRegは、分散項と、冗長化と共分散正則化に基づくデコリレーション機構を結合し、複数の下流タスクにおけるアートの状態と同等の結果を得る。 さらに,新たな分散項を他の手法に組み込むことによって,トレーニングの安定化と性能向上につながることを示す。

Recent self-supervised methods for image representation learning are based on maximizing the agreement between embedding vectors from different views of the same image. A trivial solution is obtained when the encoder outputs constant vectors. This collapse problem is often avoided through implicit biases in the learning architecture, that often lack a clear justification or interpretation. In this paper, we introduce VICReg (Variance-Invariance -Covariance Regularization), a method that explicitly avoids the collapse problem with a simple regularization term on the variance of the embeddings along each dimension individually. VICReg combines the variance term with a decorrelation mechanism based on redundancy reduction and covariance regularization, and achieves results on par with the state of the art on several downstream tasks. In addition, we show that incorporating our new variance term into other methods helps stabilize the training and leads to performance improvements.
翻訳日:2021-05-12 14:10:09 公開日:2021-05-11
# 勾配リワイリングによるディープスパイクニューラルネットワークのプルーニング

Pruning of Deep Spiking Neural Networks through Gradient Rewiring ( http://arxiv.org/abs/2105.04916v1 )

ライセンス: Link先を確認
Yanqi Chen, Zhaofei Yu, Wei Fang, Tiejun Huang and Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)は、その生物学的妥当性とニューロモルフィックチップの高エネルギー効率により、非常に重要視されている。 これらのチップは通常、資源に制約があるため、SNNの圧縮は、SNNの実用的な利用の道程において不可欠である。 既存のほとんどの手法は、ANNとSNNの違いを無視した人工ニューラルネットワーク(ANN)にプルーニングアプローチを直接適用することで、プルーニングされたSNNの性能を制限している。 また,これらの手法は浅いSNNにのみ適している。 本稿では,ニューラルネットワークにおけるシナプト生成とシナプス除去に触発されて,ネットワーク構造を無訓練でシームレスに最適化可能な,snsの接続性と重みの合同学習アルゴリズムgradrを提案する。 我々の重要な革新は、新しいシナプスパラメータへの勾配を再定義し、接続の切断と再成長の競合を最大限に活用することで、ネットワーク構造のより良い探索を可能にすることです。 実験の結果,提案手法はMNISTおよびCIFAR-10データセット上でのSNNの性能低下を最小限に抑えることができた。 さらに、前例のない0.73%接続で$\sim$3.5%の精度損失を達成し、SNNにおける顕著な構造精錬能力を示している。 我々の研究は、深部SNNには極めて高い冗長性が存在することを示唆している。 我々のコードは \url{https://github.com/Y anqi-Chen/Gradient-R ewiring} で利用可能です。

Spiking Neural Networks (SNNs) have been attached great importance due to their biological plausibility and high energy-efficiency on neuromorphic chips. As these chips are usually resource-constrained , the compression of SNNs is thus crucial along the road of practical use of SNNs. Most existing methods directly apply pruning approaches in artificial neural networks (ANNs) to SNNs, which ignore the difference between ANNs and SNNs, thus limiting the performance of the pruned SNNs. Besides, these methods are only suitable for shallow SNNs. In this paper, inspired by synaptogenesis and synapse elimination in the neural system, we propose gradient rewiring (Grad R), a joint learning algorithm of connectivity and weight for SNNs, that enables us to seamlessly optimize network structure without retrain. Our key innovation is to redefine the gradient to a new synaptic parameter, allowing better exploration of network structures by taking full advantage of the competition between pruning and regrowth of connections. The experimental results show that the proposed method achieves minimal loss of SNNs' performance on MNIST and CIFAR-10 dataset so far. Moreover, it reaches a $\sim$3.5% accuracy loss under unprecedented 0.73% connectivity, which reveals remarkable structure refining capability in SNNs. Our work suggests that there exists extremely high redundancy in deep SNNs. Our codes are available at \url{https://github.com/Y anqi-Chen/Gradient-R ewiring}.
翻訳日:2021-05-12 14:09:54 公開日:2021-05-11
# AdaMML:効率的なビデオ認識のための適応型マルチモーダル学習

AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition ( http://arxiv.org/abs/2105.05165v1 )

ライセンス: Link先を確認
Rameswar Panda, Chun-Fu (Richard) Chen, Quanfu Fan, Ximeng Sun, Kate Saenko, Aude Oliva, Rogerio Feris(参考訳) モデルの性能向上に様々なモダリティを活用するマルチモーダル学習は,ビデオ認識において広く利用されている。 従来のマルチモーダル学習は優れた認識結果を提供するが、計算コストは現実世界の多くのアプリケーションに対する影響を制限する。 本稿では,入力に条件づけされたセグメント毎に最適なモダリティをオンザフライで選択し,効率的な映像認識を実現する適応型マルチモーダル学習フレームワークadammlを提案する。 具体的には、ビデオセグメントが与えられると、マルチモーダルポリシネットワークを使用して、認識モデルによる処理に使用するモダリティを判断し、精度と効率の両立を目標とする。 標準バックプロパゲーションを用いた認識モデルと協調してポリシーネットワークを効率的に訓練する。 4つの挑戦的な多種多様なデータセットに対する広範囲な実験により、提案手法は、入力によらずすべてのモダリティを単純に使用する従来のベースラインと比較して35%-55%の計算削減を実現し、また最先端の手法よりも精度が一貫した改善を実現した。

Multi-modal learning, which focuses on utilizing various modalities to improve the performance of a model, is widely used in video recognition. While traditional multi-modal learning offers excellent recognition results, its computational expense limits its impact for many real-world applications. In this paper, we propose an adaptive multi-modal learning framework, called AdaMML, that selects on-the-fly the optimal modalities for each segment conditioned on the input for efficient video recognition. Specifically, given a video segment, a multi-modal policy network is used to decide what modalities should be used for processing by the recognition model, with the goal of improving both accuracy and efficiency. We efficiently train the policy network jointly with the recognition model using standard back-propagation. Extensive experiments on four challenging diverse datasets demonstrate that our proposed adaptive approach yields 35%-55% reduction in computation when compared to the traditional baseline that simply uses all the modalities irrespective of the input, while also achieving consistent improvements in accuracy over the state-of-the-art methods.
翻訳日:2021-05-12 14:09:29 公開日:2021-05-11
# 対物行動モデリングのための視覚的視点

Visual Perspective Taking for Opponent Behavior Modeling ( http://arxiv.org/abs/2105.05145v1 )

ライセンス: Link先を確認
Boyuan Chen, Yuhang Hu, Robert Kwiatkowski, Shuran Song, Hod Lipson(参考訳) 複雑な社会的相互作用に取り組むために、人間は若い時に学習し、他人が見ているものや見えないものを異なる視点から推測し、他人の計画や行動を予測することを学ぶ。 これらの能力はロボットにはほとんど欠けており、時にはぎこちなく社会的に不適当に見える。 本稿では,ロボットがこれらの重要な認知的スキル,すなわち視覚視点撮影(vpt)と行動理論(tob)の双方を習得し始めるための,エンドツーエンドの長期視覚予測フレームワークを提案する。 私たちは、人間の発達における認知的なマイルストーンを表すゲームである視覚的隠れと探究の文脈で、私たちのアプローチを実証します。 過去のフレームから新しいフレームを生成する従来の視覚的予測モデルとは異なり、エージェントはトレーニングの地平線を175%超過して、複数の将来のタイムスタンプ(25秒)を直接予測することができる。 我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。 私たちのウェブサイトはhttp://www.cs.columb ia.edu/~bchen/vpttob /です。

In order to engage in complex social interaction, humans learn at a young age to infer what others see and cannot see from a different point-of-view, and learn to predict others' plans and behaviors. These abilities have been mostly lacking in robots, sometimes making them appear awkward and socially inept. Here we propose an end-to-end long-term visual prediction framework for robots to begin to acquire both these critical cognitive skills, known as Visual Perspective Taking (VPT) and Theory of Behavior (TOB). We demonstrate our approach in the context of visual hide-and-seek - a game that represents a cognitive milestone in human development. Unlike traditional visual predictive model that generates new frames from immediate past frames, our agent can directly predict to multiple future timestamps (25s), extrapolating by 175% beyond the training horizon. We suggest that visual behavior modeling and perspective taking skills will play a critical role in the ability of physical robots to fully integrate into real-world multi-agent activities. Our website is at http://www.cs.columb ia.edu/~bchen/vpttob /.
翻訳日:2021-05-12 14:09:09 公開日:2021-05-11
# ユーモア検出のための深部ニューラルネットワークによるbertからの抽出情報と複数埋め込み手法の統合

Integrating extracted information from bert and multiple embedding methods with the deep neural network for humour detection ( http://arxiv.org/abs/2105.05112v1 )

ライセンス: Link先を確認
Rida Miraj, Masaki Aono(参考訳) 文からのユーモアの検出は、ここ数年で興味深い課題だった。 ユーモア検出を強調するために、ほとんどの研究は従来の埋め込み手法(例えばWord2VecやGlove)を用いて行われた。 最近、bert文の埋め込みもこのタスクに使われている。 本稿では,ニュース見出しから抽出した短文のユーモア検出のための枠組みを提案する。 提案するフレームワーク(IBEN)は,BERTの異なるレイヤを用いてテキストから情報を抽出する。 数回の試験の後、重量はBERTモデルの異なる層に割り当てられた。 抽出された情報は埋め込みマトリクスとしてbi-gruニューラルネットワークに送信される。 我々は外部埋め込みモデルの特性を利用した。 ニューラルネットワークのマルチカーネル畳み込みも高レベルな文表現の抽出に利用した。 このフレームワークは、ユーモア検出のタスクで非常にうまく機能した。

Humour detection from sentences has been an interesting and challenging task in the last few years. In attempts to highlight humour detection, most research was conducted using traditional approaches of embedding, e.g., Word2Vec or Glove. Recently BERT sentence embedding has also been used for this task. In this paper, we propose a framework for humour detection in short texts taken from news headlines. Our proposed framework (IBEN) attempts to extract information from written text via the use of different layers of BERT. After several trials, weights were assigned to different layers of the BERT model. The extracted information was then sent to a Bi-GRU neural network as an embedding matrix. We utilized the properties of some external embedding models. A multi-kernel convolution in our neural network was also employed to extract higher-level sentence representations. This framework performed very well on the task of humour detection.
翻訳日:2021-05-12 14:08:39 公開日:2021-05-11
# 教師なしドメイン適応人物再同定のためのグラフ一貫性に基づく平均指導

Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2105.04776v1 )

ライセンス: Link先を確認
Xiaobin Liu, Shiliang Zhang(参考訳) 近年の研究では、平均学習は教師なしドメイン適応型人物再同定に有効なフレームワークであることが示されている。 しかし,既存の手法では,教師と学生のネットワーク間の選択したサンプルに対して,擬似ラベルのノイズに敏感なコントラスト学習を行い,ほとんどのサンプル間の関係を無視する。 さらに、これらの手法は異なる教師ネットワークの協調に有効ではない。 これらの問題に対処するために,教師と学生のネットワーク間のグラフ一貫性制約を構築するGCMT法を提案する。 具体的には,教師ネットワークを用いて対応する特徴を抽出し,教師ネットワーク毎に教師グラフを作成し,学習画像間の類似性を記述する。 表現学習を強化するために、異なる教師グラフを融合させ、生徒ネットワークを最適化するための監督信号を提供する。 GCMTは、教師ネットワークによって予測される類似性関係を監督として融合し、より多くのサンプル関係を持つ学生ネットワークを効果的に最適化する。 マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。 特にGCMTは、より深いバックボーンを使用する以前のメソッドよりも優れています。 実験の結果、gcmtは、複数の教師と学生ネットワークのパフォーマンスを効果的に向上できることが示された。 私たちのコードはhttps://github.com/l iu-xb/GCMTで利用可能です。

Recent works show that mean-teaching is an effective framework for unsupervised domain adaptive person re-identification. However, existing methods perform contrastive learning on selected samples between teacher and student networks, which is sensitive to noises in pseudo labels and neglects the relationship among most samples. Moreover, these methods are not effective in cooperation of different teacher networks. To handle these issues, this paper proposes a Graph Consistency based Mean-Teaching (GCMT) method with constructing the graph consistency constraint between teacher and student networks. Specifically, given unlabeled training images, we apply teacher networks to extract corresponding features and further construct a teacher graph for each teacher network to describe the similarity relationships among training images. To boost the representation learning, different teacher graphs are fused to provide the supervise signal for optimizing student networks. GCMT fuses similarity relationships predicted by different teacher networks as supervision and effectively optimizes student networks with more sample relationships involved. Experiments on three datasets, i.e., Market-1501, DukeMTMCreID, and MSMT17, show that proposed GCMT outperforms state-of-the-art methods by clear margin. Specially, GCMT even outperforms the previous method that uses a deeper backbone. Experimental results also show that GCMT can effectively boost the performance with multiple teacher and student networks. Our code is available at https://github.com/l iu-xb/GCMT .
翻訳日:2021-05-12 14:08:29 公開日:2021-05-11
# ELアテンション: 生成のためのメモリ効率の良いロスレスアテンション

EL-Attention: Memory Efficient Lossless Attention for Generation ( http://arxiv.org/abs/2105.04779v1 )

ライセンス: Link先を確認
Yu Yan, Jiusheng Chen, Weizhen Qi, Nikhil Bhendawade, Yeyun Gong, Nan Duan and Ruofei Zhang(参考訳) マルチヘッド注意を伴うトランスフォーマーモデルは、生成タスクの効率的な推論のために中間結果をキャッシュする必要がある。 しかし、キャッシュは新しいメモリ関連のコストをもたらし、より高速なバッチサイズを活用するのを防ぐ。 この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。 キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。 el-attentionは、キーと値を共有しながらクエリを拡張することによって、注意結果のアンサンブルを構築する。 これは、GPUメモリが少なく、推論速度が速いマルチヘッドアテンションと同じ結果をもたらす。 要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。 その結果、ELアテンションは精度を失うことなく既存のモデルを1.6倍から5.3倍に高速化した。

Transformer model with multi-head attention requires caching intermediate results for efficient inference in generation tasks. However, cache brings new memory-related costs and prevents leveraging larger batch size for faster speed. We propose memory-efficient lossless attention (called EL-attention) to address this issue. It avoids heavy operations for building multi-head keys and values, with no requirements of using cache. EL-attention constructs an ensemble of attention results by expanding query while keeping key and value shared. It produces the same result as multi-head attention with less GPU memory and faster inference speed. We conduct extensive experiments on Transformer, BART, and GPT-2 for summarization and question generation tasks. The results show EL-attention speeds up existing models by 1.6x to 5.3x without accuracy loss.
翻訳日:2021-05-12 14:08:06 公開日:2021-05-11
# 概念による合理化

Rationalization through Concepts ( http://arxiv.org/abs/2105.04837v1 )

ライセンス: Link先を確認
Diego Antognini and Boi Faltings(参考訳) 自動予測は人間によって解釈される説明を必要とする。 説明の1つのタイプは理性であり、すなわち、モデルが結果を計算するための関連するテキストスニペットのような入力機能の選択である。 しかし、単一の全体選択は、例えば、決定のためのいくつかの側面を重んじるなど、完全な説明を提供しない。 そこで本研究では,ConRATと呼ばれる自己解釈モデルを提案する。 高レベルの決定のための人間の説明が鍵となる概念に基づいていることにインスパイアされたConRATは、テキストスニペットのセットを概念として抽出し、ドキュメントに記述されているものを推測する。 そして、概念を線形に集約して結果を説明する。 2つの正規化器がConRATを駆動して解釈可能な概念を構築する。 さらに,理論的および予測的性能をさらに向上する2つの手法を提案する。 単視点と多視点の両方の感情分類タスクの実験は、ConRATが全体ラベルのみを使用しながら人間の合理化と整合する概念を初めて生成したことを示している。 さらに、各アスペクトラベルで独立にトレーニングされた最先端のメソッドよりも優れています。

Automated predictions require explanations to be interpretable by humans. One type of explanation is a rationale, i.e., a selection of input features such as relevant text snippets from which the model computes the outcome. However, a single overall selection does not provide a complete explanation, e.g., weighing several aspects for decisions. To this end, we present a novel self-interpretable model called ConRAT. Inspired by how human explanations for high-level decisions are often based on key concepts, ConRAT extracts a set of text snippets as concepts and infers which ones are described in the document. Then, it explains the outcome with a linear aggregation of concepts. Two regularizers drive ConRAT to build interpretable concepts. In addition, we propose two techniques to boost the rationale and predictive performance further. Experiments on both single- and multi-aspect sentiment classification tasks show that ConRAT is the first to generate concepts that align with human rationalization while using only the overall label. Further, it outperforms state-of-the-art methods trained on each aspect label independently.
翻訳日:2021-05-12 14:07:56 公開日:2021-05-11
# 音声言語理解のための共同テキストとラベル生成

Joint Text and Label Generation for Spoken Language Understanding ( http://arxiv.org/abs/2105.05052v1 )

ライセンス: Link先を確認
Yang Li, Ben Athiwaratkun, Cicero Nogueira dos Santos, Bing Xiang(参考訳) 一般化は機械学習の中心的な問題であり、特にデータが制限されている場合である。 制約を強制するために事前情報を使用することが、一般化を促進する原則である。 本稿では,事前学習型言語モデル(lm)に埋め込まれた事前情報を活用して,意図分類の一般化とスロットラベリングタスクを限定的なトレーニングデータで改善することを提案する。 具体的には,事前学習したLMから,事前知識を暗黙的に符号化した合成データとして抽出する。 テキストだけでなく、インテントラベルとスロットラベルの両方をエンコードする拡張言語を生成するために、LMを微調整する。 生成された合成データは、後に分類器のトレーニングに使用できる。 生成したデータはノイズを含む可能性があるため、生成したデータからの学習をノイズラベルによる学習として言い換える。 次に、ミキシングアウト正規化を分類器に利用し、生成データ中のラベルノイズに抵抗する効果を示す。 実験的に,本手法は優れた性能を示し,ベースラインを大きなマージンで上回る性能を示す。

Generalization is a central problem in machine learning, especially when data is limited. Using prior information to enforce constraints is the principled way of encouraging generalization. In this work, we propose to leverage the prior information embedded in pretrained language models (LM) to improve generalization for intent classification and slot labeling tasks with limited training data. Specifically, we extract prior knowledge from pretrained LM in the form of synthetic data, which encode the prior implicitly. We fine-tune the LM to generate an augmented language, which contains not only text but also encodes both intent labels and slot labels. The generated synthetic data can be used to train a classifier later. Since the generated data may contain noise, we rephrase the learning from generated data as learning with noisy labels. We then utilize the mixout regularization for the classifier and prove its effectiveness to resist label noise in generated data. Empirically, our method demonstrates superior performance and outperforms the baseline by a large margin.
翻訳日:2021-05-12 14:07:40 公開日:2021-05-11
# 準双対ギャップによるGAN収束特性

Characterizing GAN Convergence Through Proximal Duality Gap ( http://arxiv.org/abs/2105.04801v1 )

ライセンス: Link先を確認
Sahil Sidheekh, Aroof Aimen, Narayanan C. Krishnan(参考訳) データ分散のモデリングにおけるGAN(Generative Adversarial Networks)の成果にもかかわらず、それらをトレーニングすることは依然として難しい課題である。 この困難に寄与する要因は、GAN損失曲線の直観的でない性質であり、これはトレーニングの進捗を推測するために生成された出力の主観的な評価を必要とする。 近年、ゲーム理論に動機付けられ、GANトレーニングを監視するための領域に依存しない尺度として双対性ギャップが提案されている。 しかし、GANがナッシュ平衡に収束するときの設定に制限される。 しかし、ganは必ずしもデータ分布をモデル化するためにnash平衡に収束する必要はない。 本研究では,nash平衡が存在しないgans訓練の一般的な文脈に適用可能な近近双対性ギャップへの双対性ギャップの概念を拡張する。 理論的には、近近双対性ギャップはganの収束をnash平衡を仮定するより広い平衡スペクトルにモニターすることができる。 また理論上は, 近近双対性ギャップと, 実データ分布と生成データ分布との差との関係を, 異なるgan定式化に対して確立する。 本結果は, GAN収束の性質に関する新たな知見を提供する。 最後に,GANトレーニングの監視および影響に対する近位双対性ギャップの有用性を実験的に検証した。

Despite the accomplishments of Generative Adversarial Networks (GANs) in modeling data distributions, training them remains a challenging task. A contributing factor to this difficulty is the non-intuitive nature of the GAN loss curves, which necessitates a subjective evaluation of the generated output to infer training progress. Recently, motivated by game theory, duality gap has been proposed as a domain agnostic measure to monitor GAN training. However, it is restricted to the setting when the GAN converges to a Nash equilibrium. But GANs need not always converge to a Nash equilibrium to model the data distribution. In this work, we extend the notion of duality gap to proximal duality gap that is applicable to the general context of training GANs where Nash equilibria may not exist. We show theoretically that the proximal duality gap is capable of monitoring the convergence of GANs to a wider spectrum of equilibria that subsumes Nash equilibria. We also theoretically establish the relationship between the proximal duality gap and the divergence between the real and generated data distributions for different GAN formulations. Our results provide new insights into the nature of GAN convergence. Finally, we validate experimentally the usefulness of proximal duality gap for monitoring and influencing GAN training.
翻訳日:2021-05-12 14:07:28 公開日:2021-05-11
# unbounded lossを用いたスペクトルリスクに基づく学習

Spectral risk-based learning using unbounded losses ( http://arxiv.org/abs/2105.04816v1 )

ライセンス: Link先を確認
Matthew J. Holland, El Mehdi Haress(参考訳) 本研究では,スペクトルリスク (l-risk) 関数の幅広いクラスにおいて,リプシッツ連続スペクトル密度を用いて最大損失値に柔軟に重みを割り当てる学習問題の設定を考える。 非有界重み付き損失分布下での微分自由学習手法の過剰なリスク保証を求め、スペクトルリスクと誤分類誤差のバランスで従来のリスク最小化器を実証的に上回る計算効率の良い実装を提案する。

In this work, we consider the setting of learning problems under a wide class of spectral risk (or "L-risk") functions, where a Lipschitz-continuous spectral density is used to flexibly assign weight to extreme loss values. We obtain excess risk guarantees for a derivative-free learning procedure under unbounded heavy-tailed loss distributions, and propose a computationally efficient implementation which empirically outperforms traditional risk minimizers in terms of balancing spectral risk and misclassification error.
翻訳日:2021-05-12 14:06:10 公開日:2021-05-11
# オルソノーマ化による分子グラフニューラルネットワークの説明可能性の向上とスパシティ

Improving Molecular Graph Neural Network Explainability with Orthonormalization and Induced Sparsity ( http://arxiv.org/abs/2105.04854v1 )

ライセンス: Link先を確認
Ryan Henderson, Djork-Arn\'e Clevert, Floriane Montanari(参考訳) 分子のどの部分が分子グラフ畳み込みニューラルネットワーク(GCNN)の予測を駆動するかの合理化は困難である。 本稿では,GCNNのトレーニングにおいて,BRO(Batch Representation Orthonormalization)とGini regularization(Gini regularization)という2つの単純な正規化手法を提案する。 分子軌道理論にインスパイアされたBROは、グラフ畳み込み演算を奨励し、正規直交ノード埋め込みを生成する。 ギニ正規化は出力層の重みに適用され、モデルが予測するために使える次元の数を制約する。 本稿では,Gini と BRO の正規化により,最新のGCNN 属性法の精度が向上することを示す。 現実の環境では、薬理学者は正規化モデルから抽出した説明をかなり好んでいる。 我々はこれらの正規化器をGCNNの文脈でのみ研究するが、どちらも他のタイプのニューラルネットワークに適用できる。

Rationalizing which parts of a molecule drive the predictions of a molecular graph convolutional neural network (GCNN) can be difficult. To help, we propose two simple regularization techniques to apply during the training of GCNNs: Batch Representation Orthonormalization (BRO) and Gini regularization. BRO, inspired by molecular orbital theory, encourages graph convolution operations to generate orthonormal node embeddings. Gini regularization is applied to the weights of the output layer and constrains the number of dimensions the model can use to make predictions. We show that Gini and BRO regularization can improve the accuracy of state-of-the-art GCNN attribution methods on artificial benchmark datasets. In a real-world setting, we demonstrate that medicinal chemists significantly prefer explanations extracted from regularized models. While we only study these regularizers in the context of GCNNs, both can be applied to other types of neural networks
翻訳日:2021-05-12 14:06:00 公開日:2021-05-11
# Debuggable Deep Network のためのスパース線形層の利用

Leveraging Sparse Linear Layers for Debuggable Deep Networks ( http://arxiv.org/abs/2105.04857v1 )

ライセンス: Link先を確認
Eric Wong, Shibani Santurkar, Aleksander M\k{a}dry(参考訳) 学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。 これらのネットワークは、数値と人間の実験を通して定量的に示すように、人間の解釈に適している一方で、非常に正確である。 さらに,結果として生じるスパース説明は,スパース相関の同定,誤分類の説明,視覚や言語タスクにおけるモデルのバイアスの診断にどのように役立つかを示す。 ツールキットのコードはhttps://github.com/m adrylab/debuggablede epnetworks.orgにある。

We show how fitting sparse linear models over learned deep feature representations can lead to more debuggable neural networks. These networks remain highly accurate while also being more amenable to human interpretation, as we demonstrate quantiatively via numerical and human experiments. We further illustrate how the resulting sparse explanations can help to identify spurious correlations, explain misclassifications, and diagnose model biases in vision and language tasks. The code for our toolkit can be found at https://github.com/m adrylab/debuggablede epnetworks.
翻訳日:2021-05-12 14:05:44 公開日:2021-05-11
# パラメトリックプログラミングによる一般化ラッソのより強力な条件選択推論

More Powerful Conditional Selective Inference for Generalized Lasso by Parametric Programming ( http://arxiv.org/abs/2105.04920v1 )

ライセンス: Link先を確認
Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 条件付き選択的推論(si)は、データ駆動仮説の新しい統計推論フレームワークとして研究されてきた。 条件付きSIの基本的な概念は、データに基づいて仮説が選択された場合でも正確な統計的推測を行えるように、選択イベントに推論条件を付けることである。 条件付きSIは主にバニラ・ラッソや一般化・ラッソのようなモデル選択の文脈で研究されている。 既存のアプローチの主な制限は、計算の扱いやすさに必要なオーバーコンディショニングによる統計力の低下である。 本研究では,一般化ラッソを含む二次パラメトリックプログラミングに変換可能な問題のクラスに対して,より強力で一般的な条件付きSI法を提案する。 鍵となる概念は、選択されたテスト統計の方向に最適な解の連続経路を計算し、解経路に従うことによってモデル選択イベントに対応するデータ空間のサブセットを識別することである。 提案手法は,上述したオーバーコンディショニングの大きな欠点を回避するだけでなく,様々な点においてSIの性能と実用性を向上させる。 提案手法の有効性と有効性を示すため,いくつかの実験を行った。

Conditional selective inference (SI) has been studied intensively as a new statistical inference framework for data-driven hypotheses. The basic concept of conditional SI is to make the inference conditional on the selection event, which enables an exact and valid statistical inference to be conducted even when the hypothesis is selected based on the data. Conditional SI has mainly been studied in the context of model selection, such as vanilla lasso or generalized lasso. The main limitation of existing approaches is the low statistical power owing to over-conditioning, which is required for computational tractability. In this study, we propose a more powerful and general conditional SI method for a class of problems that can be converted into quadratic parametric programming, which includes generalized lasso. The key concept is to compute the continuum path of the optimal solution in the direction of the selected test statistic and to identify the subset of the data space that corresponds to the model selection event by following the solution path. The proposed parametric programming-based method not only avoids the aforementioned major drawback of over-conditioning, but also improves the performance and practicality of SI in various respects. We conducted several experiments to demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2021-05-12 14:05:35 公開日:2021-05-11
# サロゲート支援アクティブサブスペースとアクティブサブスペースアシストサロゲート-高次元構造信頼性解析のための新しいパラダイム

Surrogate assisted active subspace and active subspace assisted surrogate -- A new paradigm for high dimensional structural reliability analysis ( http://arxiv.org/abs/2105.04979v1 )

ライセンス: Link先を確認
Nananeeth N. and Souvik Chakraborty(参考訳) 複雑なシステムにおける信頼性解析は、しばしば計算コストがかかる。 特に,高入力次元のシステムを扱う場合,信頼性評価は大変な作業となる。 時間消費と高価な評価に関連する問題を克服するための一般的なアプローチは、代理モデルの構築である。 しかし、これらの計算効率の良いモデルはしばしば次元の呪いに苦しむ。 したがって、高次元問題に対する代理モデルのトレーニングは簡単ではない。 そこで本稿では,高次元信頼性解析問題を解くための枠組みを提案する。 基本前提は、活性部分空間アルゴリズムを用いて発見された低次元多様体上の代理モデルを訓練することである。 しかし、アクティブ部分空間を用いた低次元多様体の学習は、応答変数の勾配に関する情報を必要とするため、非自明である。 そこで本研究では,sparse active subspace (sas) アルゴリズムを用いて,sparse active subspace (sas) アルゴリズムを提案する。 SASを用いて同定された低次元多様体に高次元入力を投影する。 高忠実度サーロゲートモデルは、低次元多様体上の入力を出力応答にマッピングするために用いられる。 文献からの3つのベンチマーク信頼性解析問題を用いて,提案手法の有効性を示す。 その結果,既存の文献の信頼性解析手法と比較して,提案手法の精度と効率性が示唆された。

Performing reliability analysis on complex systems is often computationally expensive. In particular, when dealing with systems having high input dimensionality, reliability estimation becomes a daunting task. A popular approach to overcome the problem associated with time-consuming and expensive evaluations is building a surrogate model. However, these computationally efficient models often suffer from the curse of dimensionality. Hence, training a surrogate model for high-dimensional problems is not straightforward. Henceforth, this paper presents a framework for solving high-dimensional reliability analysis problems. The basic premise is to train the surrogate model on a low-dimensional manifold, discovered using the active subspace algorithm. However, learning the low-dimensional manifold using active subspace is non-trivial as it requires information on the gradient of the response variable. To address this issue, we propose using sparse learning algorithms in conjunction with the active subspace algorithm; the resulting algorithm is referred to as the sparse active subspace (SAS) algorithm. We project the high-dimensional inputs onto the identified low-dimensional manifold identified using SAS. A high-fidelity surrogate model is used to map the inputs on the low-dimensional manifolds to the output response. We illustrate the efficacy of the proposed framework by using three benchmark reliability analysis problems from the literature. The results obtained indicate the accuracy and efficiency of the proposed approach compared to already established reliability analysis methods in the literature.
翻訳日:2021-05-12 14:05:16 公開日:2021-05-11
# アップリフトのための双対神経モデル

A Twin Neural Model for Uplift ( http://arxiv.org/abs/2105.05146v1 )

ライセンス: Link先を確認
Mouloud Belbahri, Olivier Gandouet, Alejandro Murua and Vahid Partovi Nia(参考訳) upliftは条件付き治療効果モデリングの特別なケースである。 このようなモデルは、マーケティング介入や医療治療のような特定の要因に対する因果推論を扱う。 実際には、これらのモデルはランダム化された臨床試験の個々のデータに基づいて構築され、参加者を上昇に応じて異種グループに分割することを目標としている。 既存のアプローチのほとんどは、昇降事件に対するランダム森林の適応である。 文献ではいくつかの分割基準が提案されており、全て不均一性の最大化に依存している。 しかし実際には、これらのアプローチは過度に適合する傾向がある。 この作業では、モデリングの強化に新たなビジョンをもたらします。 本稿では,相対リスクのベイズ解釈との接続を利用して定義した新たな損失関数を提案する。 我々のソリューションは、治療と制御の個人に対する成功の限界確率を共同で最適化する、特定の双対ニューラルネットワークアーキテクチャのために開発された。 このモデルがupliftロジスティック相互作用モデルの一般化であることを示す。 我々は、構造化スパース解を許容する確率勾配降下アルゴリズムを改良する。 これは私たちのアップリフトモデルのトレーニングに大いに役立ちます。 提案手法は,シミュレーションおよび大規模ランダム化実験の実データ上での最先端技術と競合することを示す。

Uplift is a particular case of conditional treatment effect modeling. Such models deal with cause-and-effect inference for a specific factor, such as a marketing intervention or a medical treatment. In practice, these models are built on individual data from randomized clinical trials where the goal is to partition the participants into heterogeneous groups depending on the uplift. Most existing approaches are adaptations of random forests for the uplift case. Several split criteria have been proposed in the literature, all relying on maximizing heterogeneity. However, in practice, these approaches are prone to overfitting. In this work, we bring a new vision to uplift modeling. We propose a new loss function defined by leveraging a connection with the Bayesian interpretation of the relative risk. Our solution is developed for a specific twin neural network architecture allowing to jointly optimize the marginal probabilities of success for treated and control individuals. We show that this model is a generalization of the uplift logistic interaction model. We modify the stochastic gradient descent algorithm to allow for structured sparse solutions. This helps training our uplift models to a great extent. We show our proposed method is competitive with the state-of-the-art in simulation setting and on real data from large scale randomized experiments.
翻訳日:2021-05-12 14:04:33 公開日:2021-05-11
# 機械学習研究における"ドキュメント負債"への対処:BookCorpusのふりかえりデータシート

Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus ( http://arxiv.org/abs/2105.05241v1 )

ライセンス: Link先を確認
Jack Bandy, Nicholas Vincent(参考訳) 近年の文献では、機械学習におけるデータセットの文書化作業の重要性が強調されている。 本稿では,大規模言語モデルのトレーニング用テキストデータセットであるBookCorpusのドキュメント負債の解決を支援することを目的とする。 特に、研究者はBookCorpusを使ってOpenAIのGPT-NモデルとGoogleのBERTモデルをトレーニングしている。 bookcorpusに関する重要なコンテキストと情報を提供する予備データシートを提供し、いくつかの注目すべき欠陥を強調する。 特に,(1)BookCorpusは多くの書籍の著作権制限に違反している可能性,(2)BookCorpusには数千冊の複製本が含まれており,(3)BookCorpusはジャンル表現において顕著な歪を呈していることを示す。 また、問題のある内容、宗教的な表現の潜在的な歪み、偏見のない著者の貢献など、今後の研究を求める潜在的な欠陥のヒントも見つける。 さらなる作業は残っているが、bookcorpus用のデータシートを提供するこの最初の取り組みは、機械学習データセットのより慎重で体系的なドキュメントを求める文学の成長を増す。

Recent literature has underscored the importance of dataset documentation work for machine learning, and part of this work involves addressing "documentation debt" for datasets that have been used widely but documented sparsely. This paper aims to help address documentation debt for BookCorpus, a popular text dataset for training large language models. Notably, researchers have used BookCorpus to train OpenAI's GPT-N models and Google's BERT models, even though little to no documentation exists about the dataset's motivation, composition, collection process, etc. We offer a preliminary datasheet that provides key context and information about BookCorpus, highlighting several notable deficiencies. In particular, we find evidence that (1) BookCorpus likely violates copyright restrictions for many books, (2) BookCorpus contains thousands of duplicated books, and (3) BookCorpus exhibits significant skews in genre representation. We also find hints of other potential deficiencies that call for future research, including problematic content, potential skews in religious representation, and lopsided author contributions. While more work remains, this initial effort to provide a datasheet for BookCorpus adds to growing literature that urges more careful and systematic documentation for machine learning datasets.
翻訳日:2021-05-12 14:03:14 公開日:2021-05-11
# 不確実性下の自律探索のためのグラフのゼロショット強化学習

Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration Under Uncertainty ( http://arxiv.org/abs/2105.04758v1 )

ライセンス: Link先を確認
Fanfei Chen, Paul Szenher, Yewei Huang, Jinkun Wang, Tixiao Shan, Shi Bai, Brendan Englot(参考訳) 本稿では,3次元距離センサを用いた移動ロボットの局所不確実性を考慮した自律探索問題について検討する。 本研究では,単一シミュレーション環境における高性能探索政策を自己学習し,物理的あるいは仮想的な他の環境に転送する枠組みを提案する。 転送学習における最近の研究は、ドメイン適応とドメインランダム化によって、sim2simおよびsim2realアプローチの固有のギャップを埋めるシナリオにエージェントを公開するために、パフォーマンスを向上する。 しかし、ランダムな環境下でエージェントを訓練し、その状態の重要な特徴を学習するのは非効率である。 エージェントは、人間の専門家が提供するドメイン知識を使って効率的に学習することができる。 本稿では,グラフニューラルネットワークと深層強化学習を併用し,人間の専門家が提供した探索情報を含むグラフ上での意思決定を行い,信念空間におけるロボットの最適センシング行動を予測する新しい手法を提案する。 このポリシーは、単一のシミュレーション環境でのみ訓練され、リアルタイムでスケーラブルで、転送可能な意思決定戦略を提供し、その結果、他のシミュレーション環境や実際の環境にゼロショットで転送される。

This paper studies the problem of autonomous exploration under localization uncertainty for a mobile robot with 3D range sensing. We present a framework for self-learning a high-performance exploration policy in a single simulation environment, and transferring it to other environments, which may be physical or virtual. Recent work in transfer learning achieves encouraging performance by domain adaptation and domain randomization to expose an agent to scenarios that fill the inherent gaps in sim2sim and sim2real approaches. However, it is inefficient to train an agent in environments with randomized conditions to learn the important features of its current state. An agent can use domain knowledge provided by human experts to learn efficiently. We propose a novel approach that uses graph neural networks in conjunction with deep reinforcement learning, enabling decision-making over graphs containing relevant exploration information provided by human experts to predict a robot's optimal sensing action in belief space. The policy, which is trained only in a single simulation environment, offers a real-time, scalable, and transferable decision-making strategy, resulting in zero-shot transfer to other simulation environments and even real-world environments.
翻訳日:2021-05-12 14:02:31 公開日:2021-05-11
# FL-NTK:Federated Learning Convergence Analysisのためのニューラルネットワークカーネルベースのフレームワーク

FL-NTK: A Neural Tangent Kernel-based Framework for Federated Learning Convergence Analysis ( http://arxiv.org/abs/2105.05001v1 )

ライセンス: Link先を確認
Baihe Huang, Xiaoxiao Li, Zhao Song, Xin Yang(参考訳) Federated Learning(FL)は、さまざまな分散クライアントがデータ共有なしでディープニューラルネットワークをトレーニングすることを可能にする、新たな学習スキームである。 ニューラルネットワークは前例のない成功によって人気を博している。 我々の知る限りでは、明示的な形式と多段階更新を伴うニューラルネットワークに関するflの理論的保証は未検討である。 それでも、FLにおけるニューラルネットワークのトレーニング分析は、最適化している目的損失関数が非滑らかで非凸であり、第2に、勾配方向の更新すらしていない、という2つの理由から、簡単ではない。 勾配勾配に基づく手法の既存の収束結果は、勾配方向が更新に使用されるという事実に大きく依存している。 本稿では,FLの勾配勾配勾配から学習した超並列化ReLUニューラルネットワークに対応するFL-NTK(Federated Learning Neural Tangent Kernel)について,新しい収束解析法を提案する。 理論的には、FL-NTKは適切に調整された学習パラメータを持つ線形速度で大域最適解に収束する。 さらに、適切な分布仮定により、FL-NTK は良い一般化を達成できる。

Federated Learning (FL) is an emerging learning scheme that allows different distributed clients to train deep neural networks together without data sharing. Neural networks have become popular due to their unprecedented success. To the best of our knowledge, the theoretical guarantees of FL concerning neural networks with explicit forms and multi-step updates are unexplored. Nevertheless, training analysis of neural networks in FL is non-trivial for two reasons: first, the objective loss function we are optimizing is non-smooth and non-convex, and second, we are even not updating in the gradient direction. Existing convergence results for gradient descent-based methods heavily rely on the fact that the gradient direction is used for updating. This paper presents a new class of convergence analysis for FL, Federated Learning Neural Tangent Kernel (FL-NTK), which corresponds to overparamterized ReLU neural networks trained by gradient descent in FL and is inspired by the analysis in Neural Tangent Kernel (NTK). Theoretically, FL-NTK converges to a global-optimal solution at a linear rate with properly tuned learning parameters. Furthermore, with proper distributional assumptions, FL-NTK can also achieve good generalization.
翻訳日:2021-05-12 14:02:01 公開日:2021-05-11
# 解離法による一層ニューラルネットワークの解析

Analysis of One-Hidden-Layer Neural Networks via the Resolvent Method ( http://arxiv.org/abs/2105.05115v1 )

ライセンス: Link先を確認
Vanessa Piccolo and Dominik Schr\"oder(参考訳) 本研究では,非線形ランダム行列モデルの漸近的経験的スペクトル分布を解法を用いて計算する。 ランダムニューラルネットワークによって動機付けられたランダム行列 $M = Y Y^\ast$ with $Y = f(WX)$ ここで、$W$と$X$は、i.d.d.のランダム長方行列である。 centerdエントリと$f$は、エントリ的に適用される非線形滑らかな関数である。 制限スペクトル分布のスティルチェス変換は、モーメント法アプローチで得られる[ペニントン,ウラー] と[ベニグニ, P\'{e}ch\'{e}] によって得られる方程式と正確に一致する、いくつかの誤差項まで、クォート自己整合方程式を満たすことを証明する。 さらに、前回の結果を加算バイアス$Y=f(WX+B)$に拡張し、$B$は独立したランク1のガウス確率行列であり、実際に遭遇するニューラルネットワーク基盤をより深くモデル化する。 emph{resolvent method} に従うアプローチはモーメント法よりも頑健であり、後者の組合せが難解なモデルに対しても洞察を提供するものと期待されている。

We compute the asymptotic empirical spectral distribution of a non-linear random matrix model by using the resolvent method. Motivated by random neural networks, we consider the random matrix $M = Y Y^\ast$ with $Y = f(WX)$, where $W$ and $X$ are random rectangular matrices with i.i.d. centred entries and $f$ is a non-linear smooth function which is applied entry-wise. We prove that the Stieltjes transform of the limiting spectral distribution satisfies a quartic self-consistent equation up to some error terms, which is exactly the equation obtained by [Pennington, Worah] and [Benigni, P\'{e}ch\'{e}] with the moment method approach. In addition, we extend the previous results to the case of additive bias $Y=f(WX+B)$ with $B$ being an independent rank-one Gaussian random matrix, closer modelling the neural network infrastructures encountering in practice. Our approach following the \emph{resolvent method} is more robust than the moment method and is expected to provide insights also for models where the combinatorics of the latter become intractable.
翻訳日:2021-05-12 14:01:43 公開日:2021-05-11
# BikNN: k-Nearest Neighbors による両側領域の異常推定

BikNN: Anomaly Estimation in Bilateral Domains with k-Nearest Neighbors ( http://arxiv.org/abs/2105.05037v1 )

ライセンス: Link先を確認
Zhongping Ji(参考訳) 本稿では,異常推定のための新しい枠組みを提案する。 提案手法の背景にある基本的な考え方は、データを二次元空間に減らし、縮小空間の各データポイントをランク付けすることである。 空間領域と密度領域の両方における異常の程度を推定する。 具体的には、データポイントを密度空間に変換し、空間領域内の各点とそのk-Nearest Neighbor間の密度領域の距離を測定する。 そして、各点のk-アネレスト近傍から2つの片側異常を収集して異常座標系を構築する。 さらに,それらの相関をモデル化し,それらを組み合わせて最終異常スコアを得るためのスキームを2つ導入する。 合成および実世界のデータセットで行った実験により,提案手法が良好に動作し,最高平均性能を達成した。 また,本手法は,簡単な方法で異常の可視化と分類を行うことができることを示す。 異常の複雑さのため、既存のどのメソッドもすべてのベンチマークデータセットで最善を尽くすことはできない。 本手法は空間領域と密度領域の両方を考慮に入れ,数パラメータを手動で調整することで,異なるデータセットに適応することができる。

In this paper, a novel framework for anomaly estimation is proposed. The basic idea behind our method is to reduce the data into a two-dimensional space and then rank each data point in the reduced space. We attempt to estimate the degree of anomaly in both spatial and density domains. Specifically, we transform the data points into a density space and measure the distances in density domain between each point and its k-Nearest Neighbors in spatial domain. Then, an anomaly coordinate system is built by collecting two unilateral anomalies from k-nearest neighbors of each point. Further more, we introduce two schemes to model their correlation and combine them to get the final anomaly score. Experiments performed on the synthetic and real world datasets demonstrate that the proposed method performs well and achieve highest average performance. We also show that the proposed method can provide visualization and classification of the anomalies in a simple manner. Due to the complexity of the anomaly, none of the existing methods can perform best on all benchmark datasets. Our method takes into account both the spatial domain and the density domain and can be adapted to different datasets by adjusting a few parameters manually.
翻訳日:2021-05-12 14:01:19 公開日:2021-05-11
# 平均場レジームにおける3層ニューラルネットワークのグローバル収束

Global Convergence of Three-layer Neural Networks in the Mean Field Regime ( http://arxiv.org/abs/2105.05228v1 )

ライセンス: Link先を確認
Huy Tuan Pham, Phan-Minh Nguyen(参考訳) 平均場状態において、ニューラルネットワークは、幅が無限大になる傾向があるため、学習力学は平均場限界として知られる非線形で非自明な動的極限に傾向する。 これにより、平均フィールド限界を分析することによって、大きな幅のニューラルネットワークを研究することができる。 最近の研究は、この分析を2層ネットワークに適用し、グローバル収束保証を提供した。 しかし、多層構造への拡張は非常に難しいパズルであり、2層以上の層が存在する場合の平均場状態における最適化効率についてはほとんど分かっていない。 本研究では、平均場状態における非正規化フィードフォワード3層ネットワークに対する大域収束結果を示す。 まず,確率勾配降下学習における3層ネットワークの平均フィールド限界を確立するための厳密なフレームワークを開発する。 そこで本研究では,任意の大きさのニューラルネットワークをカプセル化する固定確率空間からなる \textit{neuronal embedded} という概念を提案する。 同定された平均場極限は、適切な正則性と収束モードの仮定の下で大域収束保証を証明するために使用される。 結果は普遍近似の性質であり、ニューラルネットワークの自然な性質であり、これは代数的トポロジーの議論を通じて(必ずしも収束しない)有限トレーニング時間で保持されることが重要である。

In the mean field regime, neural networks are appropriately scaled so that as the width tends to infinity, the learning dynamics tends to a nonlinear and nontrivial dynamical limit, known as the mean field limit. This lends a way to study large-width neural networks via analyzing the mean field limit. Recent works have successfully applied such analysis to two-layer networks and provided global convergence guarantees. The extension to multilayer ones however has been a highly challenging puzzle, and little is known about the optimization efficiency in the mean field regime when there are more than two layers. In this work, we prove a global convergence result for unregularized feedforward three-layer networks in the mean field regime. We first develop a rigorous framework to establish the mean field limit of three-layer networks under stochastic gradient descent training. To that end, we propose the idea of a \textit{neuronal embedding}, which comprises of a fixed probability space that encapsulates neural networks of arbitrary sizes. The identified mean field limit is then used to prove a global convergence guarantee under suitable regularity and convergence mode assumptions, which -- unlike previous works on two-layer networks -- does not rely critically on convexity. Underlying the result is a universal approximation property, natural of neural networks, which importantly is shown to hold at \textit{any} finite training time (not necessarily at convergence) via an algebraic topology argument.
翻訳日:2021-05-12 14:01:02 公開日:2021-05-11
# CTCに基づく非自己回帰型エンドツーエンド音声翻訳における順序付け能力の検討

Investigating the Reordering Capability in CTC-based Non-Autoregressive End-to-End Speech Translation ( http://arxiv.org/abs/2105.04840v1 )

ライセンス: Link先を確認
Shun-Po Chuang, Yung-Sung Chuang, Chih-Chiang Chang, Hung-yi Lee(参考訳) 本稿では,ctc(connectionist temporal classification)を用いた非自己回帰型音声-テキスト翻訳モデルの構築の可能性について検討し,ctcに基づく自動音声認識を補助タスクとして活用し,性能の向上を図る。 CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。 ケンドールのタウ距離は量的計量として導入され、勾配に基づく可視化はモデルをより詳しく見るための直感的な方法を提供する。 分析の結果、トランスフォーマーエンコーダは単語の順序を変えることができ、非自己回帰的な音声翻訳に価値がある今後の研究方向を指摘している。

We study the possibilities of building a non-autoregressive speech-to-text translation model using connectionist temporal classification (CTC), and use CTC-based automatic speech recognition as an auxiliary task to improve the performance. CTC's success on translation is counter-intuitive due to its monotonicity assumption, so we analyze its reordering capability. Kendall's tau distance is introduced as the quantitative metric, and gradient-based visualization provides an intuitive way to take a closer look into the model. Our analysis shows that transformer encoders have the ability to change the word order and points out the future research direction that worth being explored more on non-autoregressive speech translation.
翻訳日:2021-05-12 14:00:04 公開日:2021-05-11
# あなたはこれをトラデューサーできますか。 コード変換入力のための機械翻訳

Can You Traducir This? Machine Translation for Code-Switched Input ( http://arxiv.org/abs/2105.04846v1 )

ライセンス: Link先を確認
Jitao Xu (TLP), Fran\c{c}ois Yvon (TLP)(参考訳) コードスイッチング(英: Code-Switching, CSW)は、自然言語処理ツールにおいて困難な問題を引き起こす多言語的地理的文脈や社会的文脈において発生する一般的な現象である。 ここではcswテキストの機械翻訳(mt)に焦点をあて、2つの混合言語を同時に分離して翻訳することを目指している。 実際のCSWデータがないため、通常の並列テキストから人工的なトレーニングデータを生成する。 実験により、このトレーニング戦略は、コード切替テキストの多言語システムを超えるMTシステムをもたらすことが示された。 これらの結果は、L2書き込みアシスタントのための文脈翻訳の提供を目的とした代替タスクで確認される。

Code-Switching (CSW) is a common phenomenon that occurs in multilingual geographic or social contexts, which raises challenging problems for natural language processing tools. We focus here on Machine Translation (MT) of CSW texts, where we aim to simultaneously disentangle and translate the two mixed languages. Due to the lack of actual translated CSW data, we generate artificial training data from regular parallel texts. Experiments show this training strategy yields MT systems that surpass multilingual systems for code-switched texts. These results are confirmed in an alternative task aimed at providing contextual translations for a L2 writing assistant.
翻訳日:2021-05-12 13:59:51 公開日:2021-05-11
# 画像からノイズを分離する:フローに基づくニューラルネット

Disentangling Noise from Images: A Flow-Based Image Denoising Neural Network ( http://arxiv.org/abs/2105.04746v1 )

ライセンス: Link先を確認
Yang Liu and Saeed Anwar and Zhenyue Qin and Pan Ji and Sabrina Caldwell and Tom Gedeon(参考訳) 優先的な畳み込みニューラルネットワーク(CNN)に基づく画像復調手法は、画像の特徴を抽出してクリーングラウンドの真実を復元し、高い復調精度を達成する。 しかし、これらの手法はクリーンな画像の基本的な分布を無視し、歪みや成果物を引き起こす可能性がある。 本稿では,イメージデノベーションを分散学習と切り離しタスクとして扱う新しい視点を提案する。 ノイズ画像分布は、クリーン画像とノイズの結合分布と見なすことができるので、潜在表現をクリーン表現に操作することにより、消音画像を得ることができる。 本稿では,分散学習に基づく記述フレームワークも提供する。 この枠組みに従い, クリーン分布とノイズ分布のいずれも仮定せず, 分布不等角化法も含まず, 可逆分数化ネットワークfdnを提案する。 FDNは、前回のCNNによる識別マッピングとは異なるノイズ画像の分布を学習する。 FDNは, 合成付加白色ガウス雑音(AWGN)を, カテゴリー別およびリモートセンシング画像で除去する能力を示した。 さらに、FDNの性能は、より少ないパラメータと高速な速度で、実画像における以前に公開された手法よりも優れている。 私たちのコードは、https://github.com/y ang-liu1082/fdn.gitで利用可能です。

The prevalent convolutional neural network (CNN) based image denoising methods extract features of images to restore the clean ground truth, achieving high denoising accuracy. However, these methods may ignore the underlying distribution of clean images, inducing distortions or artifacts in denoising results. This paper proposes a new perspective to treat image denoising as a distribution learning and disentangling task. Since the noisy image distribution can be viewed as a joint distribution of clean images and noise, the denoised images can be obtained via manipulating the latent representations to the clean counterpart. This paper also provides a distribution learning based denoising framework. Following this framework, we present an invertible denoising network, FDN, without any assumptions on either clean or noise distributions, as well as a distribution disentanglement method. FDN learns the distribution of noisy images, which is different from the previous CNN based discriminative mapping. Experimental results demonstrate FDN's capacity to remove synthetic additive white Gaussian noise (AWGN) on both category-specific and remote sensing images. Furthermore, the performance of FDN surpasses that of previously published methods in real image denoising with fewer parameters and faster speed. Our code is available at: https://github.com/Y ang-Liu1082/FDN.git.
翻訳日:2021-05-12 13:59:42 公開日:2021-05-11
# 高分解能SAR画像分類のための深部空間文脈エンコーダと非定常結合統計モデルを用いた特徴融合ネット

A Feature Fusion-Net Using Deep Spatial Context Encoder and Nonstationary Joint Statistical Model for High Resolution SAR Image Classification ( http://arxiv.org/abs/2105.04799v1 )

ライセンス: Link先を確認
Wenkai Liang, Yan Wu, Ming Li, Peng Zhang, Yice Cao, Xin Hu(参考訳) 畳み込みニューラルネットワーク(CNN)を用いて高分解能(HR)合成開口レーダ(SAR)画像分類のための空間的特徴を学習している。 しかし、地形オブジェクトの物理的特性を明らかにすることのできるSAR画像のユニークな統計分布を、教師付き特徴学習フレームワークでCNNに統合する作業はほとんど行われていない。 この問題に対処するために,空間的文脈と統計的特徴の両方を考慮したHR SAR画像に対して,新しいエンドツーエンドの教師付き分類手法を提案する。 まず,sar画像からより効率的な空間特徴を抽出するために,軽量な構造であり,少数のサンプルで効果的に訓練できる新しい深層空間コンテキストエンコーダネットワーク(dscen)を提案する。 一方,統計の多様性を高めるため,非定常ジョイント統計モデル (ns-jsm) を大域的統計特性として採用する。 具体的には、SAR画像をGaborウェーブレット領域に変換し、生成したマルチサブバンドサイズと位相をログ正規分布と均一分布によってモデル化する。 共分散行列はさらに、統計サブバンド間のスケール間およびスケール内非定常相関を捉え、結合統計特徴をよりコンパクトかつ識別可能なものにする。 相補的な利点を考慮し,統計的特徴を空間的特徴に埋め込み,融合特徴表現を最適化するために,グループ圧縮とスムース正規化に基づく機能融合ネットワーク(fusion-net)ベースを構築した。 その結果,識別的特徴を学習し,最終的な分類性能を向上させることができた。 4つのHR SAR画像に対する実験により,提案手法が他のアルゴリズムよりも優れていることを示す。

Convolutional neural networks (CNNs) have been applied to learn spatial features for high-resolution (HR) synthetic aperture radar (SAR) image classification. However, there has been little work on integrating the unique statistical distributions of SAR images which can reveal physical properties of terrain objects, into CNNs in a supervised feature learning framework. To address this problem, a novel end-to-end supervised classification method is proposed for HR SAR images by considering both spatial context and statistical features. First, to extract more effective spatial features from SAR images, a new deep spatial context encoder network (DSCEN) is proposed, which is a lightweight structure and can be effectively trained with a small number of samples. Meanwhile, to enhance the diversity of statistics, the nonstationary joint statistical model (NS-JSM) is adopted to form the global statistical features. Specifically, SAR images are transformed into the Gabor wavelet domain and the produced multi-subbands magnitudes and phases are modeled by the log-normal and uniform distribution. The covariance matrix is further utilized to capture the inter-scale and intra-scale nonstationary correlation between the statistical subbands and make the joint statistical features more compact and distinguishable. Considering complementary advantages, a feature fusion network (Fusion-Net) base on group compression and smooth normalization is constructed to embed the statistical features into the spatial features and optimize the fusion feature representation. As a result, our model can learn the discriminative features and improve the final classification performance. Experiments on four HR SAR images validate the superiority of the proposed method over other related algorithms.
翻訳日:2021-05-12 13:59:20 公開日:2021-05-11
# ORCEA:連続エビデンス同化による物体認識

ORCEA: Object Recognition by Continuous Evidence Assimilation ( http://arxiv.org/abs/2105.04807v1 )

ライセンス: Link先を確認
Oded Cohen(参考訳) ORCEAは、生成モデルで記述可能なオブジェクトに適用可能な、新しいオブジェクト認識手法である。 ORCEAの第一の目的は、オブジェクトパラメータ空間上で起こりうる一致の確率密度分布を維持しながら、入ってくる証拠を継続的に更新することであり、検出と回帰は、このプロセスの副産物である。 orceaはさまざまなタイプの原始的な証拠(エッジ要素、エリアパッチなど)を投影できる。 これは、orceaが各エビデンスタイプに対して、証拠とそれらが作成された対象パラメータを関連付ける確率的モデルを構築する研究段階によって可能となった。 検出フェーズは、与えられた証拠の集合から得られる可能性のある一致の合同分布を構築し、信号/雑音にグループ化することを含む、追加のアルゴリズムステップは不要であり、結果としてPDFは可能な解に関するすべての知識をカプセル化する。 ORCEAは、パラメータ空間上の一致分布をガウス分布の集合として表現し、それぞれが対象に関する具体的な確率論的仮説を表し、その対象の範囲外でも使用できる。 ORCEAは、様々なレベルの複雑さとノイズを持つ合成画像で試験され、良好な結果が得られた。

ORCEA is a novel object recognition method applicable for objects describable by a generative model. The primary goal of ORCEA is to maintain a probability density distribution of possible matches over the object parameter space, while continuously updating it with incoming evidence; detection and regression are by-products of this process. ORCEA can project primitive evidence of various types (edge element, area patches etc.) directly on the object parameter space; this made possible by the study phase where ORCEA builds a probabilistic model, for each evidence type, that links evidence and the object-parameters under which they were created. The detection phase consists of building the joint distribution of possible matches resulting from the set of given evidence, including possible grouping to signal/noise; no additional algorithmic steps are needed, as the resulting PDF encapsulates all knowledge about possible solutions. ORCEA represents the match distribution over the parameter space as a set of Gaussian distributions, each representing a concrete probabilistic hypothesis about the object, which can be used outside its scope as well. ORCEA was tested on synthetic images with varying levels of complexity and noise, and shows satisfactory results.
翻訳日:2021-05-12 13:58:50 公開日:2021-05-11
# terracotta warriorsの一般的な表情を明らかにする - ディープラーニングアプローチ

Uncover Common Facial Expressions in Terracotta Warriors: A Deep Learning Approach ( http://arxiv.org/abs/2105.04826v1 )

ライセンス: Link先を確認
Wenhong Tian, Yuanlun Xie, Tingsong Ma, Hengxin Zhang(参考訳) 高度なディープラーニング技術は、古代の人文芸術の分析に応用できるのか? Terracotta Warriorの表情解析のような特別な場面にディープラーニング技術を直接適用できるだろうか? 大きな課題は、Terracotta Warriorsの顔機能は、今日の人々と非常に異なることです。 Terracotta Warriorsの表情を解析するために、他の古典的な表情データセットでトレーニングされたモデルを直接使用するのは、非常に貧弱であることが分かりました。 同時に、Terracotta Warriorsのパブリックな高品質な表情データが欠如しているため、ディープラーニング技術の使用も制限されています。 そこで我々はまず,gans(generative adversarial network)を用いて,その後の訓練や認識に十分な品質の表情データを生成する。 また、このアプローチの有効性を検証する。 本稿は, 一般と姿勢を持つterracotta戦士の共通の表情を, 深層学習技術を用いて初めて発見する。 これらの結果は、terracottaウォリアーズの芸術研究のための最新の技術手段を提供し、他の古代芸術の研究に光を当てる。

Can advanced deep learning technologies be applied to analyze some ancient humanistic arts? Can deep learning technologies be directly applied to special scenes such as facial expression analysis of Terracotta Warriors? The big challenging is that the facial features of the Terracotta Warriors are very different from today's people. We found that it is very poor to directly use the models that have been trained on other classic facial expression datasets to analyze the facial expressions of the Terracotta Warriors. At the same time, the lack of public high-quality facial expression data of the Terracotta Warriors also limits the use of deep learning technologies. Therefore, we firstly use Generative Adversarial Networks (GANs) to generate enough high-quality facial expression data for subsequent training and recognition. We also verify the effectiveness of this approach. For the first time, this paper uses deep learning technologies to find common facial expressions of general and postured Terracotta Warriors. These results will provide an updated technical means for the research of art of the Terracotta Warriors and shine lights on the research of other ancient arts.
翻訳日:2021-05-12 13:58:33 公開日:2021-05-11
# グラディエント精錬による対向転写性の向上

Improving Adversarial Transferability with Gradient Refining ( http://arxiv.org/abs/2105.04834v1 )

ライセンス: Link先を確認
Guoqiu Wang, Huanqian Yan, Ying Guo, Xingxing Wei(参考訳) ディープニューラルネットワークは、人間の知覚できない摂動を原画像に加えることで、敵の例に弱い。 既存の攻撃手法のほとんどはホワイトボックス設定で100%攻撃成功率を達成しているが、ブラックボックス設定では攻撃成功率が比較的低いだけである。 ブラックボックス設定の逆例の転送性を改善するため、入力多様性、翻訳不変攻撃、運動量に基づく攻撃など、いくつかの手法が提案されている。 本稿では,複数の変換を通じて入力の多様性によって生じる無駄な勾配を補正することにより,逆転性を改善するグラディエント精錬法を提案する。 本手法は,入力多様性と組み合わせた多くの勾配攻撃法に適用可能である。 画像Netデータセットを用いて大規模な実験を行い, 単一モデル設定下での3モデルの平均転送成功率は平均82.07%であり, 平均6.0%の差で他の最先端手法よりも優れていた。 また,提案手法を,Alibabaが組織したImageNet上のCVPR 2021 Unrestricted Adversarial Attacksに適用し,攻撃成功率1558チームで2位となった。

Deep neural networks are vulnerable to adversarial examples, which are crafted by adding human-imperceptible perturbations to original images. Most existing adversarial attack methods achieve nearly 100% attack success rates under the white-box setting, but only achieve relatively low attack success rates under the black-box setting. To improve the transferability of adversarial examples for the black-box setting, several methods have been proposed, e.g., input diversity, translation-invarian t attack, and momentum-based attack. In this paper, we propose a method named Gradient Refining, which can further improve the adversarial transferability by correcting useless gradients introduced by input diversity through multiple transformations. Our method is generally applicable to many gradient-based attack methods combined with input diversity. Extensive experiments are conducted on the ImageNet dataset and our method can achieve an average transfer success rate of 82.07% for three different models under single-model setting, which outperforms the other state-of-the-art methods by a large margin of 6.0% averagely. And we have applied the proposed method to the competition CVPR 2021 Unrestricted Adversarial Attacks on ImageNet organized by Alibaba and won the second place in attack success rates among 1558 teams.
翻訳日:2021-05-12 13:58:19 公開日:2021-05-11
# 点状雲に対するクリーンラベルバックドア攻撃のためのモルフネット

Poisoning MorphNet for Clean-Label Backdoor Attack to Point Clouds ( http://arxiv.org/abs/2105.04839v1 )

ライセンス: Link先を確認
Guiyu Tian, Wenhao Jiang, Wei Liu, Yadong Mu(参考訳) 本稿では,ポイントクラウド上の最初のバックドア攻撃手法であるPoisoning MorphNetを提案する。 従来の敵攻撃は推論段階で行われ、しばしばサンプルを摂動することによってモデルを騙す。 対照的に、バックドアアタックはトレーニング段階でモデルにトリガーを埋め込むことを目的としており、サンプルにトリガーがない限り、被害者モデルが通常クリーンなデータに作用するようにしている。 この研究は、いくつかの有毒なサンプル(内容が変わらずラベルが変更されていない)をトレーニングセットに注入するクリーンラベルバックドア攻撃の典型的な設定に従っている。 MorphNetのユニークな貢献は2つある。 第一に、移植されたトリガーが人間に視覚的に知覚できないことと、ポイント・クラウドでの攻撃の成功率を高めることが鍵となる。 この目的のためにmorphnetは、サンプル適応型中毒の2つの目的を共同で最適化している: 良性/有毒点雲間の視覚的類似性を保存する再構築損失と、ポイントクラウドの現代的な認識モデルを実行する分類損失は、有毒なサンプルを予め特定されたターゲットカテゴリに誤分類する傾向がある。 これは暗黙的に点雲上のスペクトル分離を行い、サンプル適応トリガーを細かな高周波詳細に隠す。 第二に、既存のバックドアアタックメソッドは主に画像データ用に設計されており、ある時点のクラウド固有の操作によって容易に防御される。 我々は,孤立点を抑制するためのモルヒネの3度目の損失を提案し,消音ベースの防御に対する抵抗性が向上した。 ModelNet40とShapeNetcorev2の総合評価を行った。 提案した Poisoning MorphNet は,従来の手法をすべてクリアマージンで切り離している。

This paper presents Poisoning MorphNet, the first backdoor attack method on point clouds. Conventional adversarial attack takes place in the inference stage, often fooling a model by perturbing samples. In contrast, backdoor attack aims to implant triggers into a model during the training stage, such that the victim model acts normally on the clean data unless a trigger is present in a sample. This work follows a typical setting of clean-label backdoor attack, where a few poisoned samples (with their content tampered yet labels unchanged) are injected into the training set. The unique contributions of MorphNet are two-fold. First, it is key to ensure the implanted triggers both visually imperceptible to humans and lead to high attack success rate on the point clouds. To this end, MorphNet jointly optimizes two objectives for sample-adaptive poisoning: a reconstruction loss that preserves the visual similarity between benign / poisoned point clouds, and a classification loss that enforces a modern recognition model of point clouds tends to mis-classify the poisoned sample to a pre-specified target category. This implicitly conducts spectral separation over point clouds, hiding sample-adaptive triggers in fine-grained high-frequency details. Secondly, existing backdoor attack methods are mainly designed for image data, easily defended by some point cloud specific operations (such as denoising). We propose a third loss in MorphNet for suppressing isolated points, leading to improved resistance to denoising-based defense. Comprehensive evaluations are conducted on ModelNet40 and ShapeNetcorev2. Our proposed Poisoning MorphNet outstrips all previous methods with clear margins.
翻訳日:2021-05-12 13:57:57 公開日:2021-05-11
# EDPN:鮮明な画像復元のための深層ピラミッドネットワーク

EDPN: Enhanced Deep Pyramid Network for Blurry Image Restoration ( http://arxiv.org/abs/2105.04872v1 )

ライセンス: Link先を確認
Ruikang Xu, Zeyu Xiao, Jie Huang, Yueyi Zhang, Zhiwei Xiong(参考訳) 画像デブラリングはディープニューラルネットワークの開発で大きな進歩を遂げている。 しかし実際には、ぼやけた画像はダウンスケーリングや圧縮といった追加の劣化に苦しむことが多い。 これらの課題に対処するために、劣化画像における自己および横断的な類似性をフル活用し、複数の劣化画像からぼやけた画像復元を行うEDPN(Enhanced Deep Pyramid Network)を提案し、特に、ピラミッド進行移動(PPT)モジュールとピラミッド自己注意(PSA)モジュールの2つのピラミッドベースモジュールをネットワークの主成分として設計する。 複数の複製されたぼやけた画像を入力として取ることにより、PTモジュールは同じ劣化した画像から自己とクロススケールの類似情報を段階的に転送する。 そして、PSAモジュールは、自己保持機構と空間保持機構を用いて、上記転送された特徴を融合させる。 実験の結果, 提案手法は, ぼやけた画像の超高解像度化とぼやけた画像のデブロッキングに対して, 既存のソリューションを大きく上回ることがわかった。 NTIRE 2021 Image Deblurring Challengeでは、EPPNはトラック1(ローレゾリューション)で最高のPSNR/SSIM/LPIPSスコア、トラック2(JPEGアーティファクト)で最高のSSIM/LPIPSスコアを達成している。

Image deblurring has seen a great improvement with the development of deep neural networks. In practice, however, blurry images often suffer from additional degradations such as downscaling and compression. To address these challenges, we propose an Enhanced Deep Pyramid Network (EDPN) for blurry image restoration from multiple degradations, by fully exploiting the self- and cross-scale similarities in the degraded image.Specifically, we design two pyramid-based modules, i.e., the pyramid progressive transfer (PPT) module and the pyramid self-attention (PSA) module, as the main components of the proposed network. By taking several replicated blurry images as inputs, the PPT module transfers both self- and cross-scale similarity information from the same degraded image in a progressive manner. Then, the PSA module fuses the above transferred features for subsequent restoration using self- and spatial-attention mechanisms. Experimental results demonstrate that our method significantly outperforms existing solutions for blurry image super-resolution and blurry image deblocking. In the NTIRE 2021 Image Deblurring Challenge, EDPN achieves the best PSNR/SSIM/LPIPS scores in Track 1 (Low Resolution) and the best SSIM/LPIPS scores in Track 2 (JPEG Artifacts).
翻訳日:2021-05-12 13:57:28 公開日:2021-05-11
# ビデオによるサッカー試合の分析

Video-based Analysis of Soccer Matches ( http://arxiv.org/abs/2105.04875v1 )

ライセンス: Link先を確認
Maximilian T. Fischer, Daniel A. Keim, Manuel Stein(参考訳) サッカーなどの侵略的なチームスポーツにおけるゲームプレイや戦術の詳細な調査が進むにつれて、原因、行動、発見を有意義に提示することがますます重要になっている。 特に試合のビデオ録画の中に関連情報を付加すると、試合準備や戦術計画を大幅に改善し、単純化することができる。 しかし,近年ではサッカーの可視化技術が数多く開発されているが,ビデオによるサッカーの試合解析に直接適用されているものはほとんどない。 本稿では,サッカーの試合のビデオベース視覚分析のために開発された手法の概要と分類について述べる。 個々のアプローチの長所と短所を特定しながら、オープンリサーチの質問を特定し議論し、すぐにアナリストがより効率的に勝利戦略を開発し、迅速な失敗分析を行い、相手チームの短所を特定します。

With the increasingly detailed investigation of game play and tactics in invasive team sports such as soccer, it becomes ever more important to present causes, actions and findings in a meaningful manner. Visualizations, especially when augmenting relevant information directly inside a video recording of a match, can significantly improve and simplify soccer match preparation and tactic planning. However, while many visualization techniques for soccer have been developed in recent years, few have been directly applied to the video-based analysis of soccer matches. This paper provides a comprehensive overview and categorization of the methods developed for the video-based visual analysis of soccer matches. While identifying the advantages and disadvantages of the individual approaches, we identify and discuss open research questions, soon enabling analysts to develop winning strategies more efficiently, do rapid failure analysis or identify weaknesses in opposing teams.
翻訳日:2021-05-12 13:57:04 公開日:2021-05-11
# アテンションベース\\GCNによるオープンセット領域認識とセマンティックマッチング最適化

Open Set Domain Recognition via Attention-Based\\GCN and Semantic Matching Optimization ( http://arxiv.org/abs/2105.04967v1 )

ライセンス: Link先を確認
Xinxing He, Yuan Yuan, Zhiyu Jiang(参考訳) オープンセットドメイン認識は近年注目を集めている。 この課題は、手動でラベル付けされたソースドメイン内のすべての既知のクラスと、ターゲット固有の未知のカテゴリからなる、実用的な未ラベルのターゲットドメイン内の各サンプルを具体的に分類することを目的としている。 注釈付きトレーニングデータや未知カテゴリの属性情報がないため、この作業は特に困難である。 さらに、ラベル空間とデータ分布におけるドメインの不一致は、既知のクラスから未知のクラスに転送される知識をさらに妨げます。 これらの問題に対処するため,本研究では,注目に基づくGCNとセマンティックマッチングの最適化に基づくエンドツーエンドモデルを提案する。 さらに、ドメインギャップを段階的に橋渡しするために、粗大なセマンティックマッチング最適化手法を提案する。 実験結果から,提案モデルが未知のクラスの画像認識に優れるだけでなく,対象領域の様々な開放性にも適応できることが確認された。

Open set domain recognition has got the attention in recent years. The task aims to specifically classify each sample in the practical unlabeled target domain, which consists of all known classes in the manually labeled source domain and target-specific unknown categories. The absence of annotated training data or auxiliary attribute information for unknown categories makes this task especially difficult. Moreover, exiting domain discrepancy in label space and data distribution further distracts the knowledge transferred from known classes to unknown classes. To address these issues, this work presents an end-to-end model based on attention-based GCN and semantic matching optimization, which first employs the attention mechanism to enable the central node to learn more discriminating representations from its neighbors in the knowledge graph. Moreover, a coarse-to-fine semantic matching optimization approach is proposed to progressively bridge the domain gap. Experimental results validate that the proposed model not only has superiority on recognizing the images of known and unknown classes, but also can adapt to various openness of the target domain.
翻訳日:2021-05-12 13:56:51 公開日:2021-05-11
# 衛星画像に基づく不動産評価のためのマルチビュー学習手法の比較

A Comparison of Multi-View Learning Strategies for Satellite Image-Based Real Estate Appraisal ( http://arxiv.org/abs/2105.04984v1 )

ライセンス: Link先を確認
Jan-Peter Kucklick and Oliver M\"uller(参考訳) 住宅信用プロセスにおいて、銀行や銀行は最大ローン価値を決定するために、不動産価格の迅速かつ正確な見積もりに依存している。 不動産評価は、しばしば関係データに基づいており、資産の厳しい事実を捉えている。 しかし、モデルは画像データを含めることで大きな恩恵を受け、追加のソフトファクターをキャプチャする。 異なるデータ型の組み合わせは、マルチビュー学習方法を必要とする。 したがって、様々な多視点学習戦略が持つ強みと弱みが問う。 本研究では,カリフォルニア州アシュビルの不動産データと衛星画像に基づいて,マルチカーネル学習,マルチビュー結合,マルチビューニューラルネットワークをテストする。 その結果,マルチビュー学習は予測性能を13%まで向上させることがわかった。 マルチビューニューラルネットワークは最善を尽くすが、不透明なブラックボックスモデルをもたらす。 解釈可能性を求めるユーザーにとっては、ハイブリッドマルチビューニューラルネットワークやブースティング戦略が適している。

In the house credit process, banks and lenders rely on a fast and accurate estimation of a real estate price to determine the maximum loan value. Real estate appraisal is often based on relational data, capturing the hard facts of the property. Yet, models benefit strongly from including image data, capturing additional soft factors. The combination of the different data types requires a multi-view learning method. Therefore, the question arises which strengths and weaknesses different multi-view learning strategies have. In our study, we test multi-kernel learning, multi-view concatenation and multi-view neural networks on real estate data and satellite images from Asheville, NC. Our results suggest that multi-view learning increases the predictive performance up to 13% in MAE. Multi-view neural networks perform best, however result in intransparent black-box models. For users seeking interpretability, hybrid multi-view neural networks or a boosting strategy are a suitable alternative.
翻訳日:2021-05-12 13:56:34 公開日:2021-05-11
# クロスヒエラルキーを考慮したインスタンス対応リモートセンシング画像キャプション

Instance-aware Remote Sensing Image Captioning with Cross-hierarchy Attention ( http://arxiv.org/abs/2105.04996v1 )

ライセンス: Link先を確認
Chengze Wang, Zhiyu Jiang, Yuan Yuan(参考訳) 空間的注意は、リモートセンシング画像キャプションの性能を高めるための簡単なアプローチである。 しかし、従来の空間的注意法では、1つの固定された粗い格子上の注意分布のみを考慮し、その結果、小さな物体の意味論は視覚的特徴抽出において容易に無視または妨げられる。 さらに悪いことに、従来の空間的注意の固定された意味レベルは、異なるレベルと視点でのイメージ理解を制限する。 この問題に対処するために,インスタンス認識と階層間注意を備えたリモートセンシング画像キャプション生成器を提案する。 1) インスタンス認識は,マルチレベルのインスタンス候補とその周辺領域の視覚的情報を含むマルチレベル機能アーキテクチャを導入することで実現される。 2) このマルチレベル特徴抽出に基づき, デコーダが各時間ステップで異なる意味階層とインスタンスに動的に焦点を合わせるように, 階層間注意機構が提案されている。 公開データセットにおける実験結果は,提案手法が既存手法よりも優れていることを示す。

The spatial attention is a straightforward approach to enhance the performance for remote sensing image captioning. However, conventional spatial attention approaches consider only the attention distribution on one fixed coarse grid, resulting in the semantics of tiny objects can be easily ignored or disturbed during the visual feature extraction. Worse still, the fixed semantic level of conventional spatial attention limits the image understanding in different levels and perspectives, which is critical for tackling the huge diversity in remote sensing images. To address these issues, we propose a remote sensing image caption generator with instance-awareness and cross-hierarchy attention. 1) The instances awareness is achieved by introducing a multi-level feature architecture that contains the visual information of multi-level instance-possible regions and their surroundings. 2) Moreover, based on this multi-level feature extraction, a cross-hierarchy attention mechanism is proposed to prompt the decoder to dynamically focus on different semantic hierarchies and instances at each time step. The experimental results on public datasets demonstrate the superiority of proposed approach over existing methods.
翻訳日:2021-05-12 13:56:21 公開日:2021-05-11
# CondLaneNet:条件付き畳み込みに基づくトップダウンレーン検出フレームワーク

CondLaneNet: a Top-to-down Lane Detection Framework Based on Conditional Convolution ( http://arxiv.org/abs/2105.05003v1 )

ライセンス: Link先を確認
Lizhe Liu, Xiaohao Chen, Siyu Zhu, Ping Tan(参考訳) 現代のディープラーニングに基づくレーン検出手法は、ほとんどのシナリオで成功しているが、複雑なトポロジを持つレーン線に苦慮している。 本研究では,まずレーンインスタンスを検出し,次に各インスタンスのライン形状を動的に予測する新しいトップ・ツー・ダウンレーン検出フレームワークであるCondLaneNetを提案する。 レーンのインスタンスレベルの識別問題を解決するために,条件付き畳み込みと行ごとの定式化に基づく条件付きレーン検出戦略を導入する。 さらに,高密度線やフォーク線といった複雑なトポロジを持つレーン線を検出する問題を克服するために,リカレントインスタンスモジュール(RIM)を設計する。 処理後をほとんど必要としないエンド・ツー・エンドのパイプラインの利点は、リアルタイムの効率性にある。 本手法を3つのレーン検出ベンチマークで広範囲に評価した。 以上の結果から,本手法は3つのベンチマークデータセットに対して最先端性能を実現する。 さらに,本手法は精度と効率の共存性がある。 78.14 F1のスコアと220 FPSのCULane。

Modern deep-learning-based lane detection methods are successful in most scenarios but struggling for lane lines with complex topologies. In this work, we propose CondLaneNet, a novel top-to-down lane detection framework that detects the lane instances first and then dynamically predicts the line shape for each instance. Aiming to resolve lane instance-level discrimination problem, we introduce a conditional lane detection strategy based on conditional convolution and row-wise formulation. Further, we design the Recurrent Instance Module(RIM) to overcome the problem of detecting lane lines with complex topologies such as dense lines and fork lines. Benefit from the end-to-end pipeline which requires little post-process, our method has real-time efficiency. We extensively evaluate our method on three benchmarks of lane detection. Results show that our method achieves state-of-the-art performance on all three benchmark datasets. Moreover, our method has the coexistence of accuracy and efficiency, e.g. a 78.14 F1 score and 220 FPS on CULane.
翻訳日:2021-05-12 13:56:02 公開日:2021-05-11
# 明るみにしよう: 夜間の移動を保存できる詳細情報による交通監視の改善

Let There be Light: Improved Traffic Surveillance via Detail Preserving Night-to-Day Transfer ( http://arxiv.org/abs/2105.05011v1 )

ライセンス: Link先を確認
Lan Fu, Hongkai Yu, Felix Juefei-Xu, Jinlong Li, Qing Guo, and Song Wang(参考訳) 近年、画像とビデオの監視は、深層畳み込みニューラルネットワーク(CNN)の助けを借りて、インテリジェントトランスポーテーションシステム(ITS)にかなりの進歩を遂げている。 最先端の知覚アプローチの1つとして,映像監視の各フレーム内の関心対象の検出が広く望まれている。 現在、オブジェクト検出は、照明条件の良い昼間シーンのような標準シナリオにおいて、顕著な効率性と信頼性を示している。 しかし、夜間などの悪条件に直面した場合、物体検出の精度は著しく低下する。 問題の主な原因の1つは、夜間シーンの十分な注釈付き検出データセットがないことである。 本稿では,画像翻訳手法を用いて,物体検出を悪条件にとる際の精度低下を緩和する枠組みを提案する。 本稿では,スタイル翻訳に基づくスタイルミックス手法を用いて,昼画像と夜画像のペアを学習データとして取得し,夜画像から昼画像への翻訳を行う。 本稿では,GAN(Generative Adversarial Networks)による詳細な汚職を緩和するために,Kernel Prediction Network (KPN) を用いた夜間・昼間の画像翻訳の改良手法を提案する。 kpnネットワークはオブジェクト検出タスクと共に訓練され、トレーニングされた昼間モデルを直接夜間車両検出に適応させる。 車両検出実験により提案手法の精度と有効性が確認された。

In recent years, image and video surveillance have made considerable progresses to the Intelligent Transportation Systems (ITS) with the help of deep Convolutional Neural Networks (CNNs). As one of the state-of-the-art perception approaches, detecting the interested objects in each frame of video surveillance is widely desired by ITS. Currently, object detection shows remarkable efficiency and reliability in standard scenarios such as daytime scenes with favorable illumination conditions. However, in face of adverse conditions such as the nighttime, object detection loses its accuracy significantly. One of the main causes of the problem is the lack of sufficient annotated detection datasets of nighttime scenes. In this paper, we propose a framework to alleviate the accuracy decline when object detection is taken to adverse conditions by using image translation method. We propose to utilize style translation based StyleMix method to acquire pairs of day time image and nighttime image as training data for following nighttime to daytime image translation. To alleviate the detail corruptions caused by Generative Adversarial Networks (GANs), we propose to utilize Kernel Prediction Network (KPN) based method to refine the nighttime to daytime image translation. The KPN network is trained with object detection task together to adapt the trained daytime model to nighttime vehicle detection directly. Experiments on vehicle detection verified the accuracy and effectiveness of the proposed approach.
翻訳日:2021-05-12 13:55:47 公開日:2021-05-11
# semantic distribution-aware contrastive adaptation for semantic segmentation (特集 セマンティクス・セグメンテーション)

Semantic Distribution-aware Contrastive Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2105.05013v1 )

ライセンス: Link先を確認
Shuang Li, Binhui Xie, Bin Zang, Chi Harold Liu, Xinjing Cheng, Ruigang Yang and Guoren Wang(参考訳) ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。 現在の最先端の研究は、カテゴリアライメントの実行がドメインシフトを合理的に緩和することを示唆している。 しかし、主に画像と画像の敵対的訓練に基づいており、画像間のオブジェクトの意味的バリエーションについてはほとんど考慮されておらず、異なるカテゴリの包括的画像を捉えていない。 これは、上記の問題を緩和するために、ソースドメインの各カテゴリのセマンティックな分布である全体論的な代表を探索する動機となる。 本稿では,意味分布の指導の下で画素ワイドな表現アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。 具体的には,両領域間の意味的分布と画素的表現の対応を考慮し,画素単位のコントラスト損失をまず設計する。 基本的には、同じカテゴリのピクセル表現のクラスタがクラスタ化され、異なるカテゴリのクラスタが分散する。 次に、この定式化上の上限は、無限個の(dis)類似のペアの学習を伴って導出され、効率的である。 最後に,SDCAが自己教師付き学習と統合した場合のセグメンテーション精度をさらに向上できることを示す。 我々はSDCAを複数のベンチマークで評価し、既存のアルゴリズムよりも大幅に改善し、https://github.com/B IT-DA/SDCAで公開されている。

Domain adaptive semantic segmentation refers to making predictions on a certain target domain with only annotations of a specific source domain. Current state-of-the-art works suggest that performing category alignment can alleviate domain shift reasonably. However, they are mainly based on image-to-image adversarial training and little consideration is given to semantic variations of an object among images, failing to capture a comprehensive picture of different categories. This motivates us to explore a holistic representative, the semantic distribution from each category in source domain, to mitigate the problem above. In this paper, we present semantic distribution-aware contrastive adaptation algorithm that enables pixel-wise representation alignment under the guidance of semantic distributions. Specifically, we first design a pixel-wise contrastive loss by considering the correspondences between semantic distributions and pixel-wise representations from both domains. Essentially, clusters of pixel representations from the same category should cluster together and those from different categories should spread out. Next, an upper bound on this formulation is derived by involving the learning of an infinite number of (dis)similar pairs, making it efficient. Finally, we verify that SDCA can further improve segmentation accuracy when integrated with the self-supervised learning. We evaluate SDCA on multiple benchmarks, achieving considerable improvements over existing algorithms.The code is publicly available at https://github.com/B IT-DA/SDCA
翻訳日:2021-05-12 13:55:28 公開日:2021-05-11
# chalearn lap large scale signer independent isolated sign language recognition challenge: design, results and future research

ChaLearn LAP Large Scale Signer Independent Isolated Sign Language Recognition Challenge: Design, Results and Future Research ( http://arxiv.org/abs/2105.05066v1 )

ライセンス: Link先を確認
Ozge Mercanoglu Sincan, Julio C. S. Jacques Junior, Sergio Escalera, Hacer Yalim Keles(参考訳) 近年,手話認識(SLR)システムの性能は大幅に向上している。 しかし、SLRが実際に有用になるためには、未解決の課題もいくつか解決する必要がある。 この分野の研究は、モデルの頑健さから多くの標識やシグナーの多様性、異なる人口階層のパフォーマーへのモデルの公平さについて、初期段階にある。 この研究は、前述の課題を克服するためにcvpr 2021で組織されたchalearn lap large scale signer independent isolated slr challengeをまとめている。 我々は,課題設計,トップ勝利ソリューション,今後の研究への提案を分析し,議論する。 RGB+Depthトラックでは132人、RGB+Depthトラックでは59人が参加し、合計で1.5K以上の応募を受けた。 参加者は226のサインラベルと43の異なるシグナーによる36,302の独立した手話ビデオサンプルからなる,新しい大規模マルチモーダル・トルコ手話(AUTSL)データセットを用いて評価した。 勝利したチームは96%以上の認識率を達成し、そのアプローチはポーズ/手/顔の推定、転送学習、外部データ、モダリティの融合/センス、時空間情報をモデル化するための異なる戦略から恩恵を受けた。 しかし、メソッドは依然として非常に類似した兆候、特に類似のハンドトラジェクトリを共有するものとは区別できない。

The performances of Sign Language Recognition (SLR) systems have improved considerably in recent years. However, several open challenges still need to be solved to allow SLR to be useful in practice. The research in the field is in its infancy in regards to the robustness of the models to a large diversity of signs and signers, and to fairness of the models to performers from different demographics. This work summarises the ChaLearn LAP Large Scale Signer Independent Isolated SLR Challenge, organised at CVPR 2021 with the goal of overcoming some of the aforementioned challenges. We analyse and discuss the challenge design, top winning solutions and suggestions for future research. The challenge attracted 132 participants in the RGB track and 59 in the RGB+Depth track, receiving more than 1.5K submissions in total. Participants were evaluated using a new large-scale multi-modal Turkish Sign Language (AUTSL) dataset, consisting of 226 sign labels and 36,302 isolated sign video samples performed by 43 different signers. Winning teams achieved more than 96% recognition rate, and their approaches benefited from pose/hand/face estimation, transfer learning, external data, fusion/ensemble of modalities and different strategies to model spatio-temporal information. However, methods still fail to distinguish among very similar signs, in particular those sharing similar hand trajectories.
翻訳日:2021-05-12 13:55:04 公開日:2021-05-11
# DeepLight:実世界のディスプレイのためのロバストで控えめなリアルタイムスクリーンカメラ通信

DeepLight: Robust & Unobtrusive Real-time Screen-Camera Communication for Real-World Displays ( http://arxiv.org/abs/2105.05092v1 )

ライセンス: Link先を確認
Vu Tran, Gihan Jayatilaka, Ashwin Ashok, Archan Misra(参考訳) 本稿では,スクリーン・カメラ・コミュニケーション(SCC)において,スクリーン上の映像コンテンツを視覚的に認識不能な方法で符号化し,そのような映像をキャプチャするカメラでデコードする手法を提案する。 まず,現在最先端の SCC 技術では,撮影画像からの画面抽出誤差でもデコード精度は急速に低下し,(b) 画素強度を最小限に調整しても,一般的なリフレッシュレート画面上で認識可能なフリックスを生成する。 これらの課題を克服するために、DeepLightは、機械学習(ML)モデルをデコードパイプラインに組み込んで、現実世界のさまざまな条件下で、人間には受け入れられず、適度に高いSCCレートを達成するシステムである。 deep-lightの重要なイノベーションは、ディープニューラルネットワーク(dnn)ベースのデコーダの設計であり、各エンコードされたビットに関連付けられたピクセルを正確に分離することなく、ディスプレイフレームに空間的にエンコードされたすべてのビットをまとめてデコードする。 さらに、DeepLightはブルーチャネルのみの強度を選択的に調整することで、認識不能なエンコーディングをサポートし、最先端のオブジェクト検出DNNパイプラインを使用して、合理的に正確なスクリーン抽出(IoU値>=83%)を提供する。 フル機能のDeepLightシステムでは,より大きなスクリーンカメラ距離(約2m)でも高い復号精度(フレームエラー率<0.2)と適度に高いデータ出力(==0.95Kbps)を実現することができることを示す。

The paper introduces a novel, holistic approach for robust Screen-Camera Communication (SCC), where video content on a screen is visually encoded in a human-imperceptible fashion and decoded by a camera capturing images of such screen content. We first show that state-of-the-art SCC techniques have two key limitations for in-the-wild deployment: (a) the decoding accuracy drops rapidly under even modest screen extraction errors from the captured images, and (b) they generate perceptible flickers on common refresh rate screens even with minimal modulation of pixel intensity. To overcome these challenges, we introduce DeepLight, a system that incorporates machine learning (ML) models in the decoding pipeline to achieve humanly-imperceptibl e, moderately high SCC rates under diverse real-world conditions. Deep-Light's key innovation is the design of a Deep Neural Network (DNN) based decoder that collectively decodes all the bits spatially encoded in a display frame, without attempting to precisely isolate the pixels associated with each encoded bit. In addition, DeepLight supports imperceptible encoding by selectively modulating the intensity of only the Blue channel, and provides reasonably accurate screen extraction (IoU values >= 83%) by using state-of-the-art object detection DNN pipelines. We show that a fully functional DeepLight system is able to robustly achieve high decoding accuracy (frame error rate < 0.2) and moderately-high data goodput (>=0.95Kbps) using a human-held smartphone camera, even over larger screen-camera distances (approx =2m).
翻訳日:2021-05-12 13:54:38 公開日:2021-05-11
# radarの役割再考:座標アライメントによるカメラ・レーダーデータセットとシステマティック・アノテータ

Rethinking of Radar's Role: A Camera-Radar Dataset and Systematic Annotator via Coordinate Alignment ( http://arxiv.org/abs/2105.05207v1 )

ライセンス: Link先を確認
Yizhou Wang, Gaoang Wang, Hung-Min Hsu, Hui Liu, Jenq-Neng Hwang(参考訳) radarは長い間、障害物の測位と速度推定のための自動運転車の一般的なセンサーだった。 しかし、全天候に対するロバストなセンサーとして、レーダーの能力はカメラやLiDARと比べて十分に明らかになっていない。 単に補足センサーとして機能する代わりに、電波周波数に隠されたレーダーの豊富な情報は、オブジェクトの分類や検出のようなより複雑なタスクを達成するための有用な手がかりとなる可能性がある。 本稿では,レーダーの電波(rf)画像から物体を3dに分類・ローカライズすることを目的とした,レーダオブジェクト検出(rod)タスクに対処するシステム的注釈器と性能評価システムを備えた,cruwという新しいデータセットを提案する。 我々の知る限り、CRUWは、様々な運転シナリオで収集されたカメラRGB画像とレーダーRF画像を含む、体系的なアノテーションと評価システムを備えた最初の大規模データセットである。

Radar has long been a common sensor on autonomous vehicles for obstacle ranging and speed estimation. However, as a robust sensor to all-weather conditions, radar's capability has not been well-exploited, compared with camera or LiDAR. Instead of just serving as a supplementary sensor, radar's rich information hidden in the radio frequencies can potentially provide useful clues to achieve more complicated tasks, like object classification and detection. In this paper, we propose a new dataset, named CRUW, with a systematic annotator and performance evaluation system to address the radar object detection (ROD) task, which aims to classify and localize the objects in 3D purely from radar's radio frequency (RF) images. To the best of our knowledge, CRUW is the first public large-scale dataset with a systematic annotation and evaluation system, which involves camera RGB images and radar RF images, collected in various driving scenarios.
翻訳日:2021-05-12 13:54:07 公開日:2021-05-11
# グローバル時間アライメントとサイクル一貫性による表現学習

Representation Learning via Global Temporal Alignment and Cycle-Consistency ( http://arxiv.org/abs/2105.05217v1 )

ライセンス: Link先を確認
Isma Hadji, Konstantinos G. Derpanis, Allan D. Jepson(参考訳) 我々は、同じプロセス(例えば、人間の行動)の時間的シーケンス(例えば、ビデオ)の整列に基づく表現学習の弱教師付き手法を導入する。 主なアイデアは、シーケンスペアにまたがる潜在対応のグローバル時間順序を監督信号として使うことである。 特に,埋め込みネットワークを学習するための最適シーケンスアライメントのスコアリングに基づく損失を提案する。 我々の損失は、(i)局所経路経路決定は対照的で微分可能であり、(ii)対角距離は対照的な確率としてキャストされ、(iii)我々の定式化は、対応性を検証するグローバルサイクル整合性損失を自然に認めている、という3つの重要な特徴を含む、動的時間ワープ(DTW)の新たな確率論的経路発見ビューに基づいている。 評価のために,細粒度動作分類,ショット学習,映像同期の課題について検討する。 これまでの方法に比べて大幅な性能向上が報告されている。 さらに,我々の時間的アライメントフレームワークである3次元ポーズ再構成と細粒度音声・視覚検索の2つの応用について報告する。

We introduce a weakly supervised method for representation learning based on aligning temporal sequences (e.g., videos) of the same process (e.g., human action). The main idea is to use the global temporal ordering of latent correspondences across sequence pairs as a supervisory signal. In particular, we propose a loss based on scoring the optimal sequence alignment to train an embedding network. Our loss is based on a novel probabilistic path finding view of dynamic time warping (DTW) that contains the following three key features: (i) the local path routing decisions are contrastive and differentiable, (ii) pairwise distances are cast as probabilities that are contrastive as well, and (iii) our formulation naturally admits a global cycle consistency loss that verifies correspondences. For evaluation, we consider the tasks of fine-grained action classification, few shot learning, and video synchronization. We report significant performance increases over previous methods. In addition, we report two applications of our temporal alignment framework, namely 3D pose reconstruction and fine-grained audio/visual retrieval.
翻訳日:2021-05-12 13:53:50 公開日:2021-05-11
# fibrational initial algebra-final coalgebra coincide over initial algebras: turn verification witnesss upside

Fibrational Initial Algebra-Final Coalgebra Coincidence over Initial Algebras: Turning Verification Witnesses Upside Down ( http://arxiv.org/abs/2105.04817v1 )

ライセンス: Link先を確認
Mayuko Kori, Ichiro Hasuo, Shin-ya Katsumata(参考訳) 初期代数 (IAs) と最終コーデブラ (FCs) の一致は、理論計算機科学において様々な重要な結果を支える現象である。 本稿では,IA-FCの相違点,すなわち基底圏の初期代数上のファイバーについて,一般的なフィブレーション条件を同定する。 ファイバー中の(co)アルジェブラを(co)インダクティブ述語として同定し、我々のfibrational ia-fcの一致により、インダクティブな証人(不変量など)を使ってインダクティブな性質(生活性など)を検証することができる。 我々の一般的なフィブレーション理論は鎖コリミットの安定性の技術的条件を特徴とし、その枠組みをモナディック効果の存在にまで拡張し、完全格子値の述語フィブレーションに制限する。 私たちの分類理論の実際的な利点は、確率的生存、ボトムアップツリーオートマトンに対する受容とモデルチェックという3つの検証問題に対する新しい「アップサイドダウン」証人概念によって例示される。

The coincidence between initial algebras (IAs) and final coalgebras (FCs) is a phenomenon that underpins various important results in theoretical computer science. In this paper, we identify a general fibrational condition for the IA-FC coincidence, namely in the fiber over an initial algebra in the base category. Identifying (co)algebras in a fiber as (co)inductive predicates, our fibrational IA-FC coincidence allows one to use coinductive witnesses (such as invariants) for verifying inductive properties (such as liveness). Our general fibrational theory features the technical condition of stability of chain colimits; we extend the framework to the presence of a monadic effect, too, restricting to fibrations of complete lattice-valued predicates. Practical benefits of our categorical theory are exemplified by new "upside-down" witness notions for three verification problems: probabilistic liveness, and acceptance and model-checking with respect to bottom-up tree automata.
翻訳日:2021-05-12 13:53:27 公開日:2021-05-11
# 知識グラフを用いた対話型質問応答における改革からの強化学習

Reinforcement Learning from Reformulations in Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2105.04850v1 )

ライセンス: Link先を確認
Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum(参考訳) パーソナルアシスタントの台頭により,会話型質問応答(ConvQA)がユーザ・システムインタラクションの非常に一般的なメカニズムとなった。 知識グラフ (KGs) 上のConvQAの最先端の手法は、人気のあるベンチマークで見られる質問と回答のペアからしか学べない。 しかし実際には、そのようなトレーニングデータは入手が難しい。ユーザは、答えを正しくも正しくも、明示的にマークすることはめったにない。 この研究では、より自然な学習パラダイムに向けて、質問の修正を通じてノイズや暗黙のフィードバックから一歩踏み出します。 再編成は誤ったシステム応答によって引き起こされる可能性が高いが、新しいフォローアップ質問は前のターンの答えにポジティブなシグナルとなる可能性がある。 本研究では,質問や修正の会話の流れから学習できる強化学習モデル「ConQUER」を提案する。 克服プロセスは、複数のエージェントがkg上で並行して歩くようにモデル化され、そこではポリシーネットワークを用いてサンプル化されたアクションによってウォークが決定される。 この政策ネットワークは、その質問と会話の文脈を入力とし、再構成可能性から得られたノイズの多い報酬を通じて訓練する。 CONQUERを評価するために、約205kの修正を含む1万1千の自然な会話を持つベンチマークであるConvRefを作成し、リリースする。 実験の結果、ConQUERはノイズの多い報酬信号から会話の質問に答えることに成功し、最先端のベースラインよりも大幅に改善された。

The rise of personal assistants has made conversational question answering (ConvQA) a very popular mechanism for user-system interaction. State-of-the-art methods for ConvQA over knowledge graphs (KGs) can only learn from crisp question-answer pairs found in popular benchmarks. In reality, however, such training data is hard to come by: users would rarely mark answers explicitly as correct or wrong. In this work, we take a step towards a more natural learning paradigm - from noisy and implicit feedback via question reformulations. A reformulation is likely to be triggered by an incorrect system response, whereas a new follow-up question could be a positive signal on the previous turn's answer. We present a reinforcement learning model, termed CONQUER, that can learn from a conversational stream of questions and reformulations. CONQUER models the answering process as multiple agents walking in parallel on the KG, where the walks are determined by actions sampled using a policy network. This policy network takes the question along with the conversational context as inputs and is trained via noisy rewards obtained from the reformulation likelihood. To evaluate CONQUER, we create and release ConvRef, a benchmark with about 11k natural conversations containing around 205k reformulations. Experiments show that CONQUER successfully learns to answer conversational questions from noisy reward signals, significantly improving over a state-of-the-art baseline.
翻訳日:2021-05-12 13:53:07 公開日:2021-05-11
# backretrieval:並列コーパスのない言語間テキスト表現のための画像分割評価指標

Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text Representations Without Parallel Corpora ( http://arxiv.org/abs/2105.04971v1 )

ライセンス: Link先を確認
Mikhail Fain, Niall Twomey and Danushka Bollegala(参考訳) 近年、言語間テキスト表現が普及し、教師なし機械翻訳や言語間情報検索など多くのタスクのバックボーンとして機能している。 しかし、そのような表現の評価は、異なる言語対にわたるドメイン固有の並列言語データを取得する必要があるため、標準ベンチマークを超える領域では困難である。 本稿では,ペア画像テキスト評価データセットのプロキシとして画像を用いた言語間テキスト表現の質を評価するための自動メトリクスを提案する。 実験的に、backretrieval は注釈付きデータセットの基底的真理指標と高い相関性を示し、ベースラインに対する統計的に有意な改善を示す。 本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。 本稿では,言語間埋め込み品質をバックリトライヴァルで判断する方法を説明し,その結果を人間の小さな研究で検証する。

Cross-lingual text representations have gained popularity lately and act as the backbone of many tasks such as unsupervised machine translation and cross-lingual information retrieval, to name a few. However, evaluation of such representations is difficult in the domains beyond standard benchmarks due to the necessity of obtaining domain-specific parallel language data across different pairs of languages. In this paper, we propose an automatic metric for evaluating the quality of cross-lingual textual representations using images as a proxy in a paired image-text evaluation dataset. Experimentally, Backretrieval is shown to highly correlate with ground truth metrics on annotated datasets, and our analysis shows statistically significant improvements over baselines. Our experiments conclude with a case study on a recipe dataset without parallel cross-lingual data. We illustrate how to judge cross-lingual embedding quality with Backretrieval, and validate the outcome with a small human study.
翻訳日:2021-05-12 13:52:44 公開日:2021-05-11
# EBM-Fold:エネルギーモデルによる完全に識別可能なタンパク質のフォールディング

EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models ( http://arxiv.org/abs/2105.04771v1 )

ライセンス: Link先を確認
Jiaxiang Wu, Shitong Luo, Tao Shen, Haidong Lan, Sheng Wang, Junzhou Huang(参考訳) アミノ酸配列からの正確なタンパク質構造予測は、タンパク質の機能を理解する上で重要である。 この領域の最近の進歩は、ディープニューラルネットワークを利用したより正確な残差距離と方向予測の恩恵が大きい。 しかし、構造最適化手順は、例えば、伝統的なツールによって支配されている。 ロゼッタは、事前定義された統計エネルギー関数(任意の予測に基づく抑制)を最小化することで、構造を解く。 このようなエネルギー関数はタンパク質のコンフォメーション空間全体を定式化するのに最適ではないかもしれない。 本稿では,データ駆動型生成ネットワークを用いて,タンパク質構造最適化のための完全微分可能な手法を提案する。 このネットワークは、ca原子間の崩壊した距離行列から補正信号を予測するために、異色な方法で訓練される。 ネットワークが十分に訓練されると、ランダム初期化から徐々に構造を最適化するためにランジュバンダイナミクスに基づくサンプリングが採用される。 EBM-Fold法は従来のロゼッタ構造最適化法と比較して効率よく高品質なデコイを生成可能であることを示す。

Accurate protein structure prediction from amino-acid sequences is critical to better understanding the protein function. Recent advances in this area largely benefit from more precise inter-residue distance and orientation predictions, powered by deep neural networks. However, the structure optimization procedure is still dominated by traditional tools, e.g. Rosetta, where the structure is solved via minimizing a pre-defined statistical energy function (with optional prediction-based restraints). Such energy function may not be optimal in formulating the whole conformation space of proteins. In this paper, we propose a fully-differentiable approach for protein structure optimization, guided by a data-driven generative network. This network is trained in a denoising manner, attempting to predict the correction signal from corrupted distance matrices between Ca atoms. Once the network is well trained, Langevin dynamics based sampling is adopted to gradually optimize structures from random initialization. Extensive experiments demonstrate that our EBM-Fold approach can efficiently produce high-quality decoys, compared against traditional Rosetta-based structure optimization routines.
翻訳日:2021-05-12 13:52:09 公開日:2021-05-11
# 解釈可能な多方向金融予測のためのテンソルトレインリカレントニューラルネットワーク

Tensor-Train Recurrent Neural Networks for Interpretable Multi-Way Financial Forecasting ( http://arxiv.org/abs/2105.04983v1 )

ライセンス: Link先を確認
Yao Lei Xu, Giuseppe G. Calvi, Danilo P. Mandic(参考訳) リカレントニューラルネットワーク(RNN)は、表現力とメモリのため、シーケンスモデリングのための事実上の標準機械学習ツールである。 しかし、大規模な次元データを扱う場合、パラメータの数の増加に対応する指数関数的増加は計算ボトルネックを課す。 テンソル・トレイン・RNN(TT-RNN)の開発には,テンソルに固有のパラメータ圧縮能力など,次元の呪いに対処する能力を備える必要がある。 多くのアプリケーションで有望な結果が得られたにもかかわらず、TT-RNNの完全なポテンシャルは、信号対雑音比の低いマルチモーダルデータを特徴とする、解釈可能な金融モデリングの文脈ではまだ検討されていない。 この問題に対処するために、通貨の財務予測におけるTT-RNNの可能性を検討する。 TT因子の解析により, テンソル分解の基盤となる物理的意味は, TT-RNNモデルにより, 結果の解釈可能性に寄与し, ニューラルネットワークに関連する悪名高い「ブラックボックス」問題を緩和できることが示されている。 さらに, TT-RNNの非圧縮RNN法および他のテンソル予測法に比べて, TT-RNNの正則化性能が向上することを示した。

Recurrent Neural Networks (RNNs) represent the de facto standard machine learning tool for sequence modelling, owing to their expressive power and memory. However, when dealing with large dimensional data, the corresponding exponential increase in the number of parameters imposes a computational bottleneck. The necessity to equip RNNs with the ability to deal with the curse of dimensionality, such as through the parameter compression ability inherent to tensors, has led to the development of the Tensor-Train RNN (TT-RNN). Despite achieving promising results in many applications, the full potential of the TT-RNN is yet to be explored in the context of interpretable financial modelling, a notoriously challenging task characterized by multi-modal data with low signal-to-noise ratio. To address this issue, we investigate the potential of TT-RNN in the task of financial forecasting of currencies. We show, through the analysis of TT-factors, that the physical meaning underlying tensor decomposition, enables the TT-RNN model to aid the interpretability of results, thus mitigating the notorious "black-box" issue associated with neural networks. Furthermore, simulation results highlight the regularization power of TT decomposition, demonstrating the superior performance of TT-RNN over its uncompressed RNN counterpart and other tensor forecasting methods.
翻訳日:2021-05-12 13:51:53 公開日:2021-05-11
# 交通モデルのためのグラフ理論

Graph Theory for Metro Traffic Modelling ( http://arxiv.org/abs/2105.04991v1 )

ライセンス: Link先を確認
Bruno Scalzo Dees, Yao Lei Xu, Anthony G. Constantinides, Danilo P. Mandic(参考訳) 都市交通ネットワークのモデリングのための統一グラフ理論の枠組みを提案する。 これは、拡散法の観点から、まずロンドン地下システムのモデリングのための基本的なグラフフレームワークを導入することで達成される。 これはステーションの重要性と脆弱性の両方の分析の基礎となり、グラフ頂点中心性の概念が重要な役割を果たす。 次に,グラフトポロジのkエッジ拡張について検討し,ネットワークの堅牢性向上と計画ツールとしての有用性を説明する。 基礎となるグラフトポロジのグラフ理論特性を確立する際に、そのようなメトログラフ上のデータを処理するモデルを導入する。 通勤運動はフィックの拡散法則に従うことが示され、グラフラプラシアンは通勤人口動態の拡散過程の解析モデルを提供する。 最後に、特に朝と夕方のラッシュ時間における地下データのモデリングと予測のための汎用モデルとして、グラフニューラルネットワークやハイパーグラフニューラルネットワークなどの現代のディープラーニングモデルの適用についても検討する。 ロンドンでの朝のラッシュアワーの間、乗客の流入と流出を含む包括的なシミュレーションは、幅広い経済的意味を持つ形式的数学的アプローチである地下鉄計画と交通管理におけるグラフモデルの利点を示している。

A unifying graph theoretic framework for the modelling of metro transportation networks is proposed. This is achieved by first introducing a basic graph framework for the modelling of the London underground system from a diffusion law point of view. This forms a basis for the analysis of both station importance and their vulnerability, whereby the concept of graph vertex centrality plays a key role. We next explore k-edge augmentation of a graph topology, and illustrate its usefulness both for improving the network robustness and as a planning tool. Upon establishing the graph theoretic attributes of the underlying graph topology, we proceed to introduce models for processing data on such a metro graph. Commuter movement is shown to obey the Fick's law of diffusion, where the graph Laplacian provides an analytical model for the diffusion process of commuter population dynamics. Finally, we also explore the application of modern deep learning models, such as graph neural networks and hyper-graph neural networks, as general purpose models for the modelling and forecasting of underground data, especially in the context of the morning and evening rush hours. Comprehensive simulations including the passenger in- and out-flows during the morning rush hour in London demonstrates the advantages of the graph models in metro planning and traffic management, a formal mathematical approach with wide economic implications.
翻訳日:2021-05-12 13:51:30 公開日:2021-05-11
# TAG:生涯学習のためのタスクベース累積勾配

TAG: Task-based Accumulated Gradients for Lifelong learning ( http://arxiv.org/abs/2105.05155v1 )

ライセンス: Link先を確認
Pranshu Malviya, Balaraman Ravindran, Sarath Chandar(参考訳) エージェントが生涯学習設定で新しいタスクの継続的なストリームに遭遇すると、新しいタスクをよりよく学習するために、以前のタスクから得た知識を活用する。 このようなシナリオでは、効率的な知識表現の特定が難しい問題となる。 ほとんどの研究は、過去のタスクからサンプルのサブセットをリプレイバッファに格納し、各タスクに別々のパラメータセットを割り当てるか、正規化項を導入することでパラメータの過剰な更新を罰することを提案する。 既存の手法では、一般的なタスク非依存の確率的勾配降下更新規則を採用しているが、タスク間の関連性に基づいて学習率に適応するタスク対応最適化法を提案する。 我々は,各タスクに特有の勾配を蓄積することで,更新時にパラメータが取る方向を利用する。 これらのタスクベースの累積勾配は、ストリーム全体にわたって維持および更新される知識ベースとして機能する。 提案する適応学習率は, 破滅的な記憶の喪失だけでなく, 正の後方移動にも寄与することを示した。 また,多くのタスクを持つ複雑なデータセット上での生涯学習において,本手法は最先端の手法よりも優れた性能を示す。

When an agent encounters a continual stream of new tasks in the lifelong learning setting, it leverages the knowledge it gained from the earlier tasks to help learn the new tasks better. In such a scenario, identifying an efficient knowledge representation becomes a challenging problem. Most research works propose to either store a subset of examples from the past tasks in a replay buffer, dedicate a separate set of parameters to each task or penalize excessive updates over parameters by introducing a regularization term. While existing methods employ the general task-agnostic stochastic gradient descent update rule, we propose a task-aware optimizer that adapts the learning rate based on the relatedness among tasks. We utilize the directions taken by the parameters during the updates by accumulating the gradients specific to each task. These task-based accumulated gradients act as a knowledge base that is maintained and updated throughout the stream. We empirically show that our proposed adaptive learning rate not only accounts for catastrophic forgetting but also allows positive backward transfer. We also show that our method performs better than several state-of-the-art methods in lifelong learning on complex datasets with a large number of tasks.
翻訳日:2021-05-12 13:51:13 公開日:2021-05-11
# コールドスタートユーザのためのクロスドメインレコメンデーションのためのtransfer-metaフレームワーク

Transfer-Meta Framework for Cross-domain Recommendation to Cold-Start Users ( http://arxiv.org/abs/2105.04785v1 )

ライセンス: Link先を確認
Yongchun Zhu, Kaikai Ge, Fuzhen Zhuang, Ruobing Xie, Dongbo Xi, Xu Zhang, Leyu Lin and Qing He(参考訳) コールドスタート問題は、実用的なレコメンデーションシステムにおいて大きな課題である。 この問題の1つの有望な解決策はクロスドメインレコメンデーション(CDR)であり、これは補助的な(ソース)ドメインからの豊富な情報を活用し、ターゲットドメインにおけるレコメンダシステムの性能を改善する。 これらのCDRアプローチでは、CDR(EMCDR)の埋め込みおよびマッピング手法のファミリーが非常に効果的であり、ソース埋め込みからマッピング関数を明示的に学習し、重複するユーザによるターゲット埋め込みを学習する。 しかし、これらのアプローチは1つの深刻な問題に悩まされる: マッピング関数は、限られたオーバーラップユーザでのみ学習され、その関数は、限られたオーバーラップユーザによってバイアスされるため、一般化能力に不満が生じ、ターゲットドメインのコールドスタートユーザのパフォーマンスが低下する。 タスクの新規化に優れたメタ学習の利点を生かして,トランスファステージとメタステージを有するCDR(TMCDR)のための転送メタフレームワークを提案する。 転送(事前訓練)段階において、ソースモデルとターゲットモデルは、それぞれソースドメインとターゲットドメインで訓練される。 メタステージでは、タスク指向のメタネットワークが学習され、ソースドメインに埋め込まれたユーザがターゲットの機能空間に暗黙的に変換される。 さらに、MCCDRは、MF、BPR、CMLなど、様々なベースモデルに適用可能な一般的なフレームワークである。 AmazonとDoubanのデータを利用することで、6つのクロスドメインタスクに関する広範な実験を行い、TMCDRの性能と互換性を実証する。

Cold-start problems are enormous challenges in practical recommender systems. One promising solution for this problem is cross-domain recommendation (CDR) which leverages rich information from an auxiliary (source) domain to improve the performance of recommender system in the target domain. In these CDR approaches, the family of Embedding and Mapping methods for CDR (EMCDR) is very effective, which explicitly learn a mapping function from source embeddings to target embeddings with overlapping users. However, these approaches suffer from one serious problem: the mapping function is only learned on limited overlapping users, and the function would be biased to the limited overlapping users, which leads to unsatisfying generalization ability and degrades the performance on cold-start users in the target domain. With the advantage of meta learning which has good generalization ability to novel tasks, we propose a transfer-meta framework for CDR (TMCDR) which has a transfer stage and a meta stage. In the transfer (pre-training) stage, a source model and a target model are trained on source and target domains, respectively. In the meta stage, a task-oriented meta network is learned to implicitly transform the user embedding in the source domain to the target feature space. In addition, the TMCDR is a general framework that can be applied upon various base models, e.g., MF, BPR, CML. By utilizing data from Amazon and Douban, we conduct extensive experiments on 6 cross-domain tasks to demonstrate the superior performance and compatibility of TMCDR.
翻訳日:2021-05-12 13:50:38 公開日:2021-05-11
# AndREAS: AI traininging scheDuler foR accElerAted Resource Clusters

ANDREAS: Artificial intelligence traiNing scheDuler foR accElerAted resource clusterS ( http://arxiv.org/abs/2105.05080v1 )

ライセンス: Link先を確認
Federica Filippini, Danilo Ardagna, Marco Lattuada, Edoardo Amaldi, Michele Ciavotta, Maciek Riedl, Katarzyna Materka, Pawe{\l} Skrzypek, Fabrizio Magugliani, Marco Cicala(参考訳) 人工知能(AI)とディープラーニング(DL)アルゴリズムは現在、幅広い製品やソリューションに適用されている。 DLトレーニングジョブはリソースの要求が高く、AIアクセラレータ(GPUなど)を利用する場合には大きなメリットがあります。 しかし、GPUによるクラスタの効率的な管理には大きな課題があります。 これらのうち、効率的なスケジューリングとリソース割り当てソリューションは、パフォーマンスを最大化し、データセンターの運用コストを最小化するために不可欠である。 本稿では,これらの課題に共同で対処する高度なスケジューリングソリューションである ANDREAS を提案する。 シミュレーションに基づく実験では,実際のクラスタ上での検証では,実際のコストと予測されたコストとの間に13%未満のずれが生じ,実際のシナリオにおけるANDREASソリューションの有効性が証明された。

Artificial Intelligence (AI) and Deep Learning (DL) algorithms are currently applied to a wide range of products and solutions. DL training jobs are highly resource demanding and they experience great benefits when exploiting AI accelerators (e.g., GPUs). However, the effective management of GPU-powered clusters comes with great challenges. Among these, efficient scheduling and resource allocation solutions are crucial to maximize performance and minimize Data Centers operational costs. In this paper we propose ANDREAS, an advanced scheduling solution that tackles these problems jointly, aiming at optimizing DL training runtime workloads and their energy consumption in accelerated clusters. Experiments based on simulation demostrate that we can achieve a cost reduction between 30 and 62% on average with respect to first-principle methods while the validation on a real cluster shows a worst case deviation below 13% between actual and predicted costs, proving the effectiveness of ANDREAS solution in practical scenarios.
翻訳日:2021-05-12 13:50:10 公開日:2021-05-11
# オンラインニュースのセマンティックネットワーク分析による消費者信頼の先行性の検討

Exploring the Antecedents of Consumer Confidence through Semantic Network Analysis of Online News ( http://arxiv.org/abs/2105.04900v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, F. Grippa, B. Guardabascio, F. Ravazzolo(参考訳) 本稿では,セマンティックネットワーク分析の応用を通じて,オンラインニュースが社会・経済消費者の認識に与える影響について検討する。 4年間にわたるイタリアのメディア上の約130万のオンライン記事を用いて、消費者信頼指数における経済関連キーワードの漸進的予測力を評価した。 ニュースを共起する単語のネットワークに変換し、特定のキーワードの意味的重要性を計算して、記事に出てくる単語が消費者の経済状況に対する判断を予測できるかどうかを確認した。 その結果、現在の家庭や国家状況を考えると、経済関連キーワードはより強い予測力を持つ一方で、将来の予測力はそれほど大きくないことが明らかとなった。 セマンティクスの重要性を示す指標は,消費者の信頼度を推定するための補完的アプローチを提供し,従来のサーベイベース手法の限界を緩和する。

This article studies the impact of online news on social and economic consumer perceptions through the application of semantic network analysis. Using almost 1.3 million online articles on Italian media covering a period of four years, we assessed the incremental predictive power of economic-related keywords on the Consumer Confidence Index. We transformed news into networks of co-occurring words and calculated the semantic importance of specific keywords, to see if words appearing in the articles could anticipate consumers' judgements about the economic situation. Results show that economic-related keywords have a stronger predictive power if we consider the current households and national situation, while their predictive power is less significant with regards to expectations about the future. Our indicator of semantic importance offers a complementary approach to estimate consumer confidence, lessening the limitations of traditional survey-based methods.
翻訳日:2021-05-12 13:49:52 公開日:2021-05-11
# 磁気共鳴画像を用いた多発性硬化症自動検出のためのディープラーニング技術の応用

Applications of Deep Learning Techniques for Automated Multiple Sclerosis Detection Using Magnetic Resonance Imaging: A Review ( http://arxiv.org/abs/2105.04881v1 )

ライセンス: Link先を確認
Afshin Shoeibi, Marjane Khodatars, Mahboobeh Jafari, Parisa Moridian, Mitra Rezaei, Roohallah Alizadehsani, Fahime Khozeimeh, Juan Manuel Gorriz, J\'onathan Heras, Maryam Panahiazar, Saeid Nahavandi, U. Rajendra Acharya(参考訳) 多発性硬化症 (Multiple Sclerosis, MS) は、神経系の機能に有害な視覚障害、感覚障害、運動障害を引き起こす脳疾患の一種である。 MSを診断するためには、これまで複数のスクリーニング法が提案されており、その中でもMRI(MRI)が医師の間で注目されている。 MRIモダリティは、医師に脳の構造と機能に関する基本的な情報を与え、MS病変の迅速診断に不可欠である。 MRIを用いたMSの診断には時間がかかり、面倒で、手動によるエラーも起こりやすい。 そのため,近年,MRIを用いたMRIによるMSの正確な診断のために,人工知能(AI)に基づくコンピュータ支援診断システム(CADS)が提案されている。 AI分野では、(i)従来の機械学習と(ii)ディープラーニング(DL)技術を用いて、自動MS診断が実施されている。 従来の機械学習アプローチは、試行錯誤による特徴抽出と選択に基づいている。 DLでは、これらのステップはDLモデル自体によって実行される。 本稿では,MRI のニューロイメージング・モダリティを用いた DL 技術を用いた自動MS診断法について概説する。 また、それぞれの作品を徹底的にレビューし、議論する。 最後に, DL法とMRIモダリティを併用した自動MS診断における課題と今後の方向性について述べる。

Multiple Sclerosis (MS) is a type of brain disease which causes visual, sensory, and motor problems for people with a detrimental effect on the functioning of the nervous system. In order to diagnose MS, multiple screening methods have been proposed so far; among them, magnetic resonance imaging (MRI) has received considerable attention among physicians. MRI modalities provide physicians with fundamental information about the structure and function of the brain, which is crucial for the rapid diagnosis of MS lesions. Diagnosing MS using MRI is time-consuming, tedious, and prone to manual errors. Hence, computer aided diagnosis systems (CADS) based on artificial intelligence (AI) methods have been proposed in recent years for accurate diagnosis of MS using MRI neuroimaging modalities. In the AI field, automated MS diagnosis is being conducted using (i) conventional machine learning and (ii) deep learning (DL) techniques. The conventional machine learning approach is based on feature extraction and selection by trial and error. In DL, these steps are performed by the DL model itself. In this paper, a complete review of automated MS diagnosis methods performed using DL techniques with MRI neuroimaging modalities are discussed. Also, each work is thoroughly reviewed and discussed. Finally, the most important challenges and future directions in the automated MS diagnosis using DL techniques coupled with MRI modalities are presented in detail.
翻訳日:2021-05-12 13:48:55 公開日:2021-05-11
# リモートセンシング画像変化検出のためのタスク関連自己教師付き学習

Task-related self-supervised learning for remote sensing image change detection ( http://arxiv.org/abs/2105.04951v1 )

ライセンス: Link先を確認
Zhinan Cai, Zhiyu Jiang, Yuan Yuan(参考訳) リモートセンシング画像の変更検出は,都市変化の検出,災害評価,その他の分野に広く適用されている。 しかしながら、既存のcnnベースの変更検出手法のほとんどは、依然として不適切な擬似変更抑制と不十分な特徴表現の問題に苦しんでいる。 本研究では、スムーズな機構を持つタスク関連自己教師型学習変化検出ネットワーク(TSLCD)に基づく教師なし変更検出手法を提案する。 1)空間的特徴をより効果的に抽出するために,タスク関連自己教師付き学習モジュールが導入された。 2) ハードサンプルマイニング損失関数を適用して, 分類しにくい試料に注意を向けた。 3)疑似変化やノイズを取り除くために滑らかなメカニズムが利用される。 4つのリモートセンシング変化検出データセットの実験により,提案手法が変化検出タスクの最先端を実現することが明らかになった。

Change detection for remote sensing images is widely applied for urban change detection, disaster assessment and other fields. However, most of the existing CNN-based change detection methods still suffer from the problem of inadequate pseudo-changes suppression and insufficient feature representation. In this work, an unsupervised change detection method based on Task-related Self-supervised Learning Change Detection network with smooth mechanism(TSLCD) is proposed to eliminate it. The main contributions include: (1) the task-related self-supervised learning module is introduced to extract spatial features more effectively. (2) a hard-sample-mining loss function is applied to pay more attention to the hard-to-classify samples. (3) a smooth mechanism is utilized to remove some of pseudo-changes and noise. Experiments on four remote sensing change detection datasets reveal that the proposed TSLCD method achieves the state-of-the-art for change detection task.
翻訳日:2021-05-12 13:48:38 公開日:2021-05-11
# 超スペクトルターゲット検出のための重み付き階層的スパース表現

Weighted Hierarchical Sparse Representation for Hyperspectral Target Detection ( http://arxiv.org/abs/2105.04990v1 )

ライセンス: Link先を確認
Chenlu Wei, Zhiyu Jiang, Yuan Yuan(参考訳) 超スペクトルターゲット検出はリモートセンシングの分野で広く研究されている。 しかし,背景辞書作成問題と対象辞書と背景辞書の相関分析は十分に研究されていない。 これらの問題に対処するために,超スペクトル目標検出のための \emph{weighted hierarchical sparse representation} を提案する。 この作品の主な貢献は以下のとおりである。 1)二重同心窓構造による従来の背景辞書ビルの表現不足を考慮し、局所的及び大域的なスペクトル情報を同時に考慮して階層的背景辞書を構築する。 2)背景辞書の不純さへの影響を低減するため、対象辞書及び背景辞書の目標スコアを辞書品質に応じて重み付けする。 提案手法の有効性を検証するために,3つのハイパースペクトルターゲット検出データセットを用いた。 また, 実験結果から, 最先端技術と比較して優れた性能を示した。

Hyperspectral target detection has been widely studied in the field of remote sensing. However, background dictionary building issue and the correlation analysis of target and background dictionary issue have not been well studied. To tackle these issues, a \emph{Weighted Hierarchical Sparse Representation} for hyperspectral target detection is proposed. The main contributions of this work are listed as follows. 1) Considering the insufficient representation of the traditional background dictionary building by dual concentric window structure, a hierarchical background dictionary is built considering the local and global spectral information simultaneously. 2) To reduce the impureness impact of background dictionary, target scores from target dictionary and background dictionary are weighted considered according to the dictionary quality. Three hyperspectral target detection data sets are utilized to verify the effectiveness of the proposed method. And the experimental results show a better performance when compared with the state-of-the-arts.
翻訳日:2021-05-12 13:48:28 公開日:2021-05-11
# ctによる肺小葉分割のためのマルチタスク学習v-netの開発と疾患肺への応用

Development of a Multi-Task Learning V-Net for Pulmonary Lobar Segmentation on Computed Tomography and Application to Diseased Lungs ( http://arxiv.org/abs/2105.05204v1 )

ライセンス: Link先を確認
Marc Boubnovski Martell, Mitchell Chen, Kristofer Linton-Reid, Joram M. Posma, Susan J Copley, Eric O. Aboagye(参考訳) 肺疾患の局所的評価を可能とし,診断と治療計画に重要である。 このような評価を可能にする高度な統計ワークフローは、呼吸医学において必要となる領域である。 疾患のある肺領域は、しばしばCT画像に高密度ゾーンを生成し、斜めや亀裂の欠如による損傷した葉を特定するアルゴリズムの実行を制限する。 この影響は、気胸木情報を利用した肺葉のセグメント化のための改良された機械学習手法を開発し、アルゴリズムの空間的親しみによるセグメント化精度を高め、葉の幅をより正確に定義する動機となった。 画像領域で一般的な畳み込みニューラルネットワークであるv-net-attentionと連携して、マルチタスク学習(mtl)を用いて、ローブと補助組織の並列セグメンテーションを同時に行う。 このモデルのより優れた一般化のための適性を維持しつつ、訓練データには含まれなかったが、重篤な肺癌、covid-19肺炎、倒れた肺、慢性閉塞性肺疾患(copd)の4つの異なる疾患の外部データセットに高いパフォーマンスが保持された。 放射線学的異常を伴う肺疾患と診断された患者を対象とする外的妥当性検査のメリットは,特に有意である。 メインタスクの全てのセグメンテーションに等しくランクを与えるためには、正常肺0.09、copd 0.94、肺がん0.04、covid-19 pneumonitis 0.94、崩壊肺0.22、すべてp<0.05である。 CT画像に大きな変形があるセグメンテーションローブでさえ、モデルは高い精度を維持した。 このアプローチは、放射線科医のロバストなツールとして臨床現場で容易に採用することができる。

Automated lobar segmentation allows regional evaluation of lung disease and is important for diagnosis and therapy planning. Advanced statistical workflows permitting such evaluation is a needed area within respiratory medicine; their adoption remains slow, with poor workflow accuracy. Diseased lung regions often produce high-density zones on CT images, limiting an algorithm's execution to specify damaged lobes due to oblique or lacking fissures. This impact motivated developing an improved machine learning method to segment lung lobes that utilises tracheobronchial tree information to enhance segmentation accuracy through the algorithm's spatial familiarity to define lobar extent more accurately. The method undertakes parallel segmentation of lobes and auxiliary tissues simultaneously by employing multi-task learning (MTL) in conjunction with V-Net-attention, a popular convolutional neural network in the imaging realm. In keeping with the model's adeptness for better generalisation, high performance was retained in an external dataset of patients with four distinct diseases: severe lung cancer, COVID-19 pneumonitis, collapsed lungs and Chronic Obstructive Pulmonary Disease (COPD), even though the training data included none of these cases. The benefit of our external validation test is specifically relevant since our choice includes those patients who have diagnosed lung disease with associated radiological abnormalities. To ensure equal rank is given to all segmentations in the main task we report the following performance (Dice score) on a per-segment basis: normal lungs 0.97, COPD 0.94, lung cancer 0.94, COVID-19 pneumonitis 0.94 and collapsed lung 0.92, all at p<0.05. Even segmenting lobes with large deformations on CT images, the model maintained high accuracy. The approach can be readily adopted in the clinical setting as a robust tool for radiologists.
翻訳日:2021-05-12 13:48:15 公開日:2021-05-11
# 期待持続性図の推定と定量化

Estimation and Quantization of Expected Persistence Diagrams ( http://arxiv.org/abs/2105.04852v1 )

ライセンス: Link先を確認
Vincent Divol (DATASHAPE, LMO), Th\'eo Lacombe (DATASHAPE)(参考訳) パーシステンスダイアグラム(pds)は、挑戦的な学習タスクに現れる構造化データのトポロジをエンコードするために使われる最も一般的な記述子である。 グラフでは、時系列または点雲が多様体の近くでサンプリングされた。 ランダムな対象と対応するPDの分布が与えられたとき、これらのランダムなPDの平均のような統計的な要約を構築したいかもしれないが、PDの空間の自然な幾何学は線型ではないので、これは自明なタスクではない。 本稿では,2つの要約,EPD(Preciped Persistence Diagram)とその量子化について検討する。 EPD は R2 上で支持される測度であり、経験的対応によって近似される。 この推定器は、パラメトリック収束率を持つ大クラスのモデルのミニマックスの観点から最適であることを示す。 経験的EPDは単純で効率的に計算できるが、おそらく非常に大きなサポートがあり、実際にの使用を妨げる。 この問題を克服するため,我々は経験的epdの量子化を計算するアルゴリズムを提案する。

Persistence diagrams (PDs) are the most common descriptors used to encode the topology of structured data appearing in challenging learning tasks; think e.g. of graphs, time series or point clouds sampled close to a manifold. Given random objects and the corresponding distribution of PDs, one may want to build a statistical summary-such as a mean-of these random PDs, which is however not a trivial task as the natural geometry of the space of PDs is not linear. In this article, we study two such summaries, the Expected Persistence Diagram (EPD), and its quantization. The EPD is a measure supported on R 2 , which may be approximated by its empirical counterpart. We prove that this estimator is optimal from a minimax standpoint on a large class of models with a parametric rate of convergence. The empirical EPD is simple and efficient to compute, but possibly has a very large support, hindering its use in practice. To overcome this issue, we propose an algorithm to compute a quantization of the empirical EPD, a measure with small support which is shown to approximate with near-optimal rates a quantization of the theoretical EPD.
翻訳日:2021-05-12 13:47:35 公開日:2021-05-11
# Federated Unbiased Learning to Rank

Federated Unbiased Learning to Rank ( http://arxiv.org/abs/2105.04761v1 )

ライセンス: Link先を確認
Chang Li and Hua Ouyang(参考訳) Unbiased Learning to Rank (ULTR)は、偏りのあるユーザインタラクションに基づいてランキング関数を学習する問題を研究する。 このフレームワークでは、ULTRアルゴリズムは、中央サーバによって収集、保存、集約される大量のユーザーデータに依存する必要がある。 本稿では,利用者がローカル端末上で自分のコーパスを検索するオンデバイス検索設定について検討し,偏りのあるユーザインタラクションからランキング機能を学ぶことを目的とする。 プライバシー上の制約により、ユーザのクエリ、個人文書、結果リスト、生のインタラクションデータがデバイスを離れることはなく、ULTRはFederated Learning (FL)を通じて実行されなければならない。 既存のULTRアルゴリズムをユーザのデバイスに直接適用することは、ローカルなインタラクションが限られているため、トレーニングデータに不足する可能性がある。 そこで本研究では,中央サーバの調整下でデバイス上でのユーザインタラクションから学習し,ユーザインタラクションにおける位置バイアスを取り除くためにクリック確率を用いるfeedipsアルゴリズムを提案する。 YahooとIstellaのデータセットにおけるFedIPSの評価は、FedIPSが様々な位置バイアスに対して堅牢であることを示している。

Unbiased Learning to Rank (ULTR) studies the problem of learning a ranking function based on biased user interactions. In this framework, ULTR algorithms have to rely on a large amount of user data that are collected, stored, and aggregated by central servers. In this paper, we consider an on-device search setting, where users search against their personal corpora on their local devices, and the goal is to learn a ranking function from biased user interactions. Due to privacy constraints, users' queries, personal documents, results lists, and raw interaction data will not leave their devices, and ULTR has to be carried out via Federated Learning (FL). Directly applying existing ULTR algorithms on users' devices could suffer from insufficient training data due to the limited amount of local interactions. To address this problem, we propose the FedIPS algorithm, which learns from user interactions on-device under the coordination of a central server and uses click propensities to remove the position bias in user interactions. Our evaluation of FedIPS on the Yahoo and Istella datasets shows that FedIPS is robust over a range of position biases.
翻訳日:2021-05-12 13:46:59 公開日:2021-05-11
# パラメトリック密度推定によるスケーラブルな個人化アイテムランキング

Scalable Personalised Item Ranking through Parametric Density Estimation ( http://arxiv.org/abs/2105.04769v1 )

ライセンス: Link先を確認
Riku Togashi, Masahiro Kato, Mayu Otani, Tetsuya Sakai, Shin'ichi Satoh(参考訳) 暗黙のフィードバックから学ぶことは、一級問題の難しい性質のために難しい。 従来の手法では、一級問題に対処するためにペアワイズランキングアプローチと負のサンプラーを用いる。 しかし、このような手法は特に大規模応用において2つの主な欠点がある:(1) 対のアプローチは二次計算コストのために非常に非効率である; (2) 最近のモデルベースサンプリング(例)。 irgan) 余分なモデルのトレーニングのため、実用的な効率は達成できない。 本稿では,学習からランクへのアプローチを提案する。この手法は,各点の収束速度をポイントワイドに匹敵し,ペアワイズに匹敵する性能を実現し,ランキングの有効性を両立させる。 提案手法は,リッチな分布クラスにおける各ユーザの正の項目の確率密度を推定する。 emph{exponential family}。 本定式化では,最大推定値に基づいて損失関数と適切な負サンプリング分布を導出する。 また,リスク近似と正規化手法の実践的手法も開発している。 次に、我々の単一モデルアプローチは、ある条件下ではirgan変種と等価であると論じる。 実世界のデータセットの実験を通じて、我々のアプローチは有効性と効率の点でポイントワイドとペアワイドのどちらよりも優れている。

Learning from implicit feedback is challenging because of the difficult nature of the one-class problem: we can observe only positive examples. Most conventional methods use a pairwise ranking approach and negative samplers to cope with the one-class problem. However, such methods have two main drawbacks particularly in large-scale applications; (1) the pairwise approach is severely inefficient due to the quadratic computational cost; and (2) even recent model-based samplers (e.g. IRGAN) cannot achieve practical efficiency due to the training of an extra model. In this paper, we propose a learning-to-rank approach, which achieves convergence speed comparable to the pointwise counterpart while performing similarly to the pairwise counterpart in terms of ranking effectiveness. Our approach estimates the probability densities of positive items for each user within a rich class of distributions, viz. \emph{exponential family}. In our formulation, we derive a loss function and the appropriate negative sampling distribution based on maximum likelihood estimation. We also develop a practical technique for risk approximation and a regularisation scheme. We then discuss that our single-model approach is equivalent to an IRGAN variant under a certain condition. Through experiments on real-world datasets, our approach outperforms the pointwise and pairwise counterparts in terms of effectiveness and efficiency.
翻訳日:2021-05-12 13:46:39 公開日:2021-05-11
# 混合協調競合環境のための階層的RNN変換器MADDPG

Hierarchical RNNs-Based Transformers MADDPG for Mixed Cooperative-Competit ive Environments ( http://arxiv.org/abs/2105.04888v1 )

ライセンス: Link先を確認
Xiaolong Wei, LiFang Yang, Xianglin Huang, Gang Cao, Tao Zhulin, Zhengyang Du, Jing An(参考訳) 現在,深層学習モデルの分野に注目のメカニズムが広く適用されている。 注意機構に基づく構造モデルは、特徴位置間の関係を記録するだけでなく、その重みに基づいて異なる特徴の重要性を測定することもできる。 重要かつ無関係な特徴を選択するための動的重み付けパラメータを確立することにより、キー情報を強化でき、無関係な情報を弱めることができる。 したがって、ディープラーニングアルゴリズムの効率を大幅に向上し、改善することができる。 トランスフォーマーは強化学習を含む多くの分野で非常によく行われているが、まだ多くの問題があり、この領域でトランスフォーマーを使って解くことができる。 MARL(Multi-Agent Reinforcement Learning)は、目標達成に向けて適応し、学習しようとする独立したエージェントの集合として認識することができる。 一定期間における各MDP決定の関連性を強調するため,階層的符号化法を適用し,本手法の有効性を検証した。 本稿では、RNNをベースとした階層変換器MADDPGを提案し、階層変換器MADDPG(HRTMADDPG)と呼ぶ。 RNNをベースとした低レベルのエンコーダで、各時系列で複数のステップサイズをエンコードすると同時に、複数のシーケンス間の相関関係を学習するためのトランスフォーマに基づく上位シーケンスレベルのエンコーダからなり、サブタイムシーケンス間の因果関係をキャプチャし、より効率的にする。

At present, attention mechanism has been widely applied to the fields of deep learning models. Structural models that based on attention mechanism can not only record the relationships between features position, but also can measure the importance of different features based on their weights. By establishing dynamically weighted parameters for choosing relevant and irrelevant features, the key information can be strengthened, and the irrelevant information can be weakened. Therefore, the efficiency of deep learning algorithms can be significantly elevated and improved. Although transformers have been performed very well in many fields including reinforcement learning, there are still many problems and applications can be solved and made with transformers within this area. MARL (known as Multi-Agent Reinforcement Learning) can be recognized as a set of independent agents trying to adapt and learn through their way to reach the goal. In order to emphasize the relationship between each MDP decision in a certain time period, we applied the hierarchical coding method and validated the effectiveness of this method. This paper proposed a hierarchical transformers MADDPG based on RNN which we call it Hierarchical RNNs-Based Transformers MADDPG(HRTMADDPG). It consists of a lower level encoder based on RNNs that encodes multiple step sizes in each time sequence, and it also consists of an upper sequence level encoder based on transformer for learning the correlations between multiple sequences so that we can capture the causal relationship between sub-time sequences and make HRTMADDPG more efficient.
翻訳日:2021-05-12 13:46:18 公開日:2021-05-11
# ニューラルリコメンダの非現実的説明

Counterfactual Explanations for Neural Recommenders ( http://arxiv.org/abs/2105.05008v1 )

ライセンス: Link先を確認
Khanh Hiep Tran, Azin Ghazimatin, Rishiraj Saha Roy(参考訳) ユーザが特定のアイテムを推奨する理由を理解することで、システムの信頼性と満足度が大幅に向上する。 近年、ニューラルリコメンデータは最先端の技術となっているが、深層モデルの複雑さによって、エンドユーザにとって具体的な説明は難しい問題となっている。 既存の手法は通常、様々な特徴に対する注意分布に基づいており、それらが説明として適合性に疑問を呈しており、エンドユーザーにとっては理解しづらい。 ユーザ自身の行動の小さなセットに基づく対実的説明は,有意性問題に対する許容可能な解決法であることが示されている。 しかし、このような反事実に関する現在の研究は、神経モデルに容易に適用できない。 本研究では,ニューラルレコメンデータに対する対実的説明を見つけるための最初の一般的なフレームワークであるACCENTを提案する。 これは最近提案された影響関数を拡張し、単一の項目から一対の項目に最も関連するトレーニングポイントを識別し、反復的なプロセスで反現実的なセットを推論する。 我々はACCENTを用いて、ニューラルコラボレーティブ・フィルタリング(NCF)とリレーショナルコラボレーティブ・フィルタリング(RCF)の2つの一般的なニューラルネットワークモデルに対する反実的説明を生成し、人気の高いMovieLens 100Kデータセットのサンプルでその実現可能性を示す。

Understanding why specific items are recommended to users can significantly increase their trust and satisfaction in the system. While neural recommenders have become the state-of-the-art in recent years, the complexity of deep models still makes the generation of tangible explanations for end users a challenging problem. Existing methods are usually based on attention distributions over a variety of features, which are still questionable regarding their suitability as explanations, and rather unwieldy to grasp for an end user. Counterfactual explanations based on a small set of the user's own actions have been shown to be an acceptable solution to the tangibility problem. However, current work on such counterfactuals cannot be readily applied to neural models. In this work, we propose ACCENT, the first general framework for finding counterfactual explanations for neural recommenders. It extends recently-proposed influence functions for identifying training points most relevant to a recommendation, from a single to a pair of items, while deducing a counterfactual set in an iterative process. We use ACCENT to generate counterfactual explanations for two popular neural models, Neural Collaborative Filtering (NCF) and Relational Collaborative Filtering (RCF), and demonstrate its feasibility on a sample of the popular MovieLens 100K dataset.
翻訳日:2021-05-12 13:45:53 公開日:2021-05-11
# マルチサービスUAV対応無線システムの強化学習環境

A Reinforcement Learning Environment for Multi-Service UAV-enabled Wireless Systems ( http://arxiv.org/abs/2105.05094v1 )

ライセンス: Link先を確認
Damiano Brunori, Stefania Colonnese, Francesca Cuomo and Luca Iocchi(参考訳) 我々は、様々なアプリケーション環境(例えば、無線モバイル接続サービス、エッジコンピューティング、データ収集など)で異なる通信サービスを提供する自律型UAVのための多目的環境を設計する。 我々は,実運用環境の異なる特性をシミュレートするために,openai gymフレームワークを基盤とした環境を開発し,強化学習を応用して所望の性能を最大化するポリシを生成し,システム評価のための簡単なベースラインと比較し,その手法を異なるユースケースで採用するためのガイドラインを導出する。 本稿の主な貢献は、マルチサービスアプリケーションにおける自律型マルチドローンシステムのポリシーの生成、評価、比較を可能にする、柔軟で拡張可能なOpenAI Gym環境である。 この環境は様々なアプリケーションコンテキストにおける異なるアプローチの比較評価とベンチマークを可能にします。

We design a multi-purpose environment for autonomous UAVs offering different communication services in a variety of application contexts (e.g., wireless mobile connectivity services, edge computing, data gathering). We develop the environment, based on OpenAI Gym framework, in order to simulate different characteristics of real operational environments and we adopt the Reinforcement Learning to generate policies that maximize some desired performance.The quality of the resulting policies are compared with a simple baseline to evaluate the system and derive guidelines to adopt this technique in different use cases. The main contribution of this paper is a flexible and extensible OpenAI Gym environment, which allows to generate, evaluate, and compare policies for autonomous multi-drone systems in multi-service applications. This environment allows for comparative evaluation and benchmarking of different approaches in a variety of application contexts.
翻訳日:2021-05-12 13:45:09 公開日:2021-05-11
# シャッフルモデルのrenyi微分プライバシーについて

On the Renyi Differential Privacy of the Shuffle Model ( http://arxiv.org/abs/2105.05180v1 )

ライセンス: Link先を確認
Antonious M. Girgis, Deepesh Data, Suhas Diggavi, Ananda Theertha Suresh, and Peter Kairouz(参考訳) 本稿では、シャッフルプライバシモデルにおける一般的な離散的局所メカニズムの保証について、Renyi Differential Privacy (RDP) を用いて検討した。 シャッフルモデルでは、$n$クライアントのそれぞれがローカル差分秘密(LDP)機構を使用して応答をランダム化し、信頼されていないサーバは各クライアントと無関係にクライアント応答のランダムな置換(シャッフル)を受ける。 本研究の主な成果は、シャッフルプライバシモデルにおける一般的な離散的局所ランダム化機構に対する非自明なRDP保証であり、独立性のある結果を得るための新しい分析手法を開発した。 アプリケーションでは、そのような RDP 保証は、いくつかのプライベートなインタラクションを構成するために使用する際に最も有用である。 我々は、重要な体制において、我々の限定的な構成によって、シャッフルモデルに対する(標準構成の)最先端の近似微分プライバシー(DP)保証よりも、プライバシー保証が8\times$で改善されることを数値的に示す。 さらに,Poissonサブサンプリングと組み合わせることで,標準構成のサブサンプル近似DPよりも少なくとも10\times$の改善が得られた。

The central question studied in this paper is Renyi Differential Privacy (RDP) guarantees for general discrete local mechanisms in the shuffle privacy model. In the shuffle model, each of the $n$ clients randomizes its response using a local differentially private (LDP) mechanism and the untrusted server only receives a random permutation (shuffle) of the client responses without association to each client. The principal result in this paper is the first non-trivial RDP guarantee for general discrete local randomization mechanisms in the shuffled privacy model, and we develop new analysis techniques for deriving our results which could be of independent interest. In applications, such an RDP guarantee is most useful when we use it for composing several private interactions. We numerically demonstrate that, for important regimes, with composition our bound yields an improvement in privacy guarantee by a factor of $8\times$ over the state-of-the-art approximate Differential Privacy (DP) guarantee (with standard composition) for shuffled models. Moreover, combining with Poisson subsampling, our result leads to at least $10\times$ improvement over subsampled approximate DP with standard composition.
翻訳日:2021-05-12 13:44:55 公開日:2021-05-11
# 群集距離に基づく2つの新しい特徴選択アルゴリズム

Two novel features selection algorithms based on crowding distance ( http://arxiv.org/abs/2105.05212v1 )

ライセンス: Link先を確認
Abdesslem Layeb(参考訳) 本稿では,特徴選択のための2つの新しいアルゴリズムを提案する。 ひとつはフィルタメソッド、もうひとつはラッパーメソッドです。 提案手法は,多目的最適化において,特徴のソートに使用される群集距離を指標として用いる。 混み合わない機能は、ターゲット属性(クラス)に大きな影響を与えます。 実験により,提案アルゴリズムの有効性とロバスト性を示した。

In this paper, two novel algorithms for features selection are proposed. The first one is a filter method while the second is wrapper method. Both the proposed algorithm use the crowding distance used in the multiobjective optimization as a metric in order to sort the features. The less crowded features have great effects on the target attribute (class). The experimental results have shown the effectiveness and the robustness of the proposed algorithms.
翻訳日:2021-05-12 13:44:36 公開日:2021-05-11
# 雑音データによるマニフォールドの非パラメトリック推定

Non-Parametric Estimation of Manifolds from Noisy Data ( http://arxiv.org/abs/2105.04754v1 )

ライセンス: Link先を確認
Yariv Aizenbud and Barak Sober(参考訳) データ駆動アプリケーションにおける一般的な観察は、高次元データは、少なくとも局所的に、内在次元が低いことである。 本研究では,有限個の雑音サンプルから$\mathbb{R}^D$の$d$次元部分多様体を推定する問題を考察する。 このデータが境界のないコンパクト多様体である$\mathcal{M}\in \mathcal{C}^k$ の管状近傍から一様にサンプリングされたと仮定すると、その管状近傍から点 $r$ を取り出して $\hat p_n\in \mathbb{R}^D$ と $\widehat{T_{\hat p_n}\mathcal{M}} を出力するアルゴリズムを示す。 サンプル数$n\to\infty$ が点 $\hat p_n$ が $p\in \mathcal{M}$ と $\widehat{T_{\hat p_n}\mathcal{M}}$ に収束すると、高い確率で $T_p\mathcal{M}$ に収束することが証明される。 さらに、この推定は点推定に対して$n^{-\frac{k}{2k + d}}$、接空間の推定に対して$n^{-\frac{k-1}{2k + d}}$という漸近的な収束率が得られることを示す。 これらの速度は関数推定に最適であることが知られている。

A common observation in data-driven applications is that high dimensional data has a low intrinsic dimension, at least locally. In this work, we consider the problem of estimating a $d$ dimensional sub-manifold of $\mathbb{R}^D$ from a finite set of noisy samples. Assuming that the data was sampled uniformly from a tubular neighborhood of $\mathcal{M}\in \mathcal{C}^k$, a compact manifold without boundary, we present an algorithm that takes a point $r$ from the tubular neighborhood and outputs $\hat p_n\in \mathbb{R}^D$, and $\widehat{T_{\hat p_n}\mathcal{M}}$ an element in the Grassmanian $Gr(d, D)$. We prove that as the number of samples $n\to\infty$ the point $\hat p_n$ converges to $p\in \mathcal{M}$ and $\widehat{T_{\hat p_n}\mathcal{M}}$ converges to $T_p\mathcal{M}$ (the tangent space at that point) with high probability. Furthermore, we show that the estimation yields asymptotic rates of convergence of $n^{-\frac{k}{2k + d}}$ for the point estimation and $n^{-\frac{k-1}{2k + d}}$ for the estimation of the tangent space. These rates are known to be optimal for the case of function estimation.
翻訳日:2021-05-12 13:44:19 公開日:2021-05-11
# 分離多項式と二次多項式の和

Sums of Separable and Quadratic Polynomials ( http://arxiv.org/abs/2105.04766v1 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Cemil Dibek, Georgina Hall(参考訳) 分離可能プラス二次多項式(SPQ)、すなわち異なる変数の単変数多項式と二次多項式の和である多項式について研究する。 非負の分離可能多項式と非負の二次多項式が平方の和であるという事実に動機づけられ、非負のspq多項式が(i)非負の分離可能多項式と非負の二次多項式の和であるか否か、(ii)平方の和である。 i) に対する解が単変量 + 2次多項式と凸SPQ多項式に対して正であることは証明するが、既に二変量四次SPQ多項式に対しては負である。 我々は、凸SPQ多項式の分解結果を用いて、凸SPQ多項式最適化問題を「小さな」半定値プログラムで解けることを示す。 質問 (ii) に対して, spq 多項式の変数の次数と個数に基づく解の完全なキャラクタリゼーションを提供する。 また,spq多項式の非負性テストは,少なくとも4つの場合,np-hardであることが証明される。 最後に、線形プログラムに対する解の上界スパース性、統計における多項式回帰問題、分離可能な高階微分情報を含むニュートン法の一般化へのspq多項式の適用を提示する。

We study separable plus quadratic (SPQ) polynomials, i.e., polynomials that are the sum of univariate polynomials in different variables and a quadratic polynomial. Motivated by the fact that nonnegative separable and nonnegative quadratic polynomials are sums of squares, we study whether nonnegative SPQ polynomials are (i) the sum of a nonnegative separable and a nonnegative quadratic polynomial, and (ii) a sum of squares. We establish that the answer to question (i) is positive for univariate plus quadratic polynomials and for convex SPQ polynomials, but negative already for bivariate quartic SPQ polynomials. We use our decomposition result for convex SPQ polynomials to show that convex SPQ polynomial optimization problems can be solved by "small" semidefinite programs. For question (ii), we provide a complete characterization of the answer based on the degree and the number of variables of the SPQ polynomial. We also prove that testing nonnegativity of SPQ polynomials is NP-hard when the degree is at least four. We end by presenting applications of SPQ polynomials to upper bounding sparsity of solutions to linear programs, polynomial regression problems in statistics, and a generalization of Newton's method which incorporates separable higher-order derivative information.
翻訳日:2021-05-12 13:43:42 公開日:2021-05-11
# 教育ロボットのための手書きプログラミング言語の探索

Exploring a Handwriting Programming Language for Educational Robots ( http://arxiv.org/abs/2105.04963v1 )

ライセンス: Link先を確認
Laila El-Hamamsy, Vaios Papaspyros, Taavet Kangur, Laura Mathex, Christian Giang, Melissa Skweres, Barbara Bruno, Francesco Mondada(参考訳) 近年,義務教育におけるコンピュータ科学と教育ロボットの導入が注目されている。 しかし、教室でのスクリーンの使用は、特に小学校では、しばしば抵抗に満ちている。 そこで本研究では, 教育用ロボットのための手書き型プログラム言語の開発について述べる。 従来の教室とよりよく連携することを目指して、普通のペンや紙でシンボルを描くことでロボットをプログラムできる。 通常のスマートフォンはコンピュータビジョンと機械学習アルゴリズムを使って手書きの指示を処理し、実行のためにロボットにコマンドを送信する。 ローカルコンピュータサイエンスのカリキュラムに合わせるために、適切な遊び場と足場学習タスクが設計された。 このシステムは8人の教師、開発者、教育研究者による予備試験で評価された。 参加者は、いくつかの技術的側面が改善される可能性があると指摘する一方で、小学校のコンピュータサイエンス教育をよりアクセスしやすいものにするためのアプローチの可能性も認めている。

Recently, introducing computer science and educational robots in compulsory education has received increasing attention. However, the use of screens in classrooms is often met with resistance, especially in primary school. To address this issue, this study presents the development of a handwriting-based programming language for educational robots. Aiming to align better with existing classroom practices, it allows students to program a robot by drawing symbols with ordinary pens and paper. Regular smartphones are leveraged to process the hand-drawn instructions using computer vision and machine learning algorithms, and send the commands to the robot for execution. To align with the local computer science curriculum, an appropriate playground and scaffolded learning tasks were designed. The system was evaluated in a preliminary test with eight teachers, developers and educational researchers. While the participants pointed out that some technical aspects could be improved, they also acknowledged the potential of the approach to make computer science education in primary school more accessible.
翻訳日:2021-05-12 13:43:19 公開日:2021-05-11
# 因果デジタル双対の確率的定式化:カルマンフィルタアルゴリズム

Stochastic Formulation of Causal Digital Twin: Kalman Filter Algorithm ( http://arxiv.org/abs/2105.05236v1 )

ライセンス: Link先を確認
PG Madhavan(参考訳) 異なるタイプのデジタル双生児の基本的かつ合理的な定義を提供し、いつ、どのように使うべきかを推奨する。 本稿では,最近出版されたLearning Causal Digital Twinに続いて,この問題の確率的定式化と解法について報告する。 因果推定のための構造ベクトル自己回帰モデル(SVAR)は状態空間モデルとして再キャストされる。 カルマンフィルタ (Kalman filter) は、連結機械軸受系の因果因子を推定するために用いられる。 しかし、Kalman Filter/Smootherは産業用IoTソースからのノイズの多いデータに対して、よりよいパフォーマンスを示す可能性がある。

We provide some basic and sensible definitions of different types of digital twins and recommendations on when and how to use them. Following up on our recent publication of the Learning Causal Digital Twin, this article reports on a stochastic formulation and solution of the problem. Structural Vector Autoregressive Model (SVAR) for Causal estimation is recast as a state-space model. Kalman filter (and smoother) is then employed to estimate causal factors in a system of connected machine bearings. The previous neural network algorithm and Kalman Smoother produced very similar results; however, Kalman Filter/Smoother may show better performance for noisy data from industrial IoT sources.
翻訳日:2021-05-12 13:43:06 公開日:2021-05-11
# 分散確率勾配法における過渡時間の改善

Improving the Transient Times for Distributed Stochastic Gradient Methods ( http://arxiv.org/abs/2105.04851v1 )

ライセンス: Link先を確認
Kun Huang and Shi Pu(参考訳) 我々は,ネットワーク上の$n$コスト関数の平均を協調的に最小化するため,各エージェントがローカルコスト関数を持つ分散最適化問題を考察する。 確率勾配情報が得られると仮定して,Exact Diffusion法およびNIDSに適応した適応段差付き精度拡散(EDAS)と呼ばれる分散確率勾配アルゴリズムについて検討し,非漸近収束解析を行う。 我々は、edasが強凸および滑らかな対象関数を最小化する集中確率勾配降下 (sgd) と同じネットワーク独立収束率を漸近的に達成するだけでなく、アルゴリズムが漸近収束率に近づくのに必要な過渡時間を特徴付けるだけでなく、$k_t=\mathcal{o}\left(\frac{n}{1-\lambda_2}\right)$、ここでは1-\lambda_2$が混合行列のスペクトルギャップを表す。 我々の知る限り、EDASは、$n$コスト関数の平均が強く凸であり、各コスト関数が滑らかである場合に最も短い過渡時間を達成する。 数値シミュレーションは、得られた理論結果をさらにコーポレートし、強化する。

We consider the distributed optimization problem where $n$ agents each possessing a local cost function, collaboratively minimize the average of the $n$ cost functions over a connected network. Assuming stochastic gradient information is available, we study a distributed stochastic gradient algorithm, called exact diffusion with adaptive stepsizes (EDAS) adapted from the Exact Diffusion method and NIDS and perform a non-asymptotic convergence analysis. We not only show that EDAS asymptotically achieves the same network independent convergence rate as centralized stochastic gradient descent (SGD) for minimizing strongly convex and smooth objective functions, but also characterize the transient time needed for the algorithm to approach the asymptotic convergence rate, which behaves as $K_T=\mathcal{O}\left(\frac{n}{1-\lambda_2}\right)$, where $1-\lambda_2$ stands for the spectral gap of the mixing matrix. To the best of our knowledge, EDAS achieves the shortest transient time when the average of the $n$ cost functions is strongly convex and each cost function is smooth. Numerical simulations further corroborate and strengthen the obtained theoretical results.
翻訳日:2021-05-12 13:42:52 公開日:2021-05-11
# (参考訳) DocSCAN:隣人からの学習による教師なしテキスト分類 [全文訳有]

DocSCAN: Unsupervised Text Classification via Learning from Neighbors ( http://arxiv.org/abs/2105.04024v2 )

ライセンス: CC BY 4.0
Dominik Stammbach, Elliott Ash(参考訳) 本稿では, 近近隣者(SCAN)によるセマンティッククラスタリングを用いた, 完全に教師なしのテキスト分類手法であるDocSCANを紹介する。 各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。 類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。 学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。 提案手法では,基底構造ラベルを付与することなく,クラスをデータセット全体に割り当てることを学ぶ。 5つのトピック分類ベンチマークにおいて、教師なしベースラインを大きなマージンで改善する。 比較的少数でバランスの取れた結果クラスを持つデータセットでは、DocSCANは教師付き分類のパフォーマンスにアプローチする。 この方法は、感情分析のような他のタイプの分類では失敗し、画像とテキストを分類する重要な概念的および実践的な違いを示している。

We introduce DocSCAN, a completely unsupervised text classification approach using Semantic Clustering by Adopting Nearest-Neighbors (SCAN). For each document, we obtain semantically informative vectors from a large pre-trained language model. Similar documents have proximate vectors, so neighbors in the representation space tend to share topic labels. Our learnable clustering approach uses pairs of neighboring datapoints as a weak learning signal. The proposed approach learns to assign classes to the whole dataset without provided ground-truth labels. On five topic classification benchmarks, we improve on various unsupervised baselines by a large margin. In datasets with relatively few and balanced outcome classes, DocSCAN approaches the performance of supervised classification. The method fails for other types of classification, such as sentiment analysis, pointing to important conceptual and practical differences between classifying images and texts.
翻訳日:2021-05-12 11:40:56 公開日:2021-05-11
# (参考訳) カーネルを用いた近位因果学習:2段階推定とモーメント制限

Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment Restriction ( http://arxiv.org/abs/2105.04544v2 )

ライセンス: CC BY 4.0
Afsaneh Mastouri, Yuchen Zhu, Limor Gultchin, Anna Korba, Ricardo Silva, Matt J. Kusner, Arthur Gretton, Krikamol Muandet(参考訳) 本研究では, 未観測の共起の存在下での因果効果推定の問題に対処するが, 潜伏した共同設立者(s)のプロキシが観察される。 本稿では,2段階回帰法と最大モーメント制限法という2つのカーネルに基づく非線形因果効果推定手法を提案する。 我々は近位因果学習の設定に焦点をあてるが、本手法はフレドホルム積分方程式によって特徴づけられるより広い逆問題のクラスを解くのに使うことができる。 特に,この問題を非線形な設定で解くために,二段階およびモーメント制限アプローチの統一的視点を提供する。 我々は,各アルゴリズムに一貫性の保証を提供し,これらの手法が合成データと実世界のタスクをシミュレートしたデータにおいて競争的な結果をもたらすことを示す。 特に,提案手法は,プロキシ変数の活用に適さない従来の手法よりも優れている。

We address the problem of causal effect estimation in the presence of unobserved confounding, but where proxies for the latent confounder(s) are observed. We propose two kernel-based methods for nonlinear causal effect estimation in this setting: (a) a two-stage regression approach, and (b) a maximum moment restriction approach. We focus on the proximal causal learning setting, but our methods can be used to solve a wider class of inverse problems characterised by a Fredholm integral equation. In particular, we provide a unifying view of two-stage and moment restriction approaches for solving this problem in a nonlinear setting. We provide consistency guarantees for each algorithm, and we demonstrate these approaches achieve competitive results on synthetic data and data simulating a real-world task. In particular, our approach outperforms earlier methods that are not suited to leveraging proxy variables.
翻訳日:2021-05-12 11:29:35 公開日:2021-05-11
# (参考訳) スイニングトランスを用いた自己指導型学習 [全文訳有]

Self-Supervised Learning with Swin Transformers ( http://arxiv.org/abs/2105.04553v2 )

ライセンス: CC BY 4.0
Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu(参考訳) 我々はコンピュータビジョンにおけるCNNからトランスフォーマーへのモデリングシフトを目撃している。 本研究では,ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己教師型学習手法を提案する。 このアプローチには基本的に新しい発明がなく、これはMoCo v2とBYOLを組み合わせたもので、ImageNet-1Kの線形評価において、DeiT-SとSwin-Tを用いてそれぞれ72.8%と75.0%という高い精度を達成するために調整された。 このパフォーマンスは、最近のMoCo v3やDINOのバックボーンとしてDeiTを採用したものよりも若干優れていますが、もっと軽いトリックがあります。 さらに、汎用Swin Transformerのバックボーンにより、オブジェクト検出やセマンティックセグメンテーションといった下流タスクの学習表現を評価できるが、ViT/DeiTでは、これらの密接な予測タスクに慣れていないために、ImageNet-1K上で線形評価結果しか報告しない、ViT/DeiT上に構築された最近のアプローチとは対照的である。 我々は,トランスフォーマーアーキテクチャ用に設計された自己教師あり学習手法をより包括的に評価できることを願っている。 私たちのコードとモデルはhttps://github.com/S winTransformer/Trans former-SSLで利用可能です。

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this work, we present a self-supervised learning approach called MoBY, with Vision Transformers as its backbone architecture. The approach basically has no new inventions, which is combined from MoCo v2 and BYOL and tuned to achieve reasonably high accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the backbone, but with much lighter tricks. More importantly, the general-purpose Swin Transformer backbone enables us to also evaluate the learnt representations on downstream tasks such as object detection and semantic segmentation, in contrast to a few recent approaches built on ViT/DeiT which only report linear evaluation results on ImageNet-1K due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results can facilitate more comprehensive evaluation of self-supervised learning methods designed for Transformer architectures. Our code and models are available at https://github.com/S winTransformer/Trans former-SSL, which will be continually enriched.
翻訳日:2021-05-12 11:28:26 公開日:2021-05-11
# AWCD: Wasserstein曲率による効率的なポイントクラウド処理アプローチ

AWCD: An Efficient Point Cloud Processing Approach via Wasserstein Curvature ( http://arxiv.org/abs/2105.04402v1 )

ライセンス: Link先を確認
Yihao Luo and Ailing Yang and Fupeng Sun and Huafei Sun(参考訳) 本稿では,アダプティブ・ワッサーシュタイン曲率分解法(AWCD)を提案する。 ワッサーシュタイン距離から曲率情報を収集することにより、AWCDはデータのより正確な構造を考慮し、高密度のノイズを持つデータに対しても安定性と有効性を維持する。 本稿では,wasserstein 曲率と awcd の完全アルゴリズムに関する理論的解析について述べる。 さらに,AWCDのデノイング効果を示すために,デジタル実験を設計する。 比較結果から,従来のアルゴリズムに対するAWCDの利点を示す。

In this paper, we introduce the adaptive Wasserstein curvature denoising (AWCD), an original processing approach for point cloud data. By collecting curvatures information from Wasserstein distance, AWCD consider more precise structures of data and preserves stability and effectiveness even for data with noise in high density. This paper contains some theoretical analysis about the Wasserstein curvature and the complete algorithm of AWCD. In addition, we design digital experiments to show the denoising effect of AWCD. According to comparison results, we present the advantages of AWCD against traditional algorithms.
翻訳日:2021-05-12 11:19:03 公開日:2021-05-11
# 雑音ラベル学習のための一般化jensen-shannon divergence loss

Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels ( http://arxiv.org/abs/2105.04522v2 )

ライセンス: Link先を確認
Erik Englesson, Hossein Azizpour(参考訳) ラベル雑音下での学習のためのjensen-shannon divergenceに基づく2つの新しい損失関数を提案する。 Ghoshらの業績に倣った。 (2017) 理論的ロバスト性について議論する。 さらに, クロスエントロピー, 平均絶対誤差, 一般化クロスエントロピー, 対称クロスエントロピー, ラベルの平滑化, および最も重要な整合正則化など, 様々な損失関数に対する情報的接続を描くことで, その他の望ましい性質を明らかにする。 合成(CIFAR)と実(WebVision)の両方のノイズを用いて広範かつ系統的な実験を行い、他の損失関数よりも顕著で一貫した改善を示す。 また, 異なる理論特性を強調する有益な側面実験を複数実施した。

We propose two novel loss functions based on Jensen-Shannon divergence for learning under label noise. Following the work of Ghosh et al. (2017), we argue about their theoretical robustness. Furthermore, we reveal several other desirable properties by drawing informative connections to various loss functions, e.g., cross entropy, mean absolute error, generalized cross entropy, symmetric cross entropy, label smoothing, and most importantly consistency regularization. We conduct extensive and systematic experiments using both synthetic (CIFAR) and real (WebVision) noise and demonstrate significant and consistent improvements over other loss functions. Also, we conduct several informative side experiments that highlight the different theoretical properties.
翻訳日:2021-05-12 11:18:54 公開日:2021-05-11
# グラフニューラルネットワークのためのグラフエントロピー誘導ノード埋め込み次元選択

Graph Entropy Guided Node Embedding Dimension Selection for Graph Neural Networks ( http://arxiv.org/abs/2105.03178v2 )

ライセンス: Link先を確認
Gongxu Luo, Jianxin Li, Hao Peng, Carl Yang, Lichao Sun, Philip S. Yu, Lifang He(参考訳) グラフ表現学習は、電子商取引、化学、生物学など、多くの分野で大きな成功を収めています。 しかし、与えられたグラフに対するノード埋め込みの適切な次元を選択するという根本的な問題は未解決のままである。 グリッド探索や経験的知識に基づくノード埋め込み次元選択(NEDS)の一般的な戦略は、重い計算と粗悪なモデル性能に悩まされている。 本稿では,最小エントロピー原理の観点からnedsを再検討する。 次に,グラフデータを用いたNEDSのための最小グラフエントロピー(MinGE)アルゴリズムを提案する。 具体的には、mingeはグラフ上の特徴エントロピーと構造エントロピーの両方を考えており、それらはそれらのリッチな情報の特徴に従って慎重に設計されている。 隣接するノードの埋め込みがより似ていると仮定した機能エントロピーは、ノードの特徴とグラフ上のリンクトポロジーを接続する。 構造エントロピーは正規化度を基本単位とし、グラフの高次構造をさらに測定する。 これらに基づいてMinGEを設計し,任意のグラフに対して理想的なノード埋め込み次元を直接計算する。 最後に、ベンチマークデータセット上で人気のあるグラフニューラルネットワーク(GNN)を用いた総合実験により、提案したMinGEの有効性と一般化性を示す。

Graph representation learning has achieved great success in many areas, including e-commerce, chemistry, biology, etc. However, the fundamental problem of choosing the appropriate dimension of node embedding for a given graph still remains unsolved. The commonly used strategies for Node Embedding Dimension Selection (NEDS) based on grid search or empirical knowledge suffer from heavy computation and poor model performance. In this paper, we revisit NEDS from the perspective of minimum entropy principle. Subsequently, we propose a novel Minimum Graph Entropy (MinGE) algorithm for NEDS with graph data. To be specific, MinGE considers both feature entropy and structure entropy on graphs, which are carefully designed according to the characteristics of the rich information in them. The feature entropy, which assumes the embeddings of adjacent nodes to be more similar, connects node features and link topology on graphs. The structure entropy takes the normalized degree as basic unit to further measure the higher-order structure of graphs. Based on them, we design MinGE to directly calculate the ideal node embedding dimension for any graph. Finally, comprehensive experiments with popular Graph Neural Networks (GNNs) on benchmark datasets demonstrate the effectiveness and generalizability of our proposed MinGE.
翻訳日:2021-05-12 11:18:41 公開日:2021-05-11
# DocOIE: OpenIE用のドキュメントレベルのコンテキスト認識データセット

DocOIE: A Document-level Context-Aware Dataset for OpenIE ( http://arxiv.org/abs/2105.04271v2 )

ライセンス: Link先を確認
Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li(参考訳) Open Information extract (OpenIE) は、文から構造化されたリレーショナルタプル(オブジェクト、リレーショナル、オブジェクト)を抽出し、多くの下流NLPアプリケーションにおいて重要な役割を果たすことを目的としている。 既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。 しかし、実際には、文はスタンドアローンではなく文書の一部として存在し、それを正確に解釈する前に、文の周りの関連する文脈情報にアクセスする必要があることが多い。 文書レベルのコンテキスト対応のOpenIEデータセットが存在しないため、2つのドメイン(ヘルスケアと交通)の80のドキュメントから800の文を手動で注釈付けして、評価のためのDocOIEデータセットを作成します。 さらに,新しい文書レベルの文脈対応OpenIEモデルであるDocIEを提案する。 ドキュメントレベルのコンテキストの導入がopenieのパフォーマンス向上に有効であることを示す。 DocOIEデータセットとDocIEモデルの両方が一般公開されている。

Open Information Extraction (OpenIE) aims to extract structured relational tuples (subject, relation, object) from sentences and plays critical roles for many downstream NLP applications. Existing solutions perform extraction at sentence level, without referring to any additional contextual information. In reality, however, a sentence typically exists as part of a document rather than standalone; we often need to access relevant contextual information around the sentence before we can accurately interpret it. As there is no document-level context-aware OpenIE dataset available, we manually annotate 800 sentences from 80 documents in two domains (Healthcare and Transportation) to form a DocOIE dataset for evaluation. In addition, we propose DocIE, a novel document-level context-aware OpenIE model. Our experimental results based on DocIE demonstrate that incorporating document-level context is helpful in improving OpenIE performance. Both DocOIE dataset and DocIE model are released for public.
翻訳日:2021-05-12 11:18:23 公開日:2021-05-11
# DefSent: 定義文を用いた文埋め込み

DefSent: Sentence Embeddings using Definition Sentences ( http://arxiv.org/abs/2105.04339v2 )

ライセンス: Link先を確認
Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) 自然言語推論(NLI)データセットを用いた文埋め込み手法は,様々なタスクにうまく適用されている。 しかし、これらの手法は大きなNLIデータセットに大きく依存するため、限られた言語でしか利用できない。 本稿では,単語辞書の定義文を用いた文埋め込み法であるdefsentを提案する。 多くの言語で辞書が利用できるため、DefSentは追加のデータセットを構築することなくNLIデータセットを使用するメソッドよりも広く適用できる。 我々は、DefSentが教師なしセマンティクスのテキスト類似性(STS)タスクで比較可能であり、大きなNLIデータセットを用いたメソッドよりもSentEvalタスクの方が若干優れていることを示した。

Sentence embedding methods using natural language inference (NLI) datasets have been successfully applied to various tasks. However, these methods are only available for limited languages due to relying heavily on the large NLI datasets. In this paper, we propose DefSent, a sentence embedding method that uses definition sentences from a word dictionary. Since dictionaries are available for many languages, DefSent is more broadly applicable than methods using NLI datasets without constructing additional datasets. We demonstrate that DefSent performs comparably on unsupervised semantics textual similarity (STS) tasks and slightly better on SentEval tasks to the methods using large NLI datasets.
翻訳日:2021-05-12 11:18:07 公開日:2021-05-11
# 一般化可能な人物再同定のための適応的ドメイン特化正規化

Adaptive Domain-Specific Normalization for Generalizable Person Re-Identification ( http://arxiv.org/abs/2105.03042v2 )

ライセンス: Link先を確認
Jiawei Liu, Zhipeng Huang, Kecheng Zheng, Dong Liu, Xiaoyan Sun, Zheng-Jun Zha(参考訳) 既存の人物再同定法 (re-id) は印象的な精度を示したが, ほとんどは対象領域の認識が不十分な場合が多い。 このように、一般化可能なRe-IDは、最近注目を集めており、モデル更新なしで、見えないターゲットドメインによく一般化するソースドメインのモデルを訓練している。 本研究では,一般化可能なRe-IDのための適応型ドメイン固有正規化手法(AdsNorm)を提案する。 未知のターゲットドメインを既知のソースドメインの組み合わせとして記述し、メタ学習パイプラインによるモデルの一般化を改善するために、ターゲットディストリビューションとドメイン固有の表現を明示的に学習する。 具体的には、adsnormはバッチ正規化層を使用して個々のソースドメインの特性を収集し、これらの特徴を用いてソースドメインを共有潜在空間にマップする。 テスト段階では、adsnormは対象領域の未認識画像を同じ潜在空間に投影し、対象領域のより一般化された集約表現を学ぶために、ドメインの関連性によってソース分布を運ぶドメイン固有の機能を適応的に統合する。 学習中に対象ドメインが利用できないことを考慮し,効率的なアンサンブルモデルの最適化を目的としたメタ学習アルゴリズムを提案する。 大規模な実験により、AdsNormは最先端の手法よりも優れていることが示された。 コードは、https://github.com/h zphzp/AdsNorm.comで入手できる。

Although existing person re-identification (Re-ID) methods have shown impressive accuracy, most of them usually suffer from poor generalization on unseen target domain. Thus, generalizable person Re-ID has recently drawn increasing attention, which trains a model on source domains that generalizes well on unseen target domain without model updating. In this work, we propose a novel adaptive domain-specific normalization approach (AdsNorm) for generalizable person Re-ID. It describes unseen target domain as a combination of the known source ones, and explicitly learns domain-specific representation with target distribution to improve the model's generalization by a meta-learning pipeline. Specifically, AdsNorm utilizes batch normalization layers to collect individual source domains' characteristics, and maps source domains into a shared latent space by using these characteristics, where the domain relevance is measured by a distance function of different domain-specific normalization statistics and features. At the testing stage, AdsNorm projects images from unseen target domain into the same latent space, and adaptively integrates the domain-specific features carrying the source distributions by domain relevance for learning more generalizable aggregated representation on unseen target domain. Considering that target domain is unavailable during training, a meta-learning algorithm combined with a customized relation loss is proposed to optimize an effective and efficient ensemble model. Extensive experiments demonstrate that AdsNorm outperforms the state-of-the-art methods. The code is available at: https://github.com/h zphzp/AdsNorm.
翻訳日:2021-05-12 11:17:58 公開日:2021-05-11
# 自動運転のためのコントラスト学習によるビデオクラス非依存セグメンテーション

Video Class Agnostic Segmentation with Contrastive Learning for Autonomous Driving ( http://arxiv.org/abs/2105.03533v2 )

ライセンス: Link先を確認
Mennatullah Siam, Alex Kendall, Martin Jagersand(参考訳) 自律運転におけるセマンティックセグメンテーションは主に、未知のオブジェクトを考慮せずに、既知のクラスを閉じた大規模データから学ぶことに焦点を当てている。 安全上の理由から、トレーニングデータ内の既知のクラスを閉じた集合の外で未知のオブジェクトを考察するビデオクラス非依存セグメンテーションタスクに対処する。 既知のクラスと未知のオブジェクトのセグメンテーションを学ぶために,新しい補助的なコントラスト損失を提案する。 画像レベルでアンカー,ポジティブ,負の例をサンプリングするコントラスト学習の以前の研究とは異なり,コントラスト学習法はピクセル単位の意味的および時間的指導を活用している。 本研究では,Cityscapes-VPS実験において,4つのクラスを訓練から引き離し,補助的なコントラスト損失を伴う未知のオブジェクトセグメンテーションの改善効果を示す。 私たちはさらに、異なる未知のオブジェクトを含む異なる自動運転シナリオのための大規模な合成データセットをリリースします。 完全合成データセットと縮小された小型バージョンで実験を行い、小規模データセットにおいてコントラスト学習がいかに効果的かを示した。 提案するモデル、データセット、コードはhttps://github.com/m siam/video_class_agn ostic_segmentationでリリースされる。

Semantic segmentation in autonomous driving predominantly focuses on learning from large-scale data with a closed set of known classes without considering unknown objects. Motivated by safety reasons, we address the video class agnostic segmentation task, which considers unknown objects outside the closed set of known classes in our training data. We propose a novel auxiliary contrastive loss to learn the segmentation of known classes and unknown objects. Unlike previous work in contrastive learning that samples the anchor, positive and negative examples on an image level, our contrastive learning method leverages pixel-wise semantic and temporal guidance. We conduct experiments on Cityscapes-VPS by withholding four classes from training and show an improvement gain for both known and unknown objects segmentation with the auxiliary contrastive loss. We further release a large-scale synthetic dataset for different autonomous driving scenarios that includes distinct and rare unknown objects. We conduct experiments on the full synthetic dataset and a reduced small-scale version, and show how contrastive learning is more effective in small scale datasets. Our proposed models, dataset, and code will be released at https://github.com/M Siam/video_class_agn ostic_segmentation.
翻訳日:2021-05-12 11:17:35 公開日:2021-05-11
# CASIA-Face-Africa: 大規模アフリカの顔画像データベース

CASIA-Face-Africa: A Large-scale African Face Image Database ( http://arxiv.org/abs/2105.03632v2 )

ライセンス: Link先を確認
Jawad Muhammad, Yunlong Wang, Caiyong Wang, Kunbo Zhang, and Zhenan Sun(参考訳) 顔認識は、私たちの社会に広く応用され、よく研究されている分野です。 しかし、人種的偏見は、ほとんどの最先端美術(SOTA)顔認識システムに固有のものであることが証明された。 顔認識アルゴリズムに関する多くの調査研究は、他のコホートよりもアフリカの被験者の偽陽性率が高いことを報告している。 パブリックドメインにおける大規模アフリカの顔画像データベースの欠如は、顔認識の人種バイアス問題の研究における主要な制限の1つである。 そこで我々は,アフリカ人1,183人の38,546枚の画像を含む顔画像データベース,CASIA-Face-Africaを収集した。 マルチスペクトルカメラを用いて様々な照明条件下での顔画像のキャプチャを行う。 被験者の年齢属性や表情も慎重に記録されている。 ランドマーク検出には、データベースの各顔画像に68のキーポイントを手動でラベル付けする。 評価プロトコルのグループは、異なるアプリケーション、タスク、パーティション、シナリオに従って構築されます。 再学習のないSOTA顔認識アルゴリズムの性能をベースラインとして報告する。 提案するデータベースは, 顔のランドマークアノテーション, 評価プロトコル, 予備結果とともに, 特に顔画像前処理, 顔の特徴分析とマッチング, 表情認識, 性別・年齢推定, 民族分類, 顔画像生成など, アフリカの被験者の顔バイオメトリックスの本質的な側面を研究するための優れたベンチマークを形成する。 データベースはhttp://www.cripacsir .cn/dataset/からダウンロードできる。

Face recognition is a popular and well-studied area with wide applications in our society. However, racial bias had been proven to be inherent in most State Of The Art (SOTA) face recognition systems. Many investigative studies on face recognition algorithms have reported higher false positive rates of African subjects cohorts than the other cohorts. Lack of large-scale African face image databases in public domain is one of the main restrictions in studying the racial bias problem of face recognition. To this end, we collect a face image database namely CASIA-Face-Africa which contains 38,546 images of 1,183 African subjects. Multi-spectral cameras are utilized to capture the face images under various illumination settings. Demographic attributes and facial expressions of the subjects are also carefully recorded. For landmark detection, each face image in the database is manually labeled with 68 facial keypoints. A group of evaluation protocols are constructed according to different applications, tasks, partitions and scenarios. The performances of SOTA face recognition algorithms without re-training are reported as baselines. The proposed database along with its face landmark annotations, evaluation protocols and preliminary results form a good benchmark to study the essential aspects of face biometrics for African subjects, especially face image preprocessing, face feature analysis and matching, facial expression recognition, sex/age estimation, ethnic classification, face image generation, etc. The database can be downloaded from our http://www.cripacsir .cn/dataset/
翻訳日:2021-05-12 11:17:14 公開日:2021-05-11
# ezcrop:ロバストな出力プルーニングのためのエネルギゾンドチャネル

EZCrop: Energy-Zoned Channels for Robust Output Pruning ( http://arxiv.org/abs/2105.03679v2 )

ライセンス: Link先を確認
Rui Lin, Jie Ran, Dongpeng Wang, King Hung Chiu and Ngai Wong(参考訳) 近年の研究では、訓練された畳み込みニューラルネットワーク(cnn)において、入力画像にもかかわらず特徴マップチャネル行列のランクが驚くほど一定であり続けるという興味深い観察がなされている。 これにより、効果的なランクベースのチャネルプルーニングアルゴリズムが実現したが、定位現象は謎と説明がつかないままである。 この研究は、周波数領域の観点からそのようなランクの振る舞いを減弱し、解釈することを目的としており、これは、そのランクを明示的に計算することなくチャネルの重要度を測定するための極端に効率的なFFT(Fast Fourier Transform)ベースの計量を示唆している。 本研究では, この解析的かつ計算効率の高い指標に基づいて, 卓越したcnnチャネルの刈り取りを実現し, 反復的刈り取り法に適用し, ロバスト出力プルーニングのためのエネルギゾンドチャネル (ezcrop) という方式によるロバストネスを実証した。

Recent results have revealed an interesting observation in a trained convolutional neural network (CNN), namely, the rank of a feature map channel matrix remains surprisingly constant despite the input images. This has led to an effective rank-based channel pruning algorithm, yet the constant rank phenomenon remains mysterious and unexplained. This work aims at demystifying and interpreting such rank behavior from a frequency-domain perspective, which as a bonus suggests an extremely efficient Fast Fourier Transform (FFT)-based metric for measuring channel importance without explicitly computing its rank. We achieve remarkable CNN channel pruning based on this analytically sound and computationally efficient metric and adopt it for repetitive pruning to demonstrate robustness via our scheme named Energy-Zoned Channels for Robust Output Pruning (EZCrop), which shows consistently better results than other state-of-the-art channel pruning methods.
翻訳日:2021-05-12 11:16:40 公開日:2021-05-11
# RBNN:モノのインターネットのためのIP保護を備えたメモリ効率の良い再構成可能なディープバイナリニューラルネットワーク

RBNN: Memory-Efficient Reconfigurable Deep Binary Neural Network with IP Protection for Internet of Things ( http://arxiv.org/abs/2105.03822v2 )

ライセンス: Link先を確認
Huming Qiu, Hua Ma, Zhi Zhang, Yifeng Zheng, Anmin Fu, Pan Zhou, Yansong Gao, Derek Abbott, Said F. Al-Sarawi(参考訳) ディープニューラルネットワークモデルは、さまざまなアプリケーションに優れたパフォーマンスを示すが、その大きなモデルサイズと広範な浮動小数点演算により、モバイルコンピューティングプラットフォームへのデプロイメントは大きな課題であり、特にIoTデバイス上では特にそうだ。 魅力的なソリューションの1つはモデル量子化であり、モデルサイズを小さくし、マイクロコントローラで一般的にサポートされている整数演算を使用する。 この目的のために、1ビット量子化DNNモデルまたはディープバイナリニューラルネットワークは、BNNモデルの各パラメータが1ビットしか持たないメモリ効率を最大化する。 本稿では,資源制約型IoTデバイスのメモリ効率をさらに向上するために,再構成可能なBNN(RBNN)を提案する。 一般に、RBNNは要求に応じて再構成され、同じパラメータセットを持つM(M>1)の異なるタスクのいずれかを達成することができるため、単一のタスクのみがメモリ要求を決定する。 われわれの広範な実験では、7つの一般的なタスクが共存できることが一致している(mの値はより大きい可能性がある)。 クラス数が異なるこれらのタスクは、VGG、ResNet、ReActNetを含む3つのバイナライズされたDNNアーキテクチャにおいて、まったくあるいは無視できる精度の低下がない。 タスクは、コンピュータビジョンやオーディオドメインなどの様々な領域にまたがっており、モデルアーキテクチャがこれらのクロスドメインタスクに役立てることができるという前提条件がある。 RBNNモデルの知的特性を保護するため、固有のハードウェア指紋によって生成されるユーザキーとデバイス固有のルートキーの両方で再構成を制御することができる。 これにより、RBNNモデルは認証されたデバイス当たりの有償ユーザに対してのみ使用できるため、ユーザとモデルプロバイダの両方にとってメリットがある。

Though deep neural network models exhibit outstanding performance for various applications, their large model size and extensive floating-point operations render deployment on mobile computing platforms a major challenge, and, in particular, on Internet of Things devices. One appealing solution is model quantization that reduces the model size and uses integer operations commonly supported by microcontrollers . To this end, a 1-bit quantized DNN model or deep binary neural network maximizes the memory efficiency, where each parameter in a BNN model has only 1-bit. In this paper, we propose a reconfigurable BNN (RBNN) to further amplify the memory efficiency for resource-constrained IoT devices. Generally, the RBNN can be reconfigured on demand to achieve any one of M (M>1) distinct tasks with the same parameter set, thus only a single task determines the memory requirements. In other words, the memory utilization is improved by times M. Our extensive experiments corroborate that up to seven commonly used tasks can co-exist (the value of M can be larger). These tasks with a varying number of classes have no or negligible accuracy drop-off on three binarized popular DNN architectures including VGG, ResNet, and ReActNet. The tasks span across different domains, e.g., computer vision and audio domains validated herein, with the prerequisite that the model architecture can serve those cross-domain tasks. To protect the intellectual property of an RBNN model, the reconfiguration can be controlled by both a user key and a device-unique root key generated by the intrinsic hardware fingerprint. By doing so, an RBNN model can only be used per paid user per authorized device, thus benefiting both the user and the model provider.
翻訳日:2021-05-12 11:16:16 公開日:2021-05-11
# ソーシャルメディアに基づくファッショントレンド予測のための複数関係の活用

Leveraging Multiple Relations for Fashion Trend Forecasting Based on Social Media ( http://arxiv.org/abs/2105.03299v2 )

ライセンス: Link先を確認
Yujuan Ding, Yunshan Ma, Lizi Liao, Wai Keung Wong, Tat-Seng Chua(参考訳) ファッショントレンド予測は、ファッション企業とファッション愛好者の両方に有用な提案を提供する上で、非常に重要な研究である。 この困難な課題に取り組むために様々な研究がなされてきたが、彼らは非常に季節的あるいは単純なパターンの限られたファッション要素しか研究しておらず、実際の複雑なファッショントレンドは明らかではない。 さらに、このタスクのメインストリームソリューションは依然として統計ベースであり、予測精度を制限する時系列データモデリングのみに焦点を当てている。 洞察に富んだファッショントレンド予測に向けて、以前の研究 [1] は、ファッショントレンドを情報的に示すことのできる、よりきめ細かいファッション要素を分析することを提案した。 具体的には、ソーシャルメディアデータに基づく特定のユーザーグループに対する、ファッション要素の詳細なトレンド予測に焦点を当てた。 さらに,ファッショントレンドモデリングと予測の問題に対処するために,ニューラルネットワークに基づく手法であるkernを提案した。 本研究では,先行研究を拡張すべく,Relation Enhanced Attention Recurrent(REAR)ネットワークという改良モデルを提案する。 KERNと比較して、REARモデルはファッション要素間の関係だけでなく、ユーザグループ間の関係も活用し、様々なファッショントレンド間の相関関係をより多く捉える。 長距離トレンド予測の性能をさらに向上するため,REAR法では,将来の地平線における時間的パターンをよりよく捉えることができるすべり時間的注意機構を考案した。 FITおよびGeoStyleデータセットを用いて、REARの性能を評価するための大規模な実験およびさらなる分析を行った。 KERNと比較してREARの改善を示すファッショントレンド予測におけるREARモデルの有効性を実験的および解析的に実証した。

Fashion trend forecasting is of great research significance in providing useful suggestions for both fashion companies and fashion lovers. Although various studies have been devoted to tackling this challenging task, they only studied limited fashion elements with highly seasonal or simple patterns, which could hardly reveal the real complex fashion trends. Moreover, the mainstream solutions for this task are still statistical-based and solely focus on time-series data modeling, which limit the forecast accuracy. Towards insightful fashion trend forecasting, previous work [1] proposed to analyze more fine-grained fashion elements which can informatively reveal fashion trends. Specifically, it focused on detailed fashion element trend forecasting for specific user groups based on social media data. In addition, it proposed a neural network-based method, namely KERN, to address the problem of fashion trend modeling and forecasting. In this work, to extend the previous work, we propose an improved model named Relation Enhanced Attention Recurrent (REAR) network. Compared to KERN, the REAR model leverages not only the relations among fashion elements but also those among user groups, thus capturing more types of correlations among various fashion trends. To further improve the performance of long-range trend forecasting, the REAR method devises a sliding temporal attention mechanism, which is able to capture temporal patterns on future horizons better. Extensive experiments and more analysis have been conducted on the FIT and GeoStyle datasets to evaluate the performance of REAR. Experimental and analytical results demonstrate the effectiveness of the proposed REAR model in fashion trend forecasting, which also show the improvement of REAR compared to the KERN.
翻訳日:2021-05-12 11:15:48 公開日:2021-05-11
# 暗黙的フィードバックを用いた連帯協調フィルタリングにおけるプライバシーの強化

Stronger Privacy for Federated Collaborative Filtering with Implicit Feedback ( http://arxiv.org/abs/2105.03941v2 )

ライセンス: Link先を確認
Lorenzo Minto, Moritz Haller, Hamed Haddadi, Benjamin Livshits(参考訳) レコメンダシステムは一般的に、ビューやクリックなどの集中的に収集されたユーザーインタラクションデータに基づいてトレーニングされる。 しかしこのプラクティスは、レコメンダの収集と潜在的に機密性の高いデータの処理に関して、重大なプライバシー上の懸念を引き起こす。 近年の文献では,プライバシを意識したレコメンダシステムがいくつか提案されているが,暗黙的なフィードバックとプライバシの交点では,比較的注目されていない。 この欠点に対処するために,ユーザレベルのローカルディファレンシャルプライバシー(ldp)下での暗黙のデータに対して,実用的なフェデレーションレコメンダシステムを提案する。 プライバシとユーティリティのトレードオフはパラメータ$\epsilon$と$k$で制御され、更新されたプライバシ予算と各ユーザが送信する$\epsilon$-LDPグラデーションの更新数を規制する。 ユーザのプライバシーをさらに保護するために,レコメンダに転送する前にレポートを匿名化・シャッフルすることで指紋認証面を低減するプロキシネットワークを導入する。 5k項目の50kユーザに対して,K=10(HR@10)0.68でHit Ratioを達成し,MovieLensデータセット上でフレームワークの有効性を実証的に実証した。 完全なデータセットであっても、ユーザのプライバシを損なうことなく、HR@10>0.5で妥当なユーティリティを実現できることを示す。

Recommender systems are commonly trained on centrally collected user interaction data like views or clicks. This practice however raises serious privacy concerns regarding the recommender's collection and handling of potentially sensitive data. Several privacy-aware recommender systems have been proposed in recent literature, but comparatively little attention has been given to systems at the intersection of implicit feedback and privacy. To address this shortcoming, we propose a practical federated recommender system for implicit data under user-level local differential privacy (LDP). The privacy-utility trade-off is controlled by parameters $\epsilon$ and $k$, regulating the per-update privacy budget and the number of $\epsilon$-LDP gradient updates sent by each user respectively. To further protect the user's privacy, we introduce a proxy network to reduce the fingerprinting surface by anonymizing and shuffling the reports before forwarding them to the recommender. We empirically demonstrate the effectiveness of our framework on the MovieLens dataset, achieving up to Hit Ratio with K=10 (HR@10) 0.68 on 50k users with 5k items. Even on the full dataset, we show that it is possible to achieve reasonable utility with HR@10>0.5 without compromising user privacy.
翻訳日:2021-05-12 11:15:22 公開日:2021-05-11