このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210701となっている論文です。

PDF登録状況(公開日: 20210701)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 最適特徴量によるpubgにおけるプレーヤの最終ランクの予測 [全文訳有]

Prediction of the final rank of Players in PUBG with the optimal number of features ( http://arxiv.org/abs/2107.09016v1 )

ライセンス: CC0 1.0
Diptakshi Sen, Rupam Kumar Roy, Ritajit Majumdar, Kingshuk Chatterjee, Debayan Ganguly(参考訳) PUBGはオンラインビデオゲームで、近年若者の間で人気が高まっている。 ファイナルランク(final rank)は、プレイヤーのパフォーマンスを示すもので、このゲームで最も重要な特徴の1つである。 本稿では,選手のスキルと能力に基づいて最終順位を予測することに焦点を当てる。 本稿では,29個の特徴を有するkaggleから得られたデータセット上で,プレイヤーの最終ランクを予測するために,異なる機械学習アルゴリズムを用いた。 相関ヒートマップを用いて、モデルに使用される特徴の数を変化させた。 これらのモデルのうちgbrとlgbmは、14の機能でそれぞれ91.63%と91.26%の精度、8機能で90.54%と90.01%の精度で最高の結果を得た。 14つの特徴を持つモデルの精度は8つの特徴よりわずかに優れているが、8つの特徴によって取られる経験的時間はLGBMの14つの特徴の1.4倍、GBRの1.5倍小さい。 さらに、機能の数を減らすことで、すべてのMLモデルのパフォーマンスが大幅に損なわれる。 そこで本研究では,PUBGにおけるプレイヤーの最終ランクを高精度かつ低実行時間で予測できる特徴量として8が最適であることを示す。

PUBG is an online video game that has become very popular among the youths in recent years. Final rank, which indicates the performance of a player, is one of the most important feature for this game. This paper focuses on predicting the final rank of the players based on their skills and abilities. In this paper we have used different machine learning algorithms to predict the final rank of the players on a dataset obtained from kaggle which has 29 features. Using the correlation heatmap,we have varied the number of features used for the model. Out of these models GBR and LGBM have given the best result with the accuracy of 91.63% and 91.26% respectively for 14 features and the accuracy of 90.54% and 90.01% for 8 features. Although the accuracy of the models with 14 features is slightly better than 8 features, the empirical time taken by 8 features is 1.4x lesser than 14 features for LGBM and 1.5x lesser for GBR. Furthermore, reducing the number of features any more significantly hampers the performance of all the ML models. Therefore, we conclude that 8 is the optimal number of features that can be used to predict the final rank of a player in PUBG with high accuracy and low run-time.
翻訳日:2021-07-25 14:13:03 公開日:2021-07-01
# (参考訳) 時系列回帰による神経行動のモデル化:C.エレガンスデータに基づく繰り返しニューラルネットワーク [全文訳有]

Modelling Neuronal Behaviour with Time Series Regression: Recurrent Neural Networks on C. Elegans Data ( http://arxiv.org/abs/2107.06762v1 )

ライセンス: CC BY 4.0
Gon\c{c}alo Mestre (1 and 2), Ruxandra Barbulescu (1), Arlindo L. Oliveira (1 and 2) and L. Miguel Silveira (1 and 2) ((1) INESC-ID, Rua Alves Redol 9, 1000-029 Lisboa, (2) IST Tecnico Lisboa, Universidade de Lisboa, Av. Rovisco Pais 1, 1049-001 Lisboa)(参考訳) ヒトの神経系の内部の複雑さを考えると、線虫C.エレガンスのようなより小さくより単純な生物を理解することで脳活動のダイナミクスの洞察を得ることができる。 これらの生物の振る舞いや構造生物学はよく知られており、ベンチマークモデリングやシミュレーションの手法の候補となっている。 これらの複雑なニューロンコレクションでは、内在的構造情報や行動情報に基づく古典的なホワイトボックスモデリング技術は、異なる刺激に対する神経反応の深い非線形性を捉えることができず、計算的に難解な非常に複雑なモデルを生成する。 本稿では、C. Elegansの神経システムを、異なるニューラルネットワークアーキテクチャを用いてデータ駆動モデルでモデル化し、シミュレートする方法を示す。 具体的には、LSTMやGRUといったアートリカレントニューラルネットワークアーキテクチャの状態の使用を目標とし、それらの特性と精度、および結果のモデルの複雑さの観点から、これらのアーキテクチャを比較します。 隠れ層の大きさが4単位のGRUモデルでは,異なる刺激に対するシステムの応答を高精度に再現可能であることを示す。

Given the inner complexity of the human nervous system, insight into the dynamics of brain activity can be gained from understanding smaller and simpler organisms, such as the nematode C. Elegans. The behavioural and structural biology of these organisms is well-known, making them prime candidates for benchmarking modelling and simulation techniques. In these complex neuronal collections, classical, white-box modelling techniques based on intrinsic structural or behavioural information are either unable to capture the profound nonlinearities of the neuronal response to different stimuli or generate extremely complex models, which are computationally intractable. In this paper we show how the nervous system of C. Elegans can be modelled and simulated with data-driven models using different neural network architectures. Specifically, we target the use of state of the art recurrent neural networks architectures such as LSTMs and GRUs and compare these architectures in terms of their properties and their accuracy as well as the complexity of the resulting models. We show that GRU models with a hidden layer size of 4 units are able to accurately reproduce with high accuracy the system's response to very different stimuli.
翻訳日:2021-07-18 18:23:43 公開日:2021-07-01
# (参考訳) ユーザ認証のための自由テキストキーストロークダイナミクス [全文訳有]

Free-Text Keystroke Dynamics for User Authentication ( http://arxiv.org/abs/2107.07009v1 )

ライセンス: CC BY 4.0
Jianwei Li, Han-Chih Chang, Mark Stamp(参考訳) 本研究では,自由文から得られるキーストロークダイナミクスに基づいて,ユーザ識別の検証を行う。 画像のような遷移行列を生成する新しい特徴工学手法を用いる。 この画像のような特徴のために、カットアウトを伴う畳み込みニューラルネットワーク(CNN)が最良の結果をもたらす。 また、CNNとリカレントニューラルネットワーク(RNN)からなるハイブリッドモデルも、この分野におけるこれまでの研究より優れていることを示す。

In this research, we consider the problem of verifying user identity based on keystroke dynamics obtained from free-text. We employ a novel feature engineering method that generates image-like transition matrices. For this image-like feature, a convolution neural network (CNN) with cutout achieves the best results. A hybrid model consisting of a CNN and a recurrent neural network (RNN) is also shown to outperform previous research in this field.
翻訳日:2021-07-18 18:07:15 公開日:2021-07-01
# (参考訳) 機械学習による自由テキストキーストロークダイナミクスの解析 [全文訳有]

Machine Learning-Based Analysis of Free-Text Keystroke Dynamics ( http://arxiv.org/abs/2107.07409v1 )

ライセンス: CC BY 4.0
Han-Chih Chang, Jianwei Li, Mark Stamp(参考訳) アクティブかつパッシブなバイオメトリック認証と識別技術の開発は、サイバーセキュリティにおいてますます重要な役割を担っている。 キーストロークダイナミクスは、ユーザーが様々なキーボード入力に基づいてタイプする方法を分析するために使用することができる。 前回の研究では、キーストロークのダイナミクスに基づいてユーザ認証と分類が達成できることが示されている。 本研究では,自由テキストから収集したキーストロークダイナミクスに基づくユーザ分類の問題を考える。 本稿では,畳み込みニューラルネットワーク(CNN)とゲートリカレントユニット(GRU)を組み合わせた,新しいディープラーニングモデルの実装と解析を行う。 得られたモデルを最適化し,関連する問題をいくつか検討する。 我々のモデルは、これまでの比較研究で得られた最良の結果と競合する。

The development of active and passive biometric authentication and identification technology plays an increasingly important role in cybersecurity. Keystroke dynamics can be used to analyze the way that a user types based on various keyboard input. Previous work has shown that user authentication and classification can be achieved based on keystroke dynamics. In this research, we consider the problem of user classification based on keystroke dynamics features collected from free-text. We implement and analyze a novel a deep learning model that combines a convolutional neural network (CNN) and a gated recurrent unit (GRU). We optimize the resulting model and consider several relevant related problems. Our model is competitive with the best results obtained in previous comparable research.
翻訳日:2021-07-18 17:56:10 公開日:2021-07-01
# (参考訳) Edge Analyticsに関するレビュー:問題、課題、機会、約束、今後の方向性、アプリケーション [全文訳有]

A Review on Edge Analytics: Issues, Challenges, Opportunities, Promises, Future Directions, and Applications ( http://arxiv.org/abs/2107.06835v1 )

ライセンス: CC BY 4.0
Sabuzima Nayak, Ripon Patgiri, Lilapati Waikhom, Arif Ahmed(参考訳) Edgeテクノロジーは、クラウドリソース(特に計算、ストレージ、ネットワーク)をエッジデバイスのクローズドな近接、すなわちデータが生成され消費されるスマートデバイスにもたらすことを目的としている。 エッジデバイスにコンピューティングとアプリケーションを組み込むと、エッジテクノロジにおける2つの新しい概念、すなわちエッジコンピューティングとエッジ分析が出現する。 edge analyticsは、エッジデバイスによって生成されたデータを分析するために、いくつかのテクニックやアルゴリズムを使用する。 Edgeアナリティクスの登場により、Edgeデバイスは完全なセットになった。 現在、Edgeアナリティクスは、分析技術の実行を完全にサポートすることができない。 Edgeデバイスは、限られた電源、小さなメモリサイズ、限られたリソースなど、様々な制約に従って高度な分析アルゴリズムを実行することはできない。 この記事では、Edge分析に関する詳細な議論を提供する。 Edgeテクノロジの3つの概念、すなわちエッジデバイス、エッジコンピューティング、エッジ分析を区別するための明確な説明と、それらの問題である。 さらに、小売、農業、産業、医療といった様々な分野における多くの問題を解決するためのエッジ分析の実装についても論じる。 さらに、最先端のエッジ分析に関する研究論文は、本稿で厳格にレビューされ、既存の問題、新たな課題、研究機会、その方向性、応用について調査する。

Edge technology aims to bring Cloud resources (specifically, the compute, storage, and network) to the closed proximity of the Edge devices, i.e., smart devices where the data are produced and consumed. Embedding computing and application in Edge devices lead to emerging of two new concepts in Edge technology, namely, Edge computing and Edge analytics. Edge analytics uses some techniques or algorithms to analyze the data generated by the Edge devices. With the emerging of Edge analytics, the Edge devices have become a complete set. Currently, Edge analytics is unable to provide full support for the execution of the analytic techniques. The Edge devices cannot execute advanced and sophisticated analytic algorithms following various constraints such as limited power supply, small memory size, limited resources, etc. This article aims to provide a detailed discussion on Edge analytics. A clear explanation to distinguish between the three concepts of Edge technology, namely, Edge devices, Edge computing, and Edge analytics, along with their issues. Furthermore, the article discusses the implementation of Edge analytics to solve many problems in various areas such as retail, agriculture, industry, and healthcare. In addition, the research papers of the state-of-the-art edge analytics are rigorously reviewed in this article to explore the existing issues, emerging challenges, research opportunities and their directions, and applications.
翻訳日:2021-07-18 17:31:41 公開日:2021-07-01
# マルチモーダルベイズ深層学習による液体推進剤ロケットエンジンの熱音響不安定性予測

Forecasting Thermoacoustic Instabilities in Liquid Propellant Rocket Engines Using Multimodal Bayesian Deep Learning ( http://arxiv.org/abs/2107.06396v1 )

ライセンス: Link先を確認
Ushnish Sengupta, G\"unther Waxenegger-Wilfing, Justin Hardi, Matthew P. Juniper(参考訳) DLR宇宙推進研究所(DLR Institute of Space Propulsion)が運営する100MWの低温液体酸素/水素マルチインジェクターBKDは、現実的な条件下での熱音響不安定性の研究を可能にする研究プラットフォームである。 いくつかの条件下で燃焼器の1次接点モードが励起されるように静室圧と燃料酸化剤比が変化するBKD実験キャンペーンのデータを用いる。 複数のセンサ計測(インジェクタ圧力/温度測定、静室圧力測定、高周波動的圧力測定、高周波OH*化学発光測定)と将来の流量制御信号を入力することで、動的圧力時系列の振幅を予測するために自己回帰ベイズニューラルネットワークモデルを訓練する。 我々のアルゴリズムのベイズ的性質は、自信過剰な外挿を行うことなく、実験の実行毎にサイズが制限されるデータセットを扱うことを可能にする。 その結果,ネットワークは圧力振幅の変動を正確に予測でき,500ミリ秒前の未発見実験ランにおける不安定事象を予測できることがわかった。 センサ入力の異なる組み合わせを用いて複数のモデルの予測精度を比較する。 高周波の動的圧力信号は特に有意である。 また,様々なセンサ入力がモデル予測に与える影響を解釈するために,統合勾配の手法を用いる。 テストデータセットにおけるデータポイントの負のログ類似性は、予測の不確かさがベイズモデルによってよく特徴付けされ、不確かさの認識成分の劇的な増加で予想されるようにセンサ障害イベント結果をシミュレートしていることを示している。

The 100 MW cryogenic liquid oxygen/hydrogen multi-injector combustor BKD operated by the DLR Institute of Space Propulsion is a research platform that allows the study of thermoacoustic instabilities under realistic conditions, representative of small upper stage rocket engines. We use data from BKD experimental campaigns in which the static chamber pressure and fuel-oxidizer ratio are varied such that the first tangential mode of the combustor is excited under some conditions. We train an autoregressive Bayesian neural network model to forecast the amplitude of the dynamic pressure time series, inputting multiple sensor measurements (injector pressure/ temperature measurements, static chamber pressure, high-frequency dynamic pressure measurements, high-frequency OH* chemiluminescence measurements) and future flow rate control signals. The Bayesian nature of our algorithms allows us to work with a dataset whose size is restricted by the expense of each experimental run, without making overconfident extrapolations. We find that the networks are able to accurately forecast the evolution of the pressure amplitude and anticipate instability events on unseen experimental runs 500 milliseconds in advance. We compare the predictive accuracy of multiple models using different combinations of sensor inputs. We find that the high-frequency dynamic pressure signal is particularly informative. We also use the technique of integrated gradients to interpret the influence of different sensor inputs on the model prediction. The negative log-likelihood of data points in the test dataset indicates that predictive uncertainties are well-characterized by our Bayesian model and simulating a sensor failure event results as expected in a dramatic increase in the epistemic component of the uncertainty.
翻訳日:2021-07-18 12:22:35 公開日:2021-07-01
# (参考訳) スマートホームのアプライアンス消費データに対するバイレベルポジショニング攻撃モデルと対策 [全文訳有]

Bi-Level Poisoning Attack Model and Countermeasure for Appliance Consumption Data of Smart Homes ( http://arxiv.org/abs/2107.02897v1 )

ライセンス: CC BY 4.0
Mustain Billah, Adnan Anwar, Ziaur Rahman and Syed Md. Galib(参考訳) ビルドエネルギーの正確な予測は、ビルドエネルギーの自動化や管理から最適なストレージ制御に至るまで、様々なアプリケーションで有用である。 しかし、インテリジェントアタッカーは高度な攻撃モデルを使用して意図的にモデル性能に影響を与える可能性があるため、エネルギー予測モデルを設計する際に脆弱性を考慮する必要がある。 これにより予測精度が低下し、建築エネルギー管理システムの効率と性能に影響を与える可能性がある。 本稿では,家電製品から得られるエネルギー利用の回帰モデルに対するバイレベル中毒攻撃の影響について検討する。 さらに, 本論文では, 予測モデルに対する毒殺対策を効果的に提案する。 攻撃と防御はベンチマークデータセットで評価される。 実験結果から,知的サイバー攻撃者が予測モデルに毒を加えて判断を操作できることが示唆された。 しかし,提案手法は,他のベンチマーク手法と比較して効果的に防毒効果を確保できる。

Accurate building energy prediction is useful in various applications starting from building energy automation and management to optimal storage control. However, vulnerabilities should be considered when designing building energy prediction models, as intelligent attackers can deliberately influence the model performance using sophisticated attack models. These may consequently degrade the prediction accuracy, which may affect the efficiency and performance of the building energy management systems. In this paper, we investigate the impact of bi-level poisoning attacks on regression models of energy usage obtained from household appliances. Furthermore, an effective countermeasure against the poisoning attacks on the prediction model is proposed in this paper. Attacks and defenses are evaluated on a benchmark dataset. Experimental results show that an intelligent cyber-attacker can poison the prediction model to manipulate the decision. However, our proposed solution successfully ensures defense against such poisoning attacks effectively compared to other benchmark techniques.
翻訳日:2021-07-11 11:58:17 公開日:2021-07-01
# (参考訳) MDPにおける平均ペイオフ・総ペイオフ・ポイントペイオフ目標の戦略複雑性

Strategy Complexity of Mean Payoff, Total Payoff and Point Payoff Objectives in Countable MDPs ( http://arxiv.org/abs/2107.03287v1 )

ライセンス: CC BY 4.0
Richard Mayr, Eric Munday(参考訳) 実数値遷移報酬を用いた無数のマルコフ決定過程(MDP)について検討する。 すべての無限ランは以下のペイオフの列を誘導する。 ポイントペイオフ(直接見られる遷移報酬のシーケンス)、2。 total payoff(これまでの全報酬の合計のシーケンス)と3。 平均的なペイオフ。 各ペイオフタイプについて、目的は$\liminf$ が非負である確率を最大化することである。 これらの目的の戦略複雑性の全体像、すなわち、$\varepsilon$-optima l (resp) に必要なメモリ量と十分なメモリ量を確立する。 最適な)戦略 記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。

We study countably infinite Markov decision processes (MDPs) with real-valued transition rewards. Every infinite run induces the following sequences of payoffs: 1. Point payoff (the sequence of directly seen transition rewards), 2. Total payoff (the sequence of the sums of all rewards so far), and 3. Mean payoff. For each payoff type, the objective is to maximize the probability that the $\liminf$ is non-negative. We establish the complete picture of the strategy complexity of these objectives, i.e., how much memory is necessary and sufficient for $\varepsilon$-optima l (resp. optimal) strategies. Some cases can be won with memoryless deterministic strategies, while others require a step counter, a reward counter, or both.
翻訳日:2021-07-11 11:42:46 公開日:2021-07-01
# 航空機着陸防止のための機械学習アプローチ:気象・飛行データを用いた滑走路条件予測

A Machine Learning Approach to Safer Airplane Landings: Predicting Runway Conditions using Weather and Flight Data ( http://arxiv.org/abs/2107.04010v1 )

ライセンス: Link先を確認
Alise Danielle Midtfjord, Riccardo De Bin and Arne Bang Huseby(参考訳) 滑走路上の雪と氷の存在は、遅延や方向制御に必要なタイヤ舗装の摩擦を減らし、冬期に航空産業に経済的および安全上の脅威をもたらす可能性がある。 適切な安全手順を発動するには、パイロットは実際の滑走路表面条件の正確かつタイムリーな情報が必要である。 本研究では,XGBoostを用いて,滑空条件を推定する分類モデルと,滑空度を推定する回帰モデルとを組み合わせた滑走路評価システムを構築する。 モデルは気象データと滑走路レポートのデータに基づいてトレーニングされる。 滑走路の表面条件は、着陸機からの飛行センサーデータから推定されるタイヤ舗装摩擦係数によって表される。 モデルの性能を評価するために、いくつかの最先端の滑走路評価手法と比較する。 XGBoost モデルは、RCC AUC 0.95 で滑りやすい滑走路条件を特定し、MAE 0.0254 で摩擦係数を予測し、以前の全ての手法より優れている。 その結果, 変数抽出にドメイン知識を用いる場合, 複雑な物理現象を高い精度でモデル化する機械学習手法の強力な能力を示す。 XGBoost モデルは SHAP (SHapley Additive exPlanations) の近似と組み合わされ、空港運営者やパイロットにとって理解しやすい意思決定支援システムを提供する。

The presence of snow and ice on runway surfaces reduces the available tire-pavement friction needed for retardation and directional control and causes potential economic and safety threats for the aviation industry during the winter seasons. To activate appropriate safety procedures, pilots need accurate and timely information on the actual runway surface conditions. In this study, XGBoost is used to create a combined runway assessment system, which includes a classifcation model to predict slippery conditions and a regression model to predict the level of slipperiness. The models are trained on weather data and data from runway reports. The runway surface conditions are represented by the tire-pavement friction coefficient, which is estimated from flight sensor data from landing aircrafts. To evaluate the performance of the models, they are compared to several state-of-the-art runway assessment methods. The XGBoost models identify slippery runway conditions with a ROC AUC of 0.95, predict the friction coefficient with a MAE of 0.0254, and outperforms all the previous methods. The results show the strong abilities of machine learning methods to model complex, physical phenomena with a good accuracy when domain knowledge is used in the variable extraction. The XGBoost models are combined with SHAP (SHapley Additive exPlanations) approximations to provide a comprehensible decision support system for airport operators and pilots, which can contribute to safer and more economic operations of airport runways.
翻訳日:2021-07-11 11:35:08 公開日:2021-07-01
# (参考訳) ループ中の人間と無関係の透明機械学習における品質基準は相関しない [全文訳有]

Quality Metrics for Transparent Machine Learning With and Without Humans In the Loop Are Not Correlated ( http://arxiv.org/abs/2107.02033v1 )

ライセンス: CC BY-SA 4.0
Felix Biessmann and Dionysius Refiano(参考訳) フィールド説明可能な人工知能(XAI)は、機械学習(ML)予測をより解釈可能なものにするための一連の手法をもたらした。 しかし、透明なML手法による説明がいかに役に立つかは、人間にとって評価が難しい。 本稿では,心理学的手法を用いた解釈可能なコンピュータビジョンアルゴリズムの品質について検討する。 クラウドソースのアノテーションタスクでは、異なる解釈可能性アプローチがアノテーションの正確性とタスク時間に与える影響を調べます。 これらの品質指標を、従来のXAI、自動品質指標と比較します。 この結果から,心理物理学実験により,機械学習における透明性の堅牢な品質評価が可能であることが示唆された。 興味深いことに、ループ内で人間なしで計算された品質指標は、解釈可能性メソッドの一貫性のあるランキングを提供していなかった。 これらの知見は、現代の機械学習応用のための古典心理学の手法の可能性を強調している。 本研究は,人間とmlの相互作用である自然生息地における解釈可能性を評価するための説得力のある議論を提供することを願っている。

The field explainable artificial intelligence (XAI) has brought about an arsenal of methods to render Machine Learning (ML) predictions more interpretable. But how useful explanations provided by transparent ML methods are for humans remains difficult to assess. Here we investigate the quality of interpretable computer vision algorithms using techniques from psychophysics. In crowdsourced annotation tasks we study the impact of different interpretability approaches on annotation accuracy and task time. We compare these quality metrics with classical XAI, automated quality metrics. Our results demonstrate that psychophysical experiments allow for robust quality assessment of transparency in machine learning. Interestingly the quality metrics computed without humans in the loop did not provide a consistent ranking of interpretability methods nor were they representative for how useful an explanation was for humans. These findings highlight the potential of methods from classical psychophysics for modern machine learning applications. We hope that our results provide convincing arguments for evaluating interpretability in its natural habitat, human-ML interaction, if the goal is to obtain an authentic assessment of interpretability.
翻訳日:2021-07-07 13:17:27 公開日:2021-07-01
# 深層学習を用いた新型コロナウイルス情報処理

Tackling COVID-19 Infodemic using Deep Learning ( http://arxiv.org/abs/2107.02012v1 )

ライセンス: Link先を確認
Prathmesh Pathwar, Simran Gill(参考訳) 新型コロナウイルス(COVID-19)のパンデミック(パンデミック)では、生徒や社会に誤った情報を流し込み、現在の病気を悪化させている。 オンラインメディア上で偽ニュースを検出し、分類し、新型コロナウイルスや新型コロナウイルスに関連する偽情報を検出する。 データセットには偽の投稿、記事、ニュースがポリティファクトのような事実チェックサイトから集められ、実際のツイートは確認済みのTwitterハンドルから取られた。 本研究では,Naive Bayes, KNN, Gradient Boost, Random Forestなどの従来の分類手法と,CNN, RNN, DNN, およびアンサンブルモデルRMDLを併用した。 これらの手法をTF-IDFとGloVe Word Embeddingsという2つの特徴抽出手法を用いて分析し、オンラインメディア上でのCOVID-19情報を含むデータセットについてより深い知見を提供する。

Humanity is battling one of the most deleterious virus in modern history, the COVID-19 pandemic, but along with the pandemic there's an infodemic permeating the pupil and society with misinformation which exacerbates the current malady. We try to detect and classify fake news on online media to detect fake information relating to COVID-19 and coronavirus. The dataset contained fake posts, articles and news gathered from fact checking websites like politifact whereas real tweets were taken from verified twitter handles. We incorporated multiple conventional classification techniques like Naive Bayes, KNN, Gradient Boost and Random Forest along with Deep learning approaches, specifically CNN, RNN, DNN and the ensemble model RMDL. We analyzed these approaches with two feature extraction techniques, TF-IDF and GloVe Word Embeddings which would provide deeper insights into the dataset containing COVID-19 info on online media.
翻訳日:2021-07-06 15:20:28 公開日:2021-07-01
# (参考訳) 余剰エネルギーを適切に活用したペナン島大規模リゾート地における島型ハイブリッドマイクログリッドシステムの設計と実装 [全文訳有]

Design and implementation of an islanded hybrid microgrid system for a large resort center for Penang Island with the proper application of excess energy ( http://arxiv.org/abs/2107.01032v1 )

ライセンス: CC BY 4.0
SK. A. Shezan, S. Rawdah, Shafin Ali, Ziaur Rahman(参考訳) エネルギー需要は文明の国際化と発展によって加速ペースで日々増加している。 しかし、負荷によって消費されなかった島式ハイブリッドマイクログリッドシステム(IHMS)が生み出す追加エネルギーの適切な経済利用は、世界的な大きな課題である。 本研究は,マレーシアのペナン島にあるペナンヒルリゾート(Penang Hill Resort)におけるIHMSのマルチ最適組み合わせと,冗長エネルギーの有効利用に焦点を当てた。 この余剰エネルギーを効率的に活用するために、貯蔵タンクと共に電気ヒータを適切なエネルギー管理を有する変圧荷重について設計した。 さらに、システム設計は利益と実用的な分析のためにHOMER Proソフトウェアを採用した。 同時に、MATLAB Simulinkは、2068および19,072kWの値を、リゾートの1日当たりのピークおよび平均負荷として決定することで、システム全体を安定化させた。 さらに、最適化ihmsは、太陽電池(pv)セル、ディーゼル発電機、風力タービン、バッテリ、およびコンバータから構成されている。 これに関連して、最適化されたシステムは、ネット・プレゼン・コスト(NPC)が21.66億ドル、更新可能フラクション(RF)が27.8%、エネルギーコスト(COE)が0.165/kWh、CO2が1,735,836kg/年、余剰エネルギーが517.29MWh/年であった。 この計画にディーゼル発電機のリードシステムが組み込まれていたため、COEは0.217/kWh、CO2は5,124,879kg/年、NPCは2325万ドルに達した。 この余剰エネルギー量は、電気ヒータを回分負荷として効果的に利用する。

The energy demand is growing daily at an accelerated pace due to the internationalization and development of civilization. Yet proper economic utilization of additional energy generated by the Islanded Hybrid Microgrid System (IHMS) that was not consumed by the load is a major global challenge. To resolve the above-stated summons, this research focuses on a multi-optimal combination of IHMS for the Penang Hill Resort located on Penang Island, Malaysia, with effective use of redundant energy. To avail this excess energy efficiently, an electrical heater along with a storage tank has been designed concerning diversion load having proper energy management. Furthermore, the system design has adopted the HOMER Pro software for profitable and practical analysis. Alongside, MATLAB Simulink had stabilized the whole system by representing the values of 2068 and 19,072 kW that have been determined as the approximated peak and average load per day for the resort. Moreover, the optimized IHMS is comprehended of Photovoltaic (PV) cells, Diesel Generator, Wind Turbine, Battery, and Converter. Adjacent to this, the optimized system ensued in having a Net Present Cost (NPC) of $21.66 million, Renewable Fraction (RF) of 27.8%, Cost of Energy (COE) of $0.165/kWh, CO2 of 1,735,836 kg/year, and excess energy of 517.29MWh per annum. Since the diesel generator lead system was included in the scheme, a COE of $0.217/kWh, CO2 of 5,124,879 kg/year, and NPC of $23.25 million were attained. The amount of excess energy is effectively utilized with an electrical heater as a diversion load.
翻訳日:2021-07-06 07:08:50 公開日:2021-07-01
# (参考訳) 地球系科学における対話的因果構造発見 [全文訳有]

Interactive Causal Structure Discovery in Earth System Sciences ( http://arxiv.org/abs/2107.01126v1 )

ライセンス: CC BY 4.0
Laila Melkas, Rafael Savvides, Suyog Chandramouli, Jarmo M\"akel\"a, Tuomo Nieminen, Ivan Mammarella and Kai Puolam\"aki(参考訳) 因果構造発見(CSD)モデルは、地球システム科学を含むいくつかの領域に進出している。 しかし、それらの広範な適応は、結果のモデルが専門家のドメイン知識を考慮しないことが多く、結果のモデルを反復的に修正することがしばしば必要であるという事実によって妨げられている。 我々は、この知識を考慮に入れ、地球系科学にCSDアルゴリズムを適用するために必要となるワークフローを提示する。 同時に、まだ解決する必要があるオープンリサーチの質問についても述べます。 本稿では, CSDアルゴリズムの出力をインタラクティブに修正する方法を提案し, ユーザインタラクションを, 利用者の知識を表わす因果モデルの確率と, 専門家の知識を表わす事前分布から構成した, 確率関数の局所的最大時間差解の欲求的発見としてモデル化できると主張している。 ドメイン領域の専門家である共著者と共同で構築したサンプルには、実世界のデータセットを使用します。 地球系科学や他の類似領域で最大に使用可能な因果モデルを見つけることは、多くの興味深い研究課題を含む難しい課題であることを示している。 ドメインの知識を考慮に入れることは、発見された最終因果モデルに重大な影響を与えると我々は主張する。

Causal structure discovery (CSD) models are making inroads into several domains, including Earth system sciences. Their widespread adaptation is however hampered by the fact that the resulting models often do not take into account the domain knowledge of the experts and that it is often necessary to modify the resulting models iteratively. We present a workflow that is required to take this knowledge into account and to apply CSD algorithms in Earth system sciences. At the same time, we describe open research questions that still need to be addressed. We present a way to interactively modify the outputs of the CSD algorithms and argue that the user interaction can be modelled as a greedy finding of the local maximum-a-posteriori solution of the likelihood function, which is composed of the likelihood of the causal model and the prior distribution representing the knowledge of the expert user. We use a real-world data set for examples constructed in collaboration with our co-authors, who are the domain area experts. We show that finding maximally usable causal models in the Earth system sciences or other similar domains is a difficult task which contains many interesting open research questions. We argue that taking the domain knowledge into account has a substantial effect on the final causal models discovered.
翻訳日:2021-07-06 06:39:04 公開日:2021-07-01
# (参考訳) 電子商取引のためのバンディットの地図 [全文訳有]

A Map of Bandits for E-commerce ( http://arxiv.org/abs/2107.00680v1 )

ライセンス: CC BY 4.0
Yi Liu and Lihong Li(参考訳) Banditの豊富な文献は、多様なアルゴリズムのツールボックスを提供するだけでなく、実践者が目の前の問題を解決する適切なソリューションを見つけるのを難しくしている。 Banditsの典型的な教科書はアルゴリズムの設計と分析に重点を置いており、アプリケーションに関する調査はしばしば個々のアプリケーションのリストを提示する。 これらは貴重なリソースだが、アプリケーションと適切なBanditアルゴリズムのマッピングにはギャップがある。 本稿では,このギャップをバンドイットの構造化マップを用いて低減し,実践者が関連するバンドイットアルゴリズムを見つけるための支援を行う。 包括的概要を提供する代わりに、報酬、アクション、機能に関連するいくつかの重要な決定ポイントに焦点を当てます。

The rich body of Bandit literature not only offers a diverse toolbox of algorithms, but also makes it hard for a practitioner to find the right solution to solve the problem at hand. Typical textbooks on Bandits focus on designing and analyzing algorithms, and surveys on applications often present a list of individual applications. While these are valuable resources, there exists a gap in mapping applications to appropriate Bandit algorithms. In this paper, we aim to reduce this gap with a structured map of Bandits to help practitioners navigate to find relevant and practical Bandit algorithms. Instead of providing a comprehensive overview, we focus on a small number of key decision points related to reward, action, and features, which often affect how Bandit algorithms are chosen in practice.
翻訳日:2021-07-06 05:24:15 公開日:2021-07-01
# (参考訳) Tiramisuモデルによるビート間間隔推定:誤差低減のための新しいアプローチ [全文訳有]

Inter-Beat Interval Estimation with Tiramisu Model: A Novel Approach with Reduced Error ( http://arxiv.org/abs/2107.00693v1 )

ライセンス: CC BY 4.0
Asiful Arefeen, Ali Akbari, Seyed Iman Mirzadeh, Roozbeh Jafari, Behrooz A. Shirazi and Hassan Ghasemzadeh(参考訳) IBI(Inter-beat interval)測定は、心拍変動(HRV)の推定を可能にする。 しかし,ノイズの存在下では信号の形態が歪んでいるため,ノイズ信号からibiを抽出することは困難である。 重心動揺者の心電図(ECG)は、運動アーチファクトとして知られるノイズで高度に劣化し、そこから抽出されたIBIは不正確である。 リモートヘルスモニタリングとウェアラブルシステムの開発の一環として,ecg信号の異常化と,それによるibiの正確な推定が,信号処理研究者の間で注目されている。 従来の方法とは別に、近年は信号の識別にディープラーニング技術が成功しており、診断プロセスが容易になり、これまで達成できなかった精度レベルが向上している。 本稿では,tiramisuオートエンコーダモデルを活用したディープラーニング手法を提案する。 難聴後、IBIはより正確に診断作業の迅速化を推定する。 以上の結果から,本手法は実測値に対して平均根平均二乗誤差 (RMSE) が13ミリ秒である場合,SNRのノイズECG信号から最大-30dBまでのBI推定を可能にする。 このノイズレベルでは、エラー率は8%以下であり、他の技術よりも優れています。

Inter-beat interval (IBI) measurement enables estimation of heart-rate variability (HRV) which, in turns, can provide early indication of potential cardiovascular diseases. However, extracting IBIs from noisy signals is challenging since the morphology of the signal is distorted in the presence of the noise. Electrocardiogram (ECG) of a person in heavy motion is highly corrupted with noise, known as motion-artifact, and IBI extracted from it is inaccurate. As a part of remote health monitoring and wearable system development, denoising ECG signals and estimating IBIs correctly from them have become an emerging topic among signal-processing researchers. Apart from conventional methods, deep-learning techniques have been successfully used in signal denoising recently, and diagnosis process has become easier, leading to accuracy levels that were previously unachievable. We propose a deep-learning approach leveraging tiramisu autoencoder model to suppress motion-artifact noise and make the R-peaks of the ECG signal prominent even in the presence of high-intensity motion. After denoising, IBIs are estimated more accurately expediting diagnosis tasks. Results illustrate that our method enables IBI estimation from noisy ECG signals with SNR up to -30dB with average root mean square error (RMSE) of 13 milliseconds for estimated IBIs. At this noise level, our error percentage remains below 8% and outperforms other state of the art techniques.
翻訳日:2021-07-06 05:15:22 公開日:2021-07-01
# (参考訳) 手首型センサを用いたバイポーラマニク・ユートミック状態認識のための長短アンサンブルネットワーク [全文訳有]

Long-Short Ensemble Network for Bipolar Manic-Euthymic State Recognition Based on Wrist-worn Sensors ( http://arxiv.org/abs/2107.00710v1 )

ライセンス: CC BY 4.0
Ulysse C\^ot\'e-Allard, Petter Jakobsen, Andrea Stautland, Tine Nordgreen, Ole Bernt Fasmer, Ketil Joachim Oedegaard, Jim Torresen(参考訳) 双極性障害の人為的なエピソードは、しばしば影響を受けた人々とその周囲に破壊的な結果をもたらす非批判的な行動や妄想的な精神病を引き起こす。 マンニックエピソードの早期発見と介入は、エスカレーション、入院、早死にを防ぐために不可欠である。 しかし、双極性障害を患っている人は、満ちたエピソードを経験していることを認識しておらず、ユーホリアや生産性の向上などの症状は、患者が助けを求めるのを妨げている。 本研究は,手首縫いの装置から取得したアクチノグラフィと筋電活動に基づいて,マニアおよびリカバリ後に,ユーザ非依存で自動的な気分状態検出を行うことを提案する。 本稿では,長所 (20h) と短所 (5分) の時間インターバルを用いて,気分状態の判別を行う新しい深層学習に基づくアンサンブル手法を提案する。 両極性双極性患者47例を対象に, 提案手法は, 平均精度91.59%のうつ病/うつ病状態認識を実現する。

Manic episodes of bipolar disorder can lead to uncritical behaviour and delusional psychosis, often with destructive consequences for those affected and their surroundings. Early detection and intervention of a manic episode are crucial to prevent escalation, hospital admission and premature death. However, people with bipolar disorder may not recognize that they are experiencing a manic episode and symptoms such as euphoria and increased productivity can also deter affected individuals from seeking help. This work proposes to perform user-independent, automatic mood-state detection based on actigraphy and electrodermal activity acquired from a wrist-worn device during mania and after recovery (euthymia). This paper proposes a new deep learning-based ensemble method leveraging long (20h) and short (5 minutes) time-intervals to discriminate between the mood-states. When tested on 47 bipolar patients, the proposed classification scheme achieves an average accuracy of 91.59% in euthymic/manic mood-state recognition.
翻訳日:2021-07-06 04:58:53 公開日:2021-07-01
# (参考訳) 教師なしドメイン適応のための分類器の不確かさの軽減 [全文訳有]

Mitigating Uncertainty of Classifier for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2107.00727v1 )

ライセンス: CC BY 4.0
Shanu Kumar, Vinod Kumar Kurmi, Praphul Singh, Vinay P Namboodiri(参考訳) 教師なしのドメイン適応を理解することは、よく検討された重要なタスクです。 しかし、様々な手法が分類器の性能を詳細に分析していない。 本稿では,ソースとターゲット分布の整合性の観点から,分類器の役割を徹底的に検討する。 具体的には,a)特徴の分布,b)サンプルの確率的不確実性,c)確実性アクティベーションマッピングのマッチングにより,分類能力を検討する。 分析の結果,これら3つの分布を用いることで,すべてのデータセットのパフォーマンスが一貫した改善が得られた。 そこで本研究では,分類器から得られた様々な分布の役割に関する知識を,教師なし領域適応の解決に向けて拡張する。

Understanding unsupervised domain adaptation has been an important task that has been well explored. However, the wide variety of methods have not analyzed the role of a classifier's performance in detail. In this paper, we thoroughly examine the role of a classifier in terms of matching source and target distributions. We specifically investigate the classifier ability by matching a) the distribution of features, b) probabilistic uncertainty for samples and c) certainty activation mappings. Our analysis suggests that using these three distributions does result in a consistently improved performance on all the datasets. Our work thus extends present knowledge on the role of the various distributions obtained from the classifier towards solving unsupervised domain adaptation.
翻訳日:2021-07-06 04:43:44 公開日:2021-07-01
# (参考訳) qパス:パワー手段を用いた幾何学的アニーリングパスの一般化 [全文訳有]

q-Paths: Generalizing the Geometric Annealing Path using Power Means ( http://arxiv.org/abs/2107.00745v1 )

ライセンス: CC BY 4.0
Vaden Masrani, Rob Brekelmans, Thang Bui, Frank Nielsen, Aram Galstyan, Greg Ver Steeg, Frank Wood(参考訳) 多くの一般的な機械学習手法は、幾何学平均を用いて構築された2つの興味の分布の間の中間密度の列である幾何学的アニーリングパスを含む。 モーメント・アラグリング・パスのような代替手段はいくつかの設定で性能向上を示すが、その実用性は指数関数的な家族の終端仮定と閉形式エネルギー関数の欠如によって制限されている。 本研究では,平均の一般化概念から派生したパス群である$q$-pathsを導入し,幾何学的および算術的混合を特殊な場合として含み,非指数熱力学から変形対数関数を包含する単純な閉形式を認める。 幾何学的経路の以前の分析に続いて、我々は、q$-pathsを$q$-exponential family of distributionsに対応するものと解釈し、$\alpha$-divergences とエンドポイントとの混合を最小化するように中間密度の変分表現を提供する。 幾何経路からの小さな偏差は,シーケンシャルモンテカルロを用いたベイズ推定とアニール化重要サンプリングを用いた生成モデル評価に経験的利益をもたらす。

Many common machine learning methods involve the geometric annealing path, a sequence of intermediate densities between two distributions of interest constructed using the geometric average. While alternatives such as the moment-averaging path have demonstrated performance gains in some settings, their practical applicability remains limited by exponential family endpoint assumptions and a lack of closed form energy function. In this work, we introduce $q$-paths, a family of paths which is derived from a generalized notion of the mean, includes the geometric and arithmetic mixtures as special cases, and admits a simple closed form involving the deformed logarithm function from nonextensive thermodynamics. Following previous analysis of the geometric path, we interpret our $q$-paths as corresponding to a $q$-exponential family of distributions, and provide a variational representation of intermediate densities as minimizing a mixture of $\alpha$-divergences to the endpoints. We show that small deviations away from the geometric path yield empirical gains for Bayesian inference using Sequential Monte Carlo and generative model evaluation using Annealed Importance Sampling.
翻訳日:2021-07-06 04:05:26 公開日:2021-07-01
# (参考訳) 確率的誘導の不可能性の証明 [全文訳有]

Proof of the impossibility of probabilistic induction ( http://arxiv.org/abs/2107.00749v1 )

ライセンス: CC BY 4.0
Vaden Masrani(参考訳) 本項では、Popper (1992) による確率的帰納の不可能性の証明を再検討し、単純化する。 他の証明も可能である(cf。 パッパー(1985年)。

In this short note I restate and simplify the proof of the impossibility of probabilistic induction from Popper (1992). Other proofs are possible (cf. Popper (1985)).
翻訳日:2021-07-06 03:31:06 公開日:2021-07-01
# (参考訳) 自転車の拡がり問題について [全文訳有]

On the Bike Spreading Problem ( http://arxiv.org/abs/2107.00761v1 )

ライセンス: CC BY 4.0
Elia Costa and Francesco Silvestri(参考訳) フリーフローティングバイクシェアリングシステム (FFBSS) は、個人が自転車を借りて、サービスエリア内のどこにでも返却できるドックレスレンタルシステムである。 レンタルサービスを改善するために、利用可能な自転車はサービスエリア全体に配布されるべきである。 さらに,サービスエリア全体に自転車を普及させることは,FFBSSの利点がほんのわずかのゾーンに比例しないため,都市空間の公平性を高める。 このような流通を保証するため、FFBSSオペレーターは自転車を手動で移動させることができるが、経済的・環境的なコストが高い。 本稿では,顧客が生成した既存の自転車流を利用して自転車を流通する手法を提案する。 より具体的には、影響の最大化問題としてこの問題を想定することにより、少量のゾーンに自転車のバッチを配置することができ、FFBSSの日常使用により、これらの自転車を広範囲に効率的に普及させることができることを示す。 これらの領域の検出はNP完全であることを示すが、単純で効率的な1-1/e$近似アルゴリズムが存在する。

A free-floating bike-sharing system (FFBSS) is a dockless rental system where an individual can borrow a bike and returns it everywhere, within the service area. To improve the rental service, available bikes should be distributed over the entire service area: a customer leaving from any position is then more likely to find a near bike and then to use the service. Moreover, spreading bikes among the entire service area increases urban spatial equity since the benefits of FFBSS are not a prerogative of just a few zones. For guaranteeing such distribution, the FFBSS operator can use vans to manually relocate bikes, but it incurs high economic and environmental costs. We propose a novel approach that exploits the existing bike flows generated by customers to distribute bikes. More specifically, by envisioning the problem as an Influence Maximization problem, we show that it is possible to position batches of bikes on a small number of zones, and then the daily use of FFBSS will efficiently spread these bikes on a large area. We show that detecting these areas is NP-complete, but there exists a simple and efficient $1-1/e$ approximation algorithm; our approach is then evaluated on a dataset of rides from the free-floating bike-sharing system of the city of Padova.
翻訳日:2021-07-06 03:28:42 公開日:2021-07-01
# (参考訳) 学習データアソシエーションによるマルチロボット知覚の強化 [全文訳有]

Enhancing Multi-Robot Perception via Learned Data Association ( http://arxiv.org/abs/2107.00769v1 )

ライセンス: CC BY 4.0
Nathaniel Glaser, Yen-Cheng Liu, Junjiao Tian, Zsolt Kira(参考訳) 本稿では,分散セマンティクスセグメンテーションのためのマルチビューインフィルディングの文脈において,マルチロボット協調知覚問題に対処する。 この設定は、特に未登録のマルチエージェント画像データに関連するいくつかの現実世界の課題を伴っている。 ソリューションは、複数の非静的かつ断続的に重なり合うRGBの視点を効果的に活用する必要がある。 この目的のために,ロボット群内の各エージェントに(分散的に)展開可能な拡張可能なニューラルネットワークであるMulti-Agent Infilling Networkを提案する。 具体的には、各ロボットが視覚情報を局所的に符号化・復号し、拡張可能なニューラルメカニズムにより、不確実性とコンテキストに基づく中間的特徴の交換を可能にする。 現実的なマルチロボットAirSimデータセットの性能向上を示す。

In this paper, we address the multi-robot collaborative perception problem, specifically in the context of multi-view infilling for distributed semantic segmentation. This setting entails several real-world challenges, especially those relating to unregistered multi-agent image data. Solutions must effectively leverage multiple, non-static, and intermittently-overl apping RGB perspectives. To this end, we propose the Multi-Agent Infilling Network: an extensible neural architecture that can be deployed (in a distributed manner) to each agent in a robotic swarm. Specifically, each robot is in charge of locally encoding and decoding visual information, and an extensible neural mechanism allows for an uncertainty-aware and context-based exchange of intermediate features. We demonstrate improved performance on a realistic multi-robot AirSim dataset.
翻訳日:2021-07-06 03:08:57 公開日:2021-07-01
# (参考訳) 帯域制限型マルチエージェント空間ハンドシェイクによる障害克服 [全文訳有]

Overcoming Obstructions via Bandwidth-Limited Multi-Agent Spatial Handshaking ( http://arxiv.org/abs/2107.00771v1 )

ライセンス: CC BY 4.0
Nathaniel Glaser, Yen-Cheng Liu, Junjiao Tian, Zsolt Kira(参考訳) 本稿では,帯域幅制限と障害物による協調認識,特にマルチエージェントセマンティックセマンティックセグメンテーションの文脈において扱う。 この設定では、未登録のロボット群画像の処理や交換など、いくつかの重要な課題が浮かび上がっている。 成功させるためには、複数の非静的かつ断続的に重複するRGBの視点を効果的に活用する必要がある。 そこで本研究では,ロボット群を横断する視覚情報を処理し,圧縮し,伝達するマルチエージェント空間ハンドシェイキングネットワーク(mash)を提案する。 私たちの分散通信モジュールは、ポーズ、深さ、ウォーピングデータなどの追加の入力要求なしに、生の画像データを直接(そして排他的に)操作します。 本研究では,写真実写型マルチロボットAirSim環境,特に画像閉塞の有無において,複数のベースラインと比較して優れた性能を示す。 本手法は,強いベースラインに対して絶対11%のIoU改善を実現する。

In this paper, we address bandwidth-limited and obstruction-prone collaborative perception, specifically in the context of multi-agent semantic segmentation. This setting presents several key challenges, including processing and exchanging unregistered robotic swarm imagery. To be successful, solutions must effectively leverage multiple non-static and intermittently-overl apping RGB perspectives, while heeding bandwidth constraints and overcoming unwanted foreground obstructions. As such, we propose an end-to-end learn-able Multi-Agent Spatial Handshaking network (MASH) to process, compress, and propagate visual information across a robotic swarm. Our distributed communication module operates directly (and exclusively) on raw image data, without additional input requirements such as pose, depth, or warping data. We demonstrate superior performance of our model compared against several baselines in a photo-realistic multi-robot AirSim environment, especially in the presence of image occlusions. Our method achieves an absolute 11% IoU improvement over strong baselines.
翻訳日:2021-07-06 03:01:40 公開日:2021-07-01
# adagda: minimax最適化のための適応勾配降下昇降法

AdaGDA: Faster Adaptive Gradient Descent Ascent Methods for Minimax Optimization ( http://arxiv.org/abs/2106.16101v2 )

ライセンス: Link先を確認
Feihu Huang and Heng Huang(参考訳) 本稿では,超adam \citep{huang2021 super} で用いられる統一適応行列を用いて,非凸強凹ミニマックス問題を解くための適応勾配降下上昇の高速化法を提案する。 具体的には,基本運動量法に基づく高速適応勾配アセント法 (adagda) を提案し,大規模なバッチを使わずに $\epsilon$-stationar y point を求めるために,$o(\kappa^4\epsilon^{-4})$ というサンプルの複雑さを低め,$o(\sqrt{\kappa})$ で適応的ミニマックス最適化法の既存の結果を改善する。 さらに, AdaGDA (VR-AdaGDA) 法を運動量に基づく分散還元法により高速化し, 大規模なバッチを伴わずに$O(\kappa^3\epsilon^{-3})$を$\epsilon$-stationar yの値を求める場合に最もよく知られたサンプル複雑性を実現する。 さらに、対象関数の有界リプシッツパラメータを仮定し、我々のVR-AdaGDA法が、ミニバッチサイズ$O(\kappa^{2.5}\epsilon^{-3})$のより低いサンプル複雑性に達することを証明した。 特に,既存の適応学習率を含む統一適応行列に基づく適応手法に対して,効果的な収束解析フレームワークを提供する。

In the paper, we propose a class of faster adaptive gradient descent ascent methods for solving the nonconvex-strongly-c oncave minimax problems by using unified adaptive matrices used in the SUPER-ADAM \citep{huang2021super}. Specifically, we propose a fast adaptive gradient decent ascent (AdaGDA) method based on the basic momentum technique, which reaches a low sample complexity of $O(\kappa^4\epsilon^{-4})$ for finding an $\epsilon$-stationar y point without large batches, which improves the existing result of adaptive minimax optimization method by a factor of $O(\sqrt{\kappa})$. Moreover, we present an accelerated version of AdaGDA (VR-AdaGDA) method based on the momentum-based variance reduced technique, which achieves the best known sample complexity of $O(\kappa^3\epsilon^{-3})$ for finding an $\epsilon$-stationar y point without large batches. Further assume the bounded Lipschitz parameter of objective function, we prove that our VR-AdaGDA method reaches a lower sample complexity of $O(\kappa^{2.5}\epsilon^{-3})$ with the mini-batch size $O(\kappa)$. In particular, we provide an effective convergence analysis framework for our adaptive methods based on unified adaptive matrices, which include almost existing adaptive learning rates.
翻訳日:2021-07-05 13:06:23 公開日:2021-07-01
# 相反的に拡張されたデータの(in)有効性の検討

An Investigation of the (In)effectiveness of Counterfactually Augmented Data ( http://arxiv.org/abs/2107.00753v1 )

ライセンス: Link先を確認
Nitish Joshi, He He(参考訳) 事前学習された言語モデルは、自然言語理解ベンチマークにおいて優れたパフォーマンスを達成するが、素早い相関に頼り、アウト・オブ・ディストリビューション(OOD)データに乏しい。 最近の研究では、分散シフト下で不変なロバストな特徴を識別するために、カウンタファクト推論データ(cad: counterfactually-aug mented data)を使用して検討されている。 しかし,OOD一般化のためのCADを用いた実験結果が混在している。 この相違を説明するために、線形ガウスモデルから洞察を導き、CADの落とし穴を実証する。 特に, (a) cadはロバストな特徴の同定に有効であるが, モデルが不安定なロバストな特徴を学習することを妨げる可能性があり, (b) cadはデータ内の既存のスプリアス相関を悪化させる可能性がある。 以上の結果から,現在のcadデータセットにおける摂動多様性の欠如は,ood一般化の有効性を制限していることが明らかとなった。

While pretrained language models achieve excellent performance on natural language understanding benchmarks, they tend to rely on spurious correlations and generalize poorly to out-of-distribution (OOD) data. Recent work has explored using counterfactually-aug mented data (CAD) -- data generated by minimally perturbing examples to flip the ground-truth label -- to identify robust features that are invariant under distribution shift. However, empirical results using CAD for OOD generalization have been mixed. To explain this discrepancy, we draw insights from a linear Gaussian model and demonstrate the pitfalls of CAD. Specifically, we show that (a) while CAD is effective at identifying robust features, it may prevent the model from learning unperturbed robust features, and (b) CAD may exacerbate existing spurious correlations in the data. Our results show that the lack of perturbation diversity in current CAD datasets limits its effectiveness on OOD generalization, calling for innovative crowdsourcing procedures to elicit diverse perturbation of examples.
翻訳日:2021-07-05 13:04:18 公開日:2021-07-01
# ビデオゲーム用強化学習技の蒸留

Distilling Reinforcement Learning Tricks for Video Games ( http://arxiv.org/abs/2107.00703v1 )

ライセンス: Link先を確認
Anssi Kanervisto, Christian Scheller, Yanick Schraner, Ville Hautam\"aki(参考訳) 強化学習(RL)研究は、異なる領域にまたがって適用できる一般的なソリューションに焦点を当てている。 その結果、RL実践者がほとんどすべてのドメインで使用できる方法が得られます。 しかし、最近の研究では、報酬形成やカリキュラム学習、大きなタスクを小さなチャンクに分割するなど、RLを効果的に利用するために必要なエンジニアリングステップ(トリック)が欠落していることが多い。 このようなトリックは、最先端の結果を達成し、RL競争に勝つのに必要なくても一般的である。 技術者の努力を楽にするために、最先端の成果からトリックの説明を蒸留し、これらのトリックが標準の深層Q学習エージェントをどのように改善できるかを研究する。 この作業の長期的な目標は、証明済みのRLメソッドとドメイン固有のトリックを組み合わせることであり、統一されたソフトウェアフレームワークを提供し、複数のドメインに対する洞察を提供することである。

Reinforcement learning (RL) research focuses on general solutions that can be applied across different domains. This results in methods that RL practitioners can use in almost any domain. However, recent studies often lack the engineering steps ("tricks") which may be needed to effectively use RL, such as reward shaping, curriculum learning, and splitting a large task into smaller chunks. Such tricks are common, if not necessary, to achieve state-of-the-art results and win RL competitions. To ease the engineering efforts, we distill descriptions of tricks from state-of-the-art results and study how well these tricks can improve a standard deep Q-learning agent. The long-term goal of this work is to enable combining proven RL methods with domain-specific tricks by providing a unified software framework and accompanying insights in multiple domains.
翻訳日:2021-07-05 13:03:10 公開日:2021-07-01
# 2プレーヤマルコフゲームにおけるギャップ依存境界

Gap-Dependent Bounds for Two-Player Markov Games ( http://arxiv.org/abs/2107.00685v1 )

ライセンス: Link先を確認
Zehao Dou, Zhuoran Yang, Zhaoran Wang, Simon S.Du(参考訳) 強化学習の分野における最も一般的な方法の1つとして,q-learningが注目されている。 近年、異なる設定でQラーニングクラスに属するアルゴリズムの残念な境界について、より理論的研究がなされている。 本稿では,2-player turn-based stochastic markov games (2-tbsg) 上でnash q-learningアルゴリズムを実行する際の累積的後悔を分析し,エピソディック表環境における最初のギャップ依存対数上限を提案する。 この境界は対数項のみの理論的な下界と一致する。 さらに,この結論を無限地平線による割引ゲームに拡張し,同様のギャップ依存の対数的後悔境界を提案する。 また, 線形 MDP 仮定の下では, 2-TBSG に対して, 集中的, 独立的な設定で別の対数的後悔が生じる。

As one of the most popular methods in the field of reinforcement learning, Q-learning has received increasing attention. Recently, there have been more theoretical works on the regret bound of algorithms that belong to the Q-learning class in different settings. In this paper, we analyze the cumulative regret when conducting Nash Q-learning algorithm on 2-player turn-based stochastic Markov games (2-TBSG), and propose the very first gap dependent logarithmic upper bounds in the episodic tabular setting. This bound matches the theoretical lower bound only up to a logarithmic term. Furthermore, we extend the conclusion to the discounted game setting with infinite horizon and propose a similar gap dependent logarithmic regret bound. Also, under the linear MDP assumption, we obtain another logarithmic regret for 2-TBSG, in both centralized and independent settings.
翻訳日:2021-07-05 13:02:06 公開日:2021-07-01
# 深層学習モデルにおける系統的誤り発見のための一般的な方法

The Spotlight: A General Method for Discovering Systematic Errors in Deep Learning Models ( http://arxiv.org/abs/2107.00758v1 )

ライセンス: Link先を確認
Greg d'Eon, Jason d'Eon, James R. Wright, Kevin Leyton-Brown(参考訳) 教師付き学習モデルは、しばしばデータのまれな部分集合に体系的な誤りを犯す。 しかし、そのような体系的な誤りを識別することは困難であり、モデルの性能は、これらのグループが知られ、明示的にラベル付けされているときにのみ、センシティブなグループ間で分解される。 本稿では,スポットライトと呼ばれる系統的誤りの発見手法を提案する。 重要なアイデアは、同様の入力がニューラルネットワークの最終的な隠蔽層に類似した表現を持つ傾向があることだ。 この構造を,この表現空間上で"スポットライトを照らす"ことで,モデルの性能の悪い連続した領域を見つける。 画像分類器,言語モデル,レコメンダシステムなど,さまざまなモデルアーキテクチャにおいて,スポットライトは意味的に意味のある弱点の領域であることを示す。

Supervised learning models often make systematic errors on rare subsets of the data. However, such systematic errors can be difficult to identify, as model performance can only be broken down across sensitive groups when these groups are known and explicitly labelled. This paper introduces a method for discovering systematic errors, which we call the spotlight. The key idea is that similar inputs tend to have similar representations in the final hidden layer of a neural network. We leverage this structure by "shining a spotlight" on this representation space to find contiguous regions where the model performs poorly. We show that the spotlight surfaces semantically meaningful areas of weakness in a wide variety of model architectures, including image classifiers, language models, and recommender systems.
翻訳日:2021-07-05 13:01:49 公開日:2021-07-01
# SIMILAR:リアルシナリオのアクティブラーニングに基づくサブモジュール情報尺度

SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios ( http://arxiv.org/abs/2107.00717v1 )

ライセンス: Link先を確認
Suraj Kothawade, Nathan Beck, Krishnateja Killamsetty, Rishabh Iyer(参考訳) アクティブラーニングは、最も情報性の高いサンプルを選択することで、ラベル付けコストを最小化するのに役立つことが証明されている。 しかし、既存のアクティブラーニング手法は、不均衡や希少クラス、ラベルなし集合の分散データ、冗長性といった現実的なシナリオではうまく機能しない。 本稿では,最近提案されたsim(submodular information measures)を獲得関数として用いた,統合アクティブラーニングフレームワークである類似(submodular information measures based active learning)を提案する。 SIMILARは標準的なアクティブラーニングだけでなく、上記の現実的な設定にも容易に適用でき、大規模な実世界のデータセットにスケーラブルなアクティブラーニングのためのワンストップソリューションとして機能する。 CIFAR-10, MNIST, ImageNet などの画像分類タスクにおける分布外データの場合, SIMILAR は, レアクラスの場合 ~5% - 18% で, ~5% - 10% で既存の能動学習アルゴリズムよりも有意に優れていた。

Active learning has proven to be useful for minimizing labeling costs by selecting the most informative samples. However, existing active learning methods do not work well in realistic scenarios such as imbalance or rare classes, out-of-distribution data in the unlabeled set, and redundancy. In this work, we propose SIMILAR (Submodular Information Measures based actIve LeARning), a unified active learning framework using recently proposed submodular information measures (SIM) as acquisition functions. We argue that SIMILAR not only works in standard active learning, but also easily extends to the realistic settings considered above and acts as a one-stop solution for active learning that is scalable to large real-world datasets. Empirically, we show that SIMILAR significantly outperforms existing active learning algorithms by as much as ~5% - 18% in the case of rare classes and ~5% - 10% in the case of out-of-distribution data on several image classification tasks like CIFAR-10, MNIST, and ImageNet.
翻訳日:2021-07-05 12:59:19 公開日:2021-07-01
# 説明可能な音声音声の分類のための正規化フローベース隠れマルコフモデル

Normalizing Flow based Hidden Markov Models for Classification of Speech Phones with Explainability ( http://arxiv.org/abs/2107.00730v1 )

ライセンス: Link先を確認
Anubhab Ghosh, Antoine Honor\'e, Dong Liu, Gustav Eje Henter, Saikat Chatterjee(参考訳) 説明可能性を求めるため,逐次データ生成モデルを開発した。 提案したモデルは,音声音声分類における最先端の分類結果とロバストな性能を提供する。 現代のニューラルネットワーク(正規化フロー)と従来の生成モデル(hidden markov model - hmms)を組み合わせる。 正規化フローベース混合モデル(NMM)は,HMMの隠れ状態から条件付き確率分布をモデル化するために用いられる。 モデルパラメータは、時間テストベイズ学習法と現代のニューラルネットワーク学習法を巧みに組み合わせて学習される。 我々は主に期待最大化(em)とミニバッチ勾配降下を組み合わせる。 提案する生成モデルはデータの確率を計算できるため、ml (maximum-likelihood) の分類アプローチに直接適合する。 hmmの構造的柔軟性により、異なる正規化フローモデルが使用できる。 これにより、さまざまなタイプのHMMがデータモデリング能力に多様性をもたらします。 多様性は、異なるモデルから簡単に意思決定を融合する機会を提供する。 39台の電話機(クラス)とTIMITデータセットを含む標準音声音声分類設定において,MFCC(mel- frequency-cepstral-c oeffcients)と呼ばれる標準機能の使用,提案した生成モデル,および決定融合を併用することにより,生成的トレーニングのみによる精度が8.6倍となることを示す。 この結果は最新の結果に近い、例えば、pytorch-kaldi toolkit [1]の86.2\%$精度と、光ゲートリカレントユニット [2] を用いた85.1\%$精度である。 この記事では、識別学習のアプローチと関連する高度な機能を使用しません。

In pursuit of explainability, we develop generative models for sequential data. The proposed models provide state-of-the-art classification results and robust performance for speech phone classification. We combine modern neural networks (normalizing flows) and traditional generative models (hidden Markov models - HMMs). Normalizing flow-based mixture models (NMMs) are used to model the conditional probability distribution given the hidden state in the HMMs. Model parameters are learned through judicious combinations of time-tested Bayesian learning methods and contemporary neural network learning methods. We mainly combine expectation-maximiza tion (EM) and mini-batch gradient descent. The proposed generative models can compute likelihood of a data and hence directly suitable for maximum-likelihood (ML) classification approach. Due to structural flexibility of HMMs, we can use different normalizing flow models. This leads to different types of HMMs providing diversity in data modeling capacity. The diversity provides an opportunity for easy decision fusion from different models. For a standard speech phone classification setup involving 39 phones (classes) and the TIMIT dataset, we show that the use of standard features called mel-frequency-cepstr al-coeffcients (MFCCs), the proposed generative models, and the decision fusion together can achieve $86.6\%$ accuracy by generative training only. This result is close to state-of-the-art results, for examples, $86.2\%$ accuracy of PyTorch-Kaldi toolkit [1], and $85.1\%$ accuracy using light gated recurrent units [2]. We do not use any discriminative learning approach and related sophisticated features in this article.
翻訳日:2021-07-05 12:58:20 公開日:2021-07-01
# 実演の少ないロボットマニピュレーションのためのニューラルタスク成功分類器

Neural Task Success Classifiers for Robotic Manipulation from Few Real Demonstrations ( http://arxiv.org/abs/2107.00722v1 )

ライセンス: Link先を確認
Abdalkarim Mohtasib, Amir Ghalamzan E., Nicola Bellotto, Heriberto Cuay\'ahuitl(参考訳) 少数のデモから新しい操作タスクを学ぶロボットは、異なるワークスペースでますます要求される。 アクションの品質を評価する分類器モデルは、タスクの完了を予測し、インテリジェントエージェントがアクション選択に使用することができる。 本稿では,いくつかの実演からのみタスク完了を分類する新しい分類器を提案する。 我々は、例えば、異なる神経分類器を包括的に比較する。 完全連結型、完全畳み込み型、シーケンス2シーケンスベース、ドメイン適応型分類。 また、5つのロボット操作タスクを含む新しいデータセットも公開しています。 我々は新しい分類器と既存のモデルの性能をデータセットとMIMEデータセットを用いて比較した。 その結果、ドメイン適応とタイミングに基づく特徴が成功予測を改善することが示唆された。 私たちの新しいモデル、すなわち、 ドメイン適応とタイミング特徴を備えた完全畳み込みニューラルネットワークは、両データセットのタスク間で平均分類精度97.3\%と95.5\%を達成するが、ドメイン適応とタイミング特徴を持たない最先端の分類器はそれぞれ82.4\%と90.3\%しか達成しない。

Robots learning a new manipulation task from a small amount of demonstrations are increasingly demanded in different workspaces. A classifier model assessing the quality of actions can predict the successful completion of a task, which can be used by intelligent agents for action-selection. This paper presents a novel classifier that learns to classify task completion only from a few demonstrations. We carry out a comprehensive comparison of different neural classifiers, e.g. fully connected-based, fully convolutional-based, sequence2sequence-ba sed, and domain adaptation-based classification. We also present a new dataset including five robot manipulation tasks, which is publicly available. We compared the performances of our novel classifier and the existing models using our dataset and the MIME dataset. The results suggest domain adaptation and timing-based features improve success prediction. Our novel model, i.e. fully convolutional neural network with domain adaptation and timing features, achieves an average classification accuracy of 97.3\% and 95.5\% across tasks in both datasets whereas state-of-the-art classifiers without domain adaptation and timing-features only achieve 82.4\% and 90.3\%, respectively.
翻訳日:2021-07-05 12:57:39 公開日:2021-07-01
# 基礎物理学における深層学習のための共有データとアルゴリズム

Shared Data and Algorithms for Deep Learning in Fundamental Physics ( http://arxiv.org/abs/2107.00656v1 )

ライセンス: Link先を確認
Lisa Benato, Erik Buhmann, Martin Erdmann, Peter Fackeldey, Jonas Glombitza, Nikolai Hartmann, Gregor Kasieczka, William Korcari, Thomas Kuhr, Jan Steinheimer, Horst St\"ocker, Tilman Plehn and Kai Zhou(参考訳) 我々は、素粒子物理学、天体物理学、ハドロン物理学、原子核物理学を含む基礎物理学研究のデータセットを教師あり機械学習研究に導入する。 これらのデータセットは、ハドロン系トップクォーク、宇宙線誘起エアシャワー、ハドロン系物質の相転移、およびジェネレータレベルのヒストリーを含み、基礎物理学における学際的機械学習と転移学習の今後の研究を単純化するために公開されている。 これらのデータに基づいて,これらの領域の幅広い教師付き学習タスクに容易に適用可能な,単純かつ柔軟なグラフベースのニューラルネットワークアーキテクチャを提案する。 提案手法は,全データセットの最先端専用手法に近い性能を示す。 様々な問題への適応を簡略化するために,基本物理学に関連するデータ構造のグラフベースの表現をどのように構築し,その中からコード実装を提供するか,簡単に追跡できる指示を提供する。 提案手法と参照アルゴリズムにも実装が提供されている。

We introduce a collection of datasets from fundamental physics research -- including particle physics, astroparticle physics, and hadron- and nuclear physics -- for supervised machine learning studies. These datasets, containing hadronic top quarks, cosmic-ray induced air showers, phase transitions in hadronic matter, and generator-level histories, are made public to simplify future work on cross-disciplinary machine learning and transfer learning in fundamental physics. Based on these data, we present a simple yet flexible graph-based neural network architecture that can easily be applied to a wide range of supervised learning tasks in these domains. We show that our approach reaches performance close to state-of-the-art dedicated methods on all datasets. To simplify adaptation for various problems, we provide easy-to-follow instructions on how graph-based representations of data structures, relevant for fundamental physics, can be constructed and provide code implementations for several of them. Implementations are also provided for our proposed method and all reference algorithms.
翻訳日:2021-07-05 12:55:52 公開日:2021-07-01
# 事前学習された多言語モデルにおけるプライマー

A Primer on Pretrained Multilingual Language Models ( http://arxiv.org/abs/2107.00676v1 )

ライセンス: Link先を確認
Sumanth Doddapaneni, Gowtham Ramesh, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) mBERT, XLM, XLM-R, \textit{etc.} のような多言語言語モデル(MLLM) 多くの言語に事前訓練の力を もたらすための選択肢として現れました Given their success in zero shot transfer learning, there has emerged a large body of work in (i) building bigger MLLMs covering a large number of languages (ii) creating exhaustive benchmarks covering a wider variety of tasks and languages for evaluating MLLMs (iii) analysing the performance of MLLMs on monolingual, zero shot crosslingual and bilingual tasks (iv) understanding the universal language patterns (if any) learnt by MLLMs and (v) augmenting the (often) limited capacity of MLLMs to improve their performance on seen or even unseen languages. 本調査では,MLLMに関する研究領域を網羅する文献について概説する。 本調査に基づき,今後の研究の今後の方向性を示唆する。

Multilingual Language Models (MLLMs) such as mBERT, XLM, XLM-R, \textit{etc.} have emerged as a viable option for bringing the power of pretraining to a large number of languages. Given their success in zero shot transfer learning, there has emerged a large body of work in (i) building bigger MLLMs covering a large number of languages (ii) creating exhaustive benchmarks covering a wider variety of tasks and languages for evaluating MLLMs (iii) analysing the performance of MLLMs on monolingual, zero shot crosslingual and bilingual tasks (iv) understanding the universal language patterns (if any) learnt by MLLMs and (v) augmenting the (often) limited capacity of MLLMs to improve their performance on seen or even unseen languages. In this survey, we review the existing literature covering the above broad areas of research pertaining to MLLMs. Based on our survey, we recommend some promising directions of future research.
翻訳日:2021-07-05 12:55:35 公開日:2021-07-01
# 視覚音声認識モデルからの単語の対話的復号

Interactive decoding of words from visual speech recognition models ( http://arxiv.org/abs/2107.00692v1 )

ライセンス: Link先を確認
Brendan Shillingford, Yannis Assael, Misha Denil(参考訳) 本研究は,タスク固有のあいまいさを補償するユーザ入力を用いた視覚音声認識システムの性能向上のための対話型復号法について述べる。 音素を生成し,それを有限状態トランスデューサで供給するほとんどの音素対単語復号パイプラインとは異なり,本手法では単語をロックステップで拡張し,各単語位置での対話点の挿入を容易にする。 インタラクションポイントは、デコード中に入力を要求できるので、ユーザはデコードプロセスをインタラクティブに指示することができる。 我々は,オラクルを用いてユーザ入力の動作をシミュレートし,自動評価を行い,テキスト入力にこの手法を使用することを約束する。

This work describes an interactive decoding method to improve the performance of visual speech recognition systems using user input to compensate for the inherent ambiguity of the task. Unlike most phoneme-to-word decoding pipelines, which produce phonemes and feed these through a finite state transducer, our method instead expands words in lockstep, facilitating the insertion of interaction points at each word position. Interaction points enable us to solicit input during decoding, allowing users to interactively direct the decoding process. We simulate the behavior of user input using an oracle to give an automated evaluation, and show promise for the use of this method for text input.
翻訳日:2021-07-05 12:55:23 公開日:2021-07-01
# 相互情報最大化と逆正規化による教師なし画像分割

Unsupervised Image Segmentation by Mutual Information Maximization and Adversarial Regularization ( http://arxiv.org/abs/2107.00691v1 )

ライセンス: Link先を確認
S. Ehsan Mirsadeghi, Ali Royat, Hamid Rezatofighi(参考訳) セマンティックセグメンテーションは、自律エージェントにとって基本的な、しかし必須のシーン理解タスクの1つである。 教師付き機械学習とニューラルネットワークの最近の進歩は、このタスクの最先端技術の性能向上に大きな成功を収めている。 しかし、それらの優れたパフォーマンスは、大規模な注釈付きデータセットの可用性に大きく依存している。 本稿では,情報最大化と逆正則化セグメンテーション(InMARS)と呼ばれる,教師なしのセマンティックセグメンテーション手法を提案する。 個々のピクセルを個別に分析するのではなく、シーンを知覚グループに解析する人間の知覚に着想を得た本提案手法では、まず入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。 次に、相互情報最大化と、これらの領域を意味的に意味のあるクラスに分類する敵のトレーニング戦略を利用する。 この問題に対する逆行訓練をカスタマイズするために,逆行画素ノイズと空間摂動を併用し,深層ニューラルネットワークにフォトメトリックスおよび幾何的不分散を課す。 提案手法は2つの非教師付きセマンティックセグメンテーションデータセット,COCO-Stuff,Potsdam上での最先端性能を実現する。

Semantic segmentation is one of the basic, yet essential scene understanding tasks for an autonomous agent. The recent developments in supervised machine learning and neural networks have enjoyed great success in enhancing the performance of the state-of-the-art techniques for this task. However, their superior performance is highly reliant on the availability of a large-scale annotated dataset. In this paper, we propose a novel fully unsupervised semantic segmentation method, the so-called Information Maximization and Adversarial Regularization Segmentation (InMARS). Inspired by human perception which parses a scene into perceptual groups, rather than analyzing each pixel individually, our proposed approach first partitions an input image into meaningful regions (also known as superpixels). Next, it utilizes Mutual-Information-M aximization followed by an adversarial training strategy to cluster these regions into semantically meaningful classes. To customize an adversarial training scheme for the problem, we incorporate adversarial pixel noise along with spatial perturbations to impose photometrical and geometrical invariance on the deep neural network. Our experiments demonstrate that our method achieves the state-of-the-art performance on two commonly used unsupervised semantic segmentation datasets, COCO-Stuff, and Potsdam.
翻訳日:2021-07-05 12:53:38 公開日:2021-07-01
# 照明マニピュレーションのための固有画像転送

Intrinsic Image Transfer for Illumination Manipulation ( http://arxiv.org/abs/2107.00704v1 )

ライセンス: Link先を確認
Junqing Huang, Michael Ruzhansky, Qianying Zhang, Haihui Wang(参考訳) 本稿では、2つの照明面間の局所的な画像変換を生成する照明操作のための新しい固有画像転送(IIT)アルゴリズムを提案する。 このモデルは、本質的な画像分解によって決定されるサブレイヤ上で定義された3つの光現実的損失からなる最適化ベースのフレームワーク上に構築される。 空間変動照明照明不変反射率事前知識の下で内在的な画像分解を必要とせず、すべての損失を低減できることを示す。 さらに、一連の緩和により、これらすべてを画像上で直接定義することができ、画像照明操作のためのクローズドフォームソリューションを提供する。 この新しいパラダイムは、従来のretinexベースのアルゴリズムと異なり、ピクセル単位の画像照明を扱う暗黙的な方法を提供する。 最後に,照明補償,画像強調,高ダイナミックレンジ(hdr)画像圧縮などの照明関連課題に対して,その汎用性とメリットを実証し,自然画像データセットに高品質な結果を示す。

This paper presents a novel intrinsic image transfer (IIT) algorithm for illumination manipulation, which creates a local image translation between two illumination surfaces. This model is built on an optimization-based framework consisting of three photo-realistic losses defined on the sub-layers factorized by an intrinsic image decomposition. We illustrate that all losses can be reduced without the necessity of taking an intrinsic image decomposition under the well-known spatial-varying illumination illumination-invaria nt reflectance prior knowledge. Moreover, with a series of relaxations, all of them can be directly defined on images, giving a closed-form solution for image illumination manipulation. This new paradigm differs from the prevailing Retinex-based algorithms, as it provides an implicit way to deal with the per-pixel image illumination. We finally demonstrate its versatility and benefits to the illumination-related tasks such as illumination compensation, image enhancement, and high dynamic range (HDR) image compression, and show the high-quality results on natural image datasets.
翻訳日:2021-07-05 12:53:15 公開日:2021-07-01
# コントラスト表現学習によるブラインド画像の超解像

Blind Image Super-Resolution via Contrastive Representation Learning ( http://arxiv.org/abs/2107.00708v1 )

ライセンス: Link先を確認
Jiahui Zhang, Shijian Lu, Fangneng Zhan, Yingchen Yu(参考訳) 画像超解像(SR)研究は、近年の畳み込みニューラルネットワーク(CNN)の進歩により、目覚ましい進歩を見せている。 しかし、既存のほとんどのSR法は非盲検であり、分解は通常マルチモーダル、空間的変動、未知の分布に従う実世界のデータの劣化を扱うのに苦労する単一の固定分布(例えばバイキュビック)を持つと仮定する。 近年のブラインドSR研究は、劣化推定によってこの問題に対処しているが、それらは多ソース劣化にうまく一般化せず、空間的変動劣化を扱えない。 マルチモーダルおよび空間変動分布を持つ画像のブラインドSRに焦点を当てたコントラスト表現学習ネットワークであるCRL-SRを設計する。 CRL-SRは盲目のSR問題に2つの観点から対処する。 第一にコントラッシブデカップリング符号化は、双方向のコントラスト損失の誘導の下で、コントラスト学習を導入し、分解不変な埋め込みを抽出し、分解不変な埋め込みを破棄する。 第2は、条件付きコントラスト損失の誘導の下で、損失または破損した高周波の詳細を生成するコントラスト特徴改善である。 合成データセットと実画像に関する広範囲な実験により,提案手法はマルチモーダルおよび空間的変種劣化をブラインド条件下で効果的に処理でき,また定性的かつ定量的にsr法を上回ることを示した。

Image super-resolution (SR) research has witnessed impressive progress thanks to the advance of convolutional neural networks (CNNs) in recent years. However, most existing SR methods are non-blind and assume that degradation has a single fixed and known distribution (e.g., bicubic) which struggle while handling degradation in real-world data that usually follows a multi-modal, spatially variant, and unknown distribution. The recent blind SR studies address this issue via degradation estimation, but they do not generalize well to multi-source degradation and cannot handle spatially variant degradation. We design CRL-SR, a contrastive representation learning network that focuses on blind SR of images with multi-modal and spatially variant distributions. CRL-SR addresses the blind SR challenges from two perspectives. The first is contrastive decoupling encoding which introduces contrastive learning to extract resolution-invariant embedding and discard resolution-variant embedding under the guidance of a bidirectional contrastive loss. The second is contrastive feature refinement which generates lost or corrupted high-frequency details under the guidance of a conditional contrastive loss. Extensive experiments on synthetic datasets and real images show that the proposed CRL-SR can handle multi-modal and spatially variant degradation effectively under blind settings and it also outperforms state-of-the-art SR methods qualitatively and quantitatively.
翻訳日:2021-07-05 12:53:02 公開日:2021-07-01
# 非言語的チューリングテストの通過:音声によるジェスチャーアニメーションの評価

Passing a Non-verbal Turing Test: Evaluating Gesture Animations Generated from Speech ( http://arxiv.org/abs/2107.00712v1 )

ライセンス: Link先を確認
Manuel Rebol and Christian G\"utl and Krzysztof Pietroszek(参考訳) 実生活では、人々はジェスチャー、顔の表情、身体のポーズといった言葉以外の信号を使ってコミュニケーションする。 非言語信号は、多くの方法で話し言葉の意味に影響を及ぼす。 非言語信号の欠如は、通信の過程を損なう。 しかし,アバターとして表現される場合,音声とともに音声を仮想世界へ翻訳することは,特殊なモーションキャプチャハードウェアを使わずに困難である。 本稿では,音声から直接ジェスチャを生成する新しいデータ駆動手法を提案する。 提案手法は,音声とジェスチャの因果関係ではなく,その相関をモデル化するgans(generative adversarial neural network)の応用に基づいている。 このアプローチは、非言語コミュニケーションと音声の相関関係に関する神経科学的な知見を近似する。 モデルが話者固有の相関を学習する3次元ポーズ形式において,音声と対応するジェスチャからなる大規模データセットを作成する。 チューリングテストに触発されたユーザスタディにおいて,提案手法を評価する。 本研究では,仮想キャラクタ上で生成されたジェスチャーをアニメーション化する。 ユーザが生成したジェスチャーと記録したジェスチャーを区別できないことがわかった。 また,合成したジェスチャを,任意の発話に関連しているか否かを識別することができる。

In real life, people communicate using both speech and non-verbal signals such as gestures, face expression or body pose. Non-verbal signals impact the meaning of the spoken utterance in an abundance of ways. An absence of non-verbal signals impoverishes the process of communication. Yet, when users are represented as avatars, it is difficult to translate non-verbal signals along with the speech into the virtual world without specialized motion-capture hardware. In this paper, we propose a novel, data-driven technique for generating gestures directly from speech. Our approach is based on the application of Generative Adversarial Neural Networks (GANs) to model the correlation rather than causation between speech and gestures. This approach approximates neuroscience findings on how non-verbal communication and speech are correlated. We create a large dataset which consists of speech and corresponding gestures in a 3D human pose format from which our model learns the speaker-specific correlation. We evaluate the proposed technique in a user study that is inspired by the Turing test. For the study, we animate the generated gestures on a virtual character. We find that users are not able to distinguish between the generated and the recorded gestures. Moreover, users are able to identify our synthesized gestures as related or not related to a given utterance.
翻訳日:2021-07-05 12:52:36 公開日:2021-07-01
# 抽象計画実現可能性のアクティブラーニング

Active Learning of Abstract Plan Feasibility ( http://arxiv.org/abs/2107.00683v1 )

ライセンス: Link先を確認
Michael Noseworthy, Caris Moses, Isaiah Brand, Sebastian Castro, Leslie Kaelbling, Tom\'as Lozano-P\'erez, Nicholas Roy(参考訳) 高レベルの抽象化では、プランナーが抽象的なアクションシーケンスを探索し、プランが見つかると、下位レベルのモーションプランが生成される。 このような戦略は、抽象的な計画を満たす実現可能な低レベル計画が見つかると確実に予測できる能力にかかっている。 しかし、計画の結果は推定や実行のノイズなどモデル化が難しい実世界現象に依存するため、抽象計画実現可能性(apf)の計算は困難である。 本稿では,ロボットのタスクに依存しない,好奇心の強い探索を通じてapf予測を効率的に獲得するためのアクティブラーニング手法を提案する。 ロボットはapfに関する情報を得られるであろう計画を特定し、その計画を実行し、成功や失敗から学ぶ。 批判的に,本システムでは,アクティブラーニング戦略における候補計画の立案に実用不可能なサブシーケンス特性を活用し,少ないデータから学習することができる。 我々は,シミュレーションと実物のフランカ・エミカ・パンダロボットを用いて,統合された認識,実験,計画,実行の戦略を評価する。 物体が一様でない質量分布を持つ積層領域において、本システムは、400個の自己教師付き相互作用においてAPFモデルの実際のロボット学習を可能にし、学習モデルを複数の下流タスクで効果的に利用できることを示す。

Long horizon sequential manipulation tasks are effectively addressed hierarchically: at a high level of abstraction the planner searches over abstract action sequences, and when a plan is found, lower level motion plans are generated. Such a strategy hinges on the ability to reliably predict that a feasible low level plan will be found which satisfies the abstract plan. However, computing Abstract Plan Feasibility (APF) is difficult because the outcome of a plan depends on real-world phenomena that are difficult to model, such as noise in estimation and execution. In this work, we present an active learning approach to efficiently acquire an APF predictor through task-independent, curious exploration on a robot. The robot identifies plans whose outcomes would be informative about APF, executes those plans, and learns from their successes or failures. Critically, we leverage an infeasible subsequence property to prune candidate plans in the active learning strategy, allowing our system to learn from less data. We evaluate our strategy in simulation and on a real Franka Emika Panda robot with integrated perception, experimentation, planning, and execution. In a stacking domain where objects have non-uniform mass distributions, we show that our system permits real robot learning of an APF model in four hundred self-supervised interactions, and that our learned model can be used effectively in multiple downstream tasks.
翻訳日:2021-07-05 12:47:15 公開日:2021-07-01
# ブドウ園における自律ナビゲーションのための端部深部セマンティックセグメンテーション

Deep Semantic Segmentation at the Edge for Autonomous Navigation in Vineyard Rows ( http://arxiv.org/abs/2107.00700v1 )

ライセンス: Link先を確認
Diego Aghi, Simone Cerrato, Vittorio Mazzia, Marcello Chiaberge(参考訳) 精密農業は、農業プロセスに安価で効果的な自動化を導入することを目的とした、急成長の分野である。 今日では、ブドウ畑でのナビゲーションのためのアルゴリズムソリューションには高価なセンサーと高い計算能力が必要であり、実際のビジネスシナリオにおける自律型ロボットプラットフォームの大規模適用を妨げている。 この観点から,提案する新しい制御は,機械認識とエッジai技術の最新の進歩を活かし,計算量や消費電力の少ないブドウ畑列内の高精度で信頼性の高いナビゲーションを実現する。 実際、カスタムトレーニングされたセグメンテーションネットワークとローレンジのRGB-Dカメラを用いて、環境の意味情報を活用して、スムーズな軌跡と異なるブドウ畑のシナリオでの安定した制御を実現できる。 さらに、制御アルゴリズム自体によって生成されたセグメンテーションマップは、作物の状態の植物性評価のためのフィルタとして直接利用することができる。 実世界のデータとシミュレーション環境に対する大規模な実験と評価を行い,本手法の有効性と本質的な堅牢性を示した。

Precision agriculture is a fast-growing field that aims at introducing affordable and effective automation into agricultural processes. Nowadays, algorithmic solutions for navigation in vineyards require expensive sensors and high computational workloads that preclude large-scale applicability of autonomous robotic platforms in real business case scenarios. From this perspective, our novel proposed control leverages the latest advancement in machine perception and edge AI techniques to achieve highly affordable and reliable navigation inside vineyard rows with low computational and power consumption. Indeed, using a custom-trained segmentation network and a low-range RGB-D camera, we are able to take advantage of the semantic information of the environment to produce smooth trajectories and stable control in different vineyards scenarios. Moreover, the segmentation maps generated by the control algorithm itself could be directly exploited as filters for a vegetative assessment of the crop status. Extensive experimentations and evaluations against real-world data and simulated environments demonstrated the effectiveness and intrinsic robustness of our methodology.
翻訳日:2021-07-05 12:46:53 公開日:2021-07-01
# 義手制御のためのEMGに基づく特徴抽出と分類

EMG-Based Feature Extraction and Classification for Prosthetic Hand Control ( http://arxiv.org/abs/2107.00733v1 )

ライセンス: Link先を確認
Reza Bagherian Azhiri, Mohammad Esmaeili, Mehrdad Nourani(参考訳) 近年,義手のリアルタイム制御が注目されている。 特に、EMG信号のリアルタイム解析は、許容精度と実行遅延を達成するためにいくつかの課題がある。 本稿では,短い信号長の精度を向上させることで,これらの課題に対処する。 まず,ウェーブレット分解の各レベルに適用可能な特徴抽出関数のセットを紹介する。 次に、ニューラルネットワークの出力を処理するための後処理手法を提案する。 実験結果から,提案手法はmsec信号長800ドルでのemg信号のリアルタイム分類精度を最大$95.5\%まで向上させることがわかった。 提案手法は,従来の多数決法やベイズ融合法と比較して高い整合性を実現する。

In recent years, real-time control of prosthetic hands has gained a great deal of attention. In particular, real-time analysis of Electromyography (EMG) signals has several challenges to achieve an acceptable accuracy and execution delay. In this paper, we address some of these challenges by improving the accuracy in a shorter signal length. We first introduce a set of new feature extraction functions applying on each level of wavelet decomposition. Then, we propose a postprocessing approach to process the neural network outputs. The experimental results illustrate that the proposed method enhances the accuracy of real-time classification of EMG signals up to $95.5\%$ for $800$ msec signal length. The proposed postprocessing method achieves higher consistency compared with conventional majority voting and Bayesian fusion methods.
翻訳日:2021-07-05 12:46:37 公開日:2021-07-01
# グラフ畳み込みネットワークに基づく分子構造予測

Molecular structure prediction based on graph convolutional networks ( http://arxiv.org/abs/2107.01035v1 )

ライセンス: Link先を確認
Xiaohui Lin, Yongquan Jiang, Yan Yang(参考訳) 多くの分野における分子構造の重要な応用のため、実験的な方法や従来の密度汎関数理論による計算は時間を要することが多い。 そこで, グラフ畳み込みニューラルネットワーク(MSGCN)に基づく新しいモデル構造を提案し, 2つの原子間の距離を予測して分子構造を決定する。 msgcnモデルの有効性を検証するために、rdkitにおける分子3次元配座の計算法と比較し、結果より優れている。 さらに、MSGCNモデルにより予測される距離とQM9データセットによって計算される距離を用いて分子特性を予測し、MSGCNモデルにより予測される距離の有効性を実証した。

Due to the important application of molecular structure in many fields, calculation by experimental means or traditional density functional theory is often time consuming. In view of this, a new Model Structure based on Graph Convolutional Neural network (MSGCN) is proposed, which can determine the molecular structure by predicting the distance between two atoms. In order to verify the effect of MSGCN model, the model is compared with the method of calculating molecular three-dimensional conformation in RDKit, and the result is better than it. In addition, the distance predicted by the MSGCN model and the distance calculated by the QM9 dataset were used to predict the molecular properties, thus proving the effectiveness of the distance predicted by the MSGCN model.
翻訳日:2021-07-05 12:45:59 公開日:2021-07-01
# 意味セグメンテーションとパターンマッチングを用いた航空地図に基づくナビゲーション

Aerial Map-Based Navigation Using Semantic Segmentation and Pattern Matching ( http://arxiv.org/abs/2107.00689v1 )

ライセンス: Link先を確認
Youngjoo Kim(参考訳) 本稿では,無人航空機の地図ナビゲーションシステムに対する新しいアプローチを提案する。 提案システムは,画像と地図データベースとのラベル間マッチングではなく,ラベル間マッチングを試みる。 セマンティクスセグメンテーションを使用することで、グランドオブジェクトはラベル付けされ、マップデータベース内の対応する場所を見つけるためにオブジェクトの構成が使用される。 ディープラーニング手法を高レベル特徴抽出ツールとして用いることにより,画像に基づく局所化問題をパターンマッチング問題に還元する。 本稿では,絶対水平位置を推定するための高度情報やカメラモデルを必要としないパターンマッチングアルゴリズムを提案する。 シミュレーション画像を用いた実現可能性解析により,提案したパターンマッチングアルゴリズムを用いて地図ベースのナビゲーションを実現することができ,ラベル付きオブジェクトの位置を指定できることを示す。

This paper proposes a novel approach to map-based navigation system for unmanned aircraft. The proposed system attempts label-to-label matching, not image-to-image matching between aerial images and a map database. By using semantic segmentation, the ground objects are labelled and the configuration of the objects is used to find the corresponding location in the map database. The use of the deep learning technique as a tool for extracting high-level features reduces the image-based localization problem to a pattern matching problem. This paper proposes a pattern matching algorithm which does not require altitude information or a camera model to estimate the absolute horizontal position. The feasibility analysis with simulated images shows the proposed map-based navigation can be realized with the proposed pattern matching algorithm and it is able to provide positions given the labelled objects.
翻訳日:2021-07-05 12:45:20 公開日:2021-07-01
# 制約障害物を乗り越えた四足歩行ロボットの自律走行

Autonomous Navigation for Quadrupedal Robots with Optimized Jumping through Constrained Obstacles ( http://arxiv.org/abs/2107.00773v1 )

ライセンス: Link先を確認
Scott Gilroy, Derek Lau, Lizhi Yang, Ed Izaguirre, Kristen Biermayer, Anxing Xiao, Mengti Sun, Ayush Agrawal, Jun Zeng, Zhongyu Li, Koushil Sreenath(参考訳) 四足歩行は、アジャイルおよび動的設計のため、挑戦的な環境をナビゲートする強力な候補である。 本稿では,歩行モードとジャンプモードを利用するエンドツーエンドナビゲーションフレームワークを構築することにより,四足歩行ロボットの探索範囲を広げる手法を提案する。 安全制約が課されるコロケーションベースの最適化により、動的に実現可能な軌道をオフラインに最適化する。 このような最適化設計により、ロボットは空中と地上の両方の障害物を考慮し、窓型の障害物を飛び抜けることができる。 結果のジャンプモードは、検索ベースのグローバルプランナーとローカルプランナーを活用する自律ナビゲーションパイプラインで利用され、歩行することでロボットが目標地点に到達することができる。 状態マシンと意思決定戦略は、システムが障害物を歩き回ったり、飛び越えたりする動作を切り替えることを可能にする。 提案フレームワークは,4足歩行ロボットであるmini cheetahに実験的に展開,検証され,障害物を避けながら自律的に環境を走行し,最大高さ13cmを乗り越えて窓状の開口部を通過して目標を達成する。

Quadrupeds are strong candidates for navigating challenging environments because of their agile and dynamic designs. This paper presents a methodology that extends the range of exploration for quadrupedal robots by creating an end-to-end navigation framework that exploits walking and jumping modes. To obtain a dynamic jumping maneuver while avoiding obstacles, dynamically-feasible trajectories are optimized offline through collocation-based optimization where safety constraints are imposed. Such optimization schematic allows the robot to jump through window-shaped obstacles by considering both obstacles in the air and on the ground. The resulted jumping mode is utilized in an autonomous navigation pipeline that leverages a search-based global planner and a local planner to enable the robot to reach the goal location by walking. A state machine together with a decision making strategy allows the system to switch behaviors between walking around obstacles or jumping through them. The proposed framework is experimentally deployed and validated on a quadrupedal robot, a Mini Cheetah, to enable the robot to autonomously navigate through an environment while avoiding obstacles and jumping over a maximum height of 13 cm to pass through a window-shaped opening in order to reach its goal.
翻訳日:2021-07-05 12:44:12 公開日:2021-07-01
# 説明可能なクラスタリングのための近似近似アルゴリズム

Almost Tight Approximation Algorithms for Explainable Clustering ( http://arxiv.org/abs/2107.00774v1 )

ライセンス: Link先を確認
Hossein Esfandiari, Vahab Mirrokni, Shyam Narayanan(参考訳) 近年、人工知能の透明性への関心が高まっているため、人間の正確性と解釈可能性を同時に目標とした説明可能な機械学習手法がいくつか開発されている。 本稿では,Dasgupta et al.~\cite{dasgupta2020explaina ble} が提案した最近のクラスタリングの枠組みについて述べる。 具体的には、$k$-meansと$k$-mediansの問題に焦点をあて、ほぼ上と下の境界を提供する。 まず、$O(\log k \log \log k)$-approximation algorithm for explainable $k$-medians, improve on the best known algorithm of $O(k)$~\cite{dasgupta2020explaina ble} and almost matching the known $Omega(\log k)$ lower bound~\cite{dasgupta2020explaina ble}。 さらに、低次元空間における $d \ll \log k$ において、このアルゴリズムは、説明可能な $k$-medians に対して $o(d \log^2 d)$-approximate solution を提供する。 これは、低次元~\cite{laber2021explainable } に対する$O(d \log k)$の最もよく知られた境界よりも改善され、定数次元空間に対する定数である。 これを補完するために、ほぼ一致する$\Omega(d)$lowboundを示す。 次に、この文脈で$k$-means問題を研究し、説明可能な$k$-meansに対する$o(k \log k)$近似アルゴリズムを提供し、dasgupta と al の$o(k^2)$バウンドよりも改善する。 and the $o(d k \log k)$ bound of \cite{laber2021explainable }。 これを補うために、ほぼ厳密な$\Omega(k)$low boundを提供し、$\Omega(\log k)$ lower bound of Dasgupta et al よりも改善する。 全てのアルゴリズムは、点数と次元においてほぼ線形時間で実行される。

Recently, due to an increasing interest for transparency in artificial intelligence, several methods of explainable machine learning have been developed with the simultaneous goal of accuracy and interpretability by humans. In this paper, we study a recent framework of explainable clustering first suggested by Dasgupta et al.~\cite{dasgupta2020explaina ble}. Specifically, we focus on the $k$-means and $k$-medians problems and provide nearly tight upper and lower bounds. First, we provide an $O(\log k \log \log k)$-approximation algorithm for explainable $k$-medians, improving on the best known algorithm of $O(k)$~\cite{dasgupta2020explaina ble} and nearly matching the known $\Omega(\log k)$ lower bound~\cite{dasgupta2020explaina ble}. In addition, in low-dimensional spaces $d \ll \log k$, we show that our algorithm also provides an $O(d \log^2 d)$-approximate solution for explainable $k$-medians. This improves over the best known bound of $O(d \log k)$ for low dimensions~\cite{laber2021explainable }, and is a constant for constant dimensional spaces. To complement this, we show a nearly matching $\Omega(d)$ lower bound. Next, we study the $k$-means problem in this context and provide an $O(k \log k)$-approximation algorithm for explainable $k$-means, improving over the $O(k^2)$ bound of Dasgupta et al. and the $O(d k \log k)$ bound of \cite{laber2021explainable }. To complement this we provide an almost tight $\Omega(k)$ lower bound, improving over the $\Omega(\log k)$ lower bound of Dasgupta et al. All our algorithms run in near linear time in the number of points and the dimension.
翻訳日:2021-07-05 12:43:51 公開日:2021-07-01
# 格子場理論におけるマルチモーダル分布のフローベースサンプリング

Flow-based sampling for multimodal distributions in lattice field theory ( http://arxiv.org/abs/2107.00734v1 )

ライセンス: Link先を確認
Daniel C. Hackett, Chung-Chun Hsieh, Michael S. Albergo, Denis Boyda, Jiunn-Wei Chen, Kai-Feng Chen, Kyle Cranmer, Gurtej Kanwar, and Phiala E. Shanahan(参考訳) 近年,フローベース生成モデルを用いたサンプルは格子場理論における構成生成に有望な新しいアプローチであることが示された。 本稿では,複数の分離モードを持つターゲットのフローモデルを構築するための一連の手法を提案する。 複数の空白を持つ理論)。 これらの手法を2次元実スカラー場理論の対称性-ブローク位相におけるモデリングに応用する。 本研究では,HMCのような従来のアルゴリズムを用いて,フローベース提案を時として拡張する複合サンプリングアルゴリズムを含む,異なるフローベースサンプリングアルゴリズムの性能について検討する。

Recent results have demonstrated that samplers constructed with flow-based generative models are a promising new approach for configuration generation in lattice field theory. In this paper, we present a set of methods to construct flow models for targets with multiple separated modes (i.e. theories with multiple vacua). We demonstrate the application of these methods to modeling two-dimensional real scalar field theory in its symmetry-broken phase. In this context we investigate the performance of different flow-based sampling algorithms, including a composite sampling algorithm where flow-based proposals are occasionally augmented by applying updates using traditional algorithms like HMC.
翻訳日:2021-07-05 12:42:11 公開日:2021-07-01
# 電気マイクログリッド管理のための発電・消費・価格の天気予報

Weather-based forecasting of energy generation, consumption and price for electrical microgrids management ( http://arxiv.org/abs/2107.01034v1 )

ライセンス: Link先を確認
Jonathan Dumas(参考訳) 気候変動に関する政府間パネル(英語版)は、温暖化を1.5{\deg}Cに制限する経路に従うために必要な純排出削減を達成するための異なる緩和戦略を提案している。 炭素のない社会への転換は、エネルギーミックスにおける再生可能エネルギーのシェアの必然的に増加し、化石燃料の総消費量の大幅な減少に繋がる。 そこで本論文では,電力系統における再生可能エネルギーの統合について,予測・意思決定ツールの検討を通して検討する。 実際、従来の発電所とは対照的に、再生可能エネルギーは不確実性にさらされている。 再生可能資源に基づくほとんどの世代技術は分解不能であり、その生産は確率的かつ予測が困難である。 再生可能エネルギーのシェアが高いことは、ディスパッチ可能なユニット用に設計・サイズされた電力システムにとって大きな課題である。 この文脈では、将来のすべての実現可能性の分布をモデル化することを目的とした確率的予測は、意思決定者のための重要なツールとなり、エネルギー応用におけるより良い決定に繋がることを期待している。 本論文は, (1) 再生可能エネルギー, 消費, 電力価格の信頼性の高い予測をいかに作成するかという2つの研究課題に焦点を当てている。 2)確率予測を用いた不確実性のある意思決定方法 テーマ・ペリメータ(英: thesis perimeter)は、住宅規模でのマイクログリッドのような「小さな」システムのエネルギー管理である。 2つの主部に分かれて、(1)予測部、(2)計画・制御部、という2つの研究課題に対処するための指示を提示する。

The Intergovernmental Panel on Climate Change proposes different mitigation strategies to achieve the net emissions reductions that would be required to follow a pathway that limits global warming to 1.5{\deg}C with no or limited overshoot. The transition towards a carbon-free society goes through an inevitable increase of the share of renewable generation in the energy mix and a drastic decrease in terms of the total consumption of fossil fuels. Therefore, this thesis studies the integration of renewables in power systems by investigating forecasting and decision-making tools. Indeed, in contrast to conventional power plants, renewable energy is subject to uncertainty. Most of the generation technologies based on renewable sources are non-dispatchable, and their production is stochastic and hard to predict in advance. A high share of renewables is a great challenge for power systems that have been designed and sized for dispatchable units. In this context, probabilistic forecasts, which aim at modeling the distribution of all possible future realizations, have become an important tool to equip decision-makers, hopefully leading to better decisions in energy applications. This thesis focus on two main research questions: (1) How to produce reliable probabilistic forecasts of renewable generation, consumption, and electricity prices? (2) How to make decisions with uncertainty using probabilistic forecasts? The thesis perimeter is the energy management of "small" systems such as microgrids at a residential scale on a day-ahead basis. It is divided into two main parts to propose directions to address both research questions (1) a forecasting part; (2) a planning and control part.
翻訳日:2021-07-05 12:40:39 公開日:2021-07-01
# 項目応答理論を用いた顔識別能力試験

Face Identification Proficiency Test Designed Using Item Response Theory ( http://arxiv.org/abs/2106.15323v2 )

ライセンス: Link先を確認
G\'eraldine Jeckeln, Ying Hu, Jacqueline G. Cavazos, Amy N. Yates, Carina A. Hahn, Larry Tang, P. Jonathon Phillips, Alice J. O'Toole(参考訳) 顔識別能力の確保は, 応用シナリオにおいて顔識別作業を行う専門家の顔検査者等による精度と一貫性を確保する上で不可欠である。 現在の熟練度テストは、刺激項目の静的セットに依存しているため、同じ個人に対して複数回有効に管理することはできない。 熟練度テストを作成するには、多くの「既知の」困難項目を組み立てなければならない。 同じ難しさの複数のテストは、アイテムのサブセットを使用して構築することができる。 本稿では,アイテム応答理論(irt)に基づく刺激難易度尺度に基づいて,熟練度テストである3adアイデンティティマッチング(tim)テストを提案する。 参加者は、顔画像の「トライアド」(N=225)(同一人物の2つの画像と同一人物の1つの画像)を見て、異なる同一人物を選択する。 実験1では, 大学生 (N=197) がTIM試験において広範囲の精度を示した。 さらに、IRTモデリングは、TIMテストが様々な難易度の項目を生成することを示した。 実験2では、IRTベースの項目難易度尺度を使用して、TIMテストを3つの「簡単」サブセットと3つの「難易度」サブセットに分割した。 シミュレーションの結果,tim項目の完全集合とキュレーションされた部分集合は,被写体能力の信頼性の高い推定値を示した。 要約すると、tim testは、さまざまな能力レベル(例えば、顔処理の欠陥のある専門家や人口)における熟練度を測定するために、柔軟で校正され、適応されたフレームワークを開発するための出発点となる。

Measures of face identification proficiency are essential to ensure accurate and consistent performance by professional forensic face examiners and others who perform face identification tasks in applied scenarios. Current proficiency tests rely on static sets of stimulus items, and so, cannot be administered validly to the same individual multiple times. To create a proficiency test, a large number of items of "known" difficulty must be assembled. Multiple tests of equal difficulty can be constructed then using subsets of items. Here, we introduce a proficiency test, the Triad Identity Matching (TIM) test, based on stimulus difficulty measures based on Item Response Theory (IRT). Participants view face-image "triads" (N=225) (two images of one identity and one image of a different identity) and select the different identity. In Experiment 1, university students (N=197) showed wide-ranging accuracy on the TIM test. Furthermore, IRT modeling demonstrated that the TIM test produces items of various difficulty levels. In Experiment 2, IRT-based item difficulty measures were used to partition the TIM test into three equally "easy" and three equally "difficult" subsets. Simulation results indicated that the full set, as well as curated subsets, of the TIM items yielded reliable estimates of subject ability. In summary, the TIM test can provide a starting point for developing a framework that is flexible, calibrated, and adaptive to measure proficiency across various ability levels (e.g., professionals or populations with face processing deficits)
翻訳日:2021-07-04 19:45:39 公開日:2021-07-01
# (参考訳) ニューラルネットワークヘシアンマップの構造とランクに関する分析的考察

Analytic Insights into Structure and Rank of Neural Network Hessian Maps ( http://arxiv.org/abs/2106.16225v2 )

ライセンス: CC BY 4.0
Sidak Pal Singh, Gregor Bachmann, Thomas Hofmann(参考訳) ニューラルネットワークのヘシアンは、損失の2階微分を通じてパラメータ相互作用をキャプチャする。 これは、モデル設計、最適化、一般化など、ディープラーニングの様々な問題と密接に結びついている研究の基本的な対象である。 ほとんどの先行研究は経験的であり、典型的にはネットワーク構造に盲目な低位近似やヒューリスティックに焦点が当てられている。 対照的に、我々はヘッセン写像の範囲を分析するための理論的ツールを開発し、その階数不足とその背後にある構造的理由の正確な理解を提供する。 これにより、深い線形ネットワークのヘッセン階の正確な公式と厳密な上界が得られ、階数不足という観点からエレガントな解釈が可能となる。 さらに,直交ネットワークや双曲的接ネットワークのようなより大きなモデルのクラスに対して,数値ヘッシアン階数の推定として,我々の境界が忠実であることを示す。 さらに, ランク不足に対するモデルアーキテクチャ(例えば, 幅, 深さ, バイアス)の影響についても検討した。 全体として、我々の研究は過パラメータネットワークのソースと冗長性に関する新たな洞察を提供する。

The Hessian of a neural network captures parameter interactions through second-order derivatives of the loss. It is a fundamental object of study, closely tied to various problems in deep learning, including model design, optimization, and generalization. Most prior work has been empirical, typically focusing on low-rank approximations and heuristics that are blind to the network structure. In contrast, we develop theoretical tools to analyze the range of the Hessian map, providing us with a precise understanding of its rank deficiency as well as the structural reasons behind it. This yields exact formulas and tight upper bounds for the Hessian rank of deep linear networks, allowing for an elegant interpretation in terms of rank deficiency. Moreover, we demonstrate that our bounds remain faithful as an estimate of the numerical Hessian rank, for a larger class of models such as rectified and hyperbolic tangent networks. Further, we also investigate the implications of model architecture (e.g.~width, depth, bias) on the rank deficiency. Overall, our work provides novel insights into the source and extent of redundancy in overparameterized networks.
翻訳日:2021-07-03 05:01:28 公開日:2021-07-01
# (参考訳) モノトニックで(弱く)スケーラブルなニューラルネットワークの固定点 [全文訳有]

Fixed points of monotonic and (weakly) scalable neural networks ( http://arxiv.org/abs/2106.16239v2 )

ライセンス: CC BY 4.0
Tomasz Piotrowski and Renato L. G. Cavalcante(参考訳) ニューラルネットワークの固定点の存在条件を導出し、オートエンコーダやループアンロール技術を含む現代のアプリケーションにおいて、その動作を理解するための重要な研究目的である。 特に、文献でよく見られるように、非負の入力と非負のネットワークパラメータを持つネットワークに焦点を当てる。 このようなネットワークは、非線形ペロン・フロベニウス理論の枠組みの中で単調かつ(弱く)スケーラブルな関数として認識できることを示す。 この事実により、ニューラルネットワークの空でない固定点集合の存在の条件を導出することができ、これらの条件は、一般に活性化関数の非指数性の仮定に基づく凸解析において最近得られた条件よりも弱い。 さらに,モノトニックかつ弱スケーラブルなニューラルネットワークの不動点集合の形状は,しばしば間隔であり,スケーラブルネットワークの場合の一点に縮退する。 本研究の主な結果は数値シミュレーションで検証され,大容量MIMOシステムにおいてまず角電力スペクトルを圧縮するオートエンコーダ型ネットワークと,圧縮信号から入力スペクトルを再構成する手法について考察する。

We derive conditions for the existence of fixed points of neural networks, an important research objective to understand their behavior in modern applications involving autoencoders and loop unrolling techniques, among others. In particular, we focus on networks with nonnegative inputs and nonnegative network parameters, as often considered in the literature. We show that such networks can be recognized as monotonic and (weakly) scalable functions within the framework of nonlinear Perron-Frobenius theory. This fact enables us to derive conditions for the existence of a nonempty fixed point set of the neural networks, and these conditions are weaker than those obtained recently using arguments in convex analysis, which are typically based on the assumption of nonexpansivity of the activation functions. Furthermore, we prove that the shape of the fixed point set of monotonic and weakly scalable neural networks is often an interval, which degenerates to a point for the case of scalable networks. The chief results of this paper are verified in numerical simulations, where we consider an autoencoder-type network that first compresses angular power spectra in massive MIMO systems, and, second, reconstruct the input spectra from the compressed signal.
翻訳日:2021-07-03 05:00:10 公開日:2021-07-01
# (参考訳) 新しい質問型オントロジーを用いた制御可能なオープンエンド質問生成 [全文訳有]

Controllable Open-ended Question Generation with A New Question Type Ontology ( http://arxiv.org/abs/2107.00152v1 )

ライセンス: CC BY 4.0
Shuyang Cao and Lu Wang(参考訳) 本研究は,複数文で回答されるオープンエンド質問生成の難解な課題について検討する。 まず,質問のニュアンスの性質を広く使われる質問語と区別する新しい質問型オントロジーを定義する。 4,959の質問からなる新しいデータセットは、新しいオントロジーに基づいてラベル付けされる。 次に,意味グラフ表現によって拡張された新しい質問型質問生成フレームワークを提案し,質問焦点の予測と質問の生成を行う。 このフレームワークに基づいて、制御性と多様性を改善するために、模範と自動生成テンプレートの両方を使用します。 新たに収集された2つの大規模データセットに対する実験により,自動メトリクスに基づく競合比較よりも質問品質が向上することが示された。 人間の判断は、我々のモデルが高い回答率、スコープの範囲、全体的な品質を評価します。 最後に、テンプレートを用いたモデル変種は、制御性と多様性を向上した質問を生成できる。

We investigate the less-explored task of generating open-ended questions that are typically answered by multiple sentences. We first define a new question type ontology which differentiates the nuanced nature of questions better than widely used question words. A new dataset with 4,959 questions is labeled based on the new ontology. We then propose a novel question type-aware question generation framework, augmented by a semantic graph representation, to jointly predict question focuses and produce the question. Based on this framework, we further use both exemplars and automatically generated templates to improve controllability and diversity. Experiments on two newly collected large-scale datasets show that our model improves question quality over competitive comparisons based on automatic metrics. Human judges also rate our model outputs highly in answerability, coverage of scope, and overall quality. Finally, our model variants with templates can produce questions with enhanced controllability and diversity.
翻訳日:2021-07-03 03:03:41 公開日:2021-07-01
# (参考訳) ウィキデータの品質に関する研究 [全文訳有]

A Study of the Quality of Wikidata ( http://arxiv.org/abs/2107.00156v1 )

ライセンス: CC BY 4.0
Kartik Shenoy and Filip Ilievski and Daniel Garijo and Daniel Schwabe and Pedro Szekely(参考訳) wikidataは、多くのコミュニティによって、高品質の知識を必要とする様々なアプリケーションで採用されている。 本稿では,wikidata の低品質文の検出と分析を行うためのフレームワークを開発し,コミュニティが実践している現在のプラクティスに光を当てる。 ウィキデータにおけるデータ品質の指標として,1)現在記録されている知識に対するコミュニティのコンセンサス,2)削除された文が低品質であることが暗黙的に合意されていること,2)非推奨の文,3)データの制約違反について検討する。 これらの指標を組み合わせることで、低品質なステートメントを検出し、重複エンティティによる課題、三重項の欠如、型規則違反、分類学的区別を明らかにします。 ウィキデータコミュニティによるデータ品質向上への継続的な取り組みを補完し,ユーザや編集者のミスの発見と修正を容易にすることを目的とした。

Wikidata has been increasingly adopted by many communities for a wide variety of applications, which demand high-quality knowledge to deliver successful results. In this paper, we develop a framework to detect and analyze low-quality statements in Wikidata by shedding light on the current practices exercised by the community. We explore three indicators of data quality in Wikidata, based on: 1) community consensus on the currently recorded knowledge, assuming that statements that have been removed and not added back are implicitly agreed to be of low quality; 2) statements that have been deprecated; and 3) constraint violations in the data. We combine these indicators to detect low-quality statements, revealing challenges with duplicate entities, missing triples, violated type rules, and taxonomic distinctions. Our findings complement ongoing efforts by the Wikidata community to improve data quality, aiming to make it easier for users and editors to find and correct mistakes.
翻訳日:2021-07-03 02:39:17 公開日:2021-07-01
# (参考訳) 宝くじの健全性チェック:あなたの当選チケットは本当にジャックポットに勝つのか? [全文訳有]

Sanity Checks for Lottery Tickets: Does Your Winning Ticket Really Win the Jackpot? ( http://arxiv.org/abs/2107.00166v1 )

ライセンス: CC BY 4.0
Xiaolong Ma, Geng Yuan, Xuan Shen, Tianlong Chen, Xuxi Chen, Xiaohan Chen, Ning Liu, Minghai Qin, Sijia Liu, Zhangyang Wang, Yanzhi Wang(参考訳) 文学における「勝利チケット」を特定するための実験設定と基準について、長年にわたる論争と矛盾があった。 そこで我々は,より包括的で厳密な条件で宝くじの仮説の定義を再検討する。 新しい定義の下では、主要なDNNアーキテクチャやアプリケーションに勝利のチケットが存在するかどうかを明らかにするための具体的な証拠を示す。 広範な実験を通じて,入賞チケットと各種実験要因の相関関係を定量的に分析し,観測のパターンを実証的に研究する。 学習率やトレーニングエポックといった重要なトレーニングハイパーパラメータや,能力や残差接続といったアーキテクチャ特性は,それぞれ,優勝チケットの特定可能かどうかと高い相関関係があることが判明した。 本稿では,具体的アーキテクチャ特性に関するパラメータ設定のガイドラインを要約し,宝くじの仮説に関する研究の進展を解明したいと考えている。

There have been long-standing controversies and inconsistencies over the experiment setup and criteria for identifying the "winning ticket" in literature. To reconcile such, we revisit the definition of lottery ticket hypothesis, with comprehensive and more rigorous conditions. Under our new definition, we show concrete evidence to clarify whether the winning ticket exists across the major DNN architectures and/or applications. Through extensive experiments, we perform quantitative analysis on the correlations between winning tickets and various experimental factors, and empirically study the patterns of our observations. We find that the key training hyperparameters, such as learning rate and training epochs, as well as the architecture characteristics such as capacities and residual connections, are all highly correlated with whether and when the winning tickets can be identified. Based on our analysis, we summarize a guideline for parameter settings in regards of specific architecture characteristics, which we hope to catalyze the research progress on the topic of lottery ticket hypothesis.
翻訳日:2021-07-03 02:22:28 公開日:2021-07-01
# (参考訳) 意味的報酬を考慮した抽象的質問要約のための強化学習 [全文訳有]

Reinforcement Learning for Abstractive Question Summarization with Question-aware Semantic Rewards ( http://arxiv.org/abs/2107.00176v1 )

ライセンス: CC BY 4.0
Shweta Yadav, Deepak Gupta, Asma Ben Abacha and Dina Demner-Fushman(参考訳) オンライン消費者健康問題の増加は、信頼性と正確な質問応答システムの必要性につながっている。 最近の研究では、消費者健康問題に対する手動の要約が、関連する回答を回収する上で大きな改善をもたらすことが示されている。 しかしながら、長い質問の自動要約は、トレーニングデータの欠如と、質問焦点や型認識といった関連するサブタスクの複雑さのため、難しい課題である。 本稿では,抽象的質問要約のための強化学習ベースフレームワークを提案する。 i)質問型識別と(ii)質問焦点認識の下流タスクから得られる2つの新しい報酬を提案し、質問生成モデルを標準化する。 これらの報酬は意味論的に有効な質問の生成を確実にし、質問要約に重要な医療機関/焦点を取り入れることを奨励する。 提案手法を2つのベンチマークデータセットで評価し,最先端モデルよりも高い性能を得た。 要約のマニュアル評価により,生成した質問は,基本要約よりも多様であり,事実的矛盾が少ないことが明らかとなった。

The growth of online consumer health questions has led to the necessity for reliable and accurate question answering systems. A recent study showed that manual summarization of consumer health questions brings significant improvement in retrieving relevant answers. However, the automatic summarization of long questions is a challenging task due to the lack of training data and the complexity of the related subtasks, such as the question focus and type recognition. In this paper, we introduce a reinforcement learning-based framework for abstractive question summarization. We propose two novel rewards obtained from the downstream tasks of (i) question-type identification and (ii) question-focus recognition to regularize the question generation model. These rewards ensure the generation of semantically valid questions and encourage the inclusion of key medical entities/foci in the question summary. We evaluated our proposed method on two benchmark datasets and achieved higher performance over state-of-the-art models. The manual evaluation of the summaries reveals that the generated questions are more diverse and have fewer factual inconsistencies than the baseline summaries
翻訳日:2021-07-03 02:00:49 公開日:2021-07-01
# (参考訳) 分散非パラメトリック関数推定:最適収束率と適応コスト

Distributed Nonparametric Function Estimation: Optimal Rate of Convergence and Cost of Adaptation ( http://arxiv.org/abs/2107.00179v1 )

ライセンス: CC BY 4.0
T. Tony Cai and Hongji Wei(参考訳) ガウス列モデルとホワイトノイズモデルの通信制約下での分散ミニマックス推定と分散適応推定について検討した。 適応コストのベンチマークとして機能する与えられたベッソフクラス上での分散推定のための最小収束率を定式化する。 次に、適応のための正確な通信コストを定量化し、様々なベッソフクラスにまたがる分散推定のための最適な適応手順を構築する。 その結果,分散設定における非パラメトリック関数推定と従来の集中型設定との間に有意な差が認められた。 グローバルな推定では、分散環境では一般に適応は無償では達成できない。 適応コストの正確な特徴を得るための新しい技術ツールは、独立した興味を持つことができる。

Distributed minimax estimation and distributed adaptive estimation under communication constraints for Gaussian sequence model and white noise model are studied. The minimax rate of convergence for distributed estimation over a given Besov class, which serves as a benchmark for the cost of adaptation, is established. We then quantify the exact communication cost for adaptation and construct an optimally adaptive procedure for distributed estimation over a range of Besov classes. The results demonstrate significant differences between nonparametric function estimation in the distributed setting and the conventional centralized setting. For global estimation, adaptation in general cannot be achieved for free in the distributed setting. The new technical tools to obtain the exact characterization for the cost of adaptation can be of independent interest.
翻訳日:2021-07-03 01:48:59 公開日:2021-07-01
# (参考訳) 双方向エンティティレベルリカレントデコーダによるイベント引数インタラクションのキャプチャ [全文訳有]

Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder ( http://arxiv.org/abs/2107.00189v1 )

ライセンス: CC BY 4.0
Xiangyu Xi, Wei Ye, Shikun Zhang, Quanxiu Wang, Huixing Jiang, Wei Wu(参考訳) イベント引数間の相互作用をキャプチャすることは、堅牢なイベント引数抽出(EAE)への重要なステップである。 しかし、この方向の既存の取り組みには2つの制限がある: 1) 文脈的エンティティの引数ロール型情報は、主に訓練信号として利用され、それが意味的に豊かな入力特徴として直接採用される可能性を無視している; 2) 議論レベルのシーケンシャルセマンティクスは、イベント参照に対する引数ロールの全体的な分布パターンを暗示している。 上記の2つのボトルネックに対処するため、EAEをSeq2Seqのような学習問題として初めて定式化し、特定のイベントトリガを持つ文を一連のイベント引数ロールにマッピングする。 新しい双方向エンティティレベルリカレントデコーダ(berd)を用いたニューラルアーキテクチャを提案し、単語毎テキスト生成プロセスのような文脈的エンティティの引数ロール予測を組み込むことにより、イベント内の暗黙的な引数分散パターンをより正確に識別する。

Capturing interactions among event arguments is an essential step towards robust event argument extraction (EAE). However, existing efforts in this direction suffer from two limitations: 1) The argument role type information of contextual entities is mainly utilized as training signals, ignoring the potential merits of directly adopting it as semantically rich input features; 2) The argument-level sequential semantics, which implies the overall distribution pattern of argument roles over an event mention, is not well characterized. To tackle the above two bottlenecks, we formalize EAE as a Seq2Seq-like learning problem for the first time, where a sentence with a specific event trigger is mapped to a sequence of event argument roles. A neural architecture with a novel Bi-directional Entity-level Recurrent Decoder (BERD) is proposed to generate argument roles by incorporating contextual entities' argument role predictions, like a word-by-word text generation process, thereby distinguishing implicit argument distribution patterns within an event more accurately.
翻訳日:2021-07-03 01:48:07 公開日:2021-07-01
# (参考訳) 線形流れにおける逐次意思決定のためのバンディットを用いたマルコフ決定過程 [全文訳有]

Markov Decision Process modeled with Bandits for Sequential Decision Making in Linear-flow ( http://arxiv.org/abs/2107.00204v1 )

ライセンス: CC BY 4.0
Wenjun Zeng and Yi Liu(参考訳) 会員/加入者獲得と保持では、複数のページのマーケティングコンテンツを連続して推奨する必要がある。 一般的なシーケンシャルな意思決定プロセスと異なり、ユースケースはよりシンプルなフローを持ち、各ページで推奨されたコンテンツを見た顧客は、プロセスを進めるか、終了までフィードバックを返さないといけません。 この種の問題を線形フローにおける逐次意思決定と呼ぶ。 遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。 推奨時には、トンプソンサンプリング(TS)を用いて遷移確率をサンプリングし、厳密な動的プログラミングを通して解析的解を用いて最良の一連のアクションを割り当てる。 この問題を定式化することで、探索と搾取のバランスをとるTSの効率と、動作の非互換性をモデル化するBanditの利便性を活用できる。 シミュレーション研究では,Bandits アルゴリズムを用いた MDP が Q-learning を$\epsilon$-greedy で上回り,$\epsilon$-greedy と$\epsilon$,Independe ntBandits,Interactio nBandits が減少した。 また,提案アルゴリズムの性能は,ページ間の相互依存強度の変化に対して最も頑健であることがわかった。

In membership/subscribe r acquisition and retention, we sometimes need to recommend marketing content for multiple pages in sequence. Different from general sequential decision making process, the use cases have a simpler flow where customers per seeing recommended content on each page can only return feedback as moving forward in the process or dropping from it until a termination state. We refer to this type of problems as sequential decision making in linear--flow. We propose to formulate the problem as an MDP with Bandits where Bandits are employed to model the transition probability matrix. At recommendation time, we use Thompson sampling (TS) to sample the transition probabilities and allocate the best series of actions with analytical solution through exact dynamic programming. The way that we formulate the problem allows us to leverage TS's efficiency in balancing exploration and exploitation and Bandit's convenience in modeling actions' incompatibility. In the simulation study, we observe the proposed MDP with Bandits algorithm outperforms Q-learning with $\epsilon$-greedy and decreasing $\epsilon$, independent Bandits, and interaction Bandits. We also find the proposed algorithm's performance is the most robust to changes in the across-page interdependence strength.
翻訳日:2021-07-03 01:33:20 公開日:2021-07-01
# (参考訳) 疾患予測のためのマルチモーダルグラフ学習 [全文訳有]

Multi-modal Graph Learning for Disease Prediction ( http://arxiv.org/abs/2107.00206v1 )

ライセンス: CC BY 4.0
Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Zhenyu Guo, Yang Liu, Yao Zhao(参考訳) グラフの強力な表現能力に相応しいグラフベースのアプローチは、様々な生体医学的応用において印象的なパフォーマンスを達成している。 既存のほとんどの手法では、メタ機能に基づいて手動でサンプル間の隣接行列を定義し、グラフ表現学習(GRL)により下流タスクのためのノード埋め込みを得る傾向にある。 しかし、これらのアプローチが見当たらないサンプルに一般化するのは容易ではない。 一方、モダリティ間の複雑な相関も無視される。 その結果、これらの因子は、信頼性のある診断のための患者の状態に関する有効な情報を提供するのに、必然的に不十分である。 本稿では,病気予測のためのエンドツーエンドマルチモーダルグラフ学習フレームワーク(MMGL)を提案する。 疾患に関連するマルチモダリティにまたがるリッチな情報を効果的に活用するために,amodal-attentional multi-modal fusion を提案し,モダリティ間の相関と相補性を利用して各モダリティの特徴を統合する。 さらに,隣接行列を既存手法として手動で定義する代わりに,適応グラフ学習の新たな手法によって潜在グラフ構造を捉えることができる。 予測モデルと共同で最適化することで、サンプル間の本質的な接続を明らかにすることができる。 従来のトランスダクティブ手法と異なり,本モデルは未知のデータに対するインダクティブ学習のシナリオにも適用可能である。 2つの疾患予測問題に関する広範な実験群を慎重に設計・提示し、MMGLがより好ましい性能を得ることを示す。 さらに,学習したグラフ構造を可視化分析し,実際の医学的応用や疾患研究へのインスピレーションとして,医師に対してより信頼性の高い意思決定支援を行う。

Benefiting from the powerful expressive capability of graphs, graph-based approaches have achieved impressive performance in various biomedical applications. Most existing methods tend to define the adjacency matrix among samples manually based on meta-features, and then obtain the node embeddings for downstream tasks by Graph Representation Learning (GRL). However, it is not easy for these approaches to generalize to unseen samples. Meanwhile, the complex correlation between modalities is also ignored. As a result, these factors inevitably yield the inadequacy of providing valid information about the patient's condition for a reliable diagnosis. In this paper, we propose an end-to-end Multimodal Graph Learning framework (MMGL) for disease prediction. To effectively exploit the rich information across multi-modality associated with diseases, amodal-attentional multi-modal fusion is proposed to integrate the features of each modality by leveraging the correlation and complementarity between the modalities. Furthermore, instead of defining the adjacency matrix manually as existing methods, the latent graph structure can be captured through a novel way of adaptive graph learning. It could be jointly optimized with the prediction model, thus revealing the intrinsic connections among samples. Unlike the previous transductive methods, our model is also applicable to the scenario of inductive learning for those unseen data. An extensive group of experiments on two disease prediction problems is then carefully designed and presented, demonstrating that MMGL obtains more favorable performances. In addition, we also visualize and analyze the learned graph structure to provide more reliable decision support for doctors in real medical applications and inspiration for disease research.
翻訳日:2021-07-03 01:25:56 公開日:2021-07-01
# (参考訳) ControlBurn: 疎林による特徴選択 [全文訳有]

ControlBurn: Feature Selection by Sparse Forests ( http://arxiv.org/abs/2107.00219v1 )

ライセンス: CC BY 4.0
Brian Liu and Miaolan Xie and Madeleine Udell(参考訳) ツリーアンサンブルは、相関した特徴のグループ間で特徴を均等に分配する。 相関群の平均特徴ランキングが抑制され、解釈性が低下し、特徴選択が複雑になる。 本稿では,低強度火災が過剰植生を減少させるのと同じように,重み付きLASSOに基づく特徴選択法を用いて,樹木アンサンブルから不要な特徴を抽出する特徴選択アルゴリズムであるControlBurnを提案する。 線形LASSOと同様に、ControlBurnは1つの機能に関連付けられた機能のすべての重要な機能を割り当てる。 さらに、アルゴリズムは効率的であり、反復ラッパーベースの特徴選択法とは異なり、単一のトレーニングイテレーションだけを実行する。 controlburnは,相関した特徴を持つデータセットの計算コストに匹敵する特徴選択手法よりも,かなり優れた性能を示す。

Tree ensembles distribute feature importance evenly amongst groups of correlated features. The average feature ranking of the correlated group is suppressed, which reduces interpretability and complicates feature selection. In this paper we present ControlBurn, a feature selection algorithm that uses a weighted LASSO-based feature selection method to prune unnecessary features from tree ensembles, just as low-intensity fire reduces overgrown vegetation. Like the linear LASSO, ControlBurn assigns all the feature importance of a correlated group of features to a single feature. Moreover, the algorithm is efficient and only requires a single training iteration to run, unlike iterative wrapper-based feature selection methods. We show that ControlBurn performs substantially better than feature selection methods with comparable computational costs on datasets with correlated features.
翻訳日:2021-07-03 01:13:10 公開日:2021-07-01
# (参考訳) 視覚探索の回路複雑性 [全文訳有]

Circuit Complexity of Visual Search ( http://arxiv.org/abs/2107.00223v1 )

ライセンス: CC BY 4.0
Kei Uchizawa and Haruki Abe(参考訳) 回路複雑性のレンズによる特徴の計算硬度と共同探索について検討する。 x = (x_1, ... , x_n)$ (resp., $y = (y_1, ... , y_n)$) をブール変数とする。 次に、ブール関数 ${\rm FTR}_n(x) = \bigvee_{i=1}^n x_i$ と ${\rm CONJ}_n(x, y) = \bigvee_{i=1}^n x_i \wedge y_i$ として特徴と共同探索を単純に定式化する。 我々は、ニューラルネットワークのモデルとして閾値回路または離散回路(シグミド回路やReLU回路など)を用い、[i]ニューロン数(サイズ)、[ii]レベル数(深さ)、[iii]非ゼロ値(エネルギー)を出力する活動ニューロン数(エネルギー)、[iv]シナプス重み分解(重み)の4つの計算資源を考察した。 まず、任意のしきい値回路$C$ of size $s$, depth $d$, energy $e$ and weight $w$ satisfies $\log rk(M_C) \le ed (\log s + \log w + \log n)$, where $rk(M_C)$ is the rank of the communication matrix $M_C$ of a $2n$-variable Boolean function that which $C$。 ${\rm CONJ}_n$ のランクは 2^n$ であるため、$n \le ed (\log s + \log w + \log n)$ となる。 したがって、エネルギーと重量が十分に小さい場合、偶数直線深度しきい値回路のサイズに対する指数的な下界が存在する。 また,${\rm FTR}_n$は$n$とは独立に計算可能であることから,特徴量と協調探索の計算能力が異なることが示唆された。 また、不等式は$ed = o(n/ \log n)$ の場合、定数係数まで厳密であることを示す。 次に、同様の不等式が任意の離散回路に対して成り立つことを示す。 したがって、非ゼロ値を出力するゲートの数をスパースアクティビティの指標とすると、より深い深さがニューラルネットワークのスパースアクティビティ獲得に役立つことが示唆される。

We study computational hardness of feature and conjunction search through the lens of circuit complexity. Let $x = (x_1, ... , x_n)$ (resp., $y = (y_1, ... , y_n)$) be Boolean variables each of which takes the value one if and only if a neuron at place $i$ detects a feature (resp., another feature). We then simply formulate the feature and conjunction search as Boolean functions ${\rm FTR}_n(x) = \bigvee_{i=1}^n x_i$ and ${\rm CONJ}_n(x, y) = \bigvee_{i=1}^n x_i \wedge y_i$, respectively. We employ a threshold circuit or a discretized circuit (such as a sigmoid circuit or a ReLU circuit with discretization) as our models of neural networks, and consider the following four computational resources: [i] the number of neurons (size), [ii] the number of levels (depth), [iii] the number of active neurons outputting non-zero values (energy), and [iv] synaptic weight resolution (weight). We first prove that any threshold circuit $C$ of size $s$, depth $d$, energy $e$ and weight $w$ satisfies $\log rk(M_C) \le ed (\log s + \log w + \log n)$, where $rk(M_C)$ is the rank of the communication matrix $M_C$ of a $2n$-variable Boolean function that $C$ computes. Since ${\rm CONJ}_n$ has rank $2^n$, we have $n \le ed (\log s + \log w + \log n)$. Thus, an exponential lower bound on the size of even sublinear-depth threshold circuits exists if the energy and weight are sufficiently small. Since ${\rm FTR}_n$ is computable independently of $n$, our result suggests that computational capacity for the feature and conjunction search are different. We also show that the inequality is tight up to a constant factor if $ed = o(n/ \log n)$. We next show that a similar inequality holds for any discretized circuit. Thus, if we regard the number of gates outputting non-zero values as a measure for sparse activity, our results suggest that larger depth helps neural networks to acquire sparse activity.
翻訳日:2021-07-03 00:57:51 公開日:2021-07-01
# (参考訳) ランダム化平滑化によるスケーラブル認証セグメンテーション [全文訳有]

Scalable Certified Segmentation via Randomized Smoothing ( http://arxiv.org/abs/2107.00228v1 )

ライセンス: CC BY 4.0
Marc Fischer, Maximilian Baader, Martin Vechev(参考訳) ランダムな平滑化に基づく画像と点雲のセグメンテーションのための新しい認証手法を提案する。 この手法は、統計的な保証を確保するために必要な複数のテストを正確に考慮した予測と認証のために、新しいスケーラブルなアルゴリズムを活用する。 我々のアプローチの鍵は、確立された多重テストの修正機構と、全体的な入力をロバストに分割しながら単一のピクセルまたはポイントの分類を控える能力に依存することです。 合成データやpascal context,cityscapes,s hapenetなどの難解なデータセットについて実験的評価を行った結果,実世界のセグメンテーションタスクにおいて,アルゴリズムが初めて,競合精度と認証保証を達成できることが判明した。 実装はhttps://github.com/e th-sri/segmentation- smoothingで行います。

We present a new certification method for image and point cloud segmentation based on randomized smoothing. The method leverages a novel scalable algorithm for prediction and certification that correctly accounts for multiple testing, necessary for ensuring statistical guarantees. The key to our approach is reliance on established multiple-testing correction mechanisms as well as the ability to abstain from classifying single pixels or points while still robustly segmenting the overall input. Our experimental evaluation on synthetic data and challenging datasets, such as Pascal Context, Cityscapes, and ShapeNet, shows that our algorithm can achieve, for the first time, competitive accuracy and certification guarantees on real-world segmentation tasks. We provide an implementation at https://github.com/e th-sri/segmentation- smoothing.
翻訳日:2021-07-03 00:31:51 公開日:2021-07-01
# (参考訳) 音声による歌声分離 [全文訳有]

Audiovisual Singing Voice Separation ( http://arxiv.org/abs/2107.00231v1 )

ライセンス: CC BY 4.0
Bochen Li, Yuxuan Wang, and Zhiyao Duan(参考訳) 歌を声と伴奏の要素に分離することは活発な研究課題であり、近年は深層学習技術を用いた教師あり訓練によるパフォーマンス向上が観察されている。 そこで本研究では,歌唱者の発声活動に対応する視覚情報を適用し,分離した発声信号の質をさらに向上させる。 ビデオフロントエンドモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。 ネットワークが歌唱活動の音声視覚的相関を学習できるようにするため,訓練中に口の動きに関係のない余分な音声信号を加える。 学習と評価のために,インターネット上のオーディション録音をキュレートした2つの視聴覚歌唱パフォーマンスデータセットを作成し,もう1つは室内で記録した。 提案手法は,ほとんどの試験記録における分離品質において,音声ベースの手法を上回っている。 この利点は、伴奏にバックボーカルがあるときに特に顕著であり、これは音声のみの手法では大きな課題となる。

Separating a song into vocal and accompaniment components is an active research topic, and recent years witnessed an increased performance from supervised training using deep learning techniques. We propose to apply the visual information corresponding to the singers' vocal activities to further improve the quality of the separated vocal signals. The video frontend model takes the input of mouth movement and fuses it into the feature embeddings of an audio-based separation framework. To facilitate the network to learn audiovisual correlation of singing activities, we add extra vocal signals irrelevant to the mouth movement to the audio mixture during training. We create two audiovisual singing performance datasets for training and evaluation, respectively, one curated from audition recordings on the Internet, and the other recorded in house. The proposed method outperforms audio-based methods in terms of separation quality on most test recordings. This advantage is especially pronounced when there are backing vocals in the accompaniment, which poses a great challenge for audio-only methods.
翻訳日:2021-07-03 00:03:47 公開日:2021-07-01
# (参考訳) 深層強化学習を用いたレート分割通信における最適電力割当 [全文訳有]

Optimal Power Allocation for Rate Splitting Communications with Deep Reinforcement Learning ( http://arxiv.org/abs/2107.00238v1 )

ライセンス: CC BY 4.0
Nguyen Quang Hieu, Dinh Thai Hoang, Dusit Niyato, and Dong In Kim(参考訳) 本稿では、RSMA(Rate Splitting Multiple Access)ネットワークにおいて、ユーザの電力割り当てを最適化するための新しいフレームワークを紹介する。 ネットワークでは、ユーザが意図するメッセージは、単一の共通部分と個々のプライベート部分からなる異なる部分に分割される。 この機構によりRSMAはフレキシブルに干渉を管理し、エネルギーとスペクトル効率を高めることができる。 通信チャネルの不確実性下では、rsmaにおける電力割り当ての最適化は非常に困難であり、送信者はチャネル情報に関する知識が限られている。 そこで我々はまず,通信チャネルの動的動作をモデル化するマルコフ決定プロセスフレームワークを開発した。 次に, チャネルの事前情報を必要とせずに, 送信機の最適電力割当方針を求めるために, 深層補強アルゴリズムを提案する。 シミュレーションの結果,提案手法は電力とqosの異なる条件下で平均和率でベースラインスキームを上回ることができることがわかった。

This letter introduces a novel framework to optimize the power allocation for users in a Rate Splitting Multiple Access (RSMA) network. In the network, messages intended for users are split into different parts that are a single common part and respective private parts. This mechanism enables RSMA to flexibly manage interference and thus enhance energy and spectral efficiency. Although possessing outstanding advantages, optimizing power allocation in RSMA is very challenging under the uncertainty of the communication channel and the transmitter has limited knowledge of the channel information. To solve the problem, we first develop a Markov Decision Process framework to model the dynamic of the communication channel. The deep reinforcement algorithm is then proposed to find the optimal power allocation policy for the transmitter without requiring any prior information of the channel. The simulation results show that the proposed scheme can outperform baseline schemes in terms of average sum-rate under different power and QoS requirements.
翻訳日:2021-07-02 23:41:07 公開日:2021-07-01
# (参考訳) CVPR 2021テクニカルレポート:Cascaded Temporal Attention Network (CASTANET) [全文訳有]

Generic Event Boundary Detection Challenge at CVPR 2021 Technical Report: Cascaded Temporal Attention Network (CASTANET) ( http://arxiv.org/abs/2107.00239v1 )

ライセンス: CC BY 4.0
Dexiang Hong, Congcong Li, Longyin Wen, Xinyao Wang, Libo Zhang(参考訳) 本報告では,CVPR21におけるジェネリックイベント境界検出(GEBD)チャレンジへの取り組みについて述べる。 本研究では,GEBDのためのカスケード型時間注意ネットワーク(CASTANET)を設計し,バックボーンネットワーク,時間的注意モジュール,分類モジュールの3つの部分から構成される。 具体的には,Channel-Separated Convolutional Network (CSN) が機能抽出のバックボーンネットワークとして使用され,時間的アテンションモジュールはネットワークが識別機能にフォーカスするように設計されている。 その後、分類モジュールでカスケードアーキテクチャを使用して、より正確な境界を生成する。 また,提案手法の性能をさらに向上させるために,アンサンブル戦略を用いる。 提案手法は,Kinetics-GEBDテストセット上で83.30%のF1スコアを達成し,ベースライン法と比較して20.5%のF1スコアを向上する。 コードはhttps://github.com/D exiangHong/Cascade-P Cで入手できる。

This report presents the approach used in the submission of Generic Event Boundary Detection (GEBD) Challenge at CVPR21. In this work, we design a Cascaded Temporal Attention Network (CASTANET) for GEBD, which is formed by three parts, the backbone network, the temporal attention module, and the classification module. Specifically, the Channel-Separated Convolutional Network (CSN) is used as the backbone network to extract features, and the temporal attention module is designed to enforce the network to focus on the discriminative features. After that, the cascaded architecture is used in the classification module to generate more accurate boundaries. In addition, the ensemble strategy is used to further improve the performance of the proposed method. The proposed method achieves 83.30% F1 score on Kinetics-GEBD test set, which improves 20.5% F1 score compared to the baseline method. Code is available at https://github.com/D exiangHong/Cascade-P C.
翻訳日:2021-07-02 23:32:51 公開日:2021-07-01
# (参考訳) 分類における分布パラメータと精度・ロバスト性トレードオフの相互作用 [全文訳有]

The Interplay between Distribution Parameters and the Accuracy-Robustness Tradeoff in Classification ( http://arxiv.org/abs/2107.00247v1 )

ライセンス: CC BY 4.0
Alireza Mousavi Hosseini, Amir Mohammad Abouei, Mohammad Hossein Rohban(参考訳) 敵対的訓練は、通常のモデルに比べて自然(未成熟)の例では正確でないモデルをもたらす傾向にある。 これは、最適標準と逆分類器の異なる解を許容する訓練データ分布のアルゴリズム的欠点または基本的な性質に起因する。 本研究では,二進ガウス混合分類問題の下で後者のケースに焦点を当てる。 従来の研究とは異なり、最適なベイズと逆分類器の間の自然な精度ギャップを導出し、異なる分布パラメータ、すなわちクラスセントロイド、クラス比率、共分散行列の分離が導出ギャップに及ぼす影響について研究することを目的としている。 一定の条件下では、最適逆分類器の自然な誤差とギャップは、クラスが均衡しているときに局所的に最小化され、完全なバランスが最悪の精度をもたらすベイズ分類器の性能と矛盾することを示す。 さらに、$\ell_\infty$有界摂動と$\epsilon$の逆の予算で、このギャップは、最悪の場合のパラメータに対して$\Theta(\epsilon^2)$であることを示す。

Adversarial training tends to result in models that are less accurate on natural (unperturbed) examples compared to standard models. This can be attributed to either an algorithmic shortcoming or a fundamental property of the training data distribution, which admits different solutions for optimal standard and adversarial classifiers. In this work, we focus on the latter case under a binary Gaussian mixture classification problem. Unlike earlier work, we aim to derive the natural accuracy gap between the optimal Bayes and adversarial classifiers, and study the effect of different distributional parameters, namely separation between class centroids, class proportions, and the covariance matrix, on the derived gap. We show that under certain conditions, the natural error of the optimal adversarial classifier, as well as the gap, are locally minimized when classes are balanced, contradicting the performance of the Bayes classifier where perfect balance induces the worst accuracy. Moreover, we show that with an $\ell_\infty$ bounded perturbation and an adversarial budget of $\epsilon$, this gap is $\Theta(\epsilon^2)$ for the worst-case parameters, which for suitably small $\epsilon$ indicates the theoretical possibility of achieving robust classifiers with near-perfect accuracy, which is rarely reflected in practical algorithms.
翻訳日:2021-07-02 23:27:42 公開日:2021-07-01
# (参考訳) OPT:Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation [全文訳有]

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation ( http://arxiv.org/abs/2107.00249v1 )

ライセンス: CC BY 4.0
Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Jinqiao Wang, Hanqing Lu(参考訳) 本稿では,視覚,テキスト,音声の資源を共同でモデル化し,クロスモーダル理解と生成のための全知覚プリトレーナー(opt)を提案する。 optは、各モダリティに対してトークンベースの埋め込みを生成する3つのシングルモーダルエンコーダと、3つのモダリティ間の相関をエンコードするクロスモーダルエンコーダと、テキストとイメージを生成する2つのクロスモーダルデコーダを含む、エンコーダ/デコーダフレームワークで構築されている。 オプターの事前学習のために、我々は、オプターが異なるモダリティの調整と翻訳を学ぶために、3つの異なるデータ粒度( \ie, token-, modality-, sample-level modeling)からマルチモーダルリソースをモデル化するマルチタスクプリテキスト学習スキームを設計した。 事前学習タスクは、オープン画像から大量の画像-テキスト-オーディオトリプレットで実行される。 実験の結果,オプターは強固な画像-テキスト-オーディオマルチモーダル表現を学習でき,様々なクロスモーダル理解と生成タスクにおいて有望な結果が得られることがわかった。

In this paper, we propose an Omni-perception Pre-Trainer (OPT) for cross-modal understanding and generation, by jointly modeling visual, text and audio resources. OPT is constructed in an encoder-decoder framework, including three single-modal encoders to generate token-based embeddings for each modality, a cross-modal encoder to encode the correlations among the three modalities, and two cross-modal decoders to generate text and image respectively. For the OPT's pre-training, we design a multi-task pretext learning scheme to model multi-modal resources from three different data granularities, \ie, token-, modality-, and sample-level modeling, through which OPT learns to align and translate among different modalities. The pre-training task is carried out on a large amount of image-text-audio triplets from Open Images. Experimental results show that OPT can learn strong image-text-audio multi-modal representations and achieve promising results on a variety of cross-modal understanding and generation tasks.
翻訳日:2021-07-02 22:53:38 公開日:2021-07-01
# (参考訳) IWSLT2021における同時音声翻訳タスクのためのUSTC-NELSLIPシステム [全文訳有]

The USTC-NELSLIP Systems for Simultaneous Speech Translation Task at IWSLT 2021 ( http://arxiv.org/abs/2107.00279v1 )

ライセンス: CC BY 4.0
Dan Liu, Mengge Du, Xiaoxi Li, Yuchen Hu, Lirong Dai(参考訳) 本稿では,USTC-NELSLIP による IWSLT2021 同時音声翻訳タスクの提出について述べる。 そこで本研究では,従来のrnn-tを単調な制約を伴わない逐次逐次処理に拡張した,同時翻訳モデルであるcross attention augmented transducer (caat)を提案する。 speech-to-text (s2t) と text-to-text (t2t) 同時翻訳タスクの実験は、caatが以前の最先端のアプローチである \textit{wait-k} よりも優れた品質・レイテンシトレードオフを達成していることを示している。 この評価キャンペーンでは,CAATアーキテクチャとデータ拡張に基づいて,S2TとT2T同時翻訳システムを構築した。 昨年の最適システムと比較すると、S2T同時翻訳システムは平均11.3BLEUで、T2T同時翻訳システムは平均4.6BLEUで改善されている。

This paper describes USTC-NELSLIP's submissions to the IWSLT2021 Simultaneous Speech Translation task. We proposed a novel simultaneous translation model, Cross Attention Augmented Transducer (CAAT), which extends conventional RNN-T to sequence-to-sequence tasks without monotonic constraints, e.g., simultaneous translation. Experiments on speech-to-text (S2T) and text-to-text (T2T) simultaneous translation tasks shows CAAT achieves better quality-latency trade-offs compared to \textit{wait-k}, one of the previous state-of-the-art approaches. Based on CAAT architecture and data augmentation, we build S2T and T2T simultaneous translation systems in this evaluation campaign. Compared to last year's optimal systems, our S2T simultaneous translation system improves by an average of 11.3 BLEU for all latency regimes, and our T2T simultaneous translation system improves by an average of 4.6 BLEU.
翻訳日:2021-07-02 22:36:15 公開日:2021-07-01
# (参考訳) Scientia Potentia Est -- 計算論における知識の役割について [全文訳有]

Scientia Potentia Est -- On the Role of Knowledge in Computational Argumentation ( http://arxiv.org/abs/2107.00281v1 )

ライセンス: CC BY-SA 4.0
Anne Lauscher, Henning Wachsmuth, Iryna Gurevych, and Goran Glava\v{s}(参考訳) 過去数年間の広範な研究にもかかわらず、議論の計算モデリングは依然として困難である。 主な理由は、人間のプロセスの背後にある固有の複雑さにある。これは一般的に、他の多くの自然言語理解タスクに必要なもの以上の広範な知識の統合を必要とする。 マイニング、評価、推論、そして議論の生成に関する既存の研究はこの問題を認め、常識と世界知識の計算モデルへの統合に関するさらなる研究を要求している。 しかし、必要な知識の種類を収集し整理するための体系的な取り組みはまだ欠落しており、分野の進歩を阻害している。 本稿では,(1)計算議論に必要な知識のピラミッドを提案すること,(2)分野におけるこれらのタイプの役割と統合に関する技術の現状を簡潔に議論すること,(3)今後の課題を概説することによる課題に対処する。

Despite extensive research in the past years, the computational modeling of argumentation remains challenging. The primary reason lies in the inherent complexity of the human processes behind, which commonly requires the integration of extensive knowledge far beyond what is needed for many other natural language understanding tasks. Existing work on the mining, assessment, reasoning, and generation of arguments acknowledges this issue, calling for more research on the integration of common sense and world knowledge into computational models. However, a systematic effort to collect and organize the types of knowledge needed is still missing, hindering targeted progress in the field. In this opinionated survey paper, we address the issue by (1) proposing a pyramid of types of knowledge required in computational argumentation, (2) briefly discussing the state of the art on the role and integration of these types in the field, and (3) outlining the main challenges for future work.
翻訳日:2021-07-02 22:23:25 公開日:2021-07-01
# (参考訳) DivergentNets: ネットワークアンサンブルによる医用画像セグメンテーション [全文訳有]

DivergentNets: Medical Image Segmentation by Network Ensemble ( http://arxiv.org/abs/2107.00283v1 )

ライセンス: CC BY 4.0
Vajira Thambawita, Steven A. Hicks, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 大腸ポリープの検出は、機械学習や消化器内視鏡の分野におけるトレンドとなっている。 主にフレーム単位の分類に焦点を当てている。 近年,ポリープセグメンテーションが医学界で注目されている。 セグメンテーションは、フレーム単位の分類やオブジェクト検出よりも、影響を受ける領域をより詳細に示すことができるという利点がある。 本研究では,EndoCV 2021セグメンテーションへのコントリビューションとして2つのアプローチを提案する。 まず、triunet というセグメンテーションモデルが3つの unet モデルで構成されている。 次に、TriUNetをUNet++、FPN、DeepLabv3、DeepLabv3+といったよく知られたセグメンテーションモデルと組み合わせて、より一般化可能な医療画像セグメンテーションマスクを生成する。 さらに,マルチクラスセグメンテーションを行う場合,単一のクラスに対してのみ損失を計算する修正サイスロスを提案する。 提案手法は,各ラウンド毎の平均スコアを達成し,TriUNetがラウンドIの優勝モデル,DivergentNetsがラウンドIIの優勝モデル,EndoCV 2021のセグメンテーション一般化チャレンジの優勝モデルとなった。 このアプローチの実装はGitHubで公開されています。

Detection of colon polyps has become a trending topic in the intersecting fields of machine learning and gastrointestinal endoscopy. The focus has mainly been on per-frame classification. More recently, polyp segmentation has gained attention in the medical community. Segmentation has the advantage of being more accurate than per-frame classification or object detection as it can show the affected area in greater detail. For our contribution to the EndoCV 2021 segmentation challenge, we propose two separate approaches. First, a segmentation model named TriUNet composed of three separate UNet models. Second, we combine TriUNet with an ensemble of well-known segmentation models, namely UNet++, FPN, DeepLabv3, and DeepLabv3+, into a model called DivergentNets to produce more generalizable medical image segmentation masks. In addition, we propose a modified Dice loss that calculates loss only for a single class when performing multiclass segmentation, forcing the model to focus on what is most important. Overall, the proposed methods achieved the best average scores for each respective round in the challenge, with TriUNet being the winning model in Round I and DivergentNets being the winning model in Round II of the segmentation generalization challenge at EndoCV 2021. The implementation of our approach is made publicly available on GitHub.
翻訳日:2021-07-02 21:51:28 公開日:2021-07-01
# (参考訳) iMiGUE:マイクロジェスチャー理解と感情分析のためのアイデンティティフリービデオデータセット [全文訳有]

iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis ( http://arxiv.org/abs/2107.00285v1 )

ライセンス: CC BY 4.0
Xin Liu, Henglin Shi, Haoyu Chen, Zitong Yu, Xiaobai Li, Guoying Zhaoz?(参考訳) 感情的人工知能研究のための新しいデータセット:iMiGUE(Micro-Gestur e Understanding and Emotion Analysis)のためのアイデンティティフリービデオデータセットを紹介する。 既存の公開データセットとは異なり、imigueは身元情報を使用しない非言語的な身体のジェスチャーに焦点を当てている。 最も重要なのは、マイクロジェスチャ、すなわち内なる感情によって引き起こされる意図しない行動に焦点をあてることである。 さらに、イミグは、単に配列内のプロトタイプを別々に(あるいは孤立的に)認識するのではなく、認識されたマイクロジェスチャの情報を統合することによって、感情状態を分析するモデルの能力を評価するように設計されている。 これは、感情に対する真の必要性は、ジェスチャの背後にある感情状態を完全に理解することである。 さらに, このデータセットの不均衡なサンプル分布に対処するために, マイクロジェスチャシーケンス自体から潜伏表現をキャプチャする教師なし学習手法を提案する。 本データセットにおける代表的手法を体系的に検討し, 総合的な実験結果から, イミグから得られたいくつかの興味深い知見,例えば, マイクロジェスチャに基づく分析が感情理解を促進することを明らかにする。 新しいiMiGUEデータセットは、マイクロジェスチャーと感情AIの研究を進展させる可能性があることを確認した。

We introduce a new dataset for the emotional artificial intelligence research: identity-free video dataset for Micro-Gesture Understanding and Emotion analysis (iMiGUE). Different from existing public datasets, iMiGUE focuses on nonverbal body gestures without using any identity information, while the predominant researches of emotion analysis concern sensitive biometric data, like face and speech. Most importantly, iMiGUE focuses on micro-gestures, i.e., unintentional behaviors driven by inner feelings, which are different from ordinary scope of gestures from other gesture datasets which are mostly intentionally performed for illustrative purposes. Furthermore, iMiGUE is designed to evaluate the ability of models to analyze the emotional states by integrating information of recognized micro-gesture, rather than just recognizing prototypes in the sequences separately (or isolatedly). This is because the real need for emotion AI is to understand the emotional states behind gestures in a holistic way. Moreover, to counter for the challenge of imbalanced sample distribution of this dataset, an unsupervised learning method is proposed to capture latent representations from the micro-gesture sequences themselves. We systematically investigate representative methods on this dataset, and comprehensive experimental results reveal several interesting insights from the iMiGUE, e.g., micro-gesture-based analysis can promote emotion understanding. We confirm that the new iMiGUE dataset could advance studies of micro-gesture and emotion AI.
翻訳日:2021-07-02 21:39:36 公開日:2021-07-01
# (参考訳) 病的音声合成のための客観的評価フレームワーク [全文訳有]

An Objective Evaluation Framework for Pathological Speech Synthesis ( http://arxiv.org/abs/2107.00308v1 )

ライセンス: CC BY 4.0
Bence Mark Halpern, Julian Fritsch, Enno Hermann, Rob van Son, Odette Scharenborg, Mathew Magimai.-Doss(参考訳) 病的発話システムの開発は、現在標準化された客観的評価フレームワークの欠如によって妨げられている。 本研究では,(1)既存の検出・解析手法を用いて,合成病理音声の一貫した評価のための汎用的枠組みを提案する。 この枠組みは, 音声の質と可聴性を評価し, 実験により相補的であることを示す。 2)提案手法を用いて,CycleGAN-VC と PSOLA を用いた音声変換システム (VC) の開発と試験を行った。 開発したシステムでは, 異なるレベルの音声明瞭度を有する構音音声を合成できることを示す。

The development of pathological speech systems is currently hindered by the lack of a standardised objective evaluation framework. In this work, (1) we utilise existing detection and analysis techniques to propose a general framework for the consistent evaluation of synthetic pathological speech. This framework evaluates the voice quality and the intelligibility aspects of speech and is shown to be complementary using our experiments. (2) Using our proposed evaluation framework, we develop and test a dysarthric voice conversion system (VC) using CycleGAN-VC and a PSOLA-based speech rate modification technique. We show that the developed system is able to synthesise dysarthric speech with different levels of speech intelligibility.
翻訳日:2021-07-02 21:18:50 公開日:2021-07-01
# (参考訳) ニューラルボコーダによる話者検証のための対向サンプルの抽出 [全文訳有]

Spotting adversarial samples for speaker verification by neural vocoders ( http://arxiv.org/abs/2107.00309v1 )

ライセンス: CC0 1.0
Haibin Wu, Po-chun Hsu, Ji Gao, Shanshan Zhang, Shen Huang, Jian Kang, Zhiyong Wu, Helen Meng, Hung-yi Lee(参考訳) 生体認証の最も重要な技術の一つである自動話者認証(ASV)は、トランザクション認証やアクセス制御を含むセキュリティクリティカルなアプリケーションで広く採用されている。 しかし、以前の研究では、ASVは最近出現した敵の攻撃に対して深刻な脆弱性があることが示されている。 本稿では,ASVの対立サンプルを見つけるために,ニューラルボコーダを用いる。 我々はニューラルボコーダを用いて音声を再合成し、元のオーディオと再合成オーディオのASVスコアの違いが真正と逆正のサンプルを識別するのに良い指標であることを示す。 asvの逆のサンプルを検出するこの方向のごく初期の作業であるため、比較のための信頼できるベースラインは存在しない。 そこでまず、検出のためにGriffin-Limを実装し、ベースラインとして設定します。 提案手法は効果的な検出性能を達成し,すべての設定においてベースラインを上回っている。 また,検出フレームワークで採用されているニューラルボコーダがデータセットに依存しないことも示す。 私たちのコードは、将来的な比較作業のためにオープンソースにされます。

Automatic speaker verification (ASV), one of the most important technology for biometric identification, has been widely adopted in security-critic applications, including transaction authentication and access control. However, previous works have shown ASV is seriously vulnerable to recently emerged adversarial attacks, yet effective countermeasures against them are limited. In this paper, we adopt neural vocoders to spot adversarial samples for ASV. We use neural vocoder to re-synthesize audio and find that the difference between the ASV scores for the original and re-synthesized audio is a good indicator to distinguish genuine and adversarial samples. As the very beginning work in this direction of detecting adversarial samples for ASV, there is no reliable baseline for comparison. So we first implement Griffin-Lim for detection and set it as our baseline. The proposed method accomplishes effective detection performance and outperforms all the baselines in all the settings. We also show the neural vocoder adopted in the detection framework is dataset independent. Our codes will be made open-source for future works to do comparison.
翻訳日:2021-07-02 21:06:25 公開日:2021-07-01
# (参考訳) 頭字語曖昧さ解消のためのドメイン非依存・特定知識の活用 [全文訳有]

Leveraging Domain Agnostic and Specific Knowledge for Acronym Disambiguation ( http://arxiv.org/abs/2107.00316v1 )

ライセンス: CC BY 4.0
Qiwei Zhong, Guanxiong Zeng, Danqing Zhu, Yang Zhang, Wangli Lin, Ben Chen, Jiayu Tang(参考訳) 科学的文書理解の障害は、長い技術用語の短縮形である頭字語を広範囲に使用することである。 acronym disambiguationは、与えられたテキストの中で曖昧な頭文字の正しい意味を見つけることを目的としている。 近年、単語埋め込みとディープラーニングアーキテクチャを組み込むことが試みられ、この課題に大きな影響を与えた。 一般的なドメインでは,クラウドソーシングによって得られる大規模コーパスのおかげで,微粒な事前学習言語モデルが発達している。 しかし、これらのドメインに依存しない知識に基づくモデルは、科学領域に直接適用した場合に不十分な性能を達成する可能性がある。 さらに、大規模で高品質な注釈付きデータを取得し、科学領域における高度な意味を表現することは困難でコストがかかる。 本稿では、ドメイン非依存と特定の知識の両方を考慮し、hdBERTという階層的デュアルパスBERT法を提案し、頭字不明瞭化のための一般的な細粒度および高レベル特定表現を捉える。 まず、文脈に基づく事前学習モデルRoBERTaとSciBERTがこれら2種類の知識の符号化に精通している。 第二に、多重層パーセプトロンは二重パス表現を同時に統合し、予測を出力するように考案されている。 62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。 実験の結果,提案手法は各種評価指標の最先端手法よりも優れていた。 特に、そのマクロf1は93.73%に達する。

An obstacle to scientific document understanding is the extensive use of acronyms which are shortened forms of long technical phrases. Acronym disambiguation aims to find the correct meaning of an ambiguous acronym in a given text. Recent efforts attempted to incorporate word embeddings and deep learning architectures, and achieved significant effects in this task. In general domains, kinds of fine-grained pretrained language models have sprung up, thanks to the largescale corpora which can usually be obtained through crowdsourcing. However, these models based on domain agnostic knowledge might achieve insufficient performance when directly applied to the scientific domain. Moreover, obtaining large-scale high-quality annotated data and representing high-level semantics in the scientific domain is challenging and expensive. In this paper, we consider both the domain agnostic and specific knowledge, and propose a Hierarchical Dual-path BERT method coined hdBERT to capture the general fine-grained and high-level specific representations for acronym disambiguation. First, the context-based pretrained models, RoBERTa and SciBERT, are elaborately involved in encoding these two kinds of knowledge respectively. Second, multiple layer perceptron is devised to integrate the dualpath representations simultaneously and outputs the prediction. With a widely adopted SciAD dataset contained 62,441 sentences, we investigate the effectiveness of hdBERT. The experimental results exhibit that the proposed approach outperforms state-of-the-art methods among various evaluation metrics. Specifically, its macro F1 achieves 93.73%.
翻訳日:2021-07-02 20:49:55 公開日:2021-07-01
# (参考訳) 日英翻訳のためのゼロ名詞データ拡張 [全文訳有]

Zero-pronoun Data Augmentation for Japanese-to-English Translation ( http://arxiv.org/abs/2107.00318v1 )

ライセンス: CC BY 4.0
Ryokan Ri, Toshiaki Nakazawa and Yoshimasa Tsuruoka(参考訳) 日本語訳では、日本語のゼロ代名詞は英語文のターゲット側で対応する代名詞を推論・生成する必要があるため、難題となる。 しかしながら、ゼロ代名詞を完全に解決するには、しばしば談話の文脈を必要とするが、ある文の中の局所的な文脈はゼロ代名詞の推論の手がかりを与える。 本研究では,局所文脈とゼロ代名詞の相関関係を学習するために,翻訳モデルに付加的な訓練信号を提供するデータ拡張手法を提案する。 提案手法は,会話領域における機械翻訳実験によるゼロ代名詞翻訳の精度を大幅に向上することを示す。

For Japanese-to-English translation, zero pronouns in Japanese pose a challenge, since the model needs to infer and produce the corresponding pronoun in the target side of the English sentence. However, although fully resolving zero pronouns often needs discourse context, in some cases, the local context within a sentence gives clues to the inference of the zero pronoun. In this study, we propose a data augmentation method that provides additional training signals for the translation model to learn correlations between local context and zero pronouns. We show that the proposed method significantly improves the accuracy of zero pronoun translation with machine translation experiments in the conversational domain.
翻訳日:2021-07-02 20:36:13 公開日:2021-07-01
# (参考訳) マシンビジョンに向けたエンドツーエンド圧縮:ネットワークアーキテクチャ設計と最適化 [全文訳有]

End-to-end Compression Towards Machine Vision: Network Architecture Design and Optimization ( http://arxiv.org/abs/2107.00328v1 )

ライセンス: CC BY 4.0
Shurun Wang, Zhao Wang, Shiqi Wang, Yan Ye(参考訳) 視覚信号圧縮の研究には長い歴史がある。 ディープラーニングによって、近年、エキサイティングな進歩が生まれました。 圧縮性能は向上するが、既存のエンドツーエンド圧縮アルゴリズムは、レート歪みの最適化の観点からも、信号品質の向上を目的として設計されている。 本稿では,ネットワークアーキテクチャの設計と最適化により,マシンビジョンへの圧縮性がさらに向上することを示す。 本稿では,機械ビジョンに対するエンドツーエンド圧縮のための逆ボトルネック構造を提案する。 さらに,最適化プロセスに解析精度を組み込むことで最適化の能力を追求し,その最適性を一般化したレート・精度最適化により反復的に検討する。 我々は,物体検出を機械ビジョンに対するエンドツーエンド圧縮のショーケースとして使用し,提案手法が解析性能において有意なBDレート削減を実現することを示す。 さらに,信号レベル再構成の実現により,他の機械ビジョンタスクに対して,このスキームの約束が強固に一般化できることが示される。

The research of visual signal compression has a long history. Fueled by deep learning, exciting progress has been made recently. Despite achieving better compression performance, existing end-to-end compression algorithms are still designed towards better signal quality in terms of rate-distortion optimization. In this paper, we show that the design and optimization of network architecture could be further improved for compression towards machine vision. We propose an inverted bottleneck structure for end-to-end compression towards machine vision, which specifically accounts for efficient representation of the semantic information. Moreover, we quest the capability of optimization by incorporating the analytics accuracy into the optimization process, and the optimality is further explored with generalized rate-accuracy optimization in an iterative manner. We use object detection as a showcase for end-to-end compression towards machine vision, and extensive experiments show that the proposed scheme achieves significant BD-rate savings in terms of analysis performance. Moreover, the promise of the scheme is also demonstrated with strong generalization capability towards other machine vision tasks, due to the enabling of signal-level reconstruction.
翻訳日:2021-07-02 20:29:35 公開日:2021-07-01
# (参考訳) multilingual central repository: wordnetsを開発するためのクロスリンガルフレームワーク [全文訳有]

Multilingual Central Repository: a Cross-lingual Framework for Developing Wordnets ( http://arxiv.org/abs/2107.00333v1 )

ライセンス: CC BY 4.0
Xavier G\'omez Guinovart, Itziar Gonzalez-Dios, Antoni Oliver, German Rigau(参考訳) 言語処理には言語リソースが必要ですが、その構築にはコストがかかり、さまざまな分野の研究が必要で、常に更新が必要です。 本稿では,バスク語,カタルーニャ語,英語,ガリシア語,ポルトガル語,スペイン語,および以下のオントロジー(ベースコンセプト,トップオントロジー,WordNetドメイン,Suggested Upper Merged Ontology)を含む多言語知識基盤であるMCR(Multilingual Central Repository)の開発に使用されるクロスリンガルフレームワークについて述べる。 我々は、MCR、2017年の状態、および開発ツールについて紹介する。

Language resources are necessary for language processing,but building them is costly, involves many researches from different areas and needs constant updating. In this paper, we describe the crosslingual framework used for developing the Multilingual Central Repository (MCR), a multilingual knowledge base that includes wordnets of Basque, Catalan, English, Galician, Portuguese, Spanish and the following ontologies: Base Concepts, Top Ontology, WordNet Domains and Suggested Upper Merged Ontology. We present the story of MCR, its state in 2017 and the developed tools.
翻訳日:2021-07-02 20:12:44 公開日:2021-07-01
# (参考訳) プレースホルダー翻訳におけるターゲット側インフレクションのモデル化 [全文訳有]

Modeling Target-side Inflection in Placeholder Translation ( http://arxiv.org/abs/2107.00334v1 )

ライセンス: CC BY 4.0
Ryokan Ri, Toshiaki Nakazawa and Yoshimasa Tsuruoka(参考訳) プレースホルダー翻訳システムは、特定のフレーズが出力文でどのように翻訳されるかを指定することができる。 システムは特別なプレースホルダートークンを出力するように訓練され、ユーザ指定用語がプレースホルダートークンの文脈自由置換によって出力に注入される。 しかし、この手法は、翻訳前に未知の出力の文脈に従って特定の項を屈折させる必要がある場合が多いため、非文法的な文をもたらす可能性がある。 この問題に対処するために,出力文の文法的構成に応じて特定の単語を入力できる新しいプレースホルダー翻訳法を提案する。 ユーザが指定した単語の補題と単語レベルのデコーダから生成された単語を取り込んで正しい補題の屈折形を出力する文字レベルデコーダを用いてシーケンスツーシーケンスアーキテクチャを拡張する。 本手法は,日本語から英語への翻訳タスクを科学書体領域で評価し,他の同等のモデルよりも適切な形式に特定の用語を組み込むことができることを示した。

Placeholder translation systems enable the users to specify how a specific phrase is translated in the output sentence. The system is trained to output special placeholder tokens, and the user-specified term is injected into the output through the context-free replacement of the placeholder token. However, this approach could result in ungrammatical sentences because it is often the case that the specified term needs to be inflected according to the context of the output, which is unknown before the translation. To address this problem, we propose a novel method of placeholder translation that can inflect specified terms according to the grammatical construction of the output sentence. We extend the sequence-to-sequence architecture with a character-level decoder that takes the lemma of a user-specified term and the words generated from the word-level decoder to output the correct inflected form of the lemma. We evaluate our approach with a Japanese-to-English translation task in the scientific writing domain, and show that our model can incorporate specified terms in the correct form more successfully than other comparable models.
翻訳日:2021-07-02 20:02:17 公開日:2021-07-01
# (参考訳) ドローンの群れが不均一な範囲でパトロール [全文訳有]

Drone swarm patrolling with uneven coverage requirements ( http://arxiv.org/abs/2107.00362v1 )

ライセンス: CC BY 4.0
Claudio Piciarelli and Gian Luca Foresti(参考訳) ドローンの群れは、監視、環境モニタリング、アクセス不能な地域での捜索や救助など、多くの実用的なシナリオでますます使われています。 一つのドローンを人間のオペレーターがガイドできるが、複数のドローン群を配置するには、タスク指向の自動制御のための適切なアルゴリズムが必要である。 本稿では,ドローン搭載カメラセンサによる視覚カバレッジの最適化に着目する。 特に, 環境の異なる部分には, カバー範囲の優先順位が異なるため, カバー範囲の要件が不均一である場合を考える。 これらのカバレッジ要件を関連性マップでモデル化し,swarmをガイドする深層強化学習アルゴリズムを提案する。 論文はまず、1つのドローンの適切な学習モデルを定義し、その後、欲深い戦略と協力的な戦略を持つ複数のドローンのケースに拡張する。 実験の結果,提案手法の性能が,標準的なパトロールアルゴリズムと比較された。

Swarms of drones are being more and more used in many practical scenarios, such as surveillance, environmental monitoring, search and rescue in hardly-accessible areas, etc.. While a single drone can be guided by a human operator, the deployment of a swarm of multiple drones requires proper algorithms for automatic task-oriented control. In this paper, we focus on visual coverage optimization with drone-mounted camera sensors. In particular, we consider the specific case in which the coverage requirements are uneven, meaning that different parts of the environment have different coverage priorities. We model these coverage requirements with relevance maps and propose a deep reinforcement learning algorithm to guide the swarm. The paper first defines a proper learning model for a single drone, and then extends it to the case of multiple drones both with greedy and cooperative strategies. Experimental results show the performance of the proposed method, also compared with a standard patrolling algorithm.
翻訳日:2021-07-02 19:48:39 公開日:2021-07-01
# (参考訳) 回帰問題に対する well-calibrated prediction intervals

Well-calibrated prediction intervals for regression problems ( http://arxiv.org/abs/2107.00363v1 )

ライセンス: CC BY 4.0
Nicolas Dewolf, Bernard De Baets, Willem Waegeman(参考訳) 過去数十年間、ベイズ法、アンサンブル法、直接区間推定法、共形予測法など、回帰設定における予測間隔を推定するための様々な手法が提案されてきた。 生成された予測間隔は、過度に保守的になることなく、事前に定義されたカバレッジレベルを持つべきである。 本稿では,概念的,実験的な観点から,上記の4つの手法のクラスを概観する。 さまざまなドメインのベンチマークデータセットの結果は、あるデータセットから別のデータへのパフォーマンスの大きな変動を浮き彫りにしている。 これらの観察は、あるクラスのメソッドに固有の特定の仮定の違反に起因する可能性がある。 キャリブレーションステップを使わずに,不適切な結果をもたらす手法の一般的なキャリブレーション手順として,共形予測をどのように利用できるかを説明する。

Over the last few decades, various methods have been proposed for estimating prediction intervals in regression settings, including Bayesian methods, ensemble methods, direct interval estimation methods and conformal prediction methods. An important issue is the calibration of these methods: the generated prediction intervals should have a predefined coverage level, without being overly conservative. In this work, we review the above four classes of methods from a conceptual and experimental point of view. Results on benchmark data sets from various domains highlight large fluctuations in performance from one data set to another. These observations can be attributed to the violation of certain assumptions that are inherent to some classes of methods. We illustrate how conformal prediction can be used as a general calibration procedure for methods that deliver poor results without a calibration step.
翻訳日:2021-07-02 19:30:40 公開日:2021-07-01
# (参考訳) ボトルネック付き無限広ニューラルネットワークにおける入射加速と特徴学習 [全文訳有]

Implicit Acceleration and Feature Learning inInfinitely Wide Neural Networks with Bottlenecks ( http://arxiv.org/abs/2107.00364v1 )

ライセンス: CC0 1.0
Etai Littwin, Omid Saremi, Shuangfei Zhai, Vimal Thilak, Hanlin Goh, Joshua M. Susskind, Greg Yang(参考訳) 有限サイズのボトルネックを用いて無限大ニューラルネットワークの学習ダイナミクスを分析する。 ニューラルネットワークカーネルの限界とは異なり、無限幅ネットワークにおけるボトルネックは、ボトルネック表現におけるデータ依存的特徴学習を遅くする。 無限ネットワークにおける単一ボトルネックは、純粋に無限ネットワークと比較してトレーニングを劇的に加速し、全体的なパフォーマンスが向上することを示す。 ボトルネックの加速度効果を理論的に理解できる無限大のディープリニアモデルと類似性を引き出すことで加速度現象を考察する。

We analyze the learning dynamics of infinitely wide neural networks with a finite sized bottle-neck. Unlike the neural tangent kernel limit, a bottleneck in an otherwise infinite width network al-lows data dependent feature learning in its bottle-neck representation. We empirically show that a single bottleneck in infinite networks dramatically accelerates training when compared to purely in-finite networks, with an improved overall performance. We discuss the acceleration phenomena by drawing similarities to infinitely wide deep linear models, where the acceleration effect of a bottleneck can be understood theoretically.
翻訳日:2021-07-02 19:29:42 公開日:2021-07-01
# (参考訳) アンサンブル学習に基づく機械読解システムの一般化能力向上手法

Ensemble Learning-Based Approach for Improving Generalization Capability of Machine Reading Comprehension Systems ( http://arxiv.org/abs/2107.00368v1 )

ライセンス: CC BY 4.0
Razieh Baradaran and Hossein Amirkhani(参考訳) Machine Reading Comprehension (MRC)は、近年、多くの開発が成功した自然言語処理の活発な分野である。 分布精度が高いにもかかわらず、これらのモデルには2つの問題がある。 一般化問題に取り組むためのいくつかのアプローチが提示されているが、それらは高い、耐え難い訓練コストを持っている。 本稿では,大規模モデルを再学習することなく,MCCシステムの一般化を改善するためのアンサンブル学習手法の効果について検討する。 異なるデータセット上で異なる構造を持つベースモデルを別々にトレーニングした後、確率的かつ非確率的な設定で重み付けと積み重ねのアプローチを用いてアンサンブルする。 ヘテロジニアス, 同質, ハイブリッドの3つの構成を, 8つのデータセットと6つの最先端モデルで検討した。 アンサンブル法の有効性において重要な要素を同定する。 また,データ分布シフトに対して,アンサンブルモデルと微調整モデルのロバスト性を比較する。 実験結果は,mrcシステムの分散精度を向上させるためのアンサンブル手法の有効性とロバスト性を示す。

Machine Reading Comprehension (MRC) is an active field in natural language processing with many successful developed models in recent years. Despite their high in-distribution accuracy, these models suffer from two issues: high training cost and low out-of-distribution accuracy. Even though some approaches have been presented to tackle the generalization problem, they have high, intolerable training costs. In this paper, we investigate the effect of ensemble learning approach to improve generalization of MRC systems without retraining a big model. After separately training the base models with different structures on different datasets, they are ensembled using weighting and stacking approaches in probabilistic and non-probabilistic settings. Three configurations are investigated including heterogeneous, homogeneous, and hybrid on eight datasets and six state-of-the-art models. We identify the important factors in the effectiveness of ensemble methods. Also, we compare the robustness of ensemble and fine-tuned models against data distribution shifts. The experimental results show the effectiveness and robustness of the ensemble approach in improving the out-of-distribution accuracy of MRC systems, especially when the base models are similar in accuracies.
翻訳日:2021-07-02 19:07:54 公開日:2021-07-01
# (参考訳) Sparse GCAとThresholded Gradient Descent

Sparse GCA and Thresholded Gradient Descent ( http://arxiv.org/abs/2107.00371v1 )

ライセンス: CC BY 4.0
Sheng Gao, Zongming Ma(参考訳) 一般化相関解析(GCA)は、複数のデータセットにわたる線形関係を明らかにすることを目的としている。 2つのデータセット用に設計された正準相関解析を一般化する。 本研究では,データ中に多元的相関タプルが存在する場合のスパースGAAについて検討し,負荷行列の非ゼロ行数は少ない。 特別に相関行列のスパースCCAとスパースPCAを含む。 まず,正規化制約の慎重に選択することで,一般固有値問題として正規化gcaを一般化した。 サンプル最適化問題のラグランジアン形式に基づいて,GCA負荷ベクトルと行列を高次元で推定するためのしきい値勾配降下アルゴリズムを提案する。 適切な初期化を伴うアルゴリズムによって生成された推定誤差境界を求める。 また,様々な合成データセット上でアルゴリズムの長所を実演する。

Generalized correlation analysis (GCA) is concerned with uncovering linear relationships across multiple datasets. It generalizes canonical correlation analysis that is designed for two datasets. We study sparse GCA when there are potentially multiple generalized correlation tuples in data and the loading matrix has a small number of nonzero rows. It includes sparse CCA and sparse PCA of correlation matrices as special cases. We first formulate sparse GCA as generalized eigenvalue problems at both population and sample levels via a careful choice of normalization constraints. Based on a Lagrangian form of the sample optimization problem, we propose a thresholded gradient descent algorithm for estimating GCA loading vectors and matrices in high dimensions. We derive tight estimation error bounds for estimators generated by the algorithm with proper initialization. We also demonstrate the prowess of the algorithm on a number of synthetic datasets.
翻訳日:2021-07-02 19:06:58 公開日:2021-07-01
# (参考訳) SLSアルゴリズムにおけるLong-Tailsのエビデンス [全文訳有]

Evidence for Long-Tails in SLS Algorithms ( http://arxiv.org/abs/2107.00378v1 )

ライセンス: CC BY 4.0
Florian W\"orz and Jan-Hendrik Lorenz(参考訳) 確率的局所探索(SLS)は命題論理の満足度問題を解くために成功したパラダイムである。 この領域における最近の開発は、元のインスタンスではなく、修正されながら論理的に等価なインスタンスを解決することである。 この技術は,最先端のSLS解法の性能向上に有効であることが実証された。 現在、この修正手法がSLSソルバのランタイムにどのように影響するかは理解されていない。 したがって、この修正過程をモデル化し、論理的に等価な公式の硬さを実証的に分析する。 私たちの結果は2倍です。 まず、修正プロセスがランダムなプロセスとして扱われる場合、対数正規分布は、硬さを完全に特徴づけ、硬さが長いことを暗示する。 これにより、追加の再起動機構を実装することにより、修正技術をさらに改善することができる。 したがって、この長尾特性を示す全てのアルゴリズムが再起動によってさらに改善できることを理論的に証明する。 これにより、この改良技術を用いたSATソルバを全て強化することができる。

Stochastic local search (SLS) is a successful paradigm for solving the satisfiability problem of propositional logic. A recent development in this area involves solving not the original instance, but a modified, yet logically equivalent one. Empirically, this technique was found to be promising as it improves the performance of state-of-the-art SLS solvers. Currently, there is only a shallow understanding of how this modification technique affects the runtimes of SLS solvers. Thus, we model this modification process and conduct an empirical analysis of the hardness of logically equivalent formulas. Our results are twofold. First, if the modification process is treated as a random process, a lognormal distribution perfectly characterizes the hardness; implying that the hardness is long-tailed. This means that the modification technique can be further improved by implementing an additional restart mechanism. Thus, as a second contribution, we theoretically prove that all algorithms exhibiting this long-tail property can be further improved by restarts. Consequently, all SAT solvers employing this modification technique can be enhanced.
翻訳日:2021-07-02 19:05:54 公開日:2021-07-01
# (参考訳) SSC:大規模位置認識のための意味的スキャンコンテキスト [全文訳有]

SSC: Semantic Scan Context for Large-Scale Place Recognition ( http://arxiv.org/abs/2107.00382v1 )

ライセンス: CC BY 4.0
Lin Li, Xin Kong, Xiangrui Zhao, Tianxin Huang and Yong Liu(参考訳) 位置認識はSLAMシステムに累積誤差を修正する機能を与える。 テクスチャが豊富な画像とは異なり、ポイントクラウドはほとんど純粋に幾何学的な情報であり、ポイントクラウドに基づく場所認識が難しい。 既存の作品は通常、座標、正規値、反射強度などの低レベルな特徴を、シーンを表現するローカルまたはグローバルディスクリプタとしてエンコードする。 さらに、ディスクリプタのマッチング時にポイントクラウド間の変換を無視することが多い。 既存の手法と異なり、ディスクリプタの表現能力を改善するために、高レベルな機能、すなわちセマンティクスの使用を探求する。 また,記述子をマッチングする場合,点雲間の変換を補正して精度を向上させる。 具体的には,シーンをより効果的に表現するための意味情報を探索する,新しいグローバル記述子semantic scan contextを提案する。 また,2段階のグローバル・セマンティクスicpを用いて,ポイント・クラウドの調整に用いる3次元ポーズ(x,y,yaw)を取得し,マッチング性能を向上させる。 KITTIデータセットに対する実験により、我々の手法は最先端の手法よりも大きなマージンで優れていることが示された。 私たちのコードは、https://github.com/l ilin-hitcrt/sscで利用可能です。

Place recognition gives a SLAM system the ability to correct cumulative errors. Unlike images that contain rich texture features, point clouds are almost pure geometric information which makes place recognition based on point clouds challenging. Existing works usually encode low-level features such as coordinate, normal, reflection intensity, etc., as local or global descriptors to represent scenes. Besides, they often ignore the translation between point clouds when matching descriptors. Different from most existing methods, we explore the use of high-level features, namely semantics, to improve the descriptor's representation ability. Also, when matching descriptors, we try to correct the translation between point clouds to improve accuracy. Concretely, we propose a novel global descriptor, Semantic Scan Context, which explores semantic information to represent scenes more effectively. We also present a two-step global semantic ICP to obtain the 3D pose (x, y, yaw) used to align the point cloud to improve matching performance. Our experiments on the KITTI dataset show that our approach outperforms the state-of-the-art methods with a large margin. Our code is available at: https://github.com/l ilin-hitcrt/SSC.
翻訳日:2021-07-02 18:49:17 公開日:2021-07-01
# (参考訳) multicite: 現実的な引用をモデリングするには、シングルセンテンスな単一ラベル設定を超える必要がある [全文訳有]

MultiCite: Modeling realistic citations requires moving beyond the single-sentence single-label setting ( http://arxiv.org/abs/2107.00414v1 )

ライセンス: CC BY 4.0
Anne Lauscher, Brandon Ko, Bailey Kuhl, Sophie Johnson, David Jurgens, Arman Cohan, Kyle Lo(参考訳) Citation context analysis (CCA) は、自然言語処理における重要な課題であり、研究者が互いの作業についてどのように、なぜ議論するのかを研究する。 何十年にもわたって研究されてきたにもかかわらず、CCAの伝統的なフレームワークは、著者の引用方法に関する過度に単純化された仮定に大きく依存しており、いくつかの重要な現象を無視している。 例えば、学術論文には、複数の文にまたがって複数の意図を同時に表現する引用作品のリッチな議論が含まれていることが多い。 しかし、CCAは通常、単一文のシングルラベル分類タスクとしてアプローチされており、既存のデータセットはこの興味深い言説を捉えていない。 本研究では,文書レベルのコンテキスト抽出とラベル付けタスクとしてCCAの新しいフレームワークを提案することで,この研究ギャップに対処する。 我々は1200以上の計算言語学論文から12,653の引用コンテキストからなる新しいデータセットであるmulticiteをリリースする。 専門家による引用コンテキストの最大コレクションであるだけでなく、multiciteはフルペーパーのテキストの中にマルチセンテンス、マルチラベルの引用コンテキストを含んでいる。 最後に、我々のデータセットが、古典的なCCAモデルのトレーニングに利用できる一方で、固定幅テキスト分類以上の新しいタイプのCCAモデルの開発をサポートすることを実証する。 コードとデータセットはhttps://github.com/a llenai/multiciteでリリースします。

Citation context analysis (CCA) is an important task in natural language processing that studies how and why scholars discuss each others' work. Despite being studied for decades, traditional frameworks for CCA have largely relied on overly-simplistic assumptions of how authors cite, which ignore several important phenomena. For instance, scholarly papers often contain rich discussions of cited work that span multiple sentences and express multiple intents concurrently. Yet, CCA is typically approached as a single-sentence, single-label classification task, and thus existing datasets fail to capture this interesting discourse. In our work, we address this research gap by proposing a novel framework for CCA as a document-level context extraction and labeling task. We release MultiCite, a new dataset of 12,653 citation contexts from over 1,200 computational linguistics papers. Not only is it the largest collection of expert-annotated citation contexts to-date, MultiCite contains multi-sentence, multi-label citation contexts within full paper texts. Finally, we demonstrate how our dataset, while still usable for training classic CCA models, also supports the development of new types of models for CCA beyond fixed-width text classification. We release our code and dataset at https://github.com/a llenai/multicite.
翻訳日:2021-07-02 18:33:27 公開日:2021-07-01
# (参考訳) CBNetV2:オブジェクト検出のための複合バックボーンネットワークアーキテクチャ [全文訳有]

CBNetV2: A Composite Backbone Network Architecture for Object Detection ( http://arxiv.org/abs/2107.00420v1 )

ライセンス: CC0 1.0
Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibing Ling(参考訳) 現代のトップパフォーマンスオブジェクト検出器はバックボーンネットワークに大きく依存しており、その進歩はより効率的なネットワーク構造を探索することで一貫した性能向上をもたらす。 しかし、新しいバックボーンを設計してimagenetで事前トレーニングするには大量の計算リソースが必要となり、より良い検出性能を得るのにコストがかかる。 本稿では,既存のオープンソースの学習済みバックボーンの構成を組み込んだ新しいバックボーンネットワークCBNetV2を提案する。 特にCBNetV2アーキテクチャは、複合接続を介して接続される複数の同一のバックボーンをグループ化する。 また、CBNetベースの検出器のためのAssistant Supervisionによるより良いトレーニング戦略を提案する。 CBNetV2は追加の事前訓練がなければ、1段と2段の検出器を含むメインストリームの検出器とアンカーベースとアンカーフリーベースの検出器に組み込むことができ、COCOのベースライン上での性能は3.0%以上向上する。 また、複合バックボーンは、手動ベースやNASベース、CNNベースやTransformerベースなど、トレーニング済みのより広いネットワークよりも効率的でリソースフレンドリであることを示す強力な証拠を提供する。 特に、シングルモデルとシングルスケールのテストでは、HTC Dual-Swin-Bが58.6%のボックスAPと51.1%のマスクAPをCOCOテストデブで達成しています。これは最先端の結果(57.7%のボックスAPと50.2%のマスクAP)よりもはるかに優れています。

Modern top-performing object detectors depend heavily on backbone networks, whose advances bring consistent performance gains through exploring more effective network structures. However, designing or searching for a new backbone and pre-training it on ImageNet may require a large number of computational resources, making it costly to obtain better detection performance. In this paper, we propose a novel backbone network, namely CBNetV2, by constructing compositions of existing open-sourced pre-trained backbones. In particular, CBNetV2 architecture groups multiple identical backbones, which are connected through composite connections. We also propose a better training strategy with the Assistant Supervision for CBNet-based detectors. Without additional pre-training, CBNetV2 can be integrated into mainstream detectors, including one-stage and two-stage detectors, as well as anchor-based and anchor-free-based ones, and significantly improve their performance by more than 3.0% AP over the baseline on COCO. Also, experiments provide strong evidence showing that composite backbones are more efficient and resource-friendly than pre-trained wider and deeper networks, including manual-based and NAS-based, as well as CNN-based and Transformer-based ones. Particularly, with single-model and single-scale testing, our HTC Dual-Swin-B achieves 58.6% box AP and 51.1% mask AP on COCO test-dev, which is significantly better than the state-of-the-art result (i.e., 57.7% box AP and 50.2% mask AP) achieved by a stronger baseline HTC++ with a larger backbone Swin-L. Code will be released at https://github.com/V DIGPKU/CBNetV2.
翻訳日:2021-07-02 18:15:15 公開日:2021-07-01
# (参考訳) Overhead-MNIST:画像分類のための機械学習ベースライン [全文訳有]

Overhead-MNIST: Machine Learning Baselines for Image Classification ( http://arxiv.org/abs/2107.00436v1 )

ライセンス: CC BY 4.0
Erik Larsen, David Noever, Korey MacVittie and John Lilly(参考訳) 23の機械学習アルゴリズムをトレーニングして、ベースライン比較メトリクスの確立と、ミッションクリティカルな衛星画像システムへの埋め込みに適した画像分類アルゴリズムの選択を行った。 Overhead-MNISTデータセットは、機械学習の文献に見られる、ユビキタスなMNISTの手書き桁に似たスタイルの衛星画像の集合である。 キャットブースト分類器、光勾配ブースティングマシン、および極勾配ブースティングモデルは、ピカレット一般比較において最も高い精度、曲線下領域(auc)、およびf1得点を生み出した。 別々の評価では、深い畳み込みアーキテクチャが最も有望であった。 我々は、エッジ展開可能性と将来のパフォーマンス向上のためのベースラインとして、全体的なベストパフォーマンスアルゴリズムの結果を示す: 畳み込みニューラルネットワーク(CNN)は、目に見えないテストデータに対して0.965のカテゴリ精度をスコア付けする。

Twenty-three machine learning algorithms were trained then scored to establish baseline comparison metrics and to select an image classification algorithm worthy of embedding into mission-critical satellite imaging systems. The Overhead-MNIST dataset is a collection of satellite images similar in style to the ubiquitous MNIST hand-written digits found in the machine learning literature. The CatBoost classifier, Light Gradient Boosting Machine, and Extreme Gradient Boosting models produced the highest accuracies, Areas Under the Curve (AUC), and F1 scores in a PyCaret general comparison. Separate evaluations showed that a deep convolutional architecture was the most promising. We present results for the overall best performing algorithm as a baseline for edge deployability and future performance improvement: a convolutional neural network (CNN) scoring 0.965 categorical accuracy on unseen test data.
翻訳日:2021-07-02 17:52:44 公開日:2021-07-01
# (参考訳) オンラインマルチオブジェクトトラッキングのための検出・追跡関連について [全文訳有]

On the detection-to-track association for online multi-object tracking ( http://arxiv.org/abs/2107.00500v1 )

ライセンス: CC BY 4.0
Xufeng Lin, Chang-Tsun Li, Victor Sanchez, Carsten Maple(参考訳) ディープニューラルネットワークによるオブジェクト検出の最近の進歩により、マルチオブジェクトトラッキング(mot)の研究コミュニティでは、トラッキングバイ検出パラダイムが普及している。 出現情報はトラッキング・バイ・検出パラダイムの中核にある検出・追跡関連において重要な役割を担っていることが長年に渡り知られている。 既存のほとんどの研究は、検出とトラック間の外観距離を考慮しているが、トラック内の歴史的外観距離の記録によって示唆される統計情報を無視しており、検出が2つ以上のトラックと類似した距離を持つ場合に特に有用である。 本研究では,トラックの歴史的外観距離をインクリメンタルなガウス混合モデル(IGMM)でモデル化するハイブリッドトラックアソシエーション(HTA)アルゴリズムを提案する。 3つのMOTベンチマークによる実験結果から,HTAが目標識別性能を向上し,追跡速度に多少の妥協を与えることを確認した。 さらに、多くの最先端トラッカーと比較して、HTAを装備したDeepSORTトラッカーは、トラッキング品質と速度のバランスの点で、より良いあるいは同等のパフォーマンスを達成する。

Driven by recent advances in object detection with deep neural networks, the tracking-by-detectio n paradigm has gained increasing prevalence in the research community of multi-object tracking (MOT). It has long been known that appearance information plays an essential role in the detection-to-track association, which lies at the core of the tracking-by-detectio n paradigm. While most existing works consider the appearance distances between the detections and the tracks, they ignore the statistical information implied by the historical appearance distance records in the tracks, which can be particularly useful when a detection has similar distances with two or more tracks. In this work, we propose a hybrid track association (HTA) algorithm that models the historical appearance distances of a track with an incremental Gaussian mixture model (IGMM) and incorporates the derived statistical information into the calculation of the detection-to-track association cost. Experimental results on three MOT benchmarks confirm that HTA effectively improves the target identification performance with a small compromise to the tracking speed. Additionally, compared to many state-of-the-art trackers, the DeepSORT tracker equipped with HTA achieves better or comparable performance in terms of the balance of tracking quality and speed.
翻訳日:2021-07-02 17:47:33 公開日:2021-07-01
# (参考訳) 固定テキストキーストロークダイナミクスのための機械学習とディープラーニング [全文訳有]

Machine Learning and Deep Learning for Fixed-Text Keystroke Dynamics ( http://arxiv.org/abs/2107.00507v1 )

ライセンス: CC BY 4.0
Han-Chih Chang, Jianwei Li, Ching-Seh Wu, Mark Stamp(参考訳) キーストロークダイナミクスは、キーボード入力の様々な側面を測定することで、ユーザーがタイプする方法を分析するために使用することができる。 キーストロークダイナミクスを利用したユーザ認証と識別の実現可能性を示す以前の研究がある。 本研究では,固定テキストキーストロークをベースとした多種多様な機械学習および深層学習技術について検討し,得られたモデルを最適化し,関連する研究結果と比較する。 xgboost (extreme gradient boosting) と多層パーセプトロン (multi-layer perceptrons, mlp) に基づくモデルが実験でうまく機能していることがわかりました。 私たちの最高のモデルは、以前の比較研究より優れている。

Keystroke dynamics can be used to analyze the way that users type by measuring various aspects of keyboard input. Previous work has demonstrated the feasibility of user authentication and identification utilizing keystroke dynamics. In this research, we consider a wide variety of machine learning and deep learning techniques based on fixed-text keystroke-derived features, we optimize the resulting models, and we compare our results to those obtained in related research. We find that models based on extreme gradient boosting (XGBoost) and multi-layer perceptrons (MLP)perform well in our experiments. Our best models outperform previous comparable research.
翻訳日:2021-07-02 17:30:13 公開日:2021-07-01
# (参考訳) グラフ埋め込みとt-SNEによるArgumentation Graphの可視化 [全文訳有]

Visualising Argumentation Graphs with Graph Embeddings and t-SNE ( http://arxiv.org/abs/2107.00528v1 )

ライセンス: CC BY 4.0
Lars Malmqvist, Tommy Yuan, Suresh Manandhar(参考訳) 本稿では,ディープニューラルネットワーク研究に精通した可視化手法であるt-sneを,複数の異なる手法を用いて生成されたグラフ埋め込みの出力に適用することにより,議論グラフに適用する。 このような視覚化アプローチは議論に役立ち、議論グラフの興味深い構造特性を示し、この分野のさらなる研究の道を開くことを示している。

This paper applies t-SNE, a visualisation technique familiar from Deep Neural Network research to argumentation graphs by applying it to the output of graph embeddings generated using several different methods. It shows that such a visualisation approach can work for argumentation and show interesting structural properties of argumentation graphs, opening up paths for further research in the area.
翻訳日:2021-07-02 17:19:03 公開日:2021-07-01
# (参考訳) 費用に敏感な分類を用いた熱傷患者の公正な払い戻しシステムに向けて [全文訳有]

Towards a fairer reimbursement system for burn patients using cost-sensitive classification ( http://arxiv.org/abs/2107.00531v1 )

ライセンス: CC BY-SA 4.0
Chimdimma Noelyn Onah, Richard Allmendinger, Julia Handl, Ken W. Dunn(参考訳) 英国保健サービス(NHS)におけるPPSの導入により、Health Resource Groups(HRG)と呼ばれる患者グループが創設された。 HRGは、再納のために同様のリソース利用を共有する臨床に類似した患者のグループを特定することを目的としている。 これらのグループは主に専門家のアドバイスに基づいて同定され、滞在時間(LOS)を用いて同質性をチェックする。 しかしながら、バーンケアで遭遇した患者のような複雑な患者にとって、LOSはリソース使用の完全なプロキシではなく、不完全な均一性チェックにつながる。 資源使用量と重大性の均一性を改善するため,データ駆動型モデルと患者レベルのコスト化を提案する。 我々は,さらなる資源利用の尺度を検討するデータ駆動アプローチが,より包括的なモデルに繋がるかどうかを検討する。 特に、リソース使用量(LOSと患者レベルのコスト)と臨床類似性(燃焼の重大さ)に焦点を絞ったセグメンテーションを可能にする重要性とルールの特徴を特定するために、コスト感受性決定ツリーモデルが採用されている。 提案手法は,現在のHRG群と比較して均一性が高い群を同定し,病院医療費の公平な再支払いを可能にした。

The adoption of the Prospective Payment System (PPS) in the UK National Health Service (NHS) has led to the creation of patient groups called Health Resource Groups (HRG). HRGs aim to identify groups of clinically similar patients that share similar resource usage for reimbursement purposes. These groups are predominantly identified based on expert advice, with homogeneity checked using the length of stay (LOS). However, for complex patients such as those encountered in burn care, LOS is not a perfect proxy of resource usage, leading to incomplete homogeneity checks. To improve homogeneity in resource usage and severity, we propose a data-driven model and the inclusion of patient-level costing. We investigate whether a data-driven approach that considers additional measures of resource usage can lead to a more comprehensive model. In particular, a cost-sensitive decision tree model is adopted to identify features of importance and rules that allow for a focused segmentation on resource usage (LOS and patient-level cost) and clinical similarity (severity of burn). The proposed approach identified groups with increased homogeneity compared to the current HRG groups, allowing for a more equitable reimbursement of hospital care costs if adopted.
翻訳日:2021-07-02 17:14:14 公開日:2021-07-01
# (参考訳) 擬似サブゴールを用いたゴールコンディション強化学習 [全文訳有]

Goal-Conditioned Reinforcement Learning with Imagined Subgoals ( http://arxiv.org/abs/2107.00541v1 )

ライセンス: CC BY 4.0
Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev(参考訳) ゴール条件強化学習は、様々なスキルを持つエージェントを提供するが、時間的に拡張された推論を必要とするタスクを解決するのに苦労することが多い。 本研究では,複雑なタスクの学習を容易にするために,想像上のサブゴールを政策学習に組み込むことを提案する。 想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。 この高レベル政策は、値関数を到達可能性指標として、目標の中間状態を予測する。 これらのサブゴールに明示的に到達するためのポリシーは必要ありません。 代わりに、それを使って事前ポリシーを定義し、それをKL制約のポリシー反復スキームに組み込んで学習のスピードアップと規則化を行います。 実証されたサブゴールは、ポリシ学習で使用されるが、テスト期間中には使用されない。 複雑なロボットナビゲーションおよび操作タスクに対するアプローチを評価し,既存の手法を大差で上回っていることを示す。

Goal-conditioned reinforcement learning endows an agent with a large variety of skills, but it often struggles to solve tasks that require more temporally extended reasoning. In this work, we propose to incorporate imagined subgoals into policy learning to facilitate learning of complex tasks. Imagined subgoals are predicted by a separate high-level policy, which is trained simultaneously with the policy and its critic. This high-level policy predicts intermediate states halfway to the goal using the value function as a reachability metric. We don't require the policy to reach these subgoals explicitly. Instead, we use them to define a prior policy, and incorporate this prior into a KL-constrained policy iteration scheme to speed up and regularize learning. Imagined subgoals are used during policy learning, but not during test time, where we only apply the learned policy. We evaluate our approach on complex robotic navigation and manipulation tasks and show that it outperforms existing methods by a large margin.
翻訳日:2021-07-02 17:06:06 公開日:2021-07-01
# (参考訳) インパクト修復:不平等を減らすための最適な介入 [全文訳有]

Impact Remediation: Optimal Interventions to Reduce Inequality ( http://arxiv.org/abs/2107.00593v1 )

ライセンス: CC BY-SA 4.0
Lucius E.J. Bynum, Joshua R. Loftus, Julia Stoyanovich(参考訳) データサイエンスにおける重要な研究機関は、アルゴリズムによる決定の結果、人種や性別といった社会的カテゴリーに対する不公平な差別を考察している。 同時に、アルゴリズムが決定される前にも、現実世界の格差は存在し続ける。 本研究は,因果モデリングと制約付き最適化の領域にもたらされた社会科学とヒューマニズム研究からの洞察を引き合いに出し,既存の現実世界の格差に取り組むための新しいアルゴリズムフレームワークを開発する。 当社の枠組みは「インパクト・リメディエーション・フレームワーク」とよばれるもので、現実世界の格差を計測し、株式の改善や利害関係者の機会獲得に役立つ最適な介入政策を発見することを目的としています。 構造因果モデルにおける社会的カテゴリーの使用に必要な典型的な仮定セットを緩和する,既存の格差に取り組むための分散アプローチを開発した。 本手法は, 対物関係を柔軟に取り入れ, 社会的カテゴリーの性質に関する様々な存在論的仮定と相容れない。 我々は、実世界のケーススタディとインパクト修復を実証し、我々の非凝集アプローチと既存の最先端アプローチを比較し、その構造と政策レコメンデーションの結果を比較した。 最適な政策学習に関するほとんどの研究とは対照的に、不平等の削減にアルゴリズムの力を明確に焦点を絞った、不均衡の低減そのものを目的として探求する。

A significant body of research in the data sciences considers unfair discrimination against social categories such as race or gender that could occur or be amplified as a result of algorithmic decisions. Simultaneously, real-world disparities continue to exist, even before algorithmic decisions are made. In this work, we draw on insights from the social sciences and humanistic studies brought into the realm of causal modeling and constrained optimization, and develop a novel algorithmic framework for tackling pre-existing real-world disparities. The purpose of our framework, which we call the "impact remediation framework," is to measure real-world disparities and discover the optimal intervention policies that could help improve equity or access to opportunity for those who are underserved with respect to an outcome of interest. We develop a disaggregated approach to tackling pre-existing disparities that relaxes the typical set of assumptions required for the use of social categories in structural causal models. Our approach flexibly incorporates counterfactuals and is compatible with various ontological assumptions about the nature of social categories. We demonstrate impact remediation with a real-world case study and compare our disaggregated approach to an existing state-of-the-art approach, comparing its structure and resulting policy recommendations. In contrast to most work on optimal policy learning, we explore disparity reduction itself as an objective, explicitly focusing the power of algorithms on reducing inequality.
翻訳日:2021-07-02 16:43:50 公開日:2021-07-01
# (参考訳) マルチモーダルグラフを用いた生体関係抽出用トランスフォーマーフレームワーク [全文訳有]

Multimodal Graph-based Transformer Framework for Biomedical Relation Extraction ( http://arxiv.org/abs/2107.00596v1 )

ライセンス: CC BY-SA 4.0
Sriram Pingali, Shweta Yadav, Pratik Dutta, and Sriparna Saha(参考訳) 近年のプレトレーニング変圧器モデルの進歩により、様々な生物医学的課題にまたがる効果的なテキストマイニングモデルの開発が進められている。 しかしながら、これらのモデルは主としてテキストデータに基づいて学習され、しばしば文以外のコンテキストをキャプチャするエンティティのドメイン知識を欠いている。 そこで本研究では, 分子構造などの多変量分子の助けを借りて, 実体(タンパク質)に関する多変量生物情報を学習するための新しい枠組みを提案する。 そこで我々は、グラフBERTモデルを用いて、テキストや分子構造情報をエンコードし、様々なモダリティの基盤となる特徴を活用してエンドツーエンドの学習を可能にする、汎用的で最適化されたグラフベースのマルチモーダル学習機構を考案した。 提案するタンパク質相互作用タスクの手法を生体医学コーパスから評価し,提案手法が追加のドメイン特異的モダリティの恩恵を受けることを示した。

The recent advancement of pre-trained Transformer models has propelled the development of effective text mining models across various biomedical tasks. However, these models are primarily learned on the textual data and often lack the domain knowledge of the entities to capture the context beyond the sentence. In this study, we introduced a novel framework that enables the model to learn multi-omnics biological information about entities (proteins) with the help of additional multi-modal cues like molecular structure. Towards this, rather developing modality-specific architectures, we devise a generalized and optimized graph based multi-modal learning mechanism that utilizes the GraphBERT model to encode the textual and molecular structure information and exploit the underlying features of various modalities to enable end-to-end learning. We evaluated our proposed method on ProteinProtein Interaction task from the biomedical corpus, where our proposed generalized approach is observed to be benefited by the additional domain-specific modality.
翻訳日:2021-07-02 16:24:24 公開日:2021-07-01
# (参考訳) 畳み込みニューラルネットワークにおけるシフト不変性向上による音響イベント分類の改善 [全文訳有]

Improving Sound Event Classification by Increasing Shift Invariance in Convolutional Neural Networks ( http://arxiv.org/abs/2107.00623v1 )

ライセンス: CC BY 4.0
Eduardo Fonseca, Andres Ferraro, Xavier Serra(参考訳) 近年の研究では、畳み込みネットワークの一般的なシフト不変性に疑問が持たれ、入力の小さなシフトが出力予測に実質的に影響を及ぼすことが示されている。 本稿では,音事象分類において変化不変性の欠如が問題となるのか,それに対処するメリットがあるのかを問う。 具体的には,cnnのシフト不変性を改善するための2つのプーリング法を評価し,低パスフィルタと入ってくる特徴マップの適応サンプリングに基づいて評価した。 これらのメソッドはcnnのプール層に挿入された小さなアーキテクチャの変更によって実装される。 設計上の変化がFSD50Kデータセットに与える影響を、異なるキャパシティモデルと強い正規化の有無で評価する。 これらの修正は,学習可能なパラメータを追加することなく,すべてのケースで音のイベント分類を一貫して改善し,従来のプール層に代わる魅力的な代替手段となることを示す。 結果は、fsd50k分類ベンチマークで0.541の新しい最先端マップである。

Recent studies have put into question the commonly assumed shift invariance property of convolutional networks, showing that small shifts in the input can affect the output predictions substantially. In this paper, we ask whether lack of shift invariance is a problem in sound event classification, and whether there are benefits in addressing it. Specifically, we evaluate two pooling methods to improve shift invariance in CNNs, based on low-pass filtering and adaptive sampling of incoming feature maps. These methods are implemented via small architectural modifications inserted into the pooling layers of CNNs. We evaluate the effect of these architectural changes on the FSD50K dataset using models of different capacity and in presence of strong regularization. We show that these modifications consistently improve sound event classification in all cases considered, without adding any (or adding very few) trainable parameters, which makes them an appealing alternative to conventional pooling layers. The outcome is a new state-of-the-art mAP of 0.541 on the FSD50K classification benchmark.
翻訳日:2021-07-02 16:15:14 公開日:2021-07-01
# (参考訳) 変分拡散モデル [全文訳有]

Variational Diffusion Models ( http://arxiv.org/abs/2107.00630v1 )

ライセンス: CC BY 4.0
Diederik P. Kingma, Tim Salimans, Ben Poole, Jonathan Ho(参考訳) 拡散に基づく生成モデルは知覚的に印象的な合成能力を示したが、それらは大きな可能性に基づくモデルにもなり得るだろうか? これを肯定的に答え、標準画像密度推定ベンチマークで最先端の確率を求める拡散に基づく生成モデル群を導入する。 本手法は,他の拡散モデルと異なり,他のモデルと協調してノイズスケジュールの効率的な最適化を可能にする。 拡散されたデータの信号対雑音比の観点から,変分下界(VLB)が著しく短い表現に単純化されることを示し,このモデルクラスの理論的理解を改善した。 この知見を用いて,文献に提案されている複数のモデル間の等価性を証明する。 さらに、連続時間VLBは、終端における信号対雑音比を除いて、ノイズスケジュールに不変であることを示す。 これにより、VLB推定器の分散を最小限に抑えるノイズスケジュールを学習し、より高速な最適化を実現することができる。 これらの進歩とアーキテクチャの改善を組み合わせることで、画像密度推定ベンチマークの最先端の可能性を得ることができ、これらのベンチマークを長年支配してきた自己回帰モデルよりも優れている。 さらに、モデルをビットバック圧縮スキームに変換する方法を示し、理論的な最適値に近い無損失圧縮率を示す。

Diffusion-based generative models have demonstrated a capacity for perceptually impressive synthesis, but can they also be great likelihood-based models? We answer this in the affirmative, and introduce a family of diffusion-based generative models that obtain state-of-the-art likelihoods on standard image density estimation benchmarks. Unlike other diffusion-based models, our method allows for efficient optimization of the noise schedule jointly with the rest of the model. We show that the variational lower bound (VLB) simplifies to a remarkably short expression in terms of the signal-to-noise ratio of the diffused data, thereby improving our theoretical understanding of this model class. Using this insight, we prove an equivalence between several models proposed in the literature. In addition, we show that the continuous-time VLB is invariant to the noise schedule, except for the signal-to-noise ratio at its endpoints. This enables us to learn a noise schedule that minimizes the variance of the resulting VLB estimator, leading to faster optimization. Combining these advances with architectural improvements, we obtain state-of-the-art likelihoods on image density estimation benchmarks, outperforming autoregressive models that have dominated these benchmarks for many years, with often significantly faster optimization. In addition, we show how to turn the model into a bits-back compression scheme, and demonstrate lossless compression rates close to the theoretical optimum.
翻訳日:2021-07-02 16:01:53 公開日:2021-07-01
# (参考訳) データ拡張によるConvNetとVision Transformerによる深層Q-Learningの安定化 [全文訳有]

Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation ( http://arxiv.org/abs/2107.00644v1 )

ライセンス: CC BY 4.0
Nicklas Hansen, Hao Su, Xiaolong Wang(参考訳) 強化学習(rl)によって訓練されたエージェントは、視覚観察から直接、ますます困難なタスクを解決することができるが、学習スキルを新しい環境に一般化することは、非常に難しい。 データ拡張の大規模利用は、RLの一般化を改善するための有望な手法であるが、しばしばサンプル効率を低下させ、またばらつきにつながる可能性がある。 本稿では,共通のオフポリシーrlアルゴリズムにおけるデータ拡張を用いる場合の不安定性の原因について検討する。 高分散qターゲットに根ざした2つの問題を特定する。 そこで本研究では,このアルゴリズムを拡張下で安定化するための,単純かつ効果的な手法を提案する。 我々は,deepmind 制御スイートに基づくベンチマーク群とロボット操作タスクを用いて,convnets と vision transformers (vit) を用いた画像ベースrlの広範な実験評価を行う。 本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。 さらに本手法は,ViTベースのアーキテクチャでRLにスケールし,データ拡張が特に重要であることを示す。

While agents trained by Reinforcement Learning (RL) can solve increasingly challenging tasks directly from visual observations, generalizing learned skills to novel environments remains very challenging. Extensive use of data augmentation is a promising technique for improving generalization in RL, but it is often found to decrease sample efficiency and can even lead to divergence. In this paper, we investigate causes of instability when using data augmentation in common off-policy RL algorithms. We identify two problems, both rooted in high-variance Q-targets. Based on our findings, we propose a simple yet effective technique for stabilizing this class of algorithms under augmentation. We perform extensive empirical evaluation of image-based RL using both ConvNets and Vision Transformers (ViT) on a family of benchmarks based on DeepMind Control Suite, as well as in robotic manipulation tasks. Our method greatly improves stability and sample efficiency of ConvNets under augmentation, and achieves generalization results competitive with state-of-the-art methods for image-based RL. We further show that our method scales to RL with ViT-based architectures, and that data augmentation may be especially important in this setting.
翻訳日:2021-07-02 15:35:09 公開日:2021-07-01
# (参考訳) Deep Orthogonal Fusion: 放射線学、病理学、ゲノム学、臨床データを統合したマルチモーダルバイオマーカー発見 [全文訳有]

Deep Orthogonal Fusion: Multimodal Prognostic Biomarker Discovery Integrating Radiology, Pathology, Genomic, and Clinical Data ( http://arxiv.org/abs/2107.00648v1 )

ライセンス: CC BY 4.0
Nathaniel Braman, Jacob W. H. Gordon, Emery T. Goossens, Caleb Willis, Martin C. Stumpe, Jagadish Venkataraman(参考訳) 腫瘍学における臨床的決定には、放射線検査、分子プロファイリング、病理組織学のスライド、臨床因子などのマルチモーダルデータが含まれる。 これらのモダリティが個々に重要であるにもかかわらず、現在まで深層学習の枠組みが組み合わされ、患者の予後を予測することができる。 本稿では,dof(deep orthogonal fusion)モデルを用いて,多彩なマルチモーダルデータからグリオーマ患者の総合生存率 (os) を予測する。 このモデルは、マルチパラメトリックMRI検査、生検に基づくモダリティ(H&Eスライド画像や/またはDNAシークエンシングなど)、臨床変数の情報を総合的なマルチモーダルリスクスコアに組み合わせることを学ぶ。 それぞれの様相から予測埋め込みを学習し、注意を向けたテンソル融合によって結合する。 各モードから得られる情報を最大化するために、構成埋め込みをより補完的なものにインセンティブを与えることでモデル性能を高めるマルチモーダル直交化(MMO)損失項を導入する。 DOFは、グリオーマ患者のC-インデックス0.788 +/-0.067でOSを予測し、C-インデックス0.718 +/-0.064で最高のパフォーマンスである(p=0.023)。 予後モデルは臨床サブセット内でOSによりグリオーマ患者を有意に階層化し,予後診断と分子サブタイプにさらに粒度を付加する。

Clinical decision-making in oncology involves multimodal data such as radiology scans, molecular profiling, histopathology slides, and clinical factors. Despite the importance of these modalities individually, no deep learning framework to date has combined them all to predict patient prognosis. Here, we predict the overall survival (OS) of glioma patients from diverse multimodal data with a Deep Orthogonal Fusion (DOF) model. The model learns to combine information from multiparametric MRI exams, biopsy-based modalities (such as H&E slide images and/or DNA sequencing), and clinical variables into a comprehensive multimodal risk score. Prognostic embeddings from each modality are learned and combined via attention-gated tensor fusion. To maximize the information gleaned from each modality, we introduce a multimodal orthogonalization (MMO) loss term that increases model performance by incentivizing constituent embeddings to be more complementary. DOF predicts OS in glioma patients with a median C-index of 0.788 +/- 0.067, significantly outperforming (p=0.023) the best performing unimodal model with a median C-index of 0.718 +/- 0.064. The prognostic model significantly stratifies glioma patients by OS within clinical subsets, adding further granularity to prognostic clinical grading and molecular subtyping.
翻訳日:2021-07-02 14:57:10 公開日:2021-07-01
# (参考訳) CLIP-It! 言語誘導ビデオ要約 [全文訳有]

CLIP-It! Language-Guided Video Summarization ( http://arxiv.org/abs/2107.00650v1 )

ライセンス: CC BY 4.0
Medhini Narasimhan, Anna Rohrbach, Trevor Darrell(参考訳) 総称的なビデオ要約は、全ストーリーを伝え、最も重要なシーンを特徴付けるビデオの短縮版である。 しかし、ビデオにおけるシーンの重要性はしばしば主観的であり、ユーザーは自然言語を使って要約をカスタマイズし、それらにとって何が重要なのかを特定する選択肢を持つべきである。 さらに、完全自動ジェネリック要約のための既存のモデルは利用可能な言語モデルを利用していない。 この本では、ジェネリックとクエリにフォーカスしたビデオ要約の両方に対処するための単一のフレームワークである clip-it を紹介している。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案し,その重要度とユーザ定義クエリ(クエリ中心要約)や,自動生成された高密度ビデオキャプション(ジェネリックビデオ要約)との相関から,ビデオ中のフレームのスコアリングを学習する。 我々のモデルは、地上監視なしで訓練することで、教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 特に,本手法の強い一般化能力を示すため,転送設定の大幅な改善を実現した。

A generic video summary is an abridged version of a video that conveys the whole story and features the most important scenes. Yet the importance of scenes in a video is often subjective, and users should have the option of customizing the summary by using natural language to specify what is important to them. Further, existing models for fully automatic generic summarization have not exploited available language models, which can serve as an effective prior for saliency. This work introduces CLIP-It, a single framework for addressing both generic and query-focused video summarization, typically approached separately in the literature. We propose a language-guided multimodal transformer that learns to score frames in a video based on their importance relative to one another and their correlation with a user-defined query (for query-focused summarization) or an automatically generated dense video caption (for generic video summarization). Our model can be extended to the unsupervised setting by training without ground-truth supervision. We outperform baselines and prior work by a significant margin on both standard video summarization datasets (TVSum and SumMe) and a query-focused video summarization dataset (QFVS). Particularly, we achieve large improvements in the transfer setting, attesting to our method's strong generalization capabilities.
翻訳日:2021-07-02 14:38:02 公開日:2021-07-01
# 有効確率モデルのためのpsd表現

PSD Representations for Effective Probability Models ( http://arxiv.org/abs/2106.16116v2 )

ライセンス: Link先を確認
Alessandro Rudi and Carlo Ciliberto(参考訳) 確率密度をモデル化する良い方法を見つけることは確率的推論の鍵となる。 理想モデルは、任意の確率を簡潔に近似できると同時に、2つの主演算、すなわち2つのモデル(積則)の乗算と確率変数(和則)の部分集合に対する辺数化とを両立させることができる。 本研究では,最近提案された非負関数に対する正半定義(psd)モデルが,この目的に特に適合することを示す。 特に,PSDモデルの近似と一般化能力の両方を特徴付け,理論的保証を強く享受することを示す。 さらに, 混合モデルの汎用性を活かして, 閉じた形状の和と積の規則を効率的に実行可能であることを示す。 本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。 予備的評価は我々の発見を裏付ける。

Finding a good way to model probability densities is key to probabilistic inference. An ideal model should be able to concisely approximate any probability, while being also compatible with two main operations: multiplications of two models (product rule) and marginalization with respect to a subset of the random variables (sum rule). In this work, we show that a recently proposed class of positive semi-definite (PSD) models for non-negative functions is particularly suited to this end. In particular, we characterize both approximation and generalization capabilities of PSD models, showing that they enjoy strong theoretical guarantees. Moreover, we show that we can perform efficiently both sum and product rule in closed form via matrix operations, enjoying the same versatility of mixture models. Our results open the way to applications of PSD models to density estimation, decision theory and inference. Preliminary empirical evaluation supports our findings.
翻訳日:2021-07-02 14:05:40 公開日:2021-07-01
# 窓の外を見る:高分解能リモートセンシング画像の意味セグメンテーションのための広帯域トランスフォーマー

Looking Outside the Window: Wider-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2106.15754v2 )

ライセンス: Link先を確認
Lei Ding, Dong Lin, Shaofu Lin, Jing Zhang, Xiaojie Cui, Yuebin Wang, Hao Tang and Lorenzo Bruzzone(参考訳) 高解像度(HR)リモートセンシング画像(RSI)のセマンティックセグメンテーションには,長距離コンテキスト情報が不可欠である。 ニューラルネットワークのトレーニングに一般的に使用される画像トリッピング操作は、大規模rsisにおける長距離コンテキスト情報の知覚を制限する。 この制限を破るために、HR RSIのセマンティックセグメンテーションのためのワイド・コンテキスト・ネットワーク(WiCNet)を提案する。 wicnetでは、ローカル情報を集約する従来の特徴抽出ネットワークとは別に、より大きな画像領域でコンテキスト情報を明示的にモデル化する追加コンテキストブランチが設計されている。 2つの分岐間の情報は、視野変換器から派生した新しい設計であるコンテキスト変換器を介して伝達され、長距離コンテキスト相関をモデル化する。 いくつかのベンチマークデータセットで行ったアブレーション研究と比較実験により,提案手法の有効性が証明された。 さらに,新しい北京土地利用データセット(blu)を提案する。 これは、高品質できめ細かいレファレンスラベルを備えた大規模なHR衛星データセットであり、この分野での今後の研究を促進することを願っている。

Long-range context information is crucial for the semantic segmentation of High-Resolution (HR) Remote Sensing Images (RSIs). The image cropping operations, commonly used for training neural networks, limit the perception of long-range context information in large RSIs. To break this limitation, we propose a Wider-Context Network (WiCNet) for the semantic segmentation of HR RSIs. In the WiCNet, apart from a conventional feature extraction network to aggregate the local information, an extra context branch is designed to explicitly model the context information in a larger image area. The information between the two branches is communicated through a Context Transformer, which is a novel design derived from the Vision Transformer to model the long-range context correlations. Ablation studies and comparative experiments conducted on several benchmark datasets prove the effectiveness of the proposed method. Additionally, we present a new Beijing Land-Use (BLU) dataset. This is a large-scale HR satellite dataset provided with high-quality and fine-grained reference labels, which we hope will boost future studies in this field.
翻訳日:2021-07-02 14:05:27 公開日:2021-07-01
# missformer: (in-)attention-based handling of missing observations for track filter and prediction

MissFormer: (In-)attention-based handling of missing observations for trajectory filtering and prediction ( http://arxiv.org/abs/2106.16009v2 )

ライセンス: Link先を確認
Stefan Becker and Ronny Hug and Wolfgang H\"ubner and Michael Arens and Brendan T. Morris(参考訳) オブジェクト追跡のようなアプリケーションでは、時系列データは必然的に観測を欠く。 様々なシーケンス学習タスクのためのディープラーニングベースのモデルの成功に続いて、これらのモデルは、オブジェクトの動き状態を推測するためのオブジェクト追跡アプリケーションにおける古典的なアプローチを置き換えるようになっている。 従来の追跡手法では観察の欠如に対処できるが、そのディープなアプローチのほとんどはデフォルトでは、これには適していない。 そこで本稿では,可変入力長軌跡データにおける欠測観測を処理するトランスベース手法を提案する。 モデルは、要求された推論タスクの複雑さを順次増加させることで間接的に形成される。 ノイズのない軌跡の再生から始めて、モデルはノイズのある入力から軌跡を推測する。 欠落トークンとバイナリエンコードされた欠落イベントを提供することで、モデルは欠落したデータへのアタッチを学び、残りの入力で条件付けられた完全な軌道を推測する。 連続した欠落イベントのシーケンスの場合、モデルは純粋な予測モデルとして振る舞う。 このアプローチの能力は、プロトタイプのオブジェクト追跡シナリオを反映した合成データと実世界のデータで実証されている。

In applications such as object tracking, time-series data inevitably carry missing observations. Following the success of deep learning-based models for various sequence learning tasks, these models increasingly replace classic approaches in object tracking applications for inferring the objects' motion states. While traditional tracking approaches can deal with missing observations, most of their deep counterparts are, by default, not suited for this. Towards this end, this paper introduces a transformer-based approach for handling missing observations in variable input length trajectory data. The model is formed indirectly by successively increasing the complexity of the demanded inference tasks. Starting from reproducing noise-free trajectories, the model then learns to infer trajectories from noisy inputs. By providing missing tokens, binary-encoded missing events, the model learns to in-attend to missing data and infers a complete trajectory conditioned on the remaining inputs. In the case of a sequence of successive missing events, the model then acts as a pure prediction model. The abilities of the approach are demonstrated on synthetic data and real-world data reflecting prototypical object tracking scenarios.
翻訳日:2021-07-02 14:05:09 公開日:2021-07-01
# 教師付きコントラスト学習と信頼度整合正則化によるマルチソースドメイン適応

Multi-Source domain adaptation via supervised contrastive learning and confident consistency regularization ( http://arxiv.org/abs/2106.16093v2 )

ライセンス: Link先を確認
Marin Scalbert, Maria Vakalopoulou, Florent Couzini\'e-Devy(参考訳) Multi-Source Unsupervised Domain Adaptation (multi-source UDA)は、ラベル付きソースドメインからモデルを学習し、ラベルなしデータがトレーニング時にのみ利用できる異なるターゲットドメインでうまく動作させることを目的としている。 ソースとターゲットの特徴分布を調整するために、いくつかの最近の研究では、特徴モーメントやクラスセントロイドなどの明示的な統計マッチングをソースとターゲットに使用している。 しかし、これらのアプローチはドメイン間のクラス条件分布のアライメントを保証するものではない。 本稿では、この制限に対処するマルチソースUDAのためのContrastive Multi-Source Domain Adaptation(CMSDA)という新しいフレームワークを提案する。 識別的特徴は、クロスエントロピー最小化による補間されたソース例と、整合正則化とハード擬似ラベルによるターゲット例から学習される。 同時に、補間されたソースサンプルを利用して、教師付きコントラスト損失の補間バージョンを通じてソースクラスの条件分布を調整する。 このアライメントはより一般的で転送可能な特徴をもたらし、ターゲット領域の一般化をさらに改善する。 提案手法は,3つの標準マルチソース UDA データセットを用いて実験を行い,その結果を報告する。

Multi-Source Unsupervised Domain Adaptation (multi-source UDA) aims to learn a model from several labeled source domains while performing well on a different target domain where only unlabeled data are available at training time. To align source and target features distributions, several recent works use source and target explicit statistics matching such as features moments or class centroids. Yet, these approaches do not guarantee class conditional distributions alignment across domains. In this work, we propose a new framework called Contrastive Multi-Source Domain Adaptation (CMSDA) for multi-source UDA that addresses this limitation. Discriminative features are learned from interpolated source examples via cross entropy minimization and from target examples via consistency regularization and hard pseudo-labeling. Simultaneously, interpolated source examples are leveraged to align source class conditional distributions through an interpolated version of the supervised contrastive loss. This alignment leads to more general and transferable features which further improve the generalization on the target domain. Extensive experiments have been carried out on three standard multi-source UDA datasets where our method reports state-of-the-art results.
翻訳日:2021-07-02 14:04:50 公開日:2021-07-01
# インタビュアー中心型ロールプレイ - 実世界NLPシステムの開発に向けて

Interviewer-Candidat e Role Play: Towards Developing Real-World NLP Systems ( http://arxiv.org/abs/2107.00315v1 )

ライセンス: Link先を確認
Neeraj Varshney, Swaroop Mishra, Chitta Baral(参考訳) 標準的なNLPタスクには、質問の明確化、手がかりの活用、誤った回答を避けるための棄権など、いくつかの一般的な現実シナリオが組み込まれていない。 このタスクの定式化の違いは、実環境におけるNLPシステムの採用を妨げる。 本研究では,このギャップを埋めるための一歩を踏み出し,インタビューなどの人間-人間間対話をシミュレートする多段階タスクを提案する。 具体的には、システムは質問の単純化、知識ステートメント、例などを提供します。 十分に自信が持てない時に 予測を改善するために 様々な段階で 提案したタスクは、ドメイン内およびドメイン外の両方の入力に基づいてシステムが評価される自然言語推論設定でインスタンス化する。 総合的な実験を行い,マルチステージの定式化により,ステージ1では2.29%,ステージ2では1.91%,ステージ3では54.88%,ステージ4では72.02%,非誘導予測では2.29%まで改善できることを確認した。 しかし、我々の課題は、NLP研究者が各段階でのOOD性能をさらに向上させる上で大きな課題となっている。

Standard NLP tasks do not incorporate several common real-world scenarios such as seeking clarifications about the question, taking advantage of clues, abstaining in order to avoid incorrect answers, etc. This difference in task formulation hinders the adoption of NLP systems in real-world settings. In this work, we take a step towards bridging this gap and present a multi-stage task that simulates a typical human-human questioner-responder interaction such as an interview. Specifically, the system is provided with question simplifications, knowledge statements, examples, etc. at various stages to improve its prediction when it is not sufficiently confident. We instantiate the proposed task in Natural Language Inference setting where a system is evaluated on both in-domain and out-of-domain (OOD) inputs. We conduct comprehensive experiments and find that the multi-stage formulation of our task leads to OOD generalization performance improvement up to 2.29% in Stage 1, 1.91% in Stage 2, 54.88% in Stage 3, and 72.02% in Stage 4 over the standard unguided prediction. However, our task leaves a significant challenge for NLP researchers to further improve OOD performance at each stage.
翻訳日:2021-07-02 14:04:31 公開日:2021-07-01
# glyphcrm:そのグリフを用いた漢字の双方向エンコーダ表現

GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph ( http://arxiv.org/abs/2107.00395v1 )

ライセンス: Link先を確認
Yunxin Li, Yu Zhao, Baotian Hu, Qingcai Chen, Yang Xiang, Xiaolong Wang, Yuxin Ding, Lin Ma(参考訳) 従来は、漢字のグリフには豊かな意味情報が含まれており、漢字の表現を強化する可能性があった。 グリフの特徴を利用する典型的な方法は、それらを文字埋め込み空間に組み込むことである。 従来の手法にインスパイアされた中国語の事前学習表現モデルであるGlyphCRMを提案する。 各キャラクタを2つのグレースケールイメージにレンダリングし,2チャンネルの位置特徴マップをデザインする。 まず,漢字の最初のグリフ表現を生成するためにHanGlyphという2層残差畳み込みニューラルネットワークを設計し,その後,複数の双方向エンコーダ変換器ブロックをスーパー構造として採用し,文脈に敏感な情報を取得する。 一方,ハングリフモジュールの各層から抽出されたグリフ特徴をスキップ接続法によって基礎となる変圧器ブロックに供給し,漢字のグリフ特徴を完全に活用する。 HanGlyphモジュールは任意の漢字の十分なグリフ表現を得ることができるので、長期間の語彙外問題を効果的に解くことができる。 GlyphCRMは、9つの微調整タスクにおいて、従来のBERTベースの最先端モデルよりも大幅に優れており、特殊フィールドや低リソースタスクにおいて、転送性と一般化性が強い。 この研究が、漢文表現の確立した領域を超えて、さらなる研究を引き起こすことを期待している。

Previous works indicate that the glyph of Chinese characters contains rich semantic information and has the potential to enhance the representation of Chinese characters. The typical method to utilize the glyph features is by incorporating them into the character embedding space. Inspired by previous methods, we innovatively propose a Chinese pre-trained representation model named as GlyphCRM, which abandons the ID-based character embedding method yet solely based on sequential character images. We render each character into a binary grayscale image and design two-channel position feature maps for it. Formally, we first design a two-layer residual convolutional neural network, namely HanGlyph to generate the initial glyph representation of Chinese characters, and subsequently adopt multiple bidirectional encoder Transformer blocks as the superstructure to capture the context-sensitive information. Meanwhile, we feed the glyph features extracted from each layer of the HanGlyph module into the underlying Transformer blocks by skip-connection method to fully exploit the glyph features of Chinese characters. As the HanGlyph module can obtain a sufficient glyph representation of any Chinese character, the long-standing out-of-vocabulary problem could be effectively solved. Extensive experimental results indicate that GlyphCRM substantially outperforms the previous BERT-based state-of-the-art model on 9 fine-tuning tasks, and it has strong transferability and generalization on specialized fields and low-resource tasks. We hope this work could spark further research beyond the realms of well-established representation of Chinese texts.
翻訳日:2021-07-02 14:04:09 公開日:2021-07-01
# 画像分類のためのグローバルフィルタネットワーク

Global Filter Networks for Image Classification ( http://arxiv.org/abs/2107.00645v1 )

ライセンス: Link先を確認
Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou(参考訳) 近年の視覚に対する自己注意モデルと純粋多層パーセプトロンモデル(MLP)の進歩は、帰納バイアスの少ない有望な性能を達成する大きな可能性を示している。 これらのモデルは一般に、生データから空間的位置間の学習相互作用に基づいている。 画像サイズが大きくなるにつれて、自己注意とMLPの複雑さは2次的に増大し、高解像度の特徴を必要とする場合、これらのモデルはスケールアップが困難になる。 本稿では,ログ線形複雑性を伴う周波数領域の長期的空間依存性を学習する,概念的に単純かつ計算効率の良いアーキテクチャであるglobal filter network(gfnet)を提案する。 我々のアーキテクチャは、視覚変換器の自己注意層を2次元離散フーリエ変換、2次元逆フーリエ変換、周波数領域特徴と学習可能な大域フィルタの要素ワイド乗算、および2次元逆フーリエ変換で置き換える。 ImageNetと下流の両方のタスクで、モデルの良好な精度/複雑さのトレードオフを示します。 この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。 コードはhttps://github.com/r aoyongming/GFNetで入手できる。

Recent advances in self-attention and pure multi-layer perceptrons (MLP) models for vision have shown great potential in achieving promising performance with fewer inductive biases. These models are generally based on learning interaction among spatial locations from raw data. The complexity of self-attention and MLP grows quadratically as the image size increases, which makes these models hard to scale up when high-resolution features are required. In this paper, we present the Global Filter Network (GFNet), a conceptually simple yet computationally efficient architecture, that learns long-term spatial dependencies in the frequency domain with log-linear complexity. Our architecture replaces the self-attention layer in vision transformers with three key operations: a 2D discrete Fourier transform, an element-wise multiplication between frequency-domain features and learnable global filters, and a 2D inverse Fourier transform. We exhibit favorable accuracy/complexity trade-offs of our models on both ImageNet and downstream tasks. Our results demonstrate that GFNet can be a very competitive alternative to transformer-style models and CNNs in efficiency, generalization ability and robustness. Code is available at https://github.com/r aoyongming/GFNet
翻訳日:2021-07-02 14:03:28 公開日:2021-07-01
# 知識蒸留の再検討 : 継承と探究の枠組み

Revisiting Knowledge Distillation: An Inheritance and Exploration Framework ( http://arxiv.org/abs/2107.00181v1 )

ライセンス: Link先を確認
Zhen Huang, Xu Shen, Jun Xing, Tongliang Liu, Xinmei Tian, Houqiang Li, Bing Deng, Jianqiang Huang and Xian-Sheng Hua(参考訳) 知識蒸留(KD)は、教師モデルやアンサンブルから生徒モデルに知識を伝達する一般的な手法である。 その成功は一般的に、教師モデルと学生モデルのクラス分布と中間特徴表現の類似性/一貫性に関する特権情報に起因する。 しかし、教師モデルの確率や特徴を直接的に模倣することで、未発見の知識/特徴を学習する際の生徒モデルを制限することができる。 本稿では,学生モデルを継承と探索の2つの部分に分割した新しい継承・探索知識蒸留フレームワーク(IE-KD)を提案する。 継承部は類似度損失で学習され、既存の学習知識を教師モデルから生徒モデルに転送する一方、調査部は異類似度損失を持つ継承部とは異なる表現を学習することが推奨される。 我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。 広汎な実験により,これらの2つのパートは,より多様化された効果的な表現を学習するために,学生モデルを協調的に推し進めることが実証された。 さらに,2つのネットワークのトレーニングにie-kdを適用することで,両者の性能が向上する。 深い相互学習。 IE-KDのコードとモデルはhttps://github.com/y ellowtownhz/IE-KDで公開される。

Knowledge Distillation (KD) is a popular technique to transfer knowledge from a teacher model or ensemble to a student model. Its success is generally attributed to the privileged information on similarities/consist ency between the class distributions or intermediate feature representations of the teacher model and the student model. However, directly pushing the student model to mimic the probabilities/featur es of the teacher model to a large extent limits the student model in learning undiscovered knowledge/features. In this paper, we propose a novel inheritance and exploration knowledge distillation framework (IE-KD), in which a student model is split into two parts - inheritance and exploration. The inheritance part is learned with a similarity loss to transfer the existing learned knowledge from the teacher model to the student model, while the exploration part is encouraged to learn representations different from the inherited ones with a dis-similarity loss. Our IE-KD framework is generic and can be easily combined with existing distillation or mutual learning methods for training deep neural networks. Extensive experiments demonstrate that these two parts can jointly push the student model to learn more diversified and effective representations, and our IE-KD can be a general technique to improve the student network to achieve SOTA performance. Furthermore, by applying our IE-KD to the training of two networks, the performance of both can be improved w.r.t. deep mutual learning. The code and models of IE-KD will be make publicly available at https://github.com/y ellowtownhz/IE-KD.
翻訳日:2021-07-02 14:03:11 公開日:2021-07-01
# 強い教師による小学生の学習

Few-Shot Learning with a Strong Teacher ( http://arxiv.org/abs/2107.00197v1 )

ライセンス: Link先を確認
Han-Jia Ye, Lu Ming, De-Chuan Zhan, Wei-Lun Chao(参考訳) FSL(Few-shot Learning)は、限られたラベル付き例を用いて強力な分類器を訓練することを目的としている。 既存の多くの作業はメタラーニングアプローチを採用し、数発のタスクを順番にサンプリングし、クエリの例を分類する際の数発の学習者のパフォーマンスを最適化する。 本稿では,このアプローチの潜在的な弱点を2つ挙げる。 まず、サンプルクエリの例は、数発の学習者に対して十分な監視を提供していない。 第二に、メタラーニングの有効性はショットの増加とともに急激に低下する(クラスごとのトレーニング例の数)。 そこで本研究では,この課題を解決するために,マイナショット学習者を直接訓練し,強力な分類器として実行する新しい目標を提案する。 具体的には、サンプルの少ないタスクを強い分類器に関連付け、多くのラベル付き例で学習する。 強力な分類器はより優れた一般化能力を持ち、数発の学習者の監督に使用します。 提案手法は,従来のメタラーニングに基づくFSL手法に簡単にプラグイン・アンド・プレイの用語を組み込むことにより,強力な分類器を構築するための効率的な方法である。 提案手法は,多くのメタ学習手法と組み合わせて検証する。 miniImageNet や tiredImageNet など,いくつかのベンチマークデータセットでは,このアプローチはさまざまなタスクで顕著な改善を実現しています。 さらに,我々のアプローチでは,メタラーニングに基づくFSL手法は,マルチショット設定においても,一貫して非メタラーニング手法よりも優れ,適用性が大幅に向上する。

Few-shot learning (FSL) aims to train a strong classifier using limited labeled examples. Many existing works take the meta-learning approach, sampling few-shot tasks in turn and optimizing the few-shot learner's performance on classifying the query examples. In this paper, we point out two potential weaknesses of this approach. First, the sampled query examples may not provide sufficient supervision for the few-shot learner. Second, the effectiveness of meta-learning diminishes sharply with increasing shots (i.e., the number of training examples per class). To resolve these issues, we propose a novel objective to directly train the few-shot learner to perform like a strong classifier. Concretely, we associate each sampled few-shot task with a strong classifier, which is learned with ample labeled examples. The strong classifier has a better generalization ability and we use it to supervise the few-shot learner. We present an efficient way to construct the strong classifier, making our proposed objective an easily plug-and-play term to existing meta-learning based FSL methods. We validate our approach in combinations with many representative meta-learning methods. On several benchmark datasets including miniImageNet and tiredImageNet, our approach leads to a notable improvement across a variety of tasks. More importantly, with our approach, meta-learning based FSL methods can consistently outperform non-meta-learning based ones, even in a many-shot setting, greatly strengthening their applicability.
翻訳日:2021-07-02 14:02:44 公開日:2021-07-01
# fedmix: 平均的なフェデレーション学習におけるミックスアップの近似

FedMix: Approximation of Mixup under Mean Augmented Federated Learning ( http://arxiv.org/abs/2107.00233v1 )

ライセンス: Link先を確認
Tehrim Yoon, Sumin Shin, Sung Ju Hwang, Eunho Yang(参考訳) フェデレーション学習(federated learning, fl)は、エッジデバイスが各デバイス内でデータを直接共有することなく、総合的にモデルを学習することを可能にする。 独立かつ同一に分散された(iid)ローカルデータの仮定の下では有望な結果があるが、現在の最先端のアルゴリズムは、クライアント間のローカルデータの均一性が増大するにつれてパフォーマンス劣化に悩まされている。 この問題を解決するために,我々は,ターゲットアプリケーションのプライバシ要件に基づいて,クライアントが平均的なローカルデータを送受信するシンプルなフレームワークであるmeus augmented federated learning (mafl)を提案する。 本フレームワークでは,FedMixという新たな拡張アルゴリズムを提案する。このアルゴリズムは,デバイス間で直接共有するローカルな生データを必要とせず,極めて単純なデータ拡張手法であるMixupにインスパイアされている。 提案手法は, FLの標準ベンチマークデータセットにおいて, 従来のアルゴリズムと比較して, 非常に非イドなフェデレーション設定下での大幅な性能向上を示す。

Federated learning (FL) allows edge devices to collectively learn a model without directly sharing data within each device, thus preserving privacy and eliminating the need to store data globally. While there are promising results under the assumption of independent and identically distributed (iid) local data, current state-of-the-art algorithms suffer from performance degradation as the heterogeneity of local data across clients increases. To resolve this issue, we propose a simple framework, Mean Augmented Federated Learning (MAFL), where clients send and receive averaged local data, subject to the privacy requirements of target applications. Under our framework, we propose a new augmentation algorithm, named FedMix, which is inspired by a phenomenal yet simple data augmentation method, Mixup, but does not require local raw data to be directly shared among devices. Our method shows greatly improved performance in the standard benchmark datasets of FL, under highly non-iid federated settings, compared to conventional algorithms.
翻訳日:2021-07-02 14:02:23 公開日:2021-07-01
# 視覚トランスフォーマーにおける局所的グローバル相互作用に対する焦点自己付着

Focal Self-attention for Local-Global Interactions in Vision Transformers ( http://arxiv.org/abs/2107.00641v1 )

ライセンス: Link先を確認
Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao(参考訳) 近年、Vision Transformerとその変種は様々なコンピュータビジョンタスクに対して大きな期待を示している。 短距離および長距離の視覚的依存関係を自己注意でキャプチャする能力は、間違いなく成功の主源である。 しかし、特に高解像度の視覚タスク(オブジェクト検出など)では、2次計算オーバーヘッドによる課題も生じている。 本稿では,局所的および粗粒な大域的相互作用を包含する新たなメカニズムである焦点自己注意を提案する。 この新しいメカニズムを使用すると、各トークンは細かい粒度で周囲のトークンに最も近いが、粒度は遠くなり、短距離と長距離の両方の視覚的依存関係を効率的かつ効果的に捉えることができる。 焦点自己注意型視覚変換器モデルであるFocal Transformerを提案する。このモデルでは,様々な画像分類とオブジェクト検出ベンチマークにおいて,最先端の視覚変換器よりも優れた性能を実現する。 特に、適度なサイズ51.1m、より大きなサイズ89.8mの焦点変圧器モデルは、224x224解像度のimagenet分類でそれぞれ83.5と83.8top-1の精度を達成している。 フォカトランスをバックボーンとして使用することにより,標準1倍および3倍のスケジュールでトレーニングされた6種類の物体検出手法に対して,現在のスウィントランスよりも一貫性と大幅な改善が得られた。 我々の最大のFocal Transformerは、COCO mini-val/test-dev上の58.7/58.9ボックスmAPと50.9/51.3マスクmAPと、セマンティックセグメンテーションのためのADE20K上の55.4mIoUを出力し、最も困難なコンピュータビジョンタスクの3つの新しいSoTAを生成する。

Recently, Vision Transformer and its variants have shown great promise on various computer vision tasks. The ability of capturing short- and long-range visual dependencies through self-attention is arguably the main source for the success. But it also brings challenges due to quadratic computational overhead, especially for the high-resolution vision tasks (e.g., object detection). In this paper, we present focal self-attention, a new mechanism that incorporates both fine-grained local and coarse-grained global interactions. Using this new mechanism, each token attends the closest surrounding tokens at fine granularity but the tokens far away at coarse granularity, and thus can capture both short- and long-range visual dependencies efficiently and effectively. With focal self-attention, we propose a new variant of Vision Transformer models, called Focal Transformer, which achieves superior performance over the state-of-the-art vision Transformers on a range of public image classification and object detection benchmarks. In particular, our Focal Transformer models with a moderate size of 51.1M and a larger size of 89.8M achieve 83.5 and 83.8 Top-1 accuracy, respectively, on ImageNet classification at 224x224 resolution. Using Focal Transformers as the backbones, we obtain consistent and substantial improvements over the current state-of-the-art Swin Transformers for 6 different object detection methods trained with standard 1x and 3x schedules. Our largest Focal Transformer yields 58.7/58.9 box mAPs and 50.9/51.3 mask mAPs on COCO mini-val/test-dev, and 55.4 mIoU on ADE20K for semantic segmentation, creating new SoTA on three of the most challenging computer vision tasks.
翻訳日:2021-07-02 14:02:04 公開日:2021-07-01
# 画像分類におけるバイアス測定に向けて

Towards Measuring Bias in Image Classification ( http://arxiv.org/abs/2107.00360v1 )

ライセンス: Link先を確認
Nina Schaaf, Omar de Mitri, Hang Beom Kim, Alexander Windberger, Marco F. Huber(参考訳) 畳み込みニューラルネットワーク(CNN)は、主要なコンピュータビジョンタスクの最先端技術となっている。 しかし、複雑な基盤構造のため、その決定は産業世界の何らかの文脈での使用を制限するかを理解するのは難しい。 機械学習(ML)タスクにおける課題の一般的な検出は、データのバイアスである。 本研究では,帰属マップを用いてデータバイアスを明らかにするための体系的アプローチを提案する。 この目的のために、まず、既知のバイアスを持つ人工データセットを作成し、意図的にバイアスのあるCNNをトレーニングするために使用します。 ネットワークの決定は帰属マップを用いて検査される。 最後に、有意義な指標を用いて、既知のバイアスに対する帰属写像の代表性を測定する。 提案研究は,データにバイアスが存在することを強調する帰属マップ手法と,バイアスの同定を支援するメトリクスが提案されている。

Convolutional Neural Networks (CNN) have become de fact state-of-the-art for the main computer vision tasks. However, due to the complex underlying structure their decisions are hard to understand which limits their use in some context of the industrial world. A common and hard to detect challenge in machine learning (ML) tasks is data bias. In this work, we present a systematic approach to uncover data bias by means of attribution maps. For this purpose, first an artificial dataset with a known bias is created and used to train intentionally biased CNNs. The networks' decisions are then inspected using attribution maps. Finally, meaningful metrics are used to measure the attribution maps' representativeness with respect to the known bias. The proposed study shows that some attribution map techniques highlight the presence of bias in the data better than others and metrics can support the identification of bias.
翻訳日:2021-07-02 14:01:27 公開日:2021-07-01
# オブジェクト指向学習における一般化とロバスト性

Generalization and Robustness Implications in Object-Centric Learning ( http://arxiv.org/abs/2107.00637v1 )

ライセンス: Link先を確認
Andrea Dittadi, Samuele Papa, Michele De Vita, Bernhard Sch\"olkopf, Ole Winther, Francesco Locatello(参考訳) オブジェクト中心の表現学習の背後にある考え方は、自然のシーンは分散表現とは対照的に、オブジェクトとそれらの関係の合成としてモデル化できるというものである。 この誘導バイアスをニューラルネットワークに注入することで、複数のオブジェクトを持つシーンにおける下流タスクの体系的な一般化と学習効率を改善することができる。 本稿では,5つの共通マルチオブジェクトデータセット上で,最先端の教師なしモデルを訓練し,セグメンテーション精度と下流のオブジェクト特性予測を評価する。 さらに, 単一物体が分布外である, 色, テクスチャ, 形状が見当たらない, シーンの全体的特性が変化している, などの設定を, 咬合, 切り欠き, オブジェクト数の増加などによって, 体系的な一般化と堅牢性について検討した。 実験から、オブジェクト中心表現は、下流タスクに一般的に有用であり、特にシフトが単一のオブジェクトに影響を及ぼす場合、データ分散のシフトに頑健であることが分かりました。

The idea behind object-centric representation learning is that natural scenes can better be modeled as compositions of objects and their relations as opposed to distributed representations. This inductive bias can be injected into neural networks to potentially improve systematic generalization and learning efficiency of downstream tasks in scenes with multiple objects. In this paper, we train state-of-the-art unsupervised models on five common multi-object datasets and evaluate segmentation accuracy and downstream object property prediction. In addition, we study systematic generalization and robustness by investigating the settings where either single objects are out-of-distribution -- e.g., having unseen colors, textures, and shapes -- or global properties of the scene are altered -- e.g., by occlusions, cropping, or increasing the number of objects. From our experimental study, we find object-centric representations to be generally useful for downstream tasks and robust to shifts in the data distribution, especially if shifts affect single objects.
翻訳日:2021-07-02 14:01:14 公開日:2021-07-01
# cline:自然言語理解のための意味的否定的な例による対比学習

CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding ( http://arxiv.org/abs/2107.00440v1 )

ライセンス: Link先を確認
Dong Wang, Ning Ding, Piji Li, Hai-Tao Zheng(参考訳) 事前訓練された言語モデルは高品質なセマンティック表現を学習するのに有用であることが証明されているが、これらのモデルは依然として単純な摂動に対して脆弱である。 最近の研究は、事前学習されたモデルのロバスト性を改善することを目的としており、主に、異なる意味論や反対意味論の利用を怠りながら、混乱した例から敵対的なトレーニングに焦点を当てている。 画像処理の分野と異なり、テキストは離散的であり、単語置換が少ないと意味的な大きな変化が生じる。 小さな摂動によるセマンティクスの影響を調べるために、一連のパイロット実験を行い、そのセマンティクス変化を検出するモデルにとって、敵対的なトレーニングは役に立たないこと、あるいは有害であることを発見した。 この問題に対処するために,本研究では,意味的否定的例を教師なしで構築する意味的否定的例を用いたコントラスト学習を提案する。 類似した意味的例と反対の例を比較することで、モデルは小さな摂動によって引き起こされる意味的変化を効果的に知覚することができる。 実験結果から,本手法は感情分析,推論,読解作業において大幅な改善をもたらすことが示された。 また、CLINEは、文レベルでの異なる意味論における同じ意味論と分離性内のコンパクト性を保証する。

Despite pre-trained language models have proven useful for learning high-quality semantic representations, these models are still vulnerable to simple perturbations. Recent works aimed to improve the robustness of pre-trained models mainly focus on adversarial training from perturbed examples with similar semantics, neglecting the utilization of different or even opposite semantics. Different from the image processing field, the text is discrete and few word substitutions can cause significant semantic changes. To study the impact of semantics caused by small perturbations, we conduct a series of pilot experiments and surprisingly find that adversarial training is useless or even harmful for the model to detect these semantic changes. To address this problem, we propose Contrastive Learning with semantIc Negative Examples (CLINE), which constructs semantic negative examples unsupervised to improve the robustness under semantically adversarial attacking. By comparing with similar and opposite semantic examples, the model can effectively perceive the semantic changes caused by small perturbations. Empirical results show that our approach yields substantial improvements on a range of sentiment analysis, reasoning, and reading comprehension tasks. And CLINE also ensures the compactness within the same semantics and separability across different semantics in sentence-level.
翻訳日:2021-07-02 14:00:53 公開日:2021-07-01
# E-DSSR : Transformer-based Stereoscopic Depth Perception を用いた効率的な動的手術シーン再構築

E-DSSR: Efficient Dynamic Surgical Scene Reconstruction with Transformer-based Stereoscopic Depth Perception ( http://arxiv.org/abs/2107.00229v1 )

ライセンス: Link先を確認
Yonghao Long, Zhaoshuo Li, Chi Hang Yee, Chi Fai Ng, Russell H. Taylor, Mathias Unberath, Qi Dou(参考訳) ステレオ内視鏡映像からロボット手術のシーンを再構築することは、手術データサイエンスにおいて重要かつ有望なトピックであり、手術視知覚、ロボット手術教育、術中文脈認識など多くの応用をサポートする可能性がある。 しかし、現在の方法は、組織変形、工具閉塞と脱閉塞、カメラの動きを仮定して静的解剖の再構築に限られている。 しかしながら、これらの仮定は最小限の侵襲的なロボット手術で満たされるとは限らない。 本研究では,28fpsの高ダイナミックな手術シーンを効率的に再現するパイプラインを提案する。 具体的には、効率的な深度推定のための変圧器に基づく立体視深度知覚と、ツール閉塞を処理する軽量ツールセグメンタを設計する。 その後, 組織変形とカメラの動きを推定し, 経時的に情報を集約する動的再構成アルゴリズムが提案されている。 提案したパイプラインを,Hamlyn Centreの内視鏡的ビデオデータセットと社内のDaVinciロボット手術データセットの2つのデータセットで評価した。 その結果,本手法は手術用具で妨害されたシーンを回収し,実写的な手術シナリオにおけるカメラの動きをリアルタイムに効果的に処理できることがわかった。

Reconstructing the scene of robotic surgery from the stereo endoscopic video is an important and promising topic in surgical data science, which potentially supports many applications such as surgical visual perception, robotic surgery education and intra-operative context awareness. However, current methods are mostly restricted to reconstructing static anatomy assuming no tissue deformation, tool occlusion and de-occlusion, and camera movement. However, these assumptions are not always satisfied in minimal invasive robotic surgeries. In this work, we present an efficient reconstruction pipeline for highly dynamic surgical scenes that runs at 28 fps. Specifically, we design a transformer-based stereoscopic depth perception for efficient depth estimation and a light-weight tool segmentor to handle tool occlusion. After that, a dynamic reconstruction algorithm which can estimate the tissue deformation and camera movement, and aggregate the information over time is proposed for surgical scene reconstruction. We evaluate the proposed pipeline on two datasets, the public Hamlyn Centre Endoscopic Video Dataset and our in-house DaVinci robotic surgery dataset. The results demonstrate that our method can recover the scene obstructed by the surgical tool and handle the movement of camera in realistic surgical scenarios effectively at real-time speed.
翻訳日:2021-07-02 14:00:30 公開日:2021-07-01
# アーティファクトの検出に特徴とインスタンス属性を組み合わせる

Combining Feature and Instance Attribution to Detect Artifacts ( http://arxiv.org/abs/2107.00323v1 )

ライセンス: Link先を確認
Pouya Pezeshkpour, Sarthak Jain, Sameer Singh and Byron C. Wallace(参考訳) NLPを支配する大きなディープニューラルネットワークのトレーニングには、大きなデータセットが必要である。 これらの多くは自動あるいはクラウドソーシングによって収集され、体系的なバイアスやアノテーションアーティファクトを示す。 後者では,特徴とクラス間の因果関係が一般に保持されていないため,入力と出力の相関関係が急激であり,そのような相関関係を利用したモデルが与えられたタスクをうまく実行するように見えるが,サンプルデータからフェールする可能性がある。 本稿では,データアーティファクトの識別を容易にする手法を提案する。この手法では,重要な入力特徴を強調するsaliency mapと,与えられた予測に影響を及ぼすトレーニングサンプルを取得するインスタンスアトリビューション手法を組み合わせた,新たなハイブリッド手法を提案する。 提案手法は,トレーニングデータのアーティファクトを抽出し,未報告のアーティファクトをいくつかの標準NLPデータセットで識別するために利用できることを示す。 提案手法が実際にNLP研究者に有用かどうかを評価するため,本研究は小規模なユーザスタディを実施し,有望な結果を得た。 この論文では、すべてのメソッドと実験のコードを利用可能にします。

Training the large deep neural networks that dominate NLP requires large datasets. Many of these are collected automatically or via crowdsourcing, and may exhibit systematic biases or annotation artifacts. By the latter, we mean correlations between inputs and outputs that are spurious, insofar as they do not represent a generally held causal relationship between features and classes; models that exploit such correlations may appear to perform a given task well, but fail on out of sample data. In this paper we propose methods to facilitate identification of training data artifacts, using new hybrid approaches that combine saliency maps (which highlight important input features) with instance attribution methods (which retrieve training samples influential to a given prediction). We show that this proposed training-feature attribution approach can be used to uncover artifacts in training data, and use it to identify previously unreported artifacts in a few standard NLP datasets. We execute a small user study to evaluate whether these methods are useful to NLP researchers in practice, with promising results. We make code for all methods and experiments in this paper available.
翻訳日:2021-07-02 13:59:56 公開日:2021-07-01
# 型推論のための言語間適応

Cross-Lingual Adaptation for Type Inference ( http://arxiv.org/abs/2107.00157v1 )

ライセンス: Link先を確認
Zhiming Li, Xiaofei Xie, Haoliang Li, Zhengzi Xu, Yi Li, Yang Liu(参考訳) 深層学習に基づく手法は、型推論、フォールトローカライゼーション、コード要約といった分野において、プログラム解析タスクに広く応用されている。 hithertoのディープラーニングベースのソフトウェアエンジニアリングシステムは、膨大な量のデータを収集しラベル付けするのに手間のかかる手作業を必要とする教師付き学習アプローチに完全に依存している。 しかし、ほとんどのチューリング完全命令型言語は、同様の制御構造とデータフロー構造を持っているため、ある言語から別の言語へ学習した知識を転送することができる。 本稿では,プログラム解析の言語間適応を提案する。これにより,ラベル付きデータセットから学習した事前知識を他の言語に伝達することができる。 具体的には,言語間の適応フレームワークPLATOを実装して,PythonをJavaScriptやその逆など,弱い型付き言語間でディープラーニングベースの型推論手順を転送する。 PLATOは抽象構文木と制御フローグラフに基づく新しい結合グラフのカーネル化アテンションを導入し,様々な言語にアンカー語拡張を適用した。 さらに、強く型付けされた言語からのデータを活用することで、PLATOは、バックボーン言語モデルの複雑さを改善し、型推論のための下流言語間転送の性能を向上させる。 実験の結果,本フレームワークはベースラインメソッドの転送性を大幅に向上させることがわかった。

Deep learning-based techniques have been widely applied to the program analysis tasks, in fields such as type inference, fault localization, and code summarization. Hitherto deep learning-based software engineering systems rely thoroughly on supervised learning approaches, which require laborious manual effort to collect and label a prohibitively large amount of data. However, most Turing-complete imperative languages share similar control- and data-flow structures, which make it possible to transfer knowledge learned from one language to another. In this paper, we propose cross-lingual adaptation of program analysis, which allows us to leverage prior knowledge learned from the labeled dataset of one language and transfer it to the others. Specifically, we implemented a cross-lingual adaptation framework, PLATO, to transfer a deep learning-based type inference procedure across weakly typed languages, e.g., Python to JavaScript and vice versa. PLATO incorporates a novel joint graph kernelized attention based on abstract syntax tree and control flow graph, and applies anchor word augmentation across different languages. Besides, by leveraging data from strongly typed languages, PLATO improves the perplexity of the backbone cross-programming-la nguage model and the performance of downstream cross-lingual transfer for type inference. Experimental results illustrate that our framework significantly improves the transferability over the baseline method by a large margin.
翻訳日:2021-07-02 13:59:21 公開日:2021-07-01
# 長期短期認知ネットワークを用いた風車時系列のオンライン学習

Online learning of windmill time series using Long Short-term Cognitive Networks ( http://arxiv.org/abs/2107.00425v1 )

ライセンス: Link先を確認
Alejandro Morales-Hern\'andez, Gonzalo N\'apoles, Agnieszka Jastrzebska, Yamisleydi Salgueiro, Koen Vanhoof(参考訳) 風車時系列の予測は、しばしば異常検出、健康モニタリング、メンテナンススケジュールなどの他のプロセスの基礎となる。 風車農場で生成されたデータ量によって、オンライン学習は最も有効な戦略となる。 このような設定では、新しいデータのバッチが利用できる度にモデルを再トレーニングする必要がある。 しかし、新しい情報でモデルを更新することは、従来のリカレントニューラルネットワーク(rnn)を使うのに非常に高価である。 本稿では,Long Short-term Cognitive Networks (LSTCN) を用いて,オンライン環境における風車時系列の予測を行う。 これらの最近導入されたニューラルネットワークは、チェーンされた短期認知ネットワークブロックで構成され、それぞれが時間データチャンクを処理する。 これらのブロックの学習アルゴリズムは、lstcnsをオンライン学習タスクに適した非常に高速で決定論的な学習ルールに基づいている。 4つの風車を用いたケーススタディを用いた数値シミュレーションにより,単純なrnn,長期記憶,ゲートリカレントユニット,隠れマルコフモデルにおいて,予測誤差が最も低いことを報告した。 おそらくもっと重要なのは、LSTCNアプローチがこれらの最先端モデルよりもはるかに高速であることだ。

Forecasting windmill time series is often the basis of other processes such as anomaly detection, health monitoring, or maintenance scheduling. The amount of data generated on windmill farms makes online learning the most viable strategy to follow. Such settings require retraining the model each time a new batch of data is available. However, update the model with the new information is often very expensive to perform using traditional Recurrent Neural Networks (RNNs). In this paper, we use Long Short-term Cognitive Networks (LSTCNs) to forecast windmill time series in online settings. These recently introduced neural systems consist of chained Short-term Cognitive Network blocks, each processing a temporal data chunk. The learning algorithm of these blocks is based on a very fast, deterministic learning rule that makes LSTCNs suitable for online learning tasks. The numerical simulations using a case study with four windmills showed that our approach reported the lowest forecasting errors with respect to a simple RNN, a Long Short-term Memory, a Gated Recurrent Unit, and a Hidden Markov Model. What is perhaps more important is that the LSTCN approach is significantly faster than these state-of-the-art models.
翻訳日:2021-07-02 13:58:57 公開日:2021-07-01
# 条件付き正規化流による微分可能な粒子フィルタ

Differentiable Particle Filters through Conditional Normalizing Flow ( http://arxiv.org/abs/2107.00488v1 )

ライセンス: Link先を確認
Xiongjie Chen, Hao Wen, and Yunpeng Li(参考訳) 微分可能な粒子フィルタは、観測データから学習することで動的および測定モデルを適応的に訓練する柔軟なメカニズムを提供する。 しかし、既存の微分可能な粒子フィルタのほとんどはブートストラップ粒子フィルタリングフレームワーク内にあり、より良い提案を構築するために最新の観測情報を取り込んでいない。 本稿では, 条件付き正規化フローを用いて, 粒子フィルタの提案分布を構築し, 提案分布が表現できる分布列を豊かにする。 さらに、正規化フローは動的モデルの構築に組み込まれ、より表現力のある動的モデルとなる。 提案する条件付き正規化フローベースの微分可能な粒子フィルタの性能を視覚追跡タスクで実証する。

Differentiable particle filters provide a flexible mechanism to adaptively train dynamic and measurement models by learning from observed data. However, most existing differentiable particle filters are within the bootstrap particle filtering framework and fail to incorporate the information from latest observations to construct better proposals. In this paper, we utilize conditional normalizing flows to construct proposal distributions for differentiable particle filters, enriching the distribution families that the proposal distributions can represent. In addition, normalizing flows are incorporated in the construction of the dynamic model, resulting in a more expressive dynamic model. We demonstrate the performance of the proposed conditional normalizing flow-based differentiable particle filters in a visual tracking task.
翻訳日:2021-07-02 13:58:39 公開日:2021-07-01
# 生成逆ネットワークに対する再パラメータ化サンプリング

Reparameterized Sampling for Generative Adversarial Networks ( http://arxiv.org/abs/2107.00352v1 )

ライセンス: Link先を確認
Yifei Wang, Yisen Wang, Jiansheng Yang, Zhouchen Lin(参考訳) 近年,GAN(Generative Adversarial Networks)のサンプル品質向上のためのサンプリング手法が成功している。 しかし、実際には、ジェネレータからの独立した提案サンプリングのため、サンプル効率が低いのが一般的である。 本研究では,マルコフ鎖をジェネレータの潜在空間に再パラメータ化することにより,汎用的な提案を可能にする新しいサンプリング手法であるrep-ganを提案する。 理論的には、我々の再パラメータ化提案は、閉形式のメトロポリス・ハスティングスの受け入れ比を許容することを示す。 実験的な実験により、我々のREP-GANはサンプル効率を大幅に改善し、同時により良いサンプル品質を得ることを示した。

Recently, sampling methods have been successfully applied to enhance the sample quality of Generative Adversarial Networks (GANs). However, in practice, they typically have poor sample efficiency because of the independent proposal sampling from the generator. In this work, we propose REP-GAN, a novel sampling method that allows general dependent proposals by REParameterizing the Markov chains into the latent space of the generator. Theoretically, we show that our reparameterized proposal admits a closed-form Metropolis-Hastings acceptance ratio. Empirically, extensive experiments on synthetic and real datasets demonstrate that our REP-GAN largely improves the sample efficiency and obtains better sample quality simultaneously.
翻訳日:2021-07-02 13:58:28 公開日:2021-07-01
# Maxout ネットワークの複雑さについて

On the Expected Complexity of Maxout Networks ( http://arxiv.org/abs/2107.00379v1 )

ライセンス: Link先を確認
Hanna Tseran, Guido Mont\'ufar(参考訳) ニューラルネットワークによる学習は、表現可能な関数の複雑さに依存するが、より重要なのは、典型的なパラメータを異なる複雑性の関数に割り当てることである。 近年の研究では、アクティベーション領域の数を複雑度指標として、深層reluネットワークの実用的複雑さは理論上の最大値に遠く及ばないことが示されている。 本研究では,この現象が,最大(多項)アクティベーション関数を持つネットワークや,分類タスクにおける決定境界を考慮した場合にも発生することを示す。 また、パラメータ空間は、広く異なる複雑さを持つ多次元領域を持ち、期待される複雑さの非自明な下界を得ることを示す。 最後に,各パラメータの初期化手順について検討し,学習時の収束速度を向上できることを示す。

Learning with neural networks relies on the complexity of the representable functions, but more importantly, the particular assignment of typical parameters to functions of different complexity. Taking the number of activation regions as a complexity measure, recent works have shown that the practical complexity of deep ReLU networks is often far from the theoretical maximum. In this work we show that this phenomenon also occurs in networks with maxout (multi-argument) activation functions and when considering the decision boundaries in classification tasks. We also show that the parameter space has a multitude of full-dimensional regions with widely different complexity, and obtain nontrivial lower bounds on the expected complexity. Finally, we investigate different parameter initialization procedures and show that they can increase the speed of convergence in training.
翻訳日:2021-07-02 13:58:17 公開日:2021-07-01
# データセットシフト検出とモデル選択のためのバッチ正規化統計を用いた教師なしモデルドリフト推定

Unsupervised Model Drift Estimation with Batch Normalization Statistics for Dataset Shift Detection and Model Selection ( http://arxiv.org/abs/2107.00191v1 )

ライセンス: Link先を確認
Wonju Lee, Seok-Yong Byun, Jooeun Kim, Minje Park, Kirill Chechil(参考訳) 現実世界のデータストリームの多くは、非定常的な方法で頻繁に変化することを暗示しているが、ディープラーニングの手法の多くは、トレーニングデータにニューラルネットワークを最適化する。 しかし、新しく流されたデータを人間によって注釈や検査することは不可能であり、推論時にモデルドリフトを教師なしの方法で測定することが望ましい。 本論文では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。 ストリーム入力データのサンプリング誤差を軽減するため,各表現層に低ランク近似を適用した。 本手法は,データセットのシフト検出だけでなく,モデル動物園内に複数の候補モデルが存在する場合や教師なしのトレーニングトラジェクタがある場合のモデル選択にも有効であることを示す。 さらに,異なるネットワークアーキテクチャ間のモデルドリフトスコアを比較することで,本手法の整合性を示す。

While many real-world data streams imply that they change frequently in a nonstationary way, most of deep learning methods optimize neural networks on training data, and this leads to severe performance degradation when dataset shift happens. However, it is less possible to annotate or inspect newly streamed data by humans, and thus it is desired to measure model drift at inference time in an unsupervised manner. In this paper, we propose a novel method of model drift estimation by exploiting statistics of batch normalization layer on unlabeled test data. To remedy possible sampling error of streamed input data, we adopt low-rank approximation to each representational layer. We show the effectiveness of our method not only on dataset shift detection but also on model selection when there are multiple candidate models among model zoo or training trajectories in an unsupervised way. We further demonstrate the consistency of our method by comparing model drift scores between different network architectures.
翻訳日:2021-07-02 13:57:13 公開日:2021-07-01
# adaxpert: 成長データにニューラルネットワークを適用する

AdaXpert: Adapting Neural Architecture for Growing Data ( http://arxiv.org/abs/2107.00254v1 )

ライセンス: Link先を確認
Shuaicheng Niu, Jiaxiang Wu, Guanghui Xu, Yifan Zhang, Yong Guo, Peilin Zhao, Peng Wang, Mingkui Tan(参考訳) 実世界のアプリケーションでは、データボリュームとクラス数が動的に増加する可能性があるため、データが増大することが多い。 データボリュームの増加やクラスの数を考えると、期待できるパフォーマンスを得るためには、ニューラルネットワークのキャパシティを瞬時に調整する必要がある。 既存の手法は、データの増大する性質を無視したり、与えられたデータセットの最適なアーキテクチャを独立して検索しようとするため、変更したデータのアーキテクチャを迅速に調整することができない。 そこで本稿では,AdaXpert(Adaptation eXpert)というニューラルアーキテクチャ適応手法を提案する。 具体的には、以前のアーキテクチャと現在のデータ分布と過去のデータ分布の違いに基づいて、各データスナップショットに適したアーキテクチャを生成するアーキテクチャ調整器を導入する。 さらに,調整の必要性を判定する適応条件を提案し,不要かつ時間を要する調整を回避する。 2つの成長シナリオ(データ量とクラス数の増加)に関する広範囲な実験により,提案手法の有効性が示された。

In real-world applications, data often come in a growing manner, where the data volume and the number of classes may increase dynamically. This will bring a critical challenge for learning: given the increasing data volume or the number of classes, one has to instantaneously adjust the neural model capacity to obtain promising performance. Existing methods either ignore the growing nature of data or seek to independently search an optimal architecture for a given dataset, and thus are incapable of promptly adjusting the architectures for the changed data. To address this, we present a neural architecture adaptation method, namely Adaptation eXpert (AdaXpert), to efficiently adjust previous architectures on the growing data. Specifically, we introduce an architecture adjuster to generate a suitable architecture for each data snapshot, based on the previous architecture and the different extent between current and previous data distributions. Furthermore, we propose an adaptation condition to determine the necessity of adjustment, thereby avoiding unnecessary and time-consuming adjustments. Extensive experiments on two growth scenarios (increasing data volume and number of classes) demonstrate the effectiveness of the proposed method.
翻訳日:2021-07-02 13:56:57 公開日:2021-07-01
# DVS-Attacks: スパイクニューラルネットワークのための動的視覚センサの敵攻撃

DVS-Attacks: Adversarial Attacks on Dynamic Vision Sensors for Spiking Neural Networks ( http://arxiv.org/abs/2107.00415v1 )

ライセンス: Link先を確認
Alberto Marchisio and Giacomo Pira and Maurizio Martina and Guido Masera and Muhammad Shafique(参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアに実装された場合エネルギー効率が良く、イベントベースのダイナミックビジョンセンサー(DVS)と併用しても、敵攻撃、すなわち誤分類を引き起こすための入力に小さな摂動のようなセキュリティ上の脅威に弱い。 そこで本研究では,SNNの入力を構成するイベントシーケンスの摂動を目的とした,ステルスで効率的な攻撃手法であるDVS-Attacksを提案する。 まず,DVSのノイズフィルタを敵攻撃に対する防御機構として利用できることを示す。 その後,DVSカメラの2種類のノイズフィルタの存在下で,複数の攻撃を実行し,それらを検証した。 実験の結果,フィルタは提案したDVS-Attacksに対して部分的にSNNを防御できることがわかった。 ノイズフィルタの最適設定を用いて、提案したMask Filter-Aware Dash Attackは、DVS-Gestureデータセットで20%以上、MNISTデータセットで65%以上精度を低下させる。 DVS-Attacksとノイズフィルタのソースコードはhttps://github.com/a lbertomarchisio/DVS- Attacksで公開されている。

Spiking Neural Networks (SNNs), despite being energy-efficient when implemented on neuromorphic hardware and coupled with event-based Dynamic Vision Sensors (DVS), are vulnerable to security threats, such as adversarial attacks, i.e., small perturbations added to the input for inducing a misclassification. Toward this, we propose DVS-Attacks, a set of stealthy yet efficient adversarial attack methodologies targeted to perturb the event sequences that compose the input of the SNNs. First, we show that noise filters for DVS can be used as defense mechanisms against adversarial attacks. Afterwards, we implement several attacks and test them in the presence of two types of noise filters for DVS cameras. The experimental results show that the filters can only partially defend the SNNs against our proposed DVS-Attacks. Using the best settings for the noise filters, our proposed Mask Filter-Aware Dash Attack reduces the accuracy by more than 20% on the DVS-Gesture dataset and by more than 65% on the MNIST dataset, compared to the original clean frames. The source code of all the proposed DVS-Attacks and noise filters is released at https://github.com/a lbertomarchisio/DVS- Attacks.
翻訳日:2021-07-02 13:56:40 公開日:2021-07-01
# VideoLightFormer: トランスフォーマーを用いた軽量アクション認識

VideoLightFormer: Lightweight Action Recognition using Transformers ( http://arxiv.org/abs/2107.00451v1 )

ライセンス: Link先を確認
Raivo Koot, Haiping Lu(参考訳) 効果的なビデオアクション認識は依然として難しい問題だ。 1つの大きなモデルは、Kineeticsデータセットの最先端技術に取って代わるが、現実の効率評価には欠けることが多い。 本研究では,このギャップを埋め,効率的な行動認識のための変圧器の利用について検討する。 本稿では,新しい軽量アクション認識アーキテクチャであるvideolightformerを提案する。 2次元畳み込み型テンポラリセグメントネットワークをトランスフォーマで慎重に拡張し,モデル全体にわたって時間的および時間的ビデオ構造を維持した。 既存の手法では、ビデオ機能に巨大なトランスフォーマーを適用するか、あるいは高度にプールされたビデオ機能に最小限のトランスフォーマーを適用する。 本手法はトランスフォーマーモデルを小さくしておくことで異なるが,時空間的特徴構造を活用できる。 我々は,EPIC-KITCHENS-100とSSV2データセットの高効率環境でビデオLightFormerを評価し,SSV2のTemporal Shift Moduleとは別に,既存の最先端モデルよりも高い効率と精度の混合を実現することを発見した。

Efficient video action recognition remains a challenging problem. One large model after another takes the place of the state-of-the-art on the Kinetics dataset, but real-world efficiency evaluations are often lacking. In this work, we fill this gap and investigate the use of transformers for efficient action recognition. We propose a novel, lightweight action recognition architecture, VideoLightFormer. In a factorized fashion, we carefully extend the 2D convolutional Temporal Segment Network with transformers, while maintaining spatial and temporal video structure throughout the entire model. Existing methods often resort to one of the two extremes, where they either apply huge transformers to video features, or minimal transformers on highly pooled video features. Our method differs from them by keeping the transformer models small, but leveraging full spatiotemporal feature structure. We evaluate VideoLightFormer in a high-efficiency setting on the temporally-demanding EPIC-KITCHENS-100 and Something-Something- V2 (SSV2) datasets and find that it achieves a better mix of efficiency and accuracy than existing state-of-the-art models, apart from the Temporal Shift Module on SSV2.
翻訳日:2021-07-02 13:56:17 公開日:2021-07-01
# アクショントランスフォーマー : 短時間行動認識のためのセルフアテンションモデル

Action Transformer: A Self-Attention Model for Short-Time Human Action Recognition ( http://arxiv.org/abs/2107.00606v1 )

ライセンス: Link先を確認
Vittorio Mazzia, Simone Angarano, Francesco Salvetti, Federico Angelini and Marcello Chiaberge(参考訳) 純粋に注意に基づくディープニューラルネットワークは、設計者による最小限のアーキテクチャ優先に依存しているため、いくつかのドメインで成功を収めている。 人間行動認識(har)では、注意機構は主に標準畳み込み層や再帰層の上に採用され、全体的な一般化能力が向上している。 本研究では,畳み込み層,リカレント層,注意層を混合するより精巧なネットワークを一貫して上回る,単純で完全な自己完結型アーキテクチャであるaction transformer(act)を導入する。 従来のヒューマンアクション認識研究に基づいて,計算とエネルギーの要求を制限するため,提案手法では2次元ポーズ表現を小さな時間窓上で活用し,高精度かつ効果的なリアルタイム性能を実現するための低レイテンシソリューションを提供する。 さらに、リアルタイムな短時間の人行動認識のための正式なトレーニングと評価ベンチマークを構築するために、新しい大規模データセットであるMPOSE2021をオープンソース化した。 MPOSE2021の大規模実験は,提案手法と,それ以前のアーキテクチャソリューションにより,AcTモデルの有効性が証明され,今後のHAR研究の基盤となる。

Deep neural networks based purely on attention have been successful across several domains, relying on minimal architectural priors from the designer. In Human Action Recognition (HAR), attention mechanisms have been primarily adopted on top of standard convolutional or recurrent layers, improving the overall generalization capability. In this work, we introduce Action Transformer (AcT), a simple, fully self-attentional architecture that consistently outperforms more elaborated networks that mix convolutional, recurrent, and attentive layers. In order to limit computational and energy requests, building on previous human action recognition research, the proposed approach exploits 2D pose representations over small temporal windows, providing a low latency solution for accurate and effective real-time performance. Moreover, we open-source MPOSE2021, a new large-scale dataset, as an attempt to build a formal training and evaluation benchmark for real-time short-time human action recognition. Extensive experimentation on MPOSE2021 with our proposed methodology and several previous architectural solutions proves the effectiveness of the AcT model and poses the base for future work on HAR.
翻訳日:2021-07-02 13:55:53 公開日:2021-07-01
# CSWin Transformer: クロスシェイプWindows搭載の一般的なビジョントランスフォーマーバックボーン

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows ( http://arxiv.org/abs/2107.00652v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Weiming Zhang and Nenghai Yu and Lu Yuan and Dong Chen and Baining Guo(参考訳) 汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。 トランスフォーマー設計の課題は、グローバル自己着脱が計算に非常に高価であるのに対して、ローカルな自己着脱は各トークンの相互作用の場を制限することが多いことである。 そこで本研究では, 入力特徴を等幅のストライプに分割し, 水平および垂直のストライプの自着を並列に計算し, クロス型ウィンドウを形成するクロス型ウィンドウ自着機構を開発した。 計算コストを制限しつつ、強力なモデリング能力を実現するトランスネットワークの異なる層に対して、ストライプ幅の影響の詳細な数学的解析を行い、ストライプ幅を変化させる。 また,既存の符号化方式よりも局所的な位置情報を扱う局所拡張位置符号化(LePE)を導入する。 LePEは自然に任意の入力解像度をサポートしており、ダウンストリームタスクには特に効果的で親しみやすい。 これらの設計と階層構造を組み込んだCSWin Transformerは、共通ビジョンタスクにおける競合性能を示す。 具体的には、追加のトレーニングデータやラベルなしでImageNet-1Kで85.4%のTop-1精度、COCO検出タスクで53.9ボックスAPと46.4マスクAP、ADE20Kセマンティックセグメンテーションタスクで51.7mIOUを達成し、それぞれ同じFLOP設定で、以前の最先端のSwin Transformerバックボーンを+1.2、+2.0、+1.4、+2.0で上回る。 より大きなデータセットであるImageNet-21Kを事前トレーニングすることで、ImageNet-1Kで87.5%の精度と、55.2 mIoUでADE20Kで最先端のセグメンテーション性能を達成した。 コードとモデルはhttps://github.com/m icrosoft/cswin-trans formerで入手できる。

We present CSWin Transformer, an efficient and effective Transformer-based backbone for general-purpose vision tasks. A challenging issue in Transformer design is that global self-attention is very expensive to compute whereas local self-attention often limits the field of interactions of each token. To address this issue, we develop the Cross-Shaped Window self-attention mechanism for computing self-attention in the horizontal and vertical stripes in parallel that form a cross-shaped window, with each stripe obtained by splitting the input feature into stripes of equal width. We provide a detailed mathematical analysis of the effect of the stripe width and vary the stripe width for different layers of the Transformer network which achieves strong modeling capability while limiting the computation cost. We also introduce Locally-enhanced Positional Encoding (LePE), which handles the local positional information better than existing encoding schemes. LePE naturally supports arbitrary input resolutions, and is thus especially effective and friendly for downstream tasks. Incorporated with these designs and a hierarchical structure, CSWin Transformer demonstrates competitive performance on common vision tasks. Specifically, it achieves 85.4% Top-1 accuracy on ImageNet-1K without any extra training data or label, 53.9 box AP and 46.4 mask AP on the COCO detection task, and 51.7 mIOU on the ADE20K semantic segmentation task, surpassing previous state-of-the-art Swin Transformer backbone by +1.2, +2.0, +1.4, and +2.0 respectively under the similar FLOPs setting. By further pretraining on the larger dataset ImageNet-21K, we achieve 87.5% Top-1 accuracy on ImageNet-1K and state-of-the-art segmentation performance on ADE20K with 55.2 mIoU. The code and models will be available at https://github.com/m icrosoft/CSWin-Trans former.
翻訳日:2021-07-02 13:55:32 公開日:2021-07-01
# MHER:モデルベースのHendsight Experience Replay

MHER: Model-based Hindsight Experience Replay ( http://arxiv.org/abs/2107.00306v1 )

ライセンス: Link先を確認
Rui Yang, Meng Fang, Lei Han, Yali Du, Feng Luo, Xiu Li(参考訳) スパース報酬を用いたマルチゴール強化学習(RL)問題の解法は一般に困難である。 既存のアプローチでは、少ない報酬から生じる問題を軽減するために、収集された経験に対する目標リラベリングを利用している。 しかし、これらの方法はまだ効率が制限されており、経験をフルに利用することはできない。 本稿では,環境力学を利用して仮想目標を生成することで,経験をより効率的に活用するモデルベース後見体験リプレイ(mher)を提案する。 トレーニングされたダイナミックスモデルとの相互作用から生成された仮想ゴールを元の目標に置き換えると、新しいラベリング法である \emph{model-based relabeling} (MBR) が導かれる。 mbrに基づき、mherは効果的なポリシー改善のために強化学習と監督学習の両方を行う。 理論的には、mherの教師付き部分、すなわちmbrデータを用いた目標条件付き教師付き学習は、マルチゴールrl目標に対する下限を最適化する。 いくつかのポイントベースタスクとシミュレーションロボット環境の実験結果から、MHERは従来の最先端手法よりもはるかに高いサンプリング効率を達成することが示された。

Solving multi-goal reinforcement learning (RL) problems with sparse rewards is generally challenging. Existing approaches have utilized goal relabeling on collected experiences to alleviate issues raised from sparse rewards. However, these methods are still limited in efficiency and cannot make full use of experiences. In this paper, we propose Model-based Hindsight Experience Replay (MHER), which exploits experiences more efficiently by leveraging environmental dynamics to generate virtual achieved goals. Replacing original goals with virtual goals generated from interaction with a trained dynamics model leads to a novel relabeling method, \emph{model-based relabeling} (MBR). Based on MBR, MHER performs both reinforcement learning and supervised learning for efficient policy improvement. Theoretically, we also prove the supervised part in MHER, i.e., goal-conditioned supervised learning with MBR data, optimizes a lower bound on the multi-goal RL objective. Experimental results in several point-based tasks and simulated robotics environments show that MHER achieves significantly higher sample efficiency than previous state-of-the-art methods.
翻訳日:2021-07-02 13:54:35 公開日:2021-07-01
# 反復的接地による視覚的およびダイナミックなドメイン間隙を横断するポリシー伝達

Policy Transfer across Visual and Dynamics Domain Gaps via Iterative Grounding ( http://arxiv.org/abs/2107.00339v1 )

ライセンス: Link先を確認
Grace Zhang, Linghan Zhong, Youngwoon Lee, Joseph J. Lim(参考訳) ある環境から別の環境にポリシーを移す能力は、タスクの監督ができない現実的な環境で効率的なロボット学習に有望な道のりである。 これにより、シミュレータや研究室などのトレーニングに適した環境を利用して、自宅やオフィスで本物のロボットのポリシーを学ぶことができます。 成功させるためには、このような方針伝達は視覚領域のギャップ(例えば、)を克服しなければならない。 異なる照明や背景)とダイナミクス領域のギャップ(例えば、) 異なるロボットキャリブレーションまたはモデリングエラー) ソース環境とターゲット環境の間。 しかし、以前のポリシー転送アプローチは、大きなドメイン間隙を処理できないか、一度に1つのタイプのドメイン間隙しか処理できない。 本稿では,(1)対象の環境領域にソース環境を基盤として,視覚領域と動的領域のギャップを直接最小化すると同時に,(2)接地された環境におけるポリシーをトレーニングする,反復的「環境基盤化」による新しい政策伝達手法を提案する。 この反復トレーニングは、2つの環境間のドメインを段階的に調整し、ターゲット環境にポリシーを適用する。 トレーニングが完了すると、ポリシーはターゲット環境で直接実行される。 ロコモーションとロボット操作タスクの実証結果から,我々のアプローチは,視覚およびダイナミックな領域ギャップを横断するポリシを,最小限の監督と目標環境とのインタラクションで効果的に伝達できることを証明した。 ビデオとコードはhttps://clvrai.com/i dapt.comで入手できる。

The ability to transfer a policy from one environment to another is a promising avenue for efficient robot learning in realistic settings where task supervision is not available. This can allow us to take advantage of environments well suited for training, such as simulators or laboratories, to learn a policy for a real robot in a home or office. To succeed, such policy transfer must overcome both the visual domain gap (e.g. different illumination or background) and the dynamics domain gap (e.g. different robot calibration or modelling error) between source and target environments. However, prior policy transfer approaches either cannot handle a large domain gap or can only address one type of domain gap at a time. In this paper, we propose a novel policy transfer method with iterative "environment grounding", IDAPT, that alternates between (1) directly minimizing both visual and dynamics domain gaps by grounding the source environment in the target environment domains, and (2) training a policy on the grounded source environment. This iterative training progressively aligns the domains between the two environments and adapts the policy to the target environment. Once trained, the policy can be directly executed on the target environment. The empirical results on locomotion and robotic manipulation tasks demonstrate that our approach can effectively transfer a policy across visual and dynamics domain gaps with minimal supervision and interaction with the target environment. Videos and code are available at https://clvrai.com/i dapt .
翻訳日:2021-07-02 13:54:15 公開日:2021-07-01
# 強化学習を用いた手関節外骨格を用いた長期遅延時の模型遠隔操作

Model Mediated Teleoperation with a Hand-Arm Exoskeleton in Long Time Delays Using Reinforcement Learning ( http://arxiv.org/abs/2107.00359v1 )

ライセンス: Link先を確認
Hadi Beik-Mohammadi, Matthias Kerzel, Benedikt Pleintinger, Thomas Hulin, Philipp Reisich, Annika Schmidt, Aaron Pereira, Stefan Wermter, Neal Y. Lii(参考訳) テレロボティックシステムは、新しい環境条件に適応し、長期間の遅延による高い不確実性に対処する必要がある。 人間レベルの知能の最良の代替手段の1つとして、強化学習(RL)はこれらの問題に対処するためのソリューションを提供するかもしれない。 本稿では,RL と Model Mediated Teleoperation (MMT) の概念を統合することを提案する。 Teleoperatorはシミュレーションされた仮想環境と対話し、即時フィードバックを提供する。 実際の環境からのフィードバックは遅れるが、モデルからのフィードバックは瞬時に行われ、高い透明性をもたらす。 MMTは、2層からなるインテリジェントシステムと組み合わせて実現される。 第1層は動的運動原始(DMP)を使用し、アバター環境の特定の変化を考慮に入れている。 そして、第2層は、RL法によるモデルの不確実性に起因する問題に対処する。 テレオペレーター用のアバターデバイスと仮想環境モデルを融合するために拡張現実も提供された。 DLRのExodex Adamの手腕触覚外骨格に実装したところ、RL法は実演後の物体位置に変化を加えると、異なる解を見つけることができることがわかった。 また,DMPは不確実性のない新しい条件に適応する上でも有効であることが示された。

Telerobotic systems must adapt to new environmental conditions and deal with high uncertainty caused by long-time delays. As one of the best alternatives to human-level intelligence, Reinforcement Learning (RL) may offer a solution to cope with these issues. This paper proposes to integrate RL with the Model Mediated Teleoperation (MMT) concept. The teleoperator interacts with a simulated virtual environment, which provides instant feedback. Whereas feedback from the real environment is delayed, feedback from the model is instantaneous, leading to high transparency. The MMT is realized in combination with an intelligent system with two layers. The first layer utilizes Dynamic Movement Primitives (DMP) which accounts for certain changes in the avatar environment. And, the second layer addresses the problems caused by uncertainty in the model using RL methods. Augmented reality was also provided to fuse the avatar device and virtual environment models for the teleoperator. Implemented on DLR's Exodex Adam hand-arm haptic exoskeleton, the results show RL methods are able to find different solutions when changes are applied to the object position after the demonstration. The results also show DMPs to be effective at adapting to new conditions where there is no uncertainty involved.
翻訳日:2021-07-02 13:53:52 公開日:2021-07-01
# 高度不完全データセットを用いたニューラルネットワークトレーニング

Neural Network Training with Highly Incomplete Datasets ( http://arxiv.org/abs/2107.00429v1 )

ライセンス: Link先を確認
Yu-Wei Chang and Laura Natali and Oveis Jamialahmadi and Stefano Romeo and Joana B. Pereira and Giovanni Volpe(参考訳) ニューラルネットワークのトレーニングと検証は、大規模な高品質データセットの可用性に依存している。 しかし、多くの場合、不完全なデータセットのみが利用可能であり、特に医療アプリケーションでは、各患者がそれぞれ異なる臨床手順を施すか、研究から外れる可能性がある。 ニューラルネットワークをトレーニングするデータは完成する必要があるため、ほとんどの研究は、トレーニングデータのサイズを縮小する不完全なデータポイントを捨てたり、欠落した特徴を注入したり、人工物につながる可能性がある。 残念ながら、データの大部分が失われている場合、どちらのアプローチも不十分です。 本稿では、高度に不完全なデータセットを使用できる代替のディープラーニングトレーニングアプローチであるgapnetを紹介する。 まず、データセットは特定の機能のクラスタのすべての値を含むサンプルのサブセットに分割される。 そして、これらのサブセットは個々のニューラルネットワークをトレーニングするために使用される。 最後に、このニューラルネットワークのアンサンブルは、すべての完全なデータポイントを使用してトレーニングを微調整する単一のニューラルネットワークに結合される。 2つの高度に不完全な実世界の医療データセットを用いて、GapNetは、基礎疾患の患者とコビッド19による入院リスクのある患者の識別を改善する。 不完全なデータセットで利用可能な情報を、サイズを減らしたり、欠落した値を暗示したりすることなく蒸留することで、GapNetは幅広いデータセットから貴重な情報を抽出し、医学から工学までさまざまな分野の恩恵を受けることができる。

Neural network training and validation rely on the availability of large high-quality datasets. However, in many cases only incomplete datasets are available, particularly in health care applications, where each patient typically undergoes different clinical procedures or can drop out of a study. Since the data to train the neural networks need to be complete, most studies discard the incomplete datapoints, which reduces the size of the training data, or impute the missing features, which can lead to artefacts. Alas, both approaches are inadequate when a large portion of the data is missing. Here, we introduce GapNet, an alternative deep-learning training approach that can use highly incomplete datasets. First, the dataset is split into subsets of samples containing all values for a certain cluster of features. Then, these subsets are used to train individual neural networks. Finally, this ensemble of neural networks is combined into a single neural network whose training is fine-tuned using all complete datapoints. Using two highly incomplete real-world medical datasets, we show that GapNet improves the identification of patients with underlying Alzheimer's disease pathology and of patients at risk of hospitalization due to Covid-19. By distilling the information available in incomplete datasets without having to reduce their size or to impute missing values, GapNet will permit to extract valuable information from a wide range of datasets, benefiting diverse fields from medicine to engineering.
翻訳日:2021-07-02 13:52:31 公開日:2021-07-01
# マルチタスク自己教師付き音声表現学習のためのプリテキストタスク選択

Pretext Tasks selection for multitask self-supervised speech representation learning ( http://arxiv.org/abs/2107.00594v1 )

ライセンス: Link先を確認
Salah Zaiem, Titouan Parcollet and Slim Essid(参考訳) プレテキストタスクの解決を通じて、自己教師付き学習はラベルのないデータを活用し、下流タスクの伝統的な入力機能を置き換える有用な潜在表現を抽出する。 コンピュータビジョン、自然言語処理、音声/音声信号処理など、さまざまなアプリケーション領域において、何十年もの研究成果を積んだ幅広い機能がある。 その結果、こうした特徴を予測することの学習は、下流タスクに有効であることを示す有用な自己教師付き表現を構築するための、特に意味のある前提課題であることが判明した。 しかし、ダウンストリームタスクにおけるパフォーマンス向上のために、各タスクが異なる機能グループをターゲットにする、このようなプリテキストタスクを組み合わせる方法や一般的なプラクティスは、十分に検討され、理解されていない。 実際、このプロセスは計算的に重い実験手順にのみ依存しており、プレテキストタスクの数が増加すると難解になる。 提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。 本手法は,自己指導型学習過程における前提課題に対応する部分的損失に対する適切な補正重み推定手法を提案する。 話者認識と自動音声認識による実験により,従来のベースラインよりも選択・重み付けされたグループの方が優れた結果が得られるため,自己教師付き表現学習のための関連する擬似ラベルの選択と組み合わせが容易になる。

Through solving pretext tasks, self-supervised learning leverages unlabeled data to extract useful latent representations replacing traditional input features in the downstream task. In various application domains, including computer vision, natural language processing and audio/speech signal processing, a wide range of features where engineered through decades of research efforts. As it turns out, learning to predict such features has proven to be a particularly relevant pretext task leading to building useful self-supervised representations that prove to be effective for downstream tasks. However, methods and common practices for combining such pretext tasks, where each task targets a different group of features for better performance on the downstream task have not been explored and understood properly. In fact, the process relies almost exclusively on a computationally heavy experimental procedure, which becomes intractable with the increase of the number of pretext tasks. This paper introduces a method to select a group of pretext tasks among a set of candidates. The method we propose estimates properly calibrated weights for the partial losses corresponding to the considered pretext tasks during the self-supervised training process. The experiments conducted on speaker recognition and automatic speech recognition validate our approach, as the groups selected and weighted with our method perform better than classic baselines, thus facilitating the selection and combination of relevant pseudo-labels for self-supervised representation learning.
翻訳日:2021-07-02 13:51:49 公開日:2021-07-01
# Dual Accelerationによる高速マージン最大化

Fast Margin Maximization via Dual Acceleration ( http://arxiv.org/abs/2107.00595v1 )

ライセンス: Link先を確認
Ziwei Ji, Nathan Srebro, Matus Telgarsky(参考訳) 本研究では,分離可能なデータの分類マージンを最大化する指数的損失(指数的損失やロジスティック損失など)を持つ線形分類器を,$\widetilde{\mathcal{o}}(1/t^2)$で学習するための運動量に基づく勾配法を提案する。 これは標準的な勾配降下では$\mathcal{o}(1/\log(t))$、正規化勾配降下では$\mathcal{o}(1/t)$と対照的である。 この運動量に基づく法は、最大母数問題の凸双対、特にネステロフ加速度をこの双対に適用することにより導出され、原始の単純で直感的な方法が導出される。 この双対ビューは、双対変数を介して適応的な非一様サンプリングを行う確率的変種を導出するのにも使うことができる。

We present and analyze a momentum-based gradient method for training linear classifiers with an exponentially-tailed loss (e.g., the exponential or logistic loss), which maximizes the classification margin on separable data at a rate of $\widetilde{\mathcal{O}}(1/t^2)$. This contrasts with a rate of $\mathcal{O}(1/\log(t))$ for standard gradient descent, and $\mathcal{O}(1/t)$ for normalized gradient descent. This momentum-based method is derived via the convex dual of the maximum-margin problem, and specifically by applying Nesterov acceleration to this dual, which manages to result in a simple and intuitive method in the primal. This dual view can also be used to derive a stochastic variant, which performs adaptive non-uniform sampling via the dual variables.
翻訳日:2021-07-02 13:51:23 公開日:2021-07-01
# 計算病理学におけるグラフベース深層学習の検討

A Survey on Graph-Based Deep Learning for Computational Histopathology ( http://arxiv.org/abs/2107.00272v1 )

ライセンス: Link先を確認
David Ahmedt-Aristizabal, Mohammad Ali Armin, Simon Denman, Clinton Fookes, Lars Petersson(参考訳) 予測問題に対する表現学習の顕著な成功により、デジタル病理学と生検画像パッチの分析における機械学習とディープラーニングの利用が急速に拡大しているのを目の当たりにした。 しかしながら、畳み込みニューラルネットワークを用いたパッチによる従来の学習は、グローバルなコンテキスト情報をキャプチャしようとする場合のモデルを制限している。 組織診断における組織学的要素の表現型的およびトポロジカルな分布は重要な役割を担っている。 このように、グラフデータ表現と深層学習は組織表現を符号化し、組織内および間質レベルでの相互作用を捉えることに大きな注目を集めている。 本稿では,グラフに基づく深層学習の概念的基盤を提供し,腫瘍の局在と分類,腫瘍浸潤とステージング,画像検索,生存予測の現在の成功について論じる。 本稿では,これらの手法の概要を,スライド画像全体と組織マイクロアレイを含む入力画像のグラフ表現によって体系的に整理する。 また、既存の技術の限界を概説し、この領域における将来的な進歩を示唆する。

With the remarkable success of representation learning for prediction problems, we have witnessed a rapid expansion of the use of machine learning and deep learning for the analysis of digital pathology and biopsy image patches. However, traditional learning over patch-wise features using convolutional neural networks limits the model when attempting to capture global contextual information. The phenotypical and topological distribution of constituent histological entities play a critical role in tissue diagnosis. As such, graph data representations and deep learning have attracted significant attention for encoding tissue representations, and capturing intra- and inter- entity level interactions. In this review, we provide a conceptual grounding of graph-based deep learning and discuss its current success for tumor localization and classification, tumor invasion and staging, image retrieval, and survival prediction. We provide an overview of these methods in a systematic manner organized by the graph representation of the input image including whole slide images and tissue microarrays. We also outline the limitations of existing techniques, and suggest potential future advances in this domain.
翻訳日:2021-07-02 13:51:05 公開日:2021-07-01
# 説明可能な糖尿病網膜症と網膜画像

Explainable Diabetic Retinopathy Detection and Retinal Image Generation ( http://arxiv.org/abs/2107.00296v1 )

ライセンス: Link先を確認
Yuhao Niu, Lin Gu, Yitian Zhao, Feng Lu(参考訳) 深層学習は特定の疾患のラベルと重症度ステージの分類に成功しているが、そのほとんどは予測の仕方をほとんど説明していない。 病原体を特定するためのエビデンス・ベース・メディカル(EBM)の基礎である Koch の Postulates に触発されて, 深層学習の医学的応用の解釈可能性を活用することを提案する。 糖尿病性網膜症(DR)検出器が決定に依拠するニューロン活性化パターンを決定・分離することにより,病理的説明のために単離されたニューロン活性化と病変の直接的関係を示す。 具体的には、DR検出器の活性化ニューロンを用いて、病変の空間情報と外観情報をエンコードする新しい病理記述子を最初に定義する。 そして,記述子に符号化された症状を可視化するために,医学的に可視な網膜像を合成する新しいネットワークPatho-GANを提案する。 これらの記述子を操作することで、生成された病変の位置、量、カテゴリを任意に制御できるのです。 また,本画像は糖尿病網膜症診断と直接関連のある症状を呈している。 生成した画像は,従来手法よりも定性的かつ定量的に優れている。 さらに、画像を生成するのに何時間もかかる既存の方法に比べ、第2段階の速度は、データ拡張に有効な解決策となる可能性を秘めている。

Though deep learning has shown successful performance in classifying the label and severity stage of certain diseases, most of them give few explanations on how to make predictions. Inspired by Koch's Postulates, the foundation in evidence-based medicine (EBM) to identify the pathogen, we propose to exploit the interpretability of deep learning application in medical diagnosis. By determining and isolating the neuron activation patterns on which diabetic retinopathy (DR) detector relies to make decisions, we demonstrate the direct relation between the isolated neuron activation and lesions for a pathological explanation. To be specific, we first define novel pathological descriptors using activated neurons of the DR detector to encode both spatial and appearance information of lesions. Then, to visualize the symptom encoded in the descriptor, we propose Patho-GAN, a new network to synthesize medically plausible retinal images. By manipulating these descriptors, we could even arbitrarily control the position, quantity, and categories of generated lesions. We also show that our synthesized images carry the symptoms directly related to diabetic retinopathy diagnosis. Our generated images are both qualitatively and quantitatively superior to the ones by previous methods. Besides, compared to existing methods that take hours to generate an image, our second level speed endows the potential to be an effective solution for data augmentation.
翻訳日:2021-07-02 13:50:52 公開日:2021-07-01
# 深部生成モデルを用いた点雲幾何のロスレス符号化

Lossless Coding of Point Cloud Geometry using a Deep Generative Model ( http://arxiv.org/abs/2107.00400v1 )

ライセンス: Link先を確認
Dat Thanh Nguyen, Maurice Quach, Giuseppe Valenzise, Pierre Duhamel(参考訳) 本稿では、ニューラルネットワークを用いてボクセル占有率の確率分布を推定するロスレスポイントクラウド(PC)幾何圧縮法を提案する。 まず,PCの分散性を考慮するため,本手法は点雲を複数のボクセルブロックサイズに適応的に分割する。 この分割はoctreeを介して伝達される。 第2に,事前符号化されたボクセルの占有確率を推定するために,深い自己回帰生成モデルを用いる。 次に, 推定確率を用いて, コンテクストベースの算術コーダを用いてブロックを効率的に符号化する。 我々のコンテキストは可変サイズであり、より正確な確率を学ぶために現在のブロックを超えて拡張することができる。 また,データ拡張手法を用いて学習確率モデルの一般化能力,特にノイズや低密度点雲の存在について検討する。 4つの異なるデータセットと多様な特徴を持つ様々な点群で行った実験により,本手法は,最先端MPEGコーデックと比較して,ロスレス符号化率を最大30%削減することを示した。

This paper proposes a lossless point cloud (PC) geometry compression method that uses neural networks to estimate the probability distribution of voxel occupancy. First, to take into account the PC sparsity, our method adaptively partitions a point cloud into multiple voxel block sizes. This partitioning is signalled via an octree. Second, we employ a deep auto-regressive generative model to estimate the occupancy probability of each voxel given the previously encoded ones. We then employ the estimated probabilities to code efficiently a block using a context-based arithmetic coder. Our context has variable size and can expand beyond the current block to learn more accurate probabilities. We also consider using data augmentation techniques to increase the generalization capability of the learned probability models, in particular in the presence of noise and lower-density point clouds. Experimental evaluation, performed on a variety of point clouds from four different datasets and with diverse characteristics, demonstrates that our method reduces significantly (by up to 30%) the rate for lossless coding compared to the state-of-the-art MPEG codec.
翻訳日:2021-07-02 13:50:28 公開日:2021-07-01
# Elbert: 信頼できるウィンドウベースのアーリーエグジットを備えた高速アルバート

Elbert: Fast Albert with Confidence-Window Based Early Exit ( http://arxiv.org/abs/2107.00175v1 )

ライセンス: Link先を確認
Keli Xie, Siyuan Lu, Meiqi Wang, Zhongfeng Wang(参考訳) 自然言語処理(NLP)分野で大きな成功を収めたにもかかわらず、BERTのような事前訓練済みの大規模な言語モデルは、大量のパラメータと遅い推論速度のため、リソース制約やリアルタイムアプリケーションには適していない。 近年,BERTの圧縮・加速が重要視されている。 パラメータ共有戦略を取り入れることで、ALBERTは競合性能を確保しながらパラメータ数を大幅に削減する。 それでも、ALBERTは長い推測時間に悩まされている。 そこで本研究では,albertと比較して平均推定速度を大幅に向上させるelbertを提案する。 実験結果から, ELBERT は 2$\times$ から 10$\times$ に変化し, 様々なデータセットで ALBERT と比較して精度が低下することがわかった。 さらに、ELBERTは、同じ計算コストでBERTを加速する既存の早期出口法よりも高い精度を達成する。 さらに,早期退出機構の原理を理解するため,エルバートにおける意思決定過程を可視化する。

Despite the great success in Natural Language Processing (NLP) area, large pre-trained language models like BERT are not well-suited for resource-constrained or real-time applications owing to the large number of parameters and slow inference speed. Recently, compressing and accelerating BERT have become important topics. By incorporating a parameter-sharing strategy, ALBERT greatly reduces the number of parameters while achieving competitive performance. Nevertheless, ALBERT still suffers from a long inference time. In this work, we propose the ELBERT, which significantly improves the average inference speed compared to ALBERT due to the proposed confidence-window based early exit mechanism, without introducing additional parameters or extra training overhead. Experimental results show that ELBERT achieves an adaptive inference speedup varying from 2$\times$ to 10$\times$ with negligible accuracy degradation compared to ALBERT on various datasets. Besides, ELBERT achieves higher accuracy than existing early exit methods used for accelerating BERT under the same computation cost. Furthermore, to understand the principle of the early exit mechanism, we also visualize the decision-making process of it in ELBERT.
翻訳日:2021-07-02 13:49:09 公開日:2021-07-01
# 品質評価のための知識蒸留

Knowledge Distillation for Quality Estimation ( http://arxiv.org/abs/2107.00411v1 )

ライセンス: Link先を確認
Amit Gajbhiye, Marina Fomicheva, Fernando Alva-Manchego, Fr\'ed\'eric Blain, Abiola Obamuyide, Nikolaos Aletras, Lucia Specia(参考訳) 品質推定(QE)は、参照翻訳のない機械翻訳の品質を自動的に予測し、オンラインソーシャルメディアの会話の翻訳などのリアルタイム設定に適用するタスクである。 QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。 しかし、そのようなモデルの推論時間、ディスク、メモリの要求は、現実世界では広く使用できない。 蒸留された事前訓練された表現で訓練されたモデルは、多くのシナリオで禁止的に大きいままである。 代わりに、強いQE教師モデルから、異なるより浅いアーキテクチャを持つより小さなモデルに、知識を直接転送することを提案する。 提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。

Quality Estimation (QE) is the task of automatically predicting Machine Translation quality in the absence of reference translations, making it applicable in real-time settings, such as translating online social media conversations. Recent success in QE stems from the use of multilingual pre-trained representations, where very large models lead to impressive results. However, the inference time, disk and memory requirements of such models do not allow for wide usage in the real world. Models trained on distilled pre-trained representations remain prohibitively large for many usage scenarios. We instead propose to directly transfer knowledge from a strong QE teacher model to a much smaller model with a different, shallower architecture. We show that this approach, in combination with data augmentation, leads to light-weight QE models that perform competitively with distilled pre-trained representations with 8x fewer parameters.
翻訳日:2021-07-02 13:48:51 公開日:2021-07-01
# AutoSF+:知識グラフ埋め込みのための自動スコーリング機能設計を目指して

AutoSF+: Towards Automatic Scoring Function Design for Knowledge Graph Embedding ( http://arxiv.org/abs/2107.00184v1 )

ライセンス: Link先を確認
Yongqi Zhang and Zhanke Zhou and Quanming Yao(参考訳) 三重項の可算性を測定するスコアリング関数は、知識グラフ埋め込み(kge)の頂点となっている。 KGの様々な種類の関係を捉えるためのスコアリング機能は、近年専門家によって設計されている。 しかしながら、関係性はトレーニング前に推論するのが難しい複雑なパターンを示すことができるため、既存のベンチマークタスクで常にベストを尽くすことはできない。 AutoSFは、KG依存スコアリング関数の設計に自動機械学習(AutoML)を使用することの重要性を示している。 本稿では,AutoSFの拡張としてAutoSF+を提案する。 まず,進化的探索により検索アルゴリズムを改良し,検索空間をより深く探索する。 次に、最近開発されたベンチマークOGBでAutoSF+を評価した。 さらに、新しいタスク、すなわちエンティティ分類にAutoSF+を適用して、KG完了以上のタスクを改善することができることを示す。

Scoring functions, which measure the plausibility of triples, have become the crux of knowledge graph embedding (KGE). Plenty of scoring functions, targeting at capturing different kinds of relations in KGs, have been designed by experts in recent years. However, as relations can exhibit intricate patterns that are hard to infer before training, none of them can consistently perform the best on existing benchmark tasks. AutoSF has shown the significance of using automated machine learning (AutoML) to design KG- dependent scoring functions. In this paper, we propose AutoSF+ as an extension of AutoSF. First, we improve the search algorithm with the evolutionary search, which can better explore the search space. Second, we evaluate AutoSF+ on the recently developed benchmark OGB. Besides, we apply AutoSF+ to the new task, i.e., entity classification, to show that it can improve the task beyond KG completion.
翻訳日:2021-07-02 13:48:16 公開日:2021-07-01
# 深層ニューラルネットワークとヒューリスティックアルゴリズムを用いた実用的組合せ割り当てに向けて

Towards Utilitarian Combinatorial Assignment with Deep Neural Networks and Heuristic Algorithms ( http://arxiv.org/abs/2107.00317v1 )

ライセンス: Link先を確認
Fredrik Pr\"antare, Mattias Tiger, David Bergstr\"om, Herman Appelgren, Fredrik Heintz(参考訳) 本稿では,ニューラルネットワークを用いた汎用ヒューリスティックアルゴリズムの実用化に向けた予備研究について述べる。 さらに詳しくは、ディープラーニングを使用して、検索アルゴリズムと一緒に使用できるヒューリスティックを生成して、高品質な実現可能なソリューションをより早く生成します。 以上の結果から,本手法は将来的なヒューリスティックな手法である可能性が示唆された。

This paper presents preliminary work on using deep neural networks to guide general-purpose heuristic algorithms for performing utilitarian combinatorial assignment. In more detail, we use deep learning in an attempt to produce heuristics that can be used together with e.g., search algorithms to generate feasible solutions of higher quality more quickly. Our results indicate that our approach could be a promising future method for constructing such heuristics.
翻訳日:2021-07-02 13:48:03 公開日:2021-07-01
# スケーラブル顔画像検索のための正規化製品量子化ネットワーク

Orthonormal Product Quantization Network for Scalable Face Image Retrieval ( http://arxiv.org/abs/2107.00327v1 )

ライセンス: Link先を確認
Ming Zhang, Xuefei Zhe, Hong Yan(参考訳) 近年,ハミング距離測定による深いハッシュ化が顔画像検索タスクの注目を集めている。 しかし,辞書関連距離メトリクスを用いたバイナリコード表現を学習する深部量子化手法は,その課題に対してほとんど検討されていない。 本稿では,製品量子化を,顔画像検索のためのエンドツーエンドディープラーニングフレームワークに統合する最初の試みを行う。 量子化のための符号語をデータから学習する先行的深部量子化法とは異なり,事前定義された正規直交ベクトルを符号語として用いる新しいスキームを提案する。 識別情報を最大限に活用するために,各量子化部分空間における識別可能性の最大化を図ったカスタマイズされた損失関数を設計する。 さらに、量子化誤差を低減するためにエントロピーに基づく正規化項が課される。 我々は、単一ドメインとクロスドメイン検索の両方の設定下で、一般的に使用される3つのデータセットの実験を行う。 その結果,提案手法は,両設定で比較した深部ハッシュ/量子化法よりも優れた性能を示すことがわかった。 提案手法は, 正規モデル性能とモデル一般化能力の両方を一貫して改善し, 量子化品質におけるコードワード分布の重要性を検証した。 さらに,本モデルでは,深部ハッシュモデルよりも一般化能力が高いことから,スケーラブルな顔画像検索作業に適していることが示唆された。

Recently, deep hashing with Hamming distance metric has drawn increasing attention for face image retrieval tasks. However, its counterpart deep quantization methods, which learn binary code representations with dictionary-related distance metrics, have seldom been explored for the task. This paper makes the first attempt to integrate product quantization into an end-to-end deep learning framework for face image retrieval. Unlike prior deep quantization methods where the codewords for quantization are learned from data, we propose a novel scheme using predefined orthonormal vectors as codewords, which aims to enhance the quantization informativeness and reduce the codewords' redundancy. To make the most of the discriminative information, we design a tailored loss function that maximizes the identity discriminability in each quantization subspace for both the quantized and the original features. Furthermore, an entropy-based regularization term is imposed to reduce the quantization error. We conduct experiments on three commonly-used datasets under the settings of both single-domain and cross-domain retrieval. It shows that the proposed method outperforms all the compared deep hashing/quantization methods under both settings with significant superiority. The proposed codewords scheme consistently improves both regular model performance and model generalization ability, verifying the importance of codewords' distribution for the quantization quality. Besides, our model's better generalization ability than deep hashing models indicates that it is more suitable for scalable face image retrieval tasks.
翻訳日:2021-07-02 13:46:50 公開日:2021-07-01
# EPIC-KITCHENS-100へのPoliTO-IITのサブミッション

PoliTO-IIT Submission to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition ( http://arxiv.org/abs/2107.00337v1 )

ライセンス: Link先を確認
Chiara Plizzari, Mirco Planamente, Emanuele Alberti, Barbara Caputo(参考訳) 本稿では、epic-kitchens-100uns upervised domain adaptation (uda) challenge in action recognitionの技術的詳細について述べる。 UDA設定下で存在するドメインシフトに対処するために、私たちは最近、Relative Norm Alignment (RNA)と呼ばれるドメイン一般化(DG)技術を利用した。 トレーニング時にターゲットデータにアクセスする可能性に関係なく、目に見えないドメインに適切に一般化できるモデルを設計することで構成される。 そして、第2フェーズでは、ラベルなしのターゲットデータを扱うアプローチを拡張し、モデルが教師なしの方法でターゲット分散に適応できるようにしました。 この目的のために、我々は既存のudaアルゴリズム、例えばtemporal attentive adversarial adaptation network (ta3n) と、temporal hard norm alignment (t-hna) とmin-entropy consistency (mec) という新しいマルチストリーム一貫性損失を共同で組み込んだ。 我々の提出(エントリー「plnet」)は、リーダーボードに表示され、"verb"で1位、"noun"と"action"で3位に達した。

In this report, we describe the technical details of our submission to the EPIC-Kitchens-100 Unsupervised Domain Adaptation (UDA) Challenge in Action Recognition. To tackle the domain-shift which exists under the UDA setting, we first exploited a recent Domain Generalization (DG) technique, called Relative Norm Alignment (RNA). It consists in designing a model able to generalize well to any unseen domain, regardless of the possibility to access target data at training time. Then, in a second phase, we extended the approach to work on unlabelled target data, allowing the model to adapt to the target distribution in an unsupervised fashion. For this purpose, we included in our framework existing UDA algorithms, such as Temporal Attentive Adversarial Adaptation Network (TA3N), jointly with new multi-stream consistency losses, namely Temporal Hard Norm Alignment (T-HNA) and Min-Entropy Consistency (MEC). Our submission (entry 'plnet') is visible on the leaderboard and it achieved the 1st position for 'verb', and the 3rd position for both 'noun' and 'action'.
翻訳日:2021-07-02 13:46:26 公開日:2021-07-01
# クロスドメインFew-shot学習におけるタスク適応の改善

Improving Task Adaptation for Cross-domain Few-shot Learning ( http://arxiv.org/abs/2107.00358v1 )

ライセンス: Link先を確認
Wei-Hong Li, Xialei Liu, Hakan Bilen(参考訳) 本稿では,ラベル付きサンプルの少ない未確認クラスやドメインから分類器を学習することを目的とした,ドメイン間数ショット分類の問題について考察する。 異なるメタトレーニング戦略を持つ既存のメソッドに容易にアタッチでき、メタテストフェーズ中に所定のタスクに適応できる性能と効率の観点から、様々なアダプタトポロジーとオペレーションを含むいくつかの戦略を調査した。 残コネクションを持つ畳み込み層にアタッチメントされたパラメトリックアダプタが最も優れており,Meta-Datasetベンチマークの最先端モデルの性能が大幅に向上することを示す。 私たちのコードはhttps://github.com/V ICO-UoE/URLで公開されます。

In this paper, we look at the problem of cross-domain few-shot classification that aims to learn a classifier from previously unseen classes and domains with few labeled samples. We study several strategies including various adapter topologies and operations in terms of their performance and efficiency that can be easily attached to existing methods with different meta-training strategies and adapt them for a given task during meta-test phase. We show that parametric adapters attached to convolutional layers with residual connections performs the best, and significantly improves the performance of the state-of-the-art models in the Meta-Dataset benchmark with minor additional cost. Our code will be available at https://github.com/V ICO-UoE/URL.
翻訳日:2021-07-02 13:46:01 公開日:2021-07-01
# プライバシー保全型受動的摂食モニタリングのためのエゴセントリック画像キャプション

Egocentric Image Captioning for Privacy-Preserved Passive Dietary Intake Monitoring ( http://arxiv.org/abs/2107.00372v1 )

ライセンス: Link先を確認
Jianing Qiu, Frank P.-W. Lo, Xiao Gu, Modou L. Jobarteh, Wenyan Jia, Tom Baranowski, Matilda Steiner-Asiedu, Alex K. Anderson, Megan A McCrory, Edward Sazonov, Mingui Sun, Gary Frost, Benny Lo(参考訳) カメラによる受動的食事摂取監視は、被験者の食事のエピソードを継続的に捉え、消費される食物の種類や量、および被験者の食事行動などの豊富な視覚情報を記録することができる。 しかし、現在、これらの視覚的手がかりを取り入れ、受動的記録からの食事摂取の包括的文脈を提供する方法が存在しない(例えば、他者と食事を共有する被験者、食事の種類、ボウルにどれだけの食べ物が残されているか、など)。 一方、プライバシーは大きな懸念事項であり、エゴセントリックなウェアラブルカメラは撮影に使われている。 本稿では, 食品認識, 容積推定, シーン理解を統一した, 受動的モニタリングによる食事評価のための, プライバシー保護型セキュアソリューション(すなわち, エゴセントリックイメージキャプション)を提案する。 画像から豊かなテキスト記述に変換することで、栄養士は元の画像ではなく字幕に基づいて個々の食事摂取量を評価でき、画像からのプライバシー漏洩のリスクを低減できる。 この目的のために、ガーナのフィールド研究でヘッドウーンと胸ウーンカメラが捉えた眼内画像からなる、エゴセントリックな食事画像キャプションデータセットが構築されている。 新しいトランスフォーマーベースのアーキテクチャは、エゴセントリックな食事イメージをキャプションするように設計されている。 この効果を評価し,エゴセントリックな食感キャプションのためのアーキテクチャの設計を正当化するために,包括的な実験を行った。 我々の知る限りでは、実生活における食事摂取評価にイメージキャプションを適用した最初の作品である。

Camera-based passive dietary intake monitoring is able to continuously capture the eating episodes of a subject, recording rich visual information, such as the type and volume of food being consumed, as well as the eating behaviours of the subject. However, there currently is no method that is able to incorporate these visual clues and provide a comprehensive context of dietary intake from passive recording (e.g., is the subject sharing food with others, what food the subject is eating, and how much food is left in the bowl). On the other hand, privacy is a major concern while egocentric wearable cameras are used for capturing. In this paper, we propose a privacy-preserved secure solution (i.e., egocentric image captioning) for dietary assessment with passive monitoring, which unifies food recognition, volume estimation, and scene understanding. By converting images into rich text descriptions, nutritionists can assess individual dietary intake based on the captions instead of the original images, reducing the risk of privacy leakage from images. To this end, an egocentric dietary image captioning dataset has been built, which consists of in-the-wild images captured by head-worn and chest-worn cameras in field studies in Ghana. A novel transformer-based architecture is designed to caption egocentric dietary images. Comprehensive experiments have been conducted to evaluate the effectiveness and to justify the design of the proposed architecture for egocentric dietary image captioning. To the best of our knowledge, this is the first work that applies image captioning to dietary intake assessment in real life settings.
翻訳日:2021-07-02 13:45:47 公開日:2021-07-01
# 深層学習に基づくUAV軌道予測のための合成学習データの生成

Generating Synthetic Training Data for Deep Learning-Based UAV Trajectory Prediction ( http://arxiv.org/abs/2107.00422v1 )

ライセンス: Link先を確認
Stefan Becker and Ronny Hug and Wolfgang H\"ubner and Michael Arens and Brendan T. Morris(参考訳) recurrent neural networks(rnn)のようなディープラーニングベースのモデルは、様々なシーケンス学習タスクに適用され、大きな成功を収めている。 その後、これらのモデルは、動き予測のためのオブジェクト追跡アプリケーションにおける古典的なアプローチに置き換わるようになっている。 一方、これらのモデルは、モデリングを少なくして複雑なオブジェクトのダイナミクスを捉えることができるが、一方、パラメータチューニングのための大量のトレーニングデータに依存している。 そこで本研究では,無人航空機(UAV)の合成軌道データを生成する手法を提案する。 UAV、またはむしろ四重項は力学系であるため、任意の軌道を辿ることはできない。 UAV軌道が高次運動の最小変化に対応する滑らかさ基準を満たすことの前提条件として、攻撃的な4段機飛行を計画する手法を用いて、一連の3次元ウェイポイントを通して最適な軌道を生成することができる。 四重項制御に適したこれらの運動軌跡を画像空間に投影することにより、多目的軌跡データセットを実現する。 合成軌道データの適用性を示すため、実世界のUAV追跡データセットにおいて、生成されたデータにのみ訓練されたRNNベースの予測モデルが古典的参照モデルより優れていることを示す。 評価は、公開されているアンチUAVデータセット上で行われる。

Deep learning-based models, such as recurrent neural networks (RNNs), have been applied to various sequence learning tasks with great success. Following this, these models are increasingly replacing classic approaches in object tracking applications for motion prediction. On the one hand, these models can capture complex object dynamics with less modeling required, but on the other hand, they depend on a large amount of training data for parameter tuning. Towards this end, we present an approach for generating synthetic trajectory data of unmanned-aerial-vehi cles (UAVs) in image space. Since UAVs, or rather quadrotors are dynamical systems, they can not follow arbitrary trajectories. With the prerequisite that UAV trajectories fulfill a smoothness criterion corresponding to a minimal change of higher-order motion, methods for planning aggressive quadrotors flights can be utilized to generate optimal trajectories through a sequence of 3D waypoints. By projecting these maneuver trajectories, which are suitable for controlling quadrotors, to image space, a versatile trajectory data set is realized. To demonstrate the applicability of the synthetic trajectory data, we show that an RNN-based prediction model solely trained on the generated data can outperform classic reference models on a real-world UAV tracking dataset. The evaluation is done on the publicly available ANTI-UAV dataset.
翻訳日:2021-07-02 13:45:18 公開日:2021-07-01
# ゼロショット学習による3次元ハイブリッドシーンのセグメンテーション

Segmenting 3D Hybrid Scenes via Zero-Shot Learning ( http://arxiv.org/abs/2107.00430v1 )

ライセンス: Link先を確認
Bo Liu, Qiulei Dong, Zhanyi Hu(参考訳) ゼロショット学習(zero-shot learning)の枠組みの下で,3dハイブリッドシーンにおけるポイントクラウド意味セグメンテーションの問題に取り組む。 ここではhybridによって、このシーンは見知らぬクラスと見当たらないクラスの3dオブジェクトの両方で構成されており、より汎用的で現実的な設定になっている。 私たちの知る限り、この問題は文献では研究されていない。 そこで本研究では, pfnet と呼ばれるオブジェクトクラスと未知のクラスの両方の意味的特徴を活用し, 様々なオブジェクトクラスの点特徴を合成するネットワークを提案する。 提案するpfnetはganアーキテクチャを用いて点特徴を合成し,新しい意味正規化器を用いて見掛けクラスと見当たらないクラス間の意味関係を統合し,その合成特徴を分類器に訓練して,テスト3dシーンポイントのラベルを予測する。 さらに,S3DISデータセットとScanNetデータセットを6つの異なるデータ分割で再編成することで,アルゴリズム評価のための2つのベンチマークも導入する。 提案手法の有効性を検証し,提案手法を2つのベンチマークと方法論で検証することで,新たな方向性のさらなる研究に役立つことを期待する。

This work is to tackle the problem of point cloud semantic segmentation for 3D hybrid scenes under the framework of zero-shot learning. Here by hybrid, we mean the scene consists of both seen-class and unseen-class 3D objects, a more general and realistic setting in application. To our knowledge, this problem has not been explored in the literature. To this end, we propose a network to synthesize point features for various classes of objects by leveraging the semantic features of both seen and unseen object classes, called PFNet. The proposed PFNet employs a GAN architecture to synthesize point features, where the semantic relationship between seen-class and unseen-class features is consolidated by adapting a new semantic regularizer, and the synthesized features are used to train a classifier for predicting the labels of the testing 3D scene points. Besides we also introduce two benchmarks for algorithmic evaluation by re-organizing the public S3DIS and ScanNet datasets under six different data splits. Experimental results on the two benchmarks validate our proposed method, and we hope our introduced two benchmarks and methodology could be of help for more research on this new direction.
翻訳日:2021-07-02 13:44:56 公開日:2021-07-01
# 画素単位の確率的部分分割による強相互作用手の不明瞭化の学習

Learning to Disambiguate Strongly Interacting Hands via Probabilistic Per-pixel Part Segmentation ( http://arxiv.org/abs/2107.00434v1 )

ライセンス: Link先を確認
Zicong Fan, Adrian Spurr, Muhammed Kocabas, Siyu Tang, Michael J. Black, Otmar Hilliges(参考訳) 自然な会話や対話において、私たちの手はしばしば重なり合うか、互いに接触する。 手の均質な外観のため,画像から手の動きを3次元的に推定することは困難である。 本稿では,各手とその部品に画素観測を割り当てる際の自己相似性,その結果生じるあいまいさが,最終3次元ポーズ誤差の主な原因であることを示す。 そこで本研究では,1つの単眼像から2つの手の3次元ポーズを推定する新しい手法であるdigitを提案する。 この方法は、入力画像をピクセル毎の意味部分セグメンテーションマスクと視覚特徴量に加工する2つの織り込み枝からなる。 従来の作業とは対照的に、ポーズ推定段階からセグメンテーションを分離するのではなく、下流のポーズ推定タスクで直接ピクセル当たりの確率を活用する。 そのため、部分確率は視覚特徴とマージされ、完全畳み込み層を介して処理される。 提案手法は, シングルハンドとインタラクションハンドの両方を指標とするInterHand2.6Mデータセット上で, 新たな最先端性能を実現することを実験的に示す。 本手法の有効性を実証するために,詳細なアブレーション研究を行い,画素所有のモデル化が手の位置推定にどのように影響するかを考察する。 私たちのコードは研究目的でリリースされます。

In natural conversation and interaction, our hands often overlap or are in contact with each other. Due to the homogeneous appearance of hands, this makes estimating the 3D pose of interacting hands from images difficult. In this paper we demonstrate that self-similarity, and the resulting ambiguities in assigning pixel observations to the respective hands and their parts, is a major cause of the final 3D pose error. Motivated by this insight, we propose DIGIT, a novel method for estimating the 3D poses of two interacting hands from a single monocular image. The method consists of two interwoven branches that process the input imagery into a per-pixel semantic part segmentation mask and a visual feature volume. In contrast to prior work, we do not decouple the segmentation from the pose estimation stage, but rather leverage the per-pixel probabilities directly in the downstream pose estimation task. To do so, the part probabilities are merged with the visual features and processed via fully-convolutional layers. We experimentally show that the proposed approach achieves new state-of-the-art performance on the InterHand2.6M dataset for both single and interacting hands across all metrics. We provide detailed ablation studies to demonstrate the efficacy of our method and to provide insights into how the modelling of pixel ownership affects single and interacting hand pose estimation. Our code will be released for research purposes.
翻訳日:2021-07-02 13:44:34 公開日:2021-07-01
# 弱教師付きセグメンテーションのための極点間測地

Inter Extreme Points Geodesics for Weakly Supervised Segmentation ( http://arxiv.org/abs/2107.00583v1 )

ライセンス: Link先を確認
Reuben Dorent, Samuel Joutard, Jonathan Shapey, Aaron Kujawa, Marc Modat, Sebastien Ourselin, Tom Vercauteren(参考訳) InExtremIS}$は、特に弱いトレインタイムアノテーションを使ってディープイメージセグメンテーションネットワークをトレーニングするための、弱い教師付き3Dアプローチである。 完全な自動メソッドはエンドツーエンドでトレーニングされ、テスト時のアノテーションは不要です。 極端な点から、3dバウンディングボックスは興味のあるオブジェクトの周りに抽出される。 そして、極端点を結ぶ深い測地線を生成し、境界ボックス内の「注釈付き」ボクセルの量を増加させる。 最後に、条件付き確率場定式化に由来する弱教師付き正規化損失を用いて、均質領域における予測一貫性を促進する。 広汎な実験は、前庭性Schwannomaセグメンテーションのための大きなオープンデータセット上で実施される。 $\textit{inextremis}$ 競争性能を獲得し、完全な監督に近づき、バウンディングボックスに基づいた他の弱い監督技術よりも優れている。 さらに、固定されたアノテーションの時間予算が与えられた場合、$\textit{InExtremIS}$は完全な監視に優れます。 私たちのコードとデータはオンラインで利用可能です。

We introduce $\textit{InExtremIS}$, a weakly supervised 3D approach to train a deep image segmentation network using particularly weak train-time annotations: only 6 extreme clicks at the boundary of the objects of interest. Our fully-automatic method is trained end-to-end and does not require any test-time annotations. From the extreme points, 3D bounding boxes are extracted around objects of interest. Then, deep geodesics connecting extreme points are generated to increase the amount of "annotated" voxels within the bounding boxes. Finally, a weakly supervised regularised loss derived from a Conditional Random Field formulation is used to encourage prediction consistency over homogeneous regions. Extensive experiments are performed on a large open dataset for Vestibular Schwannoma segmentation. $\textit{InExtremIS}$ obtained competitive performance, approaching full supervision and outperforming significantly other weakly supervised techniques based on bounding boxes. Moreover, given a fixed annotation time budget, $\textit{InExtremIS}$ outperforms full supervision. Our code and data are available online.
翻訳日:2021-07-02 13:43:57 公開日:2021-07-01
# 多時期衛星データの分類のための3次元反復時空間フィルタ

3D Iterative Spatiotemporal Filtering for Classification of Multitemporal Satellite Data Sets ( http://arxiv.org/abs/2107.00590v1 )

ライセンス: Link先を確認
Hessah Albanwan, Rongjun Qin, Xiaohu Lu, Mao Li, Desheng Liu, Jean-Michel Guldmann(参考訳) 土地被覆・土地利用変化分析の現在の実践は、多時期データセットの個別分類地図に大きく依存している。 様々な取得条件(照明、センサー、季節差など)により、得られる分類地図は、頑健な統計分析のために時間を通して矛盾することが多い。 3次元幾何学的特徴は時間的データセット間の差異を評価するために安定であることが示されている。 そこで,本稿では,時空間分類のための衛星データから導出した多時間正準写真とディジタル表面モデルについて検討する。 本手法は,訓練サンプルが限定されたランダムフォレスト分類器を用いてクラス毎の確率分布マップを生成し,クラス毎の確率マップで動作する反復的3次元時空間フィルタを用いて時空間推論を行う。 実験結果から,提案手法は個人分類を2%-6%改善し,重要なポストクラス化改善手法となる可能性が示唆された。

The current practice in land cover/land use change analysis relies heavily on the individually classified maps of the multitemporal data set. Due to varying acquisition conditions (e.g., illumination, sensors, seasonal differences), the classification maps yielded are often inconsistent through time for robust statistical analysis. 3D geometric features have been shown to be stable for assessing differences across the temporal data set. Therefore, in this article we investigate he use of a multitemporal orthophoto and digital surface model derived from satellite data for spatiotemporal classification. Our approach consists of two major steps: generating per-class probability distribution maps using the random-forest classifier with limited training samples, and making spatiotemporal inferences using an iterative 3D spatiotemporal filter operating on per-class probability maps. Our experimental results demonstrate that the proposed methods can consistently improve the individual classification results by 2%-6% and thus can be an important postclassification refinement approach.
翻訳日:2021-07-02 13:43:45 公開日:2021-07-01
# 多視点衛星画像からの3次元情報を用いた樹冠検出とクラウン行列

Individual Tree Detection and Crown Delineation with 3D Information from Multi-view Satellite Images ( http://arxiv.org/abs/2107.00592v1 )

ライセンス: Link先を確認
Changlin Xiao, Rongjun Qin, Xiao Xie, Xu Huang(参考訳) 森林在庫管理には個別の樹木検出・クラウンデライン化(ITDD)が重要であり,リモートセンシングに基づく森林調査は主に衛星画像によって行われている。 しかし、これらの調査のほとんどは、2Dのスペクトル情報しか使っていません。 衛星画像の完全探索のために,多視点衛星データから得られた直視・デジタル表面モデル(DSM)を用いたITDD手法を提案する。 本アルゴリズムは,DSMから局所的な最大値をツリートップとして効率的に抽出し,ツリークラウンの2次元情報と3次元情報を組み合わせた2次元スーパーピクセルセグメンテーションに供給する。 その後のステップでは, 樹冠の生物学的特性を植物アロメトリー式に組み込んで, 潜在異常値の偽造を行う。 3つの代表的な領域で手動でマークされた木プロットに対する実験では、最高の検出精度が89%である有望な結果が得られた。

Individual tree detection and crown delineation (ITDD) are critical in forest inventory management and remote sensing based forest surveys are largely carried out through satellite images. However, most of these surveys only use 2D spectral information which normally has not enough clues for ITDD. To fully explore the satellite images, we propose a ITDD method using the orthophoto and digital surface model (DSM) derived from the multi-view satellite data. Our algorithm utilizes the top-hat morphological operation to efficiently extract the local maxima from DSM as treetops, and then feed them to a modi-fied superpixel segmentation that combines both 2D and 3D information for tree crown delineation. In subsequent steps, our method incorporates the biological characteristics of the crowns through plant allometric equation to falsify potential outliers. Experiments against manually marked tree plots on three representative regions have demonstrated promising results - the best overall detection accuracy can be 89%.
翻訳日:2021-07-02 13:43:28 公開日:2021-07-01
# 高解像度衛星画像のためのバンドル調整と特徴マッチングの統一化フレームワーク

A Unified Framework of Bundle Adjustment and Feature Matching for High-Resolution Satellite Images ( http://arxiv.org/abs/2107.00598v1 )

ライセンス: Link先を確認
Xiao Ling, Xu Huang, Rongjun Qin(参考訳) バンドル調整(BA)は,衛星画像のセンサ方向を補正する手法であり,補正精度は特徴マッチング結果と相関する。 特徴マッチングは弱い/リピートテクスチャにおいて高い不確実性を含むことが多いが、baの結果はこれらの不確実性を減らすのに役立つ。 より正確な方向を計算するため、この記事ではbaと特徴マッチングを統一した枠組みで定式化し、baと特徴マッチングの解が互いに制約されるように大域的エネルギー関数の最適化として結合を定式化する。 最適化における縮退を回避するため,グローバルエネルギー関数の最適化を2段階のサブ最適化に分割し,各サブ最適化の局所最小値を漸進的に計算することで構成された解を提案する。 マルチビュー高解像度衛星画像に対する実験により,提案手法は,最小二乗マッチングの有無にかかわらず,最先端のオリエンテーション技術より優れていることが示された。

Bundle adjustment (BA) is a technique for refining sensor orientations of satellite images, while adjustment accuracy is correlated with feature matching results. Feature match-ing often contains high uncertainties in weak/repeat textures, while BA results are helpful in reducing these uncertainties. To compute more accurate orientations, this article incorpo-rates BA and feature matching in a unified framework and formulates the union as the optimization of a global energy function so that the solutions of the BA and feature matching are constrained with each other. To avoid a degeneracy in the optimization, we propose a comprised solution by breaking the optimization of the global energy function into two-step suboptimizations and compute the local minimums of each suboptimization in an incremental manner. Experiments on multi-view high-resolution satellite images show that our proposed method outperforms state-of-the-art orientation techniques with or without accurate least-squares matching.
翻訳日:2021-07-02 13:43:11 公開日:2021-07-01
# 平滑化フィルタの半スパーシビリティ

Semi-Sparsity for Smoothing Filters ( http://arxiv.org/abs/2107.00627v1 )

ライセンス: Link先を確認
Junqing Huang, Haihui Wang, Xuechao Wang, Michael Ruzhansky(参考訳) 本稿では,新しいスパーシリティ誘導最適化フレームワークに基づく,興味深い半スパーシリティ平滑化アルゴリズムを提案する。 この方法は、例えば多項式平滑表面のような空間が完全に認められない領域において、半スパーシティ事前知識がより普遍的に適用可能であるという複数の観測から導かれる。 この半分離性は、高次勾配領域における一般化された$l_0$-norm最小化に同定できるため、疎な特徴(特異性と鋭いエッジ)と非疎領域(多項スモーキング面)の両方において、強力な同時フィッティング能力を持つ新しい ‘feature-aware' フィルタリング法が生まれている。 l_0$-ノルム最小化の非凸性と組合せの性質のため、直接解法は常に使用できないことに注意。 代わりに、高速化のために高速フーリエ変換(FFT)を用いた半四分法分割最小化を効率よく行う。 我々は最終的にその汎用性と、一連の信号/画像処理およびコンピュータビジョンアプリケーションに対する多くの利点を実証する。

In this paper, we propose an interesting semi-sparsity smoothing algorithm based on a novel sparsity-inducing optimization framework. This method is derived from the multiple observations, that is, semi-sparsity prior knowledge is more universally applicable, especially in areas where sparsity is not fully admitted, such as polynomial-smoothing surfaces. We illustrate that this semi-sparsity can be identified into a generalized $L_0$-norm minimization in higher-order gradient domains, thereby giving rise to a new ``feature-aware'' filtering method with a powerful simultaneous-fitting ability in both sparse features (singularities and sharpening edges) and non-sparse regions (polynomial-smoothin g surfaces). Notice that a direct solver is always unavailable due to the non-convexity and combinatorial nature of $L_0$-norm minimization. Instead, we solve the model based on an efficient half-quadratic splitting minimization with fast Fourier transforms (FFTs) for acceleration. We finally demonstrate its versatility and many benefits to a series of signal/image processing and computer vision applications.
翻訳日:2021-07-02 13:42:53 公開日:2021-07-01
# 決定論的疫学不確かさの実践性について

On the Practicality of Deterministic Epistemic Uncertainty ( http://arxiv.org/abs/2107.00649v1 )

ライセンス: Link先を確認
Janis Postels, Mattia Segu, Tao Sun, Luc Van Gool, Fisher Yu, Federico Tombari(参考訳) 単一のフォワードパスを持つディープニューラルネットワークにおける認識的不確かさを推定するための一連の新しいアプローチが、ベイズニューラルネットワークの有効な代替手段として最近登場している。 情報表現の前提として、これらの決定論的不確実性法(DUM)は、推定時に無視可能な計算コストを加算しながら、配布外データ(OOD)を検出する上で高い性能を達成する。 しかし、DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。 そこで我々はまず,DUMの分類を行い,連続的な分布変化の下でのキャリブレーションと,画像分類タスクにおけるOOD検出性能を評価する。 そして、最も有望なアプローチをセマンティックセグメンテーションに拡張します。 我々は,DUMが現実的な視覚タスクにスケールし,OOD検出に優れる一方で,現実的な分布シフトの下でのキャリブレーションの低下により,現在の手法の実用性が損なわれていることを見出した。

A set of novel approaches for estimating epistemic uncertainty in deep neural networks with a single forward pass has recently emerged as a valid alternative to Bayesian Neural Networks. On the premise of informative representations, these deterministic uncertainty methods (DUMs) achieve strong performance on detecting out-of-distribution (OOD) data while adding negligible computational costs at inference time. However, it remains unclear whether DUMs are well calibrated and can seamlessly scale to real-world applications - both prerequisites for their practical deployment. To this end, we first provide a taxonomy of DUMs, evaluate their calibration under continuous distributional shifts and their performance on OOD detection for image classification tasks. Then, we extend the most promising approaches to semantic segmentation. We find that, while DUMs scale to realistic vision tasks and perform well on OOD detection, the practicality of current methods is undermined by poor calibration under realistic distributional shifts.
翻訳日:2021-07-02 13:42:34 公開日:2021-07-01
# AutoFormer: 視覚認識のためのトランスフォーマー検索

AutoFormer: Searching Transformers for Visual Recognition ( http://arxiv.org/abs/2107.00651v1 )

ライセンス: Link先を確認
Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling(参考訳) 近年、純粋なトランスフォーマーモデルが画像分類や検出などの視覚タスクに大きな可能性を秘めている。 しかし,変圧器ネットワークの設計は困難である。 奥行き, 埋め込み寸法, 頭部数などが視覚変換器の性能に大きく影響することが観察されている。 以前のモデルは手作業に基づいてこれらの次元を構成する。 本稿では,視覚トランスフォーマー検索に特化した新しいワンショット・アーキテクチャ・検索フレームワーク,autoformerを提案する。 AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。 この戦略により、訓練されたスーパーネットは何千ものサブネットを非常によく訓練することができる。 具体的には、スーパーネットから受け継いだ重み付きサブネットの性能は、スクラッチから再トレーニングされたサブネットに匹敵する。 さらに、検索されたモデルはAutoFormersと呼ばれ、ViTやDeiTといった最近の最先端技術を上回る。 特に、AutoFormer-tiny/Smal l/baseは、それぞれ5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のトップ-1精度を達成した。 最後に, 下流ベンチマークおよび蒸留実験の結果から, オートフォーマタの移動性を検証する。 コードとモデルはhttps://github.com/m icrosoft/automlで入手できる。

Recently, pure transformer-based models have shown great potentials for vision tasks such as image classification and detection. However, the design of transformer networks is challenging. It has been observed that the depth, embedding dimension, and number of heads can largely affect the performance of vision transformers. Previous models configure these dimensions based upon manual crafting. In this work, we propose a new one-shot architecture search framework, namely AutoFormer, dedicated to vision transformer search. AutoFormer entangles the weights of different blocks in the same layers during supernet training. Benefiting from the strategy, the trained supernet allows thousands of subnets to be very well-trained. Specifically, the performance of these subnets with weights inherited from the supernet is comparable to those retrained from scratch. Besides, the searched models, which we refer to AutoFormers, surpass the recent state-of-the-arts such as ViT and DeiT. In particular, AutoFormer-tiny/smal l/base achieve 74.7%/81.7%/82.4% top-1 accuracy on ImageNet with 5.7M/22.9M/53.7M parameters, respectively. Lastly, we verify the transferability of AutoFormer by providing the performance on downstream benchmarks and distillation experiments. Code and models are available at https://github.com/m icrosoft/AutoML.
翻訳日:2021-07-02 13:42:16 公開日:2021-07-01
# EMA法とアンサンブルモデルによる証明付き$\ell_\infty$ロバストネスの促進

Boosting Certified $\ell_\infty$ Robustness with EMA Method and Ensemble Model ( http://arxiv.org/abs/2107.00230v1 )

ライセンス: Link先を確認
Binghui Li, Shiji Xin, Qizhe Zhang(参考訳) $\ell_\infty$-distニューロンに基づく1ドルのリプシッツ特性を持つニューラルネットワークは、$\ell_\infty$ロバスト性が証明された理論的保証を有する。 しかし、ネットワークのトレーニングに固有の困難があるため、以前の作業の認証精度は限られている。 本稿では,これらの差分を扱うための2つのアプローチを提案する。 本稿では,$\ell_\infty$-normニューラルネットワークに基づくトレーニングプロセスの特性に着目し,トレーニングプロセスを改善するためのEMA法を提案する。 学習アルゴリズムのランダム性を考慮し,1ドルのLipschitz特性を持つ学習ベースモデルに基づくアンサンブル手法を提案する。 さらに,認証されたロバスト性に基づく1ドルのLipschitz特性に基づくアンサンブル法の理論解析を行い,アルゴリズムの有効性と安定性を保証した。 私たちのコードはhttps://github.com/T heia-4869/EMA-and-En semble-Lip-Networksで公開されています。

The neural network with $1$-Lipschitz property based on $\ell_\infty$-dist neuron has a theoretical guarantee in certified $\ell_\infty$ robustness. However, due to the inherent difficulties in the training of the network, the certified accuracy of previous work is limited. In this paper, we propose two approaches to deal with these difficuties. Aiming at the characteristics of the training process based on $\ell_\infty$-norm neural network, we introduce the EMA method to improve the training process. Considering the randomness of the training algorithm, we propose an ensemble method based on trained base models that have the $1$-Lipschitz property and gain significant improvement in the small parameter network. Moreover, we give the theoretical analysis of the ensemble method based on the $1$-Lipschitz property on the certified robustness, which ensures the effectiveness and stability of the algorithm. Our code is available at https://github.com/T heia-4869/EMA-and-En semble-Lip-Networks.
翻訳日:2021-07-02 13:41:23 公開日:2021-07-01
# 深層学習のためのセキュア量子トレーニング

Secure Quantized Training for Deep Learning ( http://arxiv.org/abs/2107.00501v1 )

ライセンス: Link先を確認
Marcel Keller and Ke Sun(参考訳) 我々は、この設定でよく使用される量子化を用いて、セキュアなマルチパーティ計算(MPC)におけるニューラルネットワークのトレーニングを実装した。 我々の知る限り、我々はMPCで純粋に訓練されたMNIST分類器を初めて提示し、これは平文計算によって訓練された同じ畳み込みニューラルネットワークの精度の0.2%以内である。 より具体的には、25エポックで2つの畳み込みと2つの密集層を持つネットワークを99.2%精度でトレーニングした。 MPC実装では3.5時間かかりました(99%の精度で1時間以下でした)。

We have implemented training of neural networks in secure multi-party computation (MPC) using quantization commonly used in the said setting. To the best of our knowledge, we are the first to present an MNIST classifier purely trained in MPC that comes within 0.2 percent of the accuracy of the same convolutional neural network trained via plaintext computation. More concretely, we have trained a network with two convolution and two dense layers to 99.2% accuracy in 25 epochs. This took 3.5 hours in our MPC implementation (under one hour for 99% accuracy).
翻訳日:2021-07-02 13:41:06 公開日:2021-07-01
# 連続最適化とフィードバックアークセットヒューリスティックを組み合わせた大規模DAGの学習

Learning Large DAGs by Combining Continuous Optimization and Feedback Arc Set Heuristics ( http://arxiv.org/abs/2107.00571v1 )

ライセンス: Link先を確認
Pierre Gillot and Pekka Parviainen(参考訳) ベイズネットワークは有向非巡回グラフ(DAG)を用いて変数間の関係を表す。 DAGの学習はNPハード問題であり、正確な学習アルゴリズムは少数の変数に対してのみ実現可能である。 線形構造方程式の場合,DAGを学習するための2つのスケーラブルなヒューリスティックを提案する。 目的関数を最適化するための非拘束勾配降下に基づくステップと,最大非循環部分グラフ問題を解いて非循環性を実現することで,dagを学習する。 この分離のおかげで、私たちのメソッドは何千もの変数を超えてスケールアップします。

Bayesian networks represent relations between variables using a directed acyclic graph (DAG). Learning the DAG is an NP-hard problem and exact learning algorithms are feasible only for small sets of variables. We propose two scalable heuristics for learning DAGs in the linear structural equation case. Our methods learn the DAG by alternating between unconstrained gradient descent-based step to optimize an objective function and solving a maximum acyclic subgraph problem to enforce acyclicity. Thanks to this decoupling, our methods scale up beyond thousands of variables.
翻訳日:2021-07-02 13:40:57 公開日:2021-07-01
# Mandoline: 分散シフトによるモデル評価

Mandoline: Model Evaluation under Distribution Shift ( http://arxiv.org/abs/2107.00643v1 )

ライセンス: Link先を確認
Mayee Chen, Karan Goel, Nimit Sohoni, Fait Poms, Kayvon Fatahalian, Christopher R\'e(参考訳) マシンラーニングモデルは、トレーニングや検証対象と異なる設定でデプロイされることが多いため、デプロイされたモデルがターゲットのディストリビューションでどれだけうまく動作するかを予測したいと考える実践者にとって、課題となる。 対象分布からのラベル付きサンプルと、おそらく異なるソース分布からのラベル付きサンプルが利用可能であれば、重要度重み付けなどの標準アプローチを適用して目標の性能を推定することができる。 しかし、ソース分布とターゲット分布が重複しない支持を持つ場合や高次元の場合、重み付けの重要性が問題となる。 疫学やポーリングといった分野から着想を得て,これらの問題を緩和する新たな評価フレームワークであるmandolineを開発した。 私たちの重要な洞察は、実践者は分布が変化する方法に関する事前の知識を持っているかもしれないということです。 具体的には、ユーザは単純な“スライシング関数”を、分散シフトの可能な軸をキャプチャして、再重み付けされたパフォーマンス推定を計算するための、潜在的に相関したバイナリ関数を記述する。 さらに,スライスの密度比推定フレームワークについて述べるとともに,その推定誤差がスライス品質とデータセットサイズでどのようにスケールするかを示す。 NLPとビジョンタスクに関する実証的な検証では、 \name は標準ベースラインよりも正確にターゲットディストリビューションのパフォーマンスを最大 3 ドルまで見積もることができる。

Machine learning models are often deployed in different settings than they were trained and validated on, posing a challenge to practitioners who wish to predict how well the deployed model will perform on a target distribution. If an unlabeled sample from the target distribution is available, along with a labeled sample from a possibly different source distribution, standard approaches such as importance weighting can be applied to estimate performance on the target. However, importance weighting struggles when the source and target distributions have non-overlapping support or are high-dimensional. Taking inspiration from fields such as epidemiology and polling, we develop Mandoline, a new evaluation framework that mitigates these issues. Our key insight is that practitioners may have prior knowledge about the ways in which the distribution shifts, which we can use to better guide the importance weighting procedure. Specifically, users write simple "slicing functions" - noisy, potentially correlated binary functions intended to capture possible axes of distribution shift - to compute reweighted performance estimates. We further describe a density ratio estimation framework for the slices and show how its estimation error scales with slice quality and dataset size. Empirical validation on NLP and vision tasks shows that \name can estimate performance on the target distribution up to $3\times$ more accurately compared to standard baselines.
翻訳日:2021-07-02 13:40:48 公開日:2021-07-01
# インテリジェント対話型推薦システムにおけるbanditアルゴリズムの利用

The Use of Bandit Algorithms in Intelligent Interactive Recommender Systems ( http://arxiv.org/abs/2107.00161v1 )

ライセンス: Link先を確認
Qing Wang(参考訳) 今日のビジネスマーケットプレースでは、多くのハイテクインターネット企業が、競争上の優位性を得るために最適なオンラインユーザーエクスペリエンスを提供する革新的な方法を常に探求している。 インテリジェントなインタラクティブなレコメンデーションシステムを開発するための大きなニーズが示され、ユーザの好みを正確に予測し、最新のフィードバックを受信し、継続的なリコメンデーション結果を改善することで、ユーザが最も適切な項目をシーケンシャルに推薦することができる。 様々なオンラインシステムに広く応用されているマルチアームバンディットアルゴリズムは、そのような効率的なレコメンデーションサービスを提供することができる。 しかし、現代のレコメンダシステムによって導入された新しい変更に適応できる既存のバンディットモデルはほとんどない。

In today's business marketplace, many high-tech Internet enterprises constantly explore innovative ways to provide optimal online user experiences for gaining competitive advantages. The great needs of developing intelligent interactive recommendation systems are indicated, which could sequentially suggest users the most proper items by accurately predicting their preferences, while receiving the up-to-date feedback to refine the recommendation results, continuously. Multi-armed bandit algorithms, which have been widely applied into various online systems, are quite capable of delivering such efficient recommendation services. However, few existing bandit models are able to adapt to new changes introduced by the modern recommender systems.
翻訳日:2021-07-02 13:39:52 公開日:2021-07-01
# ハイブリッドクラウド上のデータサイエンスJupyterノートのコンテキスト対応実行移行ツール

Context-aware Execution Migration Tool for Data Science Jupyter Notebooks on Hybrid Clouds ( http://arxiv.org/abs/2107.00187v1 )

ライセンス: Link先を確認
Renato L. F. Cunha, Lucas V. Real, Renan Souza, Bruno Silva, Marco A. S. Netto(参考訳) jupyter notebooksのような対話型コンピューティングノートブックは、データ駆動モデルの開発と改善のための一般的なツールとなっている。 このようなノートブックは、ユーザのマシンまたはクラウド環境で実行される傾向があり、両方のアプローチに欠点とメリットがある。 本稿では,どのセルを自動的に選択し,そのセルがより適切な実行プラットフォームに移行すべきシナリオを選択するjupyter拡張として開発されたソリューションを提案する。 我々は,ノートブックの実行状態を削減してマイグレーション時間を短縮する方法について述べるとともに,ノートブックとユーザのインタラクションパターンに関する知識を調査し,移行すべきセルのブロックを判断する。 地球科学(リモートセンシング)、画像認識、手書き桁識別(機械学習)のノートブックを用いて、本実験では、ノートブックの状態が最大55倍に低下し、ユーザとノートブックとの対話性が考慮された場合、移行決定が最大3.25倍に向上することを示す。

Interactive computing notebooks, such as Jupyter notebooks, have become a popular tool for developing and improving data-driven models. Such notebooks tend to be executed either in the user's own machine or in a cloud environment, having drawbacks and benefits in both approaches. This paper presents a solution developed as a Jupyter extension that automatically selects which cells, as well as in which scenarios, such cells should be migrated to a more suitable platform for execution. We describe how we reduce the execution state of the notebook to decrease migration time and we explore the knowledge of user interactivity patterns with the notebook to determine which blocks of cells should be migrated. Using notebooks from Earth science (remote sensing), image recognition, and hand written digit identification (machine learning), our experiments show notebook state reductions of up to 55x and migration decisions leading to performance gains of up to 3.25x when the user interactivity with the notebook is taken into consideration.
翻訳日:2021-07-02 13:39:38 公開日:2021-07-01
# RSAへの近似によるOWL 2上のCQローバウンドの計算

Computing CQ lower-bounds over OWL 2 through approximation to RSA ( http://arxiv.org/abs/2107.00369v1 )

ライセンス: Link先を確認
Federico Igne, Stefano Germano, Ian Horrocks(参考訳) 知識ベースに答える接続型クエリ(CQ)は重要な推論タスクである。 しかし、OWLのような表現的なオントロジー言語では、クエリ応答は非常に高価である。 PAGOdAシステムは、抽出可能な推論器を使用して下界と上界の近似を計算し、これらの境界が一致しない場合にのみ完全に分岐したOWL推論器にフォールバックする。 提案手法の有効性は近似の質に大きく依存するが,本論文では,トラクタビリティを維持しながらOWL2プロファイルを全て仮定するオントロジー言語であるRSAを用いて,近似のより近い計算手法を検討する。 本稿では, OWL 2 オントロジーの RSA への新しい近似法と, PAGOdA による RSA 合成手法を用いて, より近い(PAGOdA による)下界近似を求めるアルゴリズムを提案する。 我々は,これらのアルゴリズムをプロトタイプのcq応答システムに実装し,w.r.t.の性能向上を示す予備評価を行った。 PAGODA

Conjunctive query (CQ) answering over knowledge bases is an important reasoning task. However, with expressive ontology languages such as OWL, query answering is computationally very expensive. The PAGOdA system addresses this issue by using a tractable reasoner to compute lower and upper-bound approximations, falling back to a fully-fledged OWL reasoner only when these bounds don't coincide. The effectiveness of this approach critically depends on the quality of the approximations, and in this paper we explore a technique for computing closer approximations via RSA, an ontology language that subsumes all the OWL 2 profiles while still maintaining tractability. We present a novel approximation of OWL 2 ontologies into RSA, and an algorithm to compute a closer (than PAGOdA) lower bound approximation using the RSA combined approach. We have implemented these algorithms in a prototypical CQ answering system, and we present a preliminary evaluation of our system that shows significant performance improvements w.r.t. PAGOdA.
翻訳日:2021-07-02 13:39:21 公開日:2021-07-01
# PlanSys2: ROS2の計画システムフレームワーク

PlanSys2: A Planning System Framework for ROS2 ( http://arxiv.org/abs/2107.00376v1 )

ライセンス: Link先を確認
Francisco Mart\'in, Jonatan Gin\'es, Vicente Matell\'an and Francisco J. Rodr\'iguez(参考訳) 自律ロボットは、ミッションを達成するために実行するタスクを計画する必要がある。 ミッションの複雑さが増すにつれ、人間設計者は可能なすべての状況を予測できないため、国家機械に基づく従来の制御システムでは不十分である。 本稿では,要求環境で動作するロボット上での新しい実行手法を取り入れ,シンボリックプランニングのためのフレームワークであるros2 planning system (plansys2 in short)について述べる。 PlanSys2は、ロボティクスソフトウェア開発における {\em de facto} 標準の最新バージョンであるROS2における参照タスク計画フレームワークを目指している。 主な機能として、新しいactionsオークションプロトコルとマルチロボット計画機能を通じて、行動ツリーに基づく最適化された実行を強調することができる。 ユーザと開発者のコミュニティはすでに小さいが成長している。このドキュメントは、このプロジェクトの設計と機能の概要である。

Autonomous robots need to plan the tasks they carry out to fulfill their missions. The missions' increasing complexity does not let human designers anticipate all the possible situations, so traditional control systems based on state machines are not enough. This paper contains a description of the ROS2 Planning System (PlanSys2 in short), a framework for symbolic planning that incorporates novel approaches for execution on robots working in demanding environments. PlanSys2 aims to be the reference task planning framework in ROS2, the latest version of the {\em de facto} standard in robotics software development. Among its main features, it can be highlighted the optimized execution, based on Behavior Trees, of plans through a new actions auction protocol and its multi-robot planning capabilities. It already has a small but growing community of users and developers, and this document is a summary of the design and capabilities of this project.
翻訳日:2021-07-02 13:39:02 公開日:2021-07-01
# 高速グラフ学習としての海馬空間マッピング

Hippocampal Spatial Mapping As Fast Graph Learning ( http://arxiv.org/abs/2107.00567v1 )

ライセンス: Link先を確認
Marcus Lewis(参考訳) 海馬の形成は環境の空間地図を学習すると考えられており、多くのモデルにおいて、この学習プロセスは環境の各場所に感覚アソシエーションを形成する。 これは非効率で、環境ごとに大きなルックアップテーブルを学習するのと同じです。 空間地図が疎環境部分の配置からなる場合、空間地図をより効率的に学習することができる。 本研究では,環境部分のグラフ学習問題として空間マッピングにアプローチする。 海馬のエングラム細胞で表される学習グラフの各ノードは、実験的に観察されたニューロンタイプを用いて、側角膜皮質(LEC)の特徴情報と中角膜皮質(MEC)の位置情報に関連付けられている。 グラフの各エッジは2つの部分間の関係を表し、粗い変位情報に関連付けられている。 任意の情報をノードやエッジに関連付けるというこの中核的な考え方は本質的に空間的ではないため、この高速相関グラフ学習アルゴリズムは、多くの空間的および非空間的タスクを組み込むことができる。

The hippocampal formation is thought to learn spatial maps of environments, and in many models this learning process consists of forming a sensory association for each location in the environment. This is inefficient, akin to learning a large lookup table for each environment. Spatial maps can be learned much more efficiently if the maps instead consist of arrangements of sparse environment parts. In this work, I approach spatial mapping as a problem of learning graphs of environment parts. Each node in the learned graph, represented by hippocampal engram cells, is associated with feature information in lateral entorhinal cortex (LEC) and location information in medial entorhinal cortex (MEC) using empirically observed neuron types. Each edge in the graph represents the relation between two parts, and it is associated with coarse displacement information. This core idea of associating arbitrary information with nodes and edges is not inherently spatial, so this proposed fast-relation-graph- learning algorithm can expand to incorporate many spatial and non-spatial tasks.
翻訳日:2021-07-02 13:38:47 公開日:2021-07-01
# 中国語における単語自由言語理解

Word-Free Spoken Language Understanding for Mandarin-Chinese ( http://arxiv.org/abs/2107.00186v1 )

ライセンス: Link先を確認
Zhiyuan Guo, Yuexin Li, Guo Chen, Xingyu Chen, Akshat Gupta(参考訳) SiriやAlexaといった音声対話システムは、人々の日常生活に非常に便利です。 しかし、現在の音声言語理解(SLU)パイプラインは、多くの言語固有の訓練データを必要とする自動音声認識(ASR)モジュールに依存している。 本稿では,携帯電話上で直接動作するTransformerベースのSLUシステムを提案する。 この音響ベースのSLUシステムは2ブロックのみで構成され、ASRモジュールの存在を必要としない。 第1ブロックは普遍的な電話認識システムであり、第2ブロックは電話用トランスフォーマーベースの言語モデルである。 マンダリン中国語の意図分類データセットにおけるシステムの有効性を検証する。

Spoken dialogue systems such as Siri and Alexa provide great convenience to people's everyday life. However, current spoken language understanding (SLU) pipelines largely depend on automatic speech recognition (ASR) modules, which require a large amount of language-specific training data. In this paper, we propose a Transformer-based SLU system that works directly on phones. This acoustic-based SLU system consists of only two blocks and does not require the presence of ASR module. The first block is a universal phone recognition system, and the second block is a Transformer-based language model for phones. We verify the effectiveness of the system on an intent classification dataset in Mandarin Chinese.
翻訳日:2021-07-02 13:38:28 公開日:2021-07-01
# 話者・言語・チャンネル情報についてエンド・ツー・エンド音声モデルは何を学ぶか 層状及びニューロンレベルの解析

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis ( http://arxiv.org/abs/2107.00439v1 )

ライセンス: Link先を確認
Shammur Absar Chowdhury, Nadir Durrani, Ahmed Ali(参考訳) エンドツーエンドのDNNアーキテクチャは、音声技術やAIの他の分野の最先端を推し進めており、研究者たちはより複雑でより深いモデルをトレーニングしている。 これらの改善は透明性の犠牲となった。 DNNは本質的に不透明で解釈が難しい。 もはや、どんな機能が学習され、どこに保存され、どのように相互運用されるかは理解できません。 このような分析は、モデル理解、デバッグ、倫理的意思決定における公平性を確保するために重要である。 本研究では, ディープ音声モデル内で訓練された表現を, 話者認識, 方言識別, マスキング信号の再構成のタスクに向けて分析する。 話者・言語・チャネル特性の事前学習音声モデルにおける発話レベル表現の層・ニューロンレベルでの分析を行う。 この情報は学習した表現で捉えられるか? どこに保存されている? どのように分散されているか? この情報を利用するネットワークの 最小限のサブセットを特定できます 診断分類器を用いてこれらの質問に答えた。 以上の結果から, (i) チャネル情報と性別情報が一様であり, (ii) 方言情報などの複雑な特性がタスク指向の事前学習ネットワークにのみ符号化され, (iii) 上位層に局在しているニューロンの最小サブセットを抽出して, 予め定義された性質(iv) サルエントニューロンが特性間で共有されることがあり, ネットワーク内のバイアスの存在を強調できる。 我々のクロスアーキテクチャ比較は, (v) 事前学習したモデルが話者不変情報をキャプチャし, (vi) 事前学習したCNNがトランスフォーマーと競合し, 研究対象の情報を符号化することを示す。 私たちの知る限りでは、これは音声モデルのニューロン解析を研究する最初の研究である。

End-to-end DNN architectures have pushed the state-of-the-art in speech technologies, as well as in other spheres of AI, leading researchers to train more complex and deeper models. These improvements came at the cost of transparency. DNNs are innately opaque and difficult to interpret. We no longer understand what features are learned, where they are preserved, and how they inter-operate. Such an analysis is important for better model understanding, debugging and to ensure fairness in ethical decision making. In this work, we analyze the representations trained within deep speech models, towards the task of speaker recognition, dialect identification and reconstruction of masked signals. We carry a layer- and neuron-level analysis on the utterance-level representations captured within pretrained speech models for speaker, language and channel properties. We study: is this information captured in the learned representations? where is it preserved? how is it distributed? and can we identify a minimal subset of network that posses this information. Using diagnostic classifiers, we answered these questions. Our results reveal: (i) channel and gender information is omnipresent and is redundantly distributed (ii) complex properties such as dialectal information is encoded only in the task-oriented pretrained network and is localised in the upper layers (iii) a minimal subset of neurons can be extracted to encode the predefined property (iv) salient neurons are sometimes shared between properties and can highlights presence of biases in the network. Our cross-architectural comparison indicates that (v) the pretrained models captures speaker-invariant information and (vi) the pretrained CNNs models are competitive to the Transformers for encoding information for the studied properties. To the best of our knowledge, this is the first study to investigate neuron analysis on the speech models.
翻訳日:2021-07-02 13:38:18 公開日:2021-07-01
# StableEmit: ストリーミング単調アテンションASRの発光遅延低減のための選択確率分散

StableEmit: Selection Probability Discount for Reducing Emission Latency of Streaming Monotonic Attention ASR ( http://arxiv.org/abs/2107.00635v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Tatsuya Kawahara(参考訳) アテンションベースのエンコーダデコーダ(AED)モデルは、モノトニックチャンクワイドアテンション(MoChA)のような自動音声認識(ASR)のオンライン版に拡張されているが、制約のないエンドツーエンドのトレーニング目的のため、まだ大きなラベル出力遅延がある。 以前の作業では、トレーニング中にトークンを発行するタイミングを制御するためにアライメント情報を活用することでこの問題に対処していた。 本研究では,mochaのトークン出力を早期に促すために,アライメントフリーな簡単な正規化手法であるstableemitを提案する。 stableemitはトークン境界検出のためのハードモノトニックアテンションの選択確率を一定係数で割引し、トレーニング中に全体のアテンション質量を回復するように規則化する。 その結果、選択確率のスケールが増大し、その値は早期にトークン放出のしきい値に達することができ、発光遅延と削除エラーが減少する。 さらに、stableemitと制約アライメントを組み合わせることで、精度とレイテンシをさらに向上することができる。 lstmとコンフォーメータエンコーダによる実験的評価では、stableemitは認識エラーとエミッションレイテンシを同時に低減できることが示されている。 また,両指標ともアライメント情報の利用が相補的であることを示した。

While attention-based encoder-decoder (AED) models have been successfully extended to the online variants for streaming automatic speech recognition (ASR), such as monotonic chunkwise attention (MoChA), the models still have a large label emission latency because of the unconstrained end-to-end training objective. Previous works tackled this problem by leveraging alignment information to control the timing to emit tokens during training. In this work, we propose a simple alignment-free regularization method, StableEmit, to encourage MoChA to emit tokens earlier. StableEmit discounts the selection probabilities in hard monotonic attention for token boundary detection by a constant factor and regularizes them to recover the total attention mass during training. As a result, the scale of the selection probabilities is increased, and the values can reach a threshold for token emission earlier, leading to a reduction of emission latency and deletion errors. Moreover, StableEmit can be combined with methods that constraint alignments to further improve the accuracy and latency. Experimental evaluations with LSTM and Conformer encoders demonstrate that StableEmit significantly reduces the recognition errors and the emission latency simultaneously. We also show that the use of alignment information is complementary in both metrics.
翻訳日:2021-07-02 13:37:44 公開日:2021-07-01
# ESPnet-ST IWSLT 2021オフライン音声翻訳システム

ESPnet-ST IWSLT 2021 Offline Speech Translation System ( http://arxiv.org/abs/2107.00636v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Brian Yan, Siddharth Dalmia, Pengcheng Gu, Jiatong Shi, Kevin Duh, Shinji Watanabe(参考訳) 本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。 今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。 データ側では,エンドツーエンド(E2E)音声翻訳のためのシーケンスレベルの知識蒸留(SeqKD)について検討した。 具体的には,複数の教師から多量のバイテキストで学習したseqkdを用いた。 アーキテクチャ面では、ConformerエンコーダとMulti-Decoderアーキテクチャを採用し、音声認識および翻訳タスク専用のデコーダを統一エンコーダデコーダモデルで装備し、推論中にソース空間とターゲット言語空間の検索を可能にする。 また, pyannote.audio ツールキットと複数の短いセグメントをマージすることで, 音声のセグメンテーションを大幅に改善した。 実験の結果,それぞれが翻訳性能を大幅に向上させた。 tst2021と21.2 BLEUで31.4 BLEU、tst2021の2つの単一の参照で19.3 BLEUを達成した。

This paper describes the ESPnet-ST group's IWSLT 2021 submission in the offline speech translation track. This year we made various efforts on training data, architecture, and audio segmentation. On the data side, we investigated sequence-level knowledge distillation (SeqKD) for end-to-end (E2E) speech translation. Specifically, we used multi-referenced SeqKD from multiple teachers trained on different amounts of bitext. On the architecture side, we adopted the Conformer encoder and the Multi-Decoder architecture, which equips dedicated decoders for speech recognition and translation tasks in a unified encoder-decoder model and enables search in both source and target language spaces during inference. We also significantly improved audio segmentation by using the pyannote.audio toolkit and merging multiple short segments for long context modeling. Experimental evaluations showed that each of them contributed to large improvements in translation performance. Our best E2E system combined all the above techniques with model ensembling and achieved 31.4 BLEU on the 2-ref of tst2021 and 21.2 BLEU and 19.3 BLEU on the two single references of tst2021.
翻訳日:2021-07-02 13:37:17 公開日:2021-07-01
# カラー化タスクを用いた視覚定位のための深部補助学習

Deep auxiliary learning for visual localization using colorization task ( http://arxiv.org/abs/2107.00222v1 )

ライセンス: Link先を確認
Mi Tian, Qiong Nie, Hao Shen, Xiahua Xia(参考訳) 視覚のローカライゼーションは、ロボット工学と自動運転の最も重要な要素の1つである。 近年, 終端回帰6-DoF絶対ポーズに対して直接定式化を行うCNN法が提案されている。 幾何学的制約や意味的制約などの追加情報は、一般的にパフォーマンスを改善するために導入される。 特に後者は、高レベルのセマンティック情報をローカライズタスクに集約することができるが、通常は膨大な手動アノテーションを必要とする。 そこで本研究では,自己監督型表現学習タスクから,シーン固有の高レベルセマンティクスを導入することで,カメラローカライゼーションのための新しい補助学習戦略を提案する。 強力なプロキシタスクとして見なされるイメージカラー化タスクは、余分なアノテーションなしでグレースケール写真のピクセル毎のカラーバージョンを出力する補完タスクとして選択される。 本研究では,色付けネットワークから特徴表現をローカライズネットワークに組込み,ポーズ回帰のための識別的特徴を生成する。 一方、ローカライズ性能の恩恵を受けるために注意機構を導入する。 大規模実験により, 室内データと屋外データの両方において, 最先端データよりもローカライズ精度が有意に向上した。

Visual localization is one of the most important components for robotics and autonomous driving. Recently, inspiring results have been shown with CNN-based methods which provide a direct formulation to end-to-end regress 6-DoF absolute pose. Additional information like geometric or semantic constraints is generally introduced to improve performance. Especially, the latter can aggregate high-level semantic information into localization task, but it usually requires enormous manual annotations. To this end, we propose a novel auxiliary learning strategy for camera localization by introducing scene-specific high-level semantics from self-supervised representation learning task. Viewed as a powerful proxy task, image colorization task is chosen as complementary task that outputs pixel-wise color version of grayscale photograph without extra annotations. In our work, feature representations from colorization network are embedded into localization network by design to produce discriminative features for pose regression. Meanwhile an attention mechanism is introduced for the benefit of localization performance. Extensive experiments show that our model significantly improve localization accuracy over state-of-the-arts on both indoor and outdoor datasets.
翻訳日:2021-07-02 13:36:37 公開日:2021-07-01
# 高密度トップビュー理解のためのlidarデータの多視点意味セグメンテーション

MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense Top-View Understanding ( http://arxiv.org/abs/2107.00346v1 )

ライセンス: Link先を確認
Kunyu Peng, Juncong Fei, Kailun Yang, Alina Roitberg, Jiaming Zhang, Frank Bieder, Philipp Heidenreich, Christoph Stiller, Rainer Stiefelhagen(参考訳) すべての自動運転システムの中心には、例えばLiDARシーケンスのセマンティックセグメンテーションを通じて周囲を検知する機能があり、これはSemanticKITTIやnuScenes-LidarSegのような大規模なデータセットのリリースによって顕著に進歩した。 これまでのほとんどの研究は、LiDAR入力のスパースセグメンテーションに焦点を当てていたが、高密度出力マスクは、ほぼ完全な環境情報を備えた自動運転車を提供する。 本稿では,運転シーンの高精細なトップビュー理解のために特別に構築されたマルチアテンショナルセマンティクスセグメンテーションモデルであるmassを提案する。 本フレームワークは,(1)キーポイント駆動型グラフアテンション,(2)空間入力のベクトル埋め込みから計算したLSTMベースのアテンション,(3)柱ベースのアテンションという3つのアテンションベースビルディングブロックで構成され,それによって高密度な360度セグメンテーションマスクが生成される。 SemanticKITTI と nuScenes-LidarSeg の双方に関する広範な実験により、我々のモデルの有効性を定量的に証明し、SemanticKITTI では 19.0% 、nuScenes-LidarSeg では 32.7% に到達した。 さらに,このマルチアテンションモデルは,KITTI-3Dデータセット上で検証された3次元物体検出に非常に有効であることが示され,その高一般化性を示す。

At the heart of all automated driving systems is the ability to sense the surroundings, e.g., through semantic segmentation of LiDAR sequences, which experienced a remarkable progress due to the release of large datasets such as SemanticKITTI and nuScenes-LidarSeg. While most previous works focus on sparse segmentation of the LiDAR input, dense output masks provide self-driving cars with almost complete environment information. In this paper, we introduce MASS - a Multi-Attentional Semantic Segmentation model specifically built for dense top-view understanding of the driving scenes. Our framework operates on pillar- and occupancy features and comprises three attention-based building blocks: (1) a keypoint-driven graph attention, (2) an LSTM-based attention computed from a vector embedding of the spatial input, and (3) a pillar-based attention, resulting in a dense 360-degree segmentation mask. With extensive experiments on both, SemanticKITTI and nuScenes-LidarSeg, we quantitatively demonstrate the effectiveness of our model, outperforming the state of the art by 19.0% on SemanticKITTI and reaching 32.7% in mIoU on nuScenes-LidarSeg, where MASS is the first work addressing the dense segmentation task. Furthermore, our multi-attention model is shown to be very effective for 3D object detection validated on the KITTI-3D dataset, showcasing its high generalizability to other tasks related to 3D vision.
翻訳日:2021-07-02 13:36:20 公開日:2021-07-01
# MIDV-2020:ID文書分析のための総合ベンチマークデータセット

MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis ( http://arxiv.org/abs/2107.00396v1 )

ライセンス: Link先を確認
Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng Ming, Jean-Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov(参考訳) アイデンティティドキュメント認識は、堅牢なドキュメント検出、型識別、テキストフィールド認識、およびID不正防止や、アイデンティティドキュメントキャプチャの写真、スキャン、ビデオフレームの信頼性検証といったタスクを扱うドキュメント解析の重要なサブフィールドである。 近年、このトピックに関するかなりの研究が公表されているが、その研究の最大の難点は、セキュリティ要件によって保護されていることによるデータセットの不足である。 利用可能なIDドキュメントのデータセットには、ドキュメントタイプの多様性、条件のキャプチャ、ドキュメントフィールド値の可変性がない。 さらに、公表されたデータセットは一般的に、複雑なID文書分析ではなく、文書認識問題のサブセットのためにのみ設計された。 本稿では,1000の動画クリップ,2000のスキャン画像,1000のユニークなモックIDドキュメントの1,000枚の写真からなるデータセットMIDV-2020を提案する。 提示されたベンチマークデータセットベースラインには、文書の位置と識別、テキストフィールド認識、顔検出などのタスクが提供されている。 合計72409個の注釈付き画像を用いて,提案データセットは,人為的に生成した可変データを用いた最大規模の公開ID文書データセットであり,文書解析と認識の分野の発展に有益であると考えられる。 データセットは ftp://smartengines.c om/midv-2020 と http://l3i-share.uni v-lr.fr でダウンロードできる。

Identity documents recognition is an important sub-field of document analysis, which deals with tasks of robust document detection, type identification, text fields recognition, as well as identity fraud prevention and document authenticity validation given photos, scans, or video frames of an identity document capture. Significant amount of research has been published on this topic in recent years, however a chief difficulty for such research is scarcity of datasets, due to the subject matter being protected by security requirements. A few datasets of identity documents which are available lack diversity of document types, capturing conditions, or variability of document field values. In addition, the published datasets were typically designed only for a subset of document recognition problems, not for a complex identity document analysis. In this paper, we present a dataset MIDV-2020 which consists of 1000 video clips, 2000 scanned images, and 1000 photos of 1000 unique mock identity documents, each with unique text field values and unique artificially generated faces, with rich annotation. For the presented benchmark dataset baselines are provided for such tasks as document location and identification, text fields recognition, and face detection. With 72409 annotated images in total, to the date of publication the proposed dataset is the largest publicly available identity documents dataset with variable artificially generated data, and we believe that it will prove invaluable for advancement of the field of document analysis and recognition. The dataset is available for download at ftp://smartengines.c om/midv-2020 and http://l3i-share.uni v-lr.fr .
翻訳日:2021-07-02 13:35:48 公開日:2021-07-01
# 微小サンプル軌道ct画像に対する領域適応による教師ありセグメンテーション

Supervised Segmentation with Domain Adaptation for Small Sampled Orbital CT Images ( http://arxiv.org/abs/2107.00418v1 )

ライセンス: Link先を確認
Sungho Suh, Sojeong Cheon, Wonseo Choi, Yeon Woong Chung, Won-Kyung Cho, Ji-Sun Paik, Sung Eun Kim, Dong-Jin Chang, Yong Oh Lee(参考訳) ディープニューラルネットワーク(DNN)は医用画像解析に広く利用されている。 しかしながら、大規模な注釈付きデータセットへのアクセスの欠如は、特にまれな疾患や研究会の新しい領域の場合、大きな課題となる。 比較的大きなデータセットから事前訓練された機能の転送は、かなりの解決法である。 本稿では,小サンプルCT画像のみを呈する眼神経・眼窩腫瘍に対する領域適応を用いた教師付きセグメンテーションについて検討した。 肺画像データベースコンソーシアム画像収集 (LIDC-IDRI) さえも軌道CTのクロスドメインであるが, 提案手法により, 公衆視神経データセットと臨床眼窩腫瘍データセットのセグメンテーションにおける注意U-Netの性能が向上した。 コードとデータセットはhttps://github.com/c mcbigdataで入手できる。

Deep neural networks (DNNs) have been widely used for medical image analysis. However, the lack of access a to large-scale annotated dataset poses a great challenge, especially in the case of rare diseases, or new domains for the research society. Transfer of pre-trained features, from the relatively large dataset is a considerable solution. In this paper, we have explored supervised segmentation using domain adaptation for optic nerve and orbital tumor, when only small sampled CT images are given. Even the lung image database consortium image collection (LIDC-IDRI) is a cross-domain to orbital CT, but the proposed domain adaptation method improved the performance of attention U-Net for the segmentation in public optic nerve dataset and our clinical orbital tumor dataset. The code and dataset are available at https://github.com/c mcbigdata.
翻訳日:2021-07-02 13:35:22 公開日:2021-07-01
# 連続学習による人間の運動予測の改善

Improving Human Motion Prediction Through Continual Learning ( http://arxiv.org/abs/2107.00544v1 )

ライセンス: Link先を確認
Mohammad Samin Yasar and Tariq Iqbal(参考訳) 人間の動作予測は、人間とロボットのより緊密なコラボレーションを可能にするために不可欠な要素である。 人間の動きを正確に予測する仕事は自明ではない。 人間の運動の変動性によって複合され、ヒトの大きさによる骨格レベルでも、個々の運動の特異性による運動レベルでも複合される。 これらの変数は、人間の運動の様々な時空間パターンにロバストな一般的な表現を学習アルゴリズムが得ることを困難にしている。 そこで本研究では,エンドツーエンドの学習を可能にするモジュール型シーケンス学習手法を提案する。 我々のアプローチは、まず頑健な表現を学ぶためのトレーニングサンプルの多様性に依存しており、新しい被験者の動きを予測するために連続的な学習設定で微調整することができる。 提案手法を最先端のベースラインとの比較により評価した。 提案手法は, 微調整に少量のデータを用いて, 評価された時間的地平線上での他の手法よりも優れていることを示す。 提案手法の性能向上は,個人化・信頼性の高い動作予測に連続学習を利用する可能性を開く。

Human motion prediction is an essential component for enabling closer human-robot collaboration. The task of accurately predicting human motion is non-trivial. It is compounded by the variability of human motion, both at a skeletal level due to the varying size of humans and at a motion level due to individual movement's idiosyncrasies. These variables make it challenging for learning algorithms to obtain a general representation that is robust to the diverse spatio-temporal patterns of human motion. In this work, we propose a modular sequence learning approach that allows end-to-end training while also having the flexibility of being fine-tuned. Our approach relies on the diversity of training samples to first learn a robust representation, which can then be fine-tuned in a continual learning setup to predict the motion of new subjects. We evaluated the proposed approach by comparing its performance against state-of-the-art baselines. The results suggest that our approach outperforms other methods over all the evaluated temporal horizons, using a small amount of data for fine-tuning. The improved performance of our approach opens up the possibility of using continual learning for personalized and reliable motion prediction.
翻訳日:2021-07-02 13:35:07 公開日:2021-07-01
# 行動する前を見ること:操作のための視覚的事前学習

Learning to See before Learning to Act: Visual Pre-training for Manipulation ( http://arxiv.org/abs/2107.00646v1 )

ライセンス: Link先を確認
Lin Yen-Chen, Andy Zeng, Shuran Song, Phillip Isola, Tsung-Yi Lin(参考訳) 視覚的な優先事項(例えば 物体を検知する能力)は視覚ベースの操作(例えば)の学習を容易にする。 物を拾う? そこで本研究では,まず受動的視覚タスクでモデルを訓練し,アクティブな操作タスクを行うように適応したトランスファー学習の枠組みでこの問題を考察する。 視覚タスクの事前学習は、オブジェクトを操作するための学習の一般化とサンプル効率を大幅に改善する。 しかし、これらの利益を実現するには、モデルのどの部分を転送するかを慎重に選択する必要がある。 私たちの重要な洞察は、標準的なビジョンモデルの出力は、操作によく使われるアフォーマンスマップと高い相関があるということです。 そこで,視覚ネットワークから空き予測ネットワークへのモデルパラメータの直接転送について検討し,ロボットがロボット体験をゼロにすることで,ゼロショット適応が成功することを示す。 ほんの少しのロボット経験があれば、より優れた結果を得るために余剰モデルを微調整できる。 提案手法は,10分間の吸引経験や1時間の把握経験により,新しい物体の拾い上げにおいて約80%の成功率を達成した。

Does having visual priors (e.g. the ability to detect objects) facilitate learning to perform vision-based manipulation (e.g. picking up objects)? We study this problem under the framework of transfer learning, where the model is first trained on a passive vision task, and adapted to perform an active manipulation task. We find that pre-training on vision tasks significantly improves generalization and sample efficiency for learning to manipulate objects. However, realizing these gains requires careful selection of which parts of the model to transfer. Our key insight is that outputs of standard vision models highly correlate with affordance maps commonly used in manipulation. Therefore, we explore directly transferring model parameters from vision networks to affordance prediction networks, and show that this can result in successful zero-shot adaptation, where a robot can pick up certain objects with zero robotic experience. With just a small amount of robotic experience, we can further fine-tune the affordance model to achieve better results. With just 10 minutes of suction experience or 1 hour of grasping experience, our method achieves ~80% success rate at picking up novel objects.
翻訳日:2021-07-02 13:34:50 公開日:2021-07-01
# 再スケール対数忠実度を持つ多体ヒルベルト空間における非パラメトリック能動学習と速度減少

Non-parametric Active Learning and Rate Reduction in Many-body Hilbert Space with Rescaled Logarithmic Fidelity ( http://arxiv.org/abs/2107.00195v1 )

ライセンス: Link先を確認
Wei-Ming Li and Shi-Ju Ran(参考訳) 量子と量子に着想を得た機械学習において、最初のステップはヒルベルト空間として知られる量子空間にデータを埋め込むことである。 ヒルベルト空間のサンプル間の距離を定義する量子カーネル関数(QKF)の開発は、機械学習の基本的なトピックに属している。 本研究では、量子空間における再スケール対数忠実度(RLF)と非パラメトリック能動学習(RLF-NAL)を提案する。 この再スケーリングは核の非線形性を利用してヒルベルト空間のサンプルの相互距離を調整し、一方、量子多ビット状態間の指数関数的に小さな忠実さを避ける。 我々は RLF-NAL を、ベイズ分類器、$k$-nearest 隣人、スペクトルクラスタリングなど、よく知られた非パラメトリックアルゴリズムと比較する。 本手法はラベル付きサンプルの少ない非教師付きケースとラベル付きサンプルの少ない少数ショットケースに対して特に優れた精度を示す。 t-SNEによる可視化により、ヒルベルト空間における機械学習は、低次元データがクラス内圧縮性、クラス間識別、および全体的な多様性を示す最大符号化率の減少の原理に準拠することを示す。 この提案は、テンソルネットワーク、量子回路、量子ニューラルネットワークなどのパラメトリックモデルを用いた手法を含む、他の量子および量子に触発された機械学習に適用することができる。

In quantum and quantum-inspired machine learning, the very first step is to embed the data in quantum space known as Hilbert space. Developing quantum kernel function (QKF), which defines the distances among the samples in the Hilbert space, belongs to the fundamental topics for machine learning. In this work, we propose the rescaled logarithmic fidelity (RLF) and a non-parametric active learning in the quantum space, which we name as RLF-NAL. The rescaling takes advantage of the non-linearity of the kernel to tune the mutual distances of samples in the Hilbert space, and meanwhile avoids the exponentially-small fidelities between quantum many-qubit states. We compare RLF-NAL with several well-known non-parametric algorithms including naive Bayes classifiers, $k$-nearest neighbors, and spectral clustering. Our method exhibits excellent accuracy particularly for the unsupervised case with no labeled samples and the few-shot cases with small numbers of labeled samples. With the visualizations by t-SNE, our results imply that the machine learning in the Hilbert space complies with the principles of maximal coding rate reduction, where the low-dimensional data exhibit within-class compressibility, between-class discrimination, and overall diversity. Our proposals can be applied to other quantum and quantum-inspired machine learning, including the methods using the parametric models such as tensor networks, quantum circuits, and quantum neural networks.
翻訳日:2021-07-02 13:34:13 公開日:2021-07-01
# SA-MATD3:自己注意に基づく協調環境におけるマルチエージェント連続制御法

SA-MATD3:Self-attent ion-based multi-agent continuous control method in cooperative environments ( http://arxiv.org/abs/2107.00284v1 )

ライセンス: Link先を確認
Kai Liu and Yuyang Zhao and Gang Wang and Bei Peng(参考訳) 継続的制御下の協調的問題は常にマルチエージェント強化学習の焦点となっている。 既存のアルゴリズムは、エージェント数の増加に伴う不均一な学習度の問題に苦しんでいる。 本稿では,マルチエージェントアクタ評論家のための新しい構造を提案し,その自己認識機構を批評家ネットワークに適用し,不均一な問題を解決するために用いる値分解手法を提案する。 提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。 まず,学習効率を高める政策ネットワークに対して,新たな更新手法を提案する。 第2に, サンプルの利用率の向上と同時に, グループ間の視点取得能力も向上した。 最後に、トレーニングにおける「知覚信号」を排除し、エージェント間の学習度を従来の方法よりも均一にする。 マルチエージェント粒子環境の2つの典型的なシナリオで複数の実験を行った。 実験の結果,提案アルゴリズムは最先端アルゴリズムよりも優れた性能を示し,エージェント数の増加とともに高い学習効率を示すことがわかった。

Cooperative problems under continuous control have always been the focus of multi-agent reinforcement learning. Existing algorithms suffer from the problem of uneven learning degree with the increase of the number of agents. In this paper, a new structure for a multi-agent actor critic is proposed, and the self-attention mechanism is applied in the critic network and the value decomposition method used to solve the uneven problem. The proposed algorithm makes full use of the samples in the replay memory buffer to learn the behavior of a class of agents. First, a new update method is proposed for policy networks that promotes learning efficiency. Second, the utilization of samples is improved, at the same time reflecting the ability of perspective-taking among groups. Finally, the "deceptive signal" in training is eliminated and the learning degree among agents is more uniform than in the existing methods. Multiple experiments were conducted in two typical scenarios of a multi-agent particle environment. Experimental results show that the proposed algorithm can perform better than the state-of-the-art ones, and that it exhibits higher learning efficiency with an increasing number of agents.
翻訳日:2021-07-02 13:33:47 公開日:2021-07-01
# 不確かさ伝播による深部オドメトリーの一貫性に基づく損失

A Consistency-Based Loss for Deep Odometry Through Uncertainty Propagation ( http://arxiv.org/abs/2107.00366v1 )

ライセンス: Link先を確認
Hamed Damirchi, Rooholla Khorrambakht, Hamid D. Taghirad, and Behzad Moshiri(参考訳) オードメトリによって計算されたインクリメンタルなポーズは、時間とともに統合され、初期位置に関するデバイスのポーズを計算することができる。 結果のグローバルなポーズは、深度オドメトリーの設定で2番目の一貫性に基づく損失項を定式化するために用いられる。 ネットワークに複数の損失が課される場合、各出力に対する不確実性は、最大確率設定において異なる損失項を重み付けるために導出することができる。 しかしながら、アルゴリズムの各イテレーションでオドメトリのみが推定されるため、統合変換に制約を課す場合、大域的ポーズに関連する不確実性に関する情報がなく、大域的損失項を重み付けることができる。 本稿では,深度計測ネットワークの出力特性と不確かさを関連付け,各繰り返しを通じて不確かさを伝播する。 本研究の目的は, 混合不確実性を用いた大域的損失項を重み付けしながら, 各段階における損失の重み付けを行うことである。 この定式化は、漸進的および統合的な損失項を互いに重み付けする適応的な方法を提供し、新しい見積もりが到着するにつれて不確実性の増加を示す。 ポーズ推定の定量的かつ定性的な分析を行い,提案手法が最先端のビジュアルオドメトリー手法の精度を超えることを示す。 そして、不確実性評価を行い、固定ベースラインとの比較を行う。 最後に, 不確実性値を用いて, 不確実性定量化の有効性を示す実例を示す。

The incremental poses computed through odometry can be integrated over time to calculate the pose of a device with respect to an initial location. The resulting global pose may be used to formulate a second, consistency based, loss term in a deep odometry setting. In such cases where multiple losses are imposed on a network, the uncertainty over each output can be derived to weigh the different loss terms in a maximum likelihood setting. However, when imposing a constraint on the integrated transformation, due to how only odometry is estimated at each iteration of the algorithm, there is no information about the uncertainty associated with the global pose to weigh the global loss term. In this paper, we associate uncertainties with the output poses of a deep odometry network and propagate the uncertainties through each iteration. Our goal is to use the estimated covariance matrix at each incremental step to weigh the loss at the corresponding step while weighting the global loss term using the compounded uncertainty. This formulation provides an adaptive method to weigh the incremental and integrated loss terms against each other, noting the increase in uncertainty as new estimates arrive. We provide quantitative and qualitative analysis of pose estimates and show that our method surpasses the accuracy of the state-of-the-art Visual Odometry approaches. Then, uncertainty estimates are evaluated and comparisons against fixed baselines are provided. Finally, the uncertainty values are used in a realistic example to show the effectiveness of uncertainty quantification for localization.
翻訳日:2021-07-02 13:33:31 公開日:2021-07-01
# 可逆ニューラルネットワークを用いた多重時系列の説明可能な非線形モデリング

Explainable nonlinear modelling of multiple time series with invertible neural networks ( http://arxiv.org/abs/2107.00391v1 )

ライセンス: Link先を確認
Luis Miguel Lopez-Ramos, Kevin Roy, Baltasar Beferull-Lozano(参考訳) 時系列の集合が2つのステップで生成されるという仮定に基づいて, 非線形位相同定法を提案し, 遅延空間におけるベクトル自己回帰過程と, 非線形, 成分的, 単調に増大する観測写像を提案する。 後者のマッピングは可逆と仮定され、浅いニューラルネットワークとしてモデル化され、その逆を数値的に評価し、そのパラメータはディープラーニングにインスパイアされた技術を使って学習することができる。 関数逆転により、バックプロパゲーションステップは単純ではなく、暗黙の微分を適用する勾配を計算するのに必要なステップを説明する。 モデル説明性は線形VARプロセスと同一であるが,予備数値実験により予測誤差が小さくなることが示された。

A method for nonlinear topology identification is proposed, based on the assumption that a collection of time series are generated in two steps: i) a vector autoregressive process in a latent space, and ii) a nonlinear, component-wise, monotonically increasing observation mapping. The latter mappings are assumed invertible, and are modelled as shallow neural networks, so that their inverse can be numerically evaluated, and their parameters can be learned using a technique inspired in deep learning. Due to the function inversion, the back-propagation step is not straightforward, and this paper explains the steps needed to calculate the gradients applying implicit differentiation. Whereas the model explainability is the same as that for linear VAR processes, preliminary numerical tests show that the prediction error becomes smaller.
翻訳日:2021-07-02 13:33:05 公開日:2021-07-01
# CarSNN:Loihiニューロモーフィック研究プロセッサ上のイベントベース自律車のための効率的なスパイクニューラルネットワーク

CarSNN: An Efficient Spiking Neural Network for Event-Based Autonomous Cars on the Loihi Neuromorphic Research Processor ( http://arxiv.org/abs/2107.00401v1 )

ライセンス: Link先を確認
Alberto Viale and Alberto Marchisio and Maurizio Martina and Guido Masera and Muhammad Shafique(参考訳) 自律運転(AD)関連機能は、ロボット、スマートトランスポーテーション、スマート産業など、他のインテリジェントで自律的なシステムにも有益な、新しい形態のモビリティを提供する。 これらのアプリケーションでは、意思決定を迅速かつリアルタイムで行う必要があります。 さらに、電動モビリティの追求では、このタスクは輸送手段やロボットの自律性に大きな影響を与えずに、低電力政策に従わなければならない。 これら2つの課題は、新興のスパイキングニューラルネットワーク(SNN)を使用して対処することができる。 特殊なニューロモルフィックハードウェアにデプロイすると、SNNは低レイテンシと低消費電力で高性能を実現することができる。 本稿では、イベントベースカメラに接続されたSNNを用いて、ADの重要な問題の一つ、すなわち車と他の物体の分類に直面する。 従来のフレームベースのカメラよりも消費電力が少ないため、dynamic vision sensor(dvs)を使用します。 実験はオフラインで教師付き学習規則に従って行われ、学習したSNNモデルをIntel Loihi Neuromorphic Research Chipにマッピングする。 我々の最良の実験は、loihiチップに移植すると83%に低下する86%のオフライン実装の精度を達成している。 ニューロモルフィックハードウェアの実装は、サンプル毎に最大0.72msのレイテンシを持ち、310mWしか消費しない。 我々の知る限りでは、この研究はニューロモルフィックチップ上でのイベントベースのカー分類器の最初の実装である。

Autonomous Driving (AD) related features provide new forms of mobility that are also beneficial for other kind of intelligent and autonomous systems like robots, smart transportation, and smart industries. For these applications, the decisions need to be made fast and in real-time. Moreover, in the quest for electric mobility, this task must follow low power policy, without affecting much the autonomy of the mean of transport or the robot. These two challenges can be tackled using the emerging Spiking Neural Networks (SNNs). When deployed on a specialized neuromorphic hardware, SNNs can achieve high performance with low latency and low power consumption. In this paper, we use an SNN connected to an event-based camera for facing one of the key problems for AD, i.e., the classification between cars and other objects. To consume less power than traditional frame-based cameras, we use a Dynamic Vision Sensor (DVS). The experiments are made following an offline supervised learning rule, followed by mapping the learnt SNN model on the Intel Loihi Neuromorphic Research Chip. Our best experiment achieves an accuracy on offline implementation of 86%, that drops to 83% when it is ported onto the Loihi Chip. The Neuromorphic Hardware implementation has maximum 0.72 ms of latency for every sample, and consumes only 310 mW. To the best of our knowledge, this work is the first implementation of an event-based car classifier on a Neuromorphic Chip.
翻訳日:2021-07-02 13:32:51 公開日:2021-07-01
# Scanned Electronic Theses and Dissertations から視覚特徴を取り入れた自動メタデータ抽出

Automatic Metadata Extraction Incorporating Visual Features from Scanned Electronic Theses and Dissertations ( http://arxiv.org/abs/2107.00516v1 )

ライセンス: Link先を確認
Muntabir Hasan Choudhury, Himarsha R. Jayanetti, Jian Wu, William A. Ingram, Edward A. Fox(参考訳) Electronic Theses and Dissertations (ETD) には、引用ネットワークの分析や研究トレンドの予測など、多くのデジタルライブラリータスクに使用できるドメイン知識が含まれている。 スケーラブルなデジタルライブラリ検索エンジンを構築するには,メタデータの自動抽出が重要である。 既存の手法の多くはデジタル文書用に設計されているため、ETDなどのスキャンされた文書からメタデータを抽出することができないことが多い。 従来のシーケンスタグ法は主にテキストベースの機能に依存している。 本稿では,テキストベースと視覚的特徴を組み合わせた条件付きランダムフィールド(CRF)モデルを提案する。 モデルのロバスト性を検証するため,既存のコーパスを拡張し,500のETDカバーページと人間の検証済みメタデータからなる新たな真実コーパスを作成した。 実験の結果,視覚的特徴を持つCRFは,テキストベースの特徴のみを持つCRFモデルとヒューリスティックモデルの両方に優れていた。 提案モデルは7つのメタデータフィールドに対して81.3%-96%のf1測定を行った。 データとソースコードはGoogle Drive(https://tinyur l.com/y8kxzwrp)とGitHubリポジトリ(https://github.com/ lamps-lab/ETDMiner/t ree/master/etd_crf)で公開されている。

Electronic Theses and Dissertations (ETDs) contain domain knowledge that can be used for many digital library tasks, such as analyzing citation networks and predicting research trends. Automatic metadata extraction is important to build scalable digital library search engines. Most existing methods are designed for born-digital documents, so they often fail to extract metadata from scanned documents such as for ETDs. Traditional sequence tagging methods mainly rely on text-based features. In this paper, we propose a conditional random field (CRF) model that combines text-based and visual features. To verify the robustness of our model, we extended an existing corpus and created a new ground truth corpus consisting of 500 ETD cover pages with human validated metadata. Our experiments show that CRF with visual features outperformed both a heuristic and a CRF model with only text-based features. The proposed model achieved 81.3%-96% F1 measure on seven metadata fields. The data and source code are publicly available on Google Drive (https://tinyurl.com /y8kxzwrp) and a GitHub repository (https://github.com/ lamps-lab/ETDMiner/t ree/master/etd_crf), respectively.
翻訳日:2021-07-02 13:31:34 公開日:2021-07-01
# anomaly feature vectorsを用いたoutlier adversarial examplesの検出,分類,警告

Using Anomaly Feature Vectors for Detecting, Classifying and Warning of Outlier Adversarial Examples ( http://arxiv.org/abs/2107.00561v1 )

ライセンス: Link先を確認
Nelson Manohar-Alers, Ryan Feng, Sahib Singh, Jiguo Song, Atul Prakash(参考訳) 分類ニューラルネットワークに提示される敵入力を検出し,分類し,警告するシステムであるDeClaWについて述べる。 入力がクリーンかどうかを判断する現在の最先端の手法とは対照的に、私たちはまた、敵攻撃の種類(PGD、Carini-Wagner、クリーンなど)を特定することを目指している。 これを実現するために,潜在特徴の集合から,異常特徴ベクトルと呼ばれる統計プロファイルを抽出する。 予備的な発見は、AFVがCIFAR-10データセットで93%近い精度でいくつかの種類の敵攻撃(PGD対Carini-Wagnerなど)を区別するのに役立つことを示唆している。 その結果,adversarial attack detectionだけでなく,攻撃タイプの分類や攻撃固有の緩和戦略の設計にもafvベースの手法が用いられるようになった。

We present DeClaW, a system for detecting, classifying, and warning of adversarial inputs presented to a classification neural network. In contrast to current state-of-the-art methods that, given an input, detect whether an input is clean or adversarial, we aim to also identify the types of adversarial attack (e.g., PGD, Carlini-Wagner or clean). To achieve this, we extract statistical profiles, which we term as anomaly feature vectors, from a set of latent features. Preliminary findings suggest that AFVs can help distinguish among several types of adversarial attacks (e.g., PGD versus Carlini-Wagner) with close to 93% accuracy on the CIFAR-10 dataset. The results open the door to using AFV-based methods for exploring not only adversarial attack detection but also classification of the attack type and then design of attack-specific mitigation strategies.
翻訳日:2021-07-02 13:31:13 公開日:2021-07-01
# 平衡再生と悲観的Q-アンサンブルによるオフライン・オンライン強化学習

Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble ( http://arxiv.org/abs/2107.00591v1 )

ライセンス: Link先を確認
Seunghyun Lee, Younggyo Seo, Kimin Lee, Pieter Abbeel, Jinwoo Shin(参考訳) deep offline reinforcement learning(rl)の最近の進歩により、オフラインデータセットから強力なロボットエージェントをトレーニングできるようになった。 しかし、訓練されたエージェントの品質やアプリケーションの考慮によっては、これらのエージェントをさらなるオンラインインタラクションを通じて微調整することが望ましい場合が多い。 本稿では,状態動作の分散シフトが微調整時のブートストラップエラーを招き,オフラインrlで得られる良質な初期ポリシを損なう可能性があることを観察する。 この問題に対処するために、我々はまずオンラインで遭遇したサンプルを優先するバランスの取れたリプレイスキームを提案し、オフラインデータセットからの準政治サンプルの使用を奨励する。 さらに,悲観的にオフラインで訓練された複数のq関数を利用することにより,初期訓練段階における新規な状態における不慣れな動作に対する過最適化を防止する。 提案手法は,様々な移動・操作作業におけるロボットエージェントのサンプル効率と最終性能を向上させる。 私たちのコードは、https://github.com/s hlee94/Off2OnRL.comで利用可能です。

Recent advance in deep offline reinforcement learning (RL) has made it possible to train strong robotic agents from offline datasets. However, depending on the quality of the trained agents and the application being considered, it is often desirable to fine-tune such agents via further online interactions. In this paper, we observe that state-action distribution shift may lead to severe bootstrap error during fine-tuning, which destroys the good initial policy obtained via offline RL. To address this issue, we first propose a balanced replay scheme that prioritizes samples encountered online while also encouraging the use of near-on-policy samples from the offline dataset. Furthermore, we leverage multiple Q-functions trained pessimistically offline, thereby preventing overoptimism concerning unfamiliar actions at novel states during the initial training phase. We show that the proposed method improves sample-efficiency and final performance of the fine-tuned robotic agents on various locomotion and manipulation tasks. Our code is available at: https://github.com/s hlee94/Off2OnRL.
翻訳日:2021-07-02 13:30:55 公開日:2021-07-01
# 染色体内ハイブリダイゼーション画像の分類におけるHaralickのテクスチャー特性の有用性

Feasibility of Haralick's Texture Features for the Classification of Chromogenic In-situ Hybridization Images ( http://arxiv.org/abs/2107.00235v1 )

ライセンス: Link先を確認
Stoyan Pavlov, Galina Momcheva, Pavlina Burlakova, Simeon Atanasov, Dimo Stoyanov, Martin Ivanov, Anton Tonchev(参考訳) 本稿では,2次テクスチャ特徴の質的分析と,高スループットイメージング実験における全スライド画像の質的ハイブリダイゼーションの分類に有用であることを示す。 課題は、現在、そのような画像における遺伝子発現のグレーディングのゴールドスタンダードが専門家による評価であることだ。 研究チームのアイデアは、遺伝子発現における構造的セグメンテーションと機能解析に使用されるこれらの画像の分析に異なるアプローチを使用することである。 この記事では、このような視点のアイデアを示し、分類に使用されるであろう多くのテクスチュラルな特徴を選択します。 実験では,局所的なテクスチャ特性に応じた画像サンプル(タイル)の自然なグループ化を教師なし分類法で検討した。 特徴はファジィc平均クラスタリングにより2次元に縮小される。 この実験の総合的な結論は、ハラリック特徴は、原産地ハイブリダイゼーション画像データの分類と分析に有効な選択肢であるということである。 主成分分析のアプローチは、アノテーションのビュークラスからもう少し「理解可能な」ものを生み出した。

This paper presents a proof of concept for the usefulness of second-order texture features for the qualitative analysis and classification of chromogenic in-situ hybridization whole slide images in high-throughput imaging experiments. The challenge is that currently, the gold standard for gene expression grading in such images is expert assessment. The idea of the research team is to use different approaches in the analysis of these images that will be used for structural segmentation and functional analysis in gene expression. The article presents such perspective idea to select a number of textural features that are going to be used for classification. In our experiment, natural grouping of image samples (tiles) depending on their local texture properties was explored in an unsupervised classification procedure. The features are reduced to two dimensions with fuzzy c-means clustering. The overall conclusion of this experiment is that Haralick features are a viable choice for classification and analysis of chromogenic in-situ hybridization image data. The principal component analysis approach produced slightly more "understandable" from an annotator's point of view classes.
翻訳日:2021-07-02 13:30:37 公開日:2021-07-01
# プレコンディショニングによるガウス過程超パラメータ最適化のばらつきの低減

Reducing the Variance of Gaussian Process Hyperparameter Optimization with Preconditioning ( http://arxiv.org/abs/2107.00243v1 )

ライセンス: Link先を確認
Jonathan Wenger and Geoff Pleiss and Philipp Hennig and John P. Cunningham and Jacob R. Gardner(参考訳) ガウス過程はフレキシブルで表現力のあるモデルクラスとして人気があるが、カーネルハイパーパラメータ最適化の計算コストは、そのスケーリングと広く採用されるための大きな制限要因である。 最近の研究は、確率的推定と反復的な数値的手法を組み合わせて、(多くの)行列ベクトル乗算のコストにGP推論を沸騰させてきた。 行列ベクトル乗算を含む反復的メソッドに対する非常に効果的な事前条件付けは、収束を加速し、ハイパーパラメータ最適化におけるバイアスを低減するために使用できる。 ここでは、プレコンディショニングが、これまで探索されていなかった追加の利点があることを証明する。 これは$\log$-marginal chance estimatorとその微分のバイアスを軽減するだけでなく、本質的に無視可能なコストで分散を同時に減少させる。 この結果を利用して、gpハイパーパラメータ最適化のためのサンプル効率のよいアルゴリズムを導出し、エラー$\varepsilon$を達成するために$\mathcal{o}(\varepsilon^{-1})$の代わりに$\mathcal{o}(\varepsilon^{-2})$を用いる。 提案する理論により,カーネルハイパーパラメータの効率よくスケーラブルな最適化が可能となり,大規模なベンチマーク問題に対して実証的に検証できる。 そこで、プリコンディショニングによる分散低減は、正確なgpsのハイパーパラメータ最適化において桁違いのスピードアップをもたらす。

Gaussian processes remain popular as a flexible and expressive model class, but the computational cost of kernel hyperparameter optimization stands as a major limiting factor to their scaling and broader adoption. Recent work has made great strides combining stochastic estimation with iterative numerical techniques, essentially boiling down GP inference to the cost of (many) matrix-vector multiplies. Preconditioning -- a highly effective step for any iterative method involving matrix-vector multiplication -- can be used to accelerate convergence and thus reduce bias in hyperparameter optimization. Here, we prove that preconditioning has an additional benefit that has been previously unexplored. It not only reduces the bias of the $\log$-marginal likelihood estimator and its derivatives, but it also simultaneously can reduce variance at essentially negligible cost. We leverage this result to derive sample-efficient algorithms for GP hyperparameter optimization requiring as few as $\mathcal{O}(\log(\varepsilon^{-1}))$ instead of $\mathcal{O}(\varepsilon^{-2})$ samples to achieve error $\varepsilon$. Our theoretical results enable provably efficient and scalable optimization of kernel hyperparameters, which we validate empirically on a set of large-scale benchmark problems. There, variance reduction via preconditioning results in an order of magnitude speedup in hyperparameter optimization of exact GPs.
翻訳日:2021-07-02 13:29:31 公開日:2021-07-01
# 畳み込みニューラルネットワークとデータ拡張技術を用いたコンパクト・拡張電波銀河の形態分類

Morphological classification of compact and extended radio galaxies using convolutional neural networks and data augmentation techniques ( http://arxiv.org/abs/2107.00385v1 )

ライセンス: Link先を確認
Viera Maslej-Kre\v{s}\v{n}\'akov\'a, Khadija El Bouchefry, Peter Butka(参考訳) 機械学習技術は天文学的な応用にますます使われてきており、画像データのオブジェクトを高精度に分類することに成功している。 現在の研究は、Fararoff-Riley Class I (FRI)、Fanaroff-Riley Class II (FRII)、Bent-Tailed (BENT)、Compact (COMPT)の4つのクラスに分類される。 この研究で示されたモデルは、畳み込みニューラルネットワーク(CNN)に基づいている。 提案アーキテクチャは,2つのフィードフォワード層による最終分類のために,並列な3つの畳み込み層からなる。 本モデルは、精度、リコール、およびf1スコアの平均96\%の独立したテストサブセット上で、選択された無線銀河源のクラスを分類した。 最良の拡張技術は回転、水平または垂直の反転、明るさの増大である。 シフト、ズーム、明るさの低下はモデルの性能を悪化させた。 この研究で開発されたモデルは、高い効率と性能で様々な形態学的分類を識別できることを示している。

Machine learning techniques have been increasingly used in astronomical applications and have proven to successfully classify objects in image data with high accuracy. The current work uses archival data from the Faint Images of the Radio Sky at Twenty Centimeters (FIRST) to classify radio galaxies into four classes: Fanaroff-Riley Class I (FRI), Fanaroff-Riley Class II (FRII), Bent-Tailed (BENT), and Compact (COMPT). The model presented in this work is based on Convolutional Neural Networks (CNNs). The proposed architecture comprises three parallel blocks of convolutional layers combined and processed for final classification by two feed-forward layers. Our model classified selected classes of radio galaxy sources on an independent testing subset with an average of 96\% for precision, recall, and F1 score. The best selected augmentation techniques were rotations, horizontal or vertical flips, and increase of brightness. Shifts, zoom and decrease of brightness worsened the performance of the model. The current results show that model developed in this work is able to identify different morphological classes of radio galaxies with a high efficiency and performance
翻訳日:2021-07-02 13:29:06 公開日:2021-07-01
# 非繰り返し時間変化システムの機械学習に基づく反復学習制御

Machine learning based iterative learning control for non-repetitive time-varying systems ( http://arxiv.org/abs/2107.00421v1 )

ライセンス: Link先を確認
Yiyang Chen, Wei Jiang and Themistoklis Charalambous(参考訳) 本報告では,反復学習制御(ILC)を用いて,繰り返し時間変化パラメータを持つ時間変化系(TVS)の繰り返し追跡タスクを実現する。 機械学習(ML)に基づく名目モデル更新機構は,ICCの性能を高めるために,現在の試験情報のみを用いて各ICCトライアルで名目モデルを更新する線形回帰手法を用いて,非繰り返しTVSに対して提案される。 ML機構が不確実性をICCの頑健な耐性に保たせることを前提として、ICC更新法が非繰り返しTVSを扱うために提案されている。 また、所望の集約性能を達成するため、MLおよびICCアルゴリズム内でパラメータをチューニングする方法も提供する。 提案手法の堅牢性と信頼性をシミュレーションにより検証した。 現在の最先端技術との比較は、制御精度において優れた制御性能を示す。 本稿では,時間不変システムから非繰り返しTVSへのICC適用を拡大し,ML回帰手法を用いて2つのICC試験の間での非繰り返し時間変動パラメータを推定し,所望の性能を実現するための詳細なパラメータチューニング機構を提案する。

The repetitive tracking task for time-varying systems (TVSs) with non-repetitive time-varying parameters, which is also called non-repetitive TVSs, is realized in this paper using iterative learning control (ILC). A machine learning (ML) based nominal model update mechanism, which utilizes the linear regression technique to update the nominal model at each ILC trial only using the current trial information, is proposed for non-repetitive TVSs in order to enhance the ILC performance. Given that the ML mechanism forces the model uncertainties to remain within the ILC robust tolerance, an ILC update law is proposed to deal with non-repetitive TVSs. How to tune parameters inside ML and ILC algorithms to achieve the desired aggregate performance is also provided. The robustness and reliability of the proposed method are verified by simulations. Comparison with current state-of-the-art demonstrates its superior control performance in terms of controlling precision. This paper broadens ILC applications from time-invariant systems to non-repetitive TVSs, adopts ML regression technique to estimate non-repetitive time-varying parameters between two ILC trials and proposes a detailed parameter tuning mechanism to achieve desired performance, which are the main contributions.
翻訳日:2021-07-02 13:28:40 公開日:2021-07-01
# Limit Order Book Recreation Model (LOBRM):拡張解析

The Limit Order Book Recreation Model (LOBRM): An Extended Analysis ( http://arxiv.org/abs/2107.00534v1 )

ライセンス: Link先を確認
Zijian Shi and John Cartlidge(参考訳) 制限秩序書(LOB)は金融資産の細粒度需要と供給関係を描いており、市場マイクロ構造研究で広く利用されている。 それでも、LOBデータの可用性と高コストは、より広範なアプリケーションを制限する。 LOBレクリエーションモデル(LOBRM)は、最近、貿易と引用(TAQ)データからLOBを合成することで、このギャップを埋めるために提案されている。 しかし、元々のlobrm研究では、(1)lobデータの1日だけを含む比較的小さなデータセットで実験を行い、(2)トレーニングとテストは非時系列的に実施され、結果としてタスクを補間として再構成し、潜在的に外観バイアスをもたらすという2つの制限があった。 本研究では、LOBRMの研究を拡張し、実世界のアプリケーションシナリオにおけるその利用を更に検証する。 まず, (1) 時間重み付き z スコアを LOB に付加し, (2) 通常の微分方程式カーネルを指数減衰カーネルに置き換えることで計算複雑性を小さくすることで, LOBRM のワークフローを推し進める。 実世界のアプリケーションで使用されるように、拡張LOBSTERデータセットを時系列的に実験する。 その結果,(1)減衰核を持つロバムは従来の非線形モデルよりも優れており,(2)予測精度はロブに留まっているオーダーボリュームのボラティリティと負の相関関係にあること,(3)提案されたtaqのスパース符号化法は一般化能力を示し,多様体的タスクを容易化できること,(4)確率的ドリフトによる予測精度への影響は,歴史的サンプルの増加によって軽減できることがわかった。

The limit order book (LOB) depicts the fine-grained demand and supply relationship for financial assets and is widely used in market microstructure studies. Nevertheless, the availability and high cost of LOB data restrict its wider application. The LOB recreation model (LOBRM) was recently proposed to bridge this gap by synthesizing the LOB from trades and quotes (TAQ) data. However, in the original LOBRM study, there were two limitations: (1) experiments were conducted on a relatively small dataset containing only one day of LOB data; and (2) the training and testing were performed in a non-chronological fashion, which essentially re-frames the task as interpolation and potentially introduces lookahead bias. In this study, we extend the research on LOBRM and further validate its use in real-world application scenarios. We first advance the workflow of LOBRM by (1) adding a time-weighted z-score standardization for the LOB and (2) substituting the ordinary differential equation kernel with an exponential decay kernel to lower computation complexity. Experiments are conducted on the extended LOBSTER dataset in a chronological fashion, as it would be used in a real-world application. We find that (1) LOBRM with decay kernel is superior to traditional non-linear models, and module ensembling is effective; (2) prediction accuracy is negatively related to the volatility of order volumes resting in the LOB; (3) the proposed sparse encoding method for TAQ exhibits good generalization ability and can facilitate manifold tasks; and (4) the influence of stochastic drift on prediction accuracy can be alleviated by increasing historical samples.
翻訳日:2021-07-02 13:27:49 公開日:2021-07-01