このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210802となっている論文です。

PDF登録状況(公開日: 20210802)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 非破壊的手法(Roger, IEC)と人工ニューラルネットワークを用いたアルジェリア北東部のファンクショナルトランスに応用したパワートランスの故障診断 : 比較研究 [全文訳有]

Power transformer faults diagnosis using undestructive methods (Roger and IEC) and artificial neural network for dissolved gas analysis applied on the functional transformer in the Algerian north-eastern: a comparative study ( http://arxiv.org/abs/2108.10205v1 )

ライセンス: CC BY 4.0
Bouchaoui Lahcene, Kamel Eddine Hemsas, Hacene Mellah, saad eddine benlahneche(参考訳) 今日では、変圧器の老朽化や故障が電力伝送産業に大きな注目を集めている。 溶存ガス分析(dga)は、電力変圧器の初期の初期故障を検出するための資産管理政策の文脈において、最も広く使われている手法に分類されている。 これまでにDGAの結果の講義にいくつかの手順が採用されている。 これらの有用な手段のうち、キーガス、ロジャース比、iec比、今日ではあまり使われない歴史的手法、デュバルペンタゴン法、2種類のデュバルトライアングル法、数種類のデュバルトライアングル法、対数ノモグラフがある。 問題よ DGAデータは、電力変換器の健康状態を評価する上で、これらの手法の能力と信頼性を検証するのに役立った。 Aim アルジェリア東北部のS\'etif州における機能的電力変換器の場合の2つの従来手法に基づくニューラルネットワークツールによる電力変換器の診断精度の向上。 方法論。 IECとRogersをベースとしたニューラルネットワークを用いた電力変換器診断のためのエレガントなツールを設計することで、障害の早期検出、消費者への電気エネルギーシステム全体の信頼性の向上、サービス継続性と品質の向上を実現している。 結果。 この問題をMATLAB-Simulink環境に実装したフィードフォワードバックプロパゲーションニューラルネットワークを用いて解決した。 砂漠,湿潤,寒冷など,環境や気候の異なる4つの実電力変圧器が検討された。 これらの変圧器のdgaによる診断の実際的な結果について述べる。 実用価値。

Nowadays, power transformer aging and failures are viewed with great attention in power transmission industry. Dissolved gas analysis (DGA) is classified among the biggest widely used methods used within the context of asset management policy to detect the incipient faults in their earlier stage in power transformers. Up to now, several procedures have been employed for the lecture of DGA results. Among these useful means, we find Key Gases, Rogers Ratios, IEC Ratios, the historical technique less used today Doernenburg Ratios, the two types of Duval Pentagons methods, several versions of the Duval Triangles method and Logarithmic Nomograph. Problem. DGA data extracted from different units in service served to verify the ability and reliability of these methods in assessing the state of health of the power transformer. Aim. An improving the quality of diagnostics of electrical power transformer by artificial neural network tools based on two conventional methods in the case of a functional power transformer at S\'etif province in East North of Algeria. Methodology. Design an inelegant tool for power transformer diagnosis using neural networks based on traditional methods IEC and Rogers, which allows to early detection faults, to increase the reliability, of the entire electrical energy system from transport to consumers and improve a continuity and quality of service. Results. The solution of the problem was carried out by using feed-forward back-propagation neural networks implemented in MATLAB-Simulink environment. Four real power transformers working under different environment and climate conditions such as: desert, humid, cold were taken into account. The practical results of the diagnosis of these power transformers by the DGA are presented. Practical value.....
翻訳日:2021-08-29 15:57:48 公開日:2021-08-02
# (参考訳) 教室におけるポーラリティ:スケーラブルアセスメントに向けたピアセンティメントを活用した事例研究 [全文訳有]

Polarity in the Classroom: A Case Study Leveraging Peer Sentiment Toward Scalable Assessment ( http://arxiv.org/abs/2108.10068v1 )

ライセンス: CC BY 4.0
Zachariah J. Beasley, Les A. Piegl, and Paul Rosen(参考訳) 大規模または大規模オープンオンラインコース(moocs)において、オープンエンドの割り当てを正確に評価することは簡単ではない。 ピアレビューは有望なソリューションだが、少数のレビュアーと無評価レビューフォームのために信頼できない。 これまでのところ,1)ピアレビュープロセスにおいて感情分析を活用して成績を報告・検証したり,2) アスペクト抽出を活用して学生が実際にコミュニケーションした内容からレビューフォームを作成する作業は行われていない。 我々の研究は、学生のデータをレビューフォームのコメントから取り除くのではなく、インストラクターにより良い情報を提供する。 本研究では、ドメイン依存の辞書とアスペクトインフォーム化されたレビューフォームを作成するプロセスと、テキストのみからきめ細かい感情スコアを提供する全感情分析アルゴリズムについて詳述する。 本研究は,9コースから6800名以上の審査員を対象とするコーパスの妥当性の分析と結論の議論を通じて,教室における感情の生存可能性を理解し,多くのコースにおいて公開課題の段階付けの信頼性を高める。

Accurately grading open-ended assignments in large or massive open online courses (MOOCs) is non-trivial. Peer review is a promising solution but can be unreliable due to few reviewers and an unevaluated review form. To date, no work has 1) leveraged sentiment analysis in the peer-review process to inform or validate grades or 2) utilized aspect extraction to craft a review form from what students actually communicated. Our work utilizes, rather than discards, student data from review form comments to deliver better information to the instructor. In this work, we detail the process by which we create our domain-dependent lexicon and aspect-informed review form as well as our entire sentiment analysis algorithm which provides a fine-grained sentiment score from text alone. We end by analyzing validity and discussing conclusions from our corpus of over 6800 peer reviews from nine courses to understand the viability of sentiment in the classroom for increasing the information from and reliability of grading open-ended assignments in large courses.
翻訳日:2021-08-29 15:44:20 公開日:2021-08-02
# サポートベクトルマシンと長期記憶による大規模IoTのための学習ベース高速アップリンク

A Learning-Based Fast Uplink Grant for Massive IoT via Support Vector Machines and Long Short-Term Memory ( http://arxiv.org/abs/2108.10070v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Mohammad Shehab, and Hirley Alves(参考訳) 現在のランダムアクセス(RA)割り当て技術は、大規模なマシン型通信(mMTC)アプリケーションを提供しながら、混雑と高い信号オーバーヘッドに悩まされている。 この目的のために、3GPPは、レイテンシを低減し、厳格なQoS制約のあるスマートインターネット・オブ・シング(IoT)アプリケーションの信頼性を高めるために、高速アップリンク・アロケーション(FUG)を使用する必要性を導入した。 まず,mtcデバイスはsvm分類器を用いて優先順位付けされるため,svmに基づく新しいfugアロケーションを提案する。 第2に、LSTMアーキテクチャは、予測エラーを克服するためにトラフィック予測と補正技術に使用される。 両結果は、平均レイテンシと総スループットの観点から、効率的なリソーススケジューラを達成するために使用される。 混合アラームと正規トラフィックを伴うCMMPP(Coupled Markov Modulated Poisson Process)トラヒックモデルを適用し,提案したFUGアロケーションと既存のアロケーション技術との比較を行った。 さらに,拡張トラヒックモデルに基づくCMMPPを用いて,より高密度なネットワークにおける提案アルゴリズムの評価を行う。 提案手法をnumenta anomaly benchmark (nab) データベースから収集した実時間計測データを用いて検証した。 シミュレーションの結果,提案手法は,最大スループットと最低アクセス遅延を1msで達成し,目標とする大規模かつクリティカルなMSCアプリケーションに限られたリソースを供給した場合の予測精度を98$\%とすることで,既存のRAアロケーション方式よりも優れた性能を示す。

The current random access (RA) allocation techniques suffer from congestion and high signaling overhead while serving massive machine type communication (mMTC) applications. To this end, 3GPP introduced the need to use fast uplink grant (FUG) allocation in order to reduce latency and increase reliability for smart internet-of-things (IoT) applications with strict QoS constraints. We propose a novel FUG allocation based on support vector machine (SVM), First, MTC devices are prioritized using SVM classifier. Second, LSTM architecture is used for traffic prediction and correction techniques to overcome prediction errors. Both results are used to achieve an efficient resource scheduler in terms of the average latency and total throughput. A Coupled Markov Modulated Poisson Process (CMMPP) traffic model with mixed alarm and regular traffic is applied to compare the proposed FUG allocation to other existing allocation techniques. In addition, an extended traffic model based CMMPP is used to evaluate the proposed algorithm in a more dense network. We test the proposed scheme using real-time measurement data collected from the Numenta Anomaly Benchmark (NAB) database. Our simulation results show the proposed model outperforms the existing RA allocation schemes by achieving the highest throughput and the lowest access delay of the order of 1 ms by achieving prediction accuracy of 98 $\%$ when serving the target massive and critical MTC applications with a limited number of resources.
翻訳日:2021-08-29 12:07:38 公開日:2021-08-02
# 方言識別のための動的マルチスケール畳み込み

Dynamic Multi-scale Convolution for Dialect Identification ( http://arxiv.org/abs/2108.07787v1 )

ライセンス: Link先を確認
Tianlong Kong, Shouyi Yin, Dawei Zhang, Wang Geng, Xin Wang, Dandan Song, Jinwen Huang, Huiyu Shi and Xiaorui Wang(参考訳) 時間遅延ニューラルネットワーク(TDNN)に基づく手法は方言識別に広く用いられている。 しかし、以前のTDNNアプリケーションでの作業では、異なる機能スケールで微妙なバリエーションが無視されている。 この問題に対処するために,動的カーネル畳み込み,局所的マルチスケール学習,グローバルなマルチスケールプールからなる動的マルチスケール畳み込みというアーキテクチャを提案する。 動的カーネルの畳み込みは、短期と長期の間の特徴を適応的にキャプチャする。 局所的マルチスケール学習は,マルチスケール特徴を粒度で表現し,畳み込み操作のための受容野の範囲を増加させることができる。 さらに、グローバルマルチスケールのプーリングは、複数の側面から情報を集めるために、異なるボトルネック層から機能を集約するために適用されます。 提案したアーキテクチャは、2020年のオリエンタル言語認識(OLR)チャレンジのAP20-OLR-dialect-tas kにおいて、0.067のコストパフォーマンス(Cavg)と6.52%のエラー率(EER)において、最先端のシステムを大幅に上回っている。 既知の最も優れた結果と比較すると, キャビテーションの9%とeerの相対的改善の45%をそれぞれ達成した。 さらに、提案モデルのパラメータは、最もよく知られたモデルよりも91%少ない。

Time Delay Neural Networks (TDNN)-based methods are widely used in dialect identification. However, in previous work with TDNN application, subtle variant is being neglected in different feature scales. To address this issue, we propose a new architecture, named dynamic multi-scale convolution, which consists of dynamic kernel convolution, local multi-scale learning, and global multi-scale pooling. Dynamic kernel convolution captures features between short-term and long-term context adaptively. Local multi-scale learning, which represents multi-scale features at a granular level, is able to increase the range of receptive fields for convolution operation. Besides, global multi-scale pooling is applied to aggregate features from different bottleneck layers in order to collect information from multiple aspects. The proposed architecture significantly outperforms state-of-the-art system on the AP20-OLR-dialect-tas k of oriental language recognition (OLR) challenge 2020, with the best average cost performance (Cavg) of 0.067 and the best equal error rate (EER) of 6.52%. Compared with the known best results, our method achieves 9% of Cavg and 45% of EER relative improvement, respectively. Furthermore, the parameters of proposed model are 91% fewer than the best known model.
翻訳日:2021-08-22 14:37:17 公開日:2021-08-02
# 各種データソースと交通量推定モデルを用いた都市事例実験

An Experimental Urban Case Study with Various Data Sources and a Model for Traffic Estimation ( http://arxiv.org/abs/2108.07698v1 )

ライセンス: Link先を確認
Alexander Genser and Noel Hautle and Michail Makridis and Anastasios Kouvelas(参考訳) トラフィック管理戦略を設計・実装するための出発点であるため,ネットワーク上でのトラフィック状態の正確な推定が不可欠である。 したがって、交通網の交通事業者や利用者は、影響・変更経路やモード選択などの信頼できる判断を行うことができる。 しかし, 都市環境における各種センサからの交通状況推定の問題は, センサの可利用性, ノイズレベル, 出力量, センサ精度, 異種データ融合など, 様々な理由で非常に複雑である。 この問題をよりよく理解するために,スイスのチューリッヒ都市ネットワーク内の地域において,ビデオ計測を用いた実験キャンペーンを実施した。 都市当局が設置したサーマルカメラからの計測、ビデオデータ処理、google distance matrixの計測により、交通の流れと走行時間の観点から交通状況の把握に重点を置いている。 異なるデータソースを評価し,様々なデータソースの融合により移動時間を推定するための単純かつ効率的な多重線形回帰(mlr)モデルを提案する。 実測データとの比較により,提案手法の有効性と頑健性が示された。

Accurate estimation of the traffic state over a network is essential since it is the starting point for designing and implementing any traffic management strategy. Hence, traffic operators and users of a transportation network can make reliable decisions such as influence/change route or mode choice. However, the problem of traffic state estimation from various sensors within an urban environment is very complex for several different reasons, such as availability of sensors, different noise levels, different output quantities, sensor accuracy, heterogeneous data fusion, and many more. To provide a better understanding of this problem, we organized an experimental campaign with video measurement in an area within the urban network of Zurich, Switzerland. We focus on capturing the traffic state in terms of traffic flow and travel times by ensuring measurements from established thermal cameras by the city's authorities, processed video data, and the Google Distance Matrix. We assess the different data sources, and we propose a simple yet efficient Multiple Linear Regression (MLR) model to estimate travel times with fusion of various data sources. Comparative results with ground-truth data (derived from video measurements) show the efficiency and robustness of the proposed methodology.
翻訳日:2021-08-22 14:36:54 公開日:2021-08-02
# Wrist-based Photoplethysmography Sensor を用いたハイブリッドCNNによるストレス認識

Feature Augmented Hybrid CNN for Stress Recognition Using Wrist-based Photoplethysmography Sensor ( http://arxiv.org/abs/2108.03166v1 )

ライセンス: Link先を確認
Nafiul Rashid, Luke Chen, Manik Dautta, Abel Jimenez, Peter Tseng, Mohammad Abdullah Al Faruque(参考訳) ストレスは精神的健康を阻害し、身体的健康に深刻な影響を及ぼす生理的状態である。 さらに、新型コロナウイルス(COVID-19)のパンデミックは世界中の人々のストレスレベルを高めている。 そのため,ストレスの連続的モニタリングと検出が必要である。 最近のウェアラブルデバイスの進歩により、ストレスに関連するいくつかの生理的シグナルのモニタリングが可能になった。 スマートウォッチのようなウェアラブルデバイスは、使い勝手の良さから最も人気がある。 Photoplethysmography (PPG)センサーは、消費者向けのスマートウォッチの中では最も一般的なセンサーだ。 そこで本研究では, 血圧パルス(bvp)信号を収集し, 消費者の腕時計に適用可能なストレスを検出する手首型ppgセンサについて検討する。 さらに、最先端の作品は、従来の機械学習アルゴリズムを使用して、手作りの機能を使ってストレスを検出するか、あるいは自動的に特徴を抽出する畳み込みニューラルネットワーク(cnn)のようなディープラーニングアルゴリズムを使用している。 本稿では,手作り特徴と自動抽出特徴の両方を用いて,BVP信号を用いたストレス検出を行うハイブリッドCNN(H-CNN)分類器を提案する。 WESADデータセットのベンチマークによる評価は,3クラス分類(Baseline vs。 H-CNNは従来の分類器や通常のCNNよりも5%, 7%の精度, 10%, 7%のマクロF1スコアより優れていた。 また,2クラス分類(Stress vs. Non-stress)では,H-CNNが従来の分類器および通常のCNNよりも3%,精度が5%,マクロF1スコアが7%であった。

Stress is a physiological state that hampers mental health and has serious consequences to physical health. Moreover, the COVID-19 pandemic has increased stress levels among people across the globe. Therefore, continuous monitoring and detection of stress are necessary. The recent advances in wearable devices have allowed the monitoring of several physiological signals related to stress. Among them, wrist-worn wearable devices like smartwatches are most popular due to their convenient usage. And the photoplethysmography (PPG) sensor is the most prevalent sensor in almost all consumer-grade wrist-worn smartwatches. Therefore, this paper focuses on using a wrist-based PPG sensor that collects Blood Volume Pulse (BVP) signals to detect stress which may be applicable for consumer-grade wristwatches. Moreover, state-of-the-art works have used either classical machine learning algorithms to detect stress using hand-crafted features or have used deep learning algorithms like Convolutional Neural Network (CNN) which automatically extracts features. This paper proposes a novel hybrid CNN (H-CNN) classifier that uses both the hand-crafted features and the automatically extracted features by CNN to detect stress using the BVP signal. Evaluation on the benchmark WESAD dataset shows that, for 3-class classification (Baseline vs. Stress vs. Amusement), our proposed H-CNN outperforms traditional classifiers and normal CNN by 5% and 7% accuracy, and 10% and 7% macro F1 score, respectively. Also for 2-class classification (Stress vs. Non-stress), our proposed H-CNN outperforms traditional classifiers and normal CNN by 3% and ~5% accuracy, and ~3% and ~7% macro F1 score, respectively.
翻訳日:2021-08-15 11:33:37 公開日:2021-08-02
# (参考訳) 深い安定なニューラルネットワーク:大幅漸近性と収束率 [全文訳有]

Deep Stable neural networks: large-width asymptotics and convergence rates ( http://arxiv.org/abs/2108.02316v1 )

ライセンス: CC BY 4.0
Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) 現代のディープラーニングでは、ディープ・ガウス・ニューラルネット(NN)のための大きな幅の漸近の相互作用に関する文献が近年増えている。 ガウス分布重みを持つディープNNとガウス確率過程(SP)のクラス。 このような相互作用は、例えば、実用的関心のあるいくつかの文脈で批判的であることが証明されている。 gaussian sp priorsに基づくベイズ推定、勾配降下によって訓練された無限大深層nnの核回帰、無限大nn内の情報伝達。 本稿では,nnの重みの安定分布にガウス分布を置き換える可能性を示す経験的解析に動機づけられ,(完全に接続された)フィードフォワード深層安定nnに対する大幅漸近性について検討する。 安定分布重みを持つ深層nn。 まず,nnの層を横切る幅が無限大になるにつれて,nnの層を通して再帰的に分布する安定なspに対して,適切な再スケールの深い安定なnnが弱く収束することを示す。 非三角形 nn の構造のため、これは非標準漸近問題であり、独立興味を持つかもしれない、新規で自己完結した帰納的アプローチを提案する。 そこで、我々は、深い安定NNの安定SPへの超ノルム収束率を確立し、NN層上の幅の「結合成長」と「連続成長」の設定の臨界差を定量化する。 我々の研究は、ディープ・ガウス NN の無限大限界に関する最近の結果をより一般的なディープ・スタブル NN に拡張し、無限大ディープ NN の収束率の最初の結果を提供する。

In modern deep learning, there is a recent and growing literature on the interplay between large-width asymptotics for deep Gaussian neural networks (NNs), i.e. deep NNs with Gaussian-distributed weights, and classes of Gaussian stochastic processes (SPs). Such an interplay has proved to be critical in several contexts of practical interest, e.g. Bayesian inference under Gaussian SP priors, kernel regression for infinite-wide deep NNs trained via gradient descent, and information propagation within infinite-wide NNs. Motivated by empirical analysis, showing the potential of replacing Gaussian distributions with Stable distributions for the NN's weights, in this paper we investigate large-width asymptotics for (fully connected) feed-forward deep Stable NNs, i.e. deep NNs with Stable-distributed weights. First, we show that as the width goes to infinity jointly over the NN's layers, a suitable rescaled deep Stable NN converges weakly to a Stable SP whose distribution is characterized recursively through the NN's layers. Because of the non-triangular NN's structure, this is a non-standard asymptotic problem, to which we propose a novel and self-contained inductive approach, which may be of independent interest. Then, we establish sup-norm convergence rates of a deep Stable NN to a Stable SP, quantifying the critical difference between the settings of ``joint growth" and ``sequential growth" of the width over the NN's layers. Our work extends recent results on infinite-wide limits for deep Gaussian NNs to the more general deep Stable NNs, providing the first result on convergence rates for infinite-wide deep NNs.
翻訳日:2021-08-07 03:58:17 公開日:2021-08-02
# (参考訳) 画像ラベリングのための線形アサインメントフローの学習 [全文訳有]

Learning Linearized Assignment Flows for Image Labeling ( http://arxiv.org/abs/2108.02571v1 )

ライセンス: CC BY 4.0
Alexander Zeilmann, Stefania Petra, Christoph Schn\"orr(参考訳) 画像ラベリングのための線形割当流れの最適パラメータを推定する新しいアルゴリズムを提案する。 線形化代入フローを決定するODEの線形系によって制約される任意の損失関数のパラメータ勾配に対して正確な式が導出される。 この式をKrylov部分空間と低ランク近似を用いて効率的に評価する方法を示す。 これにより、パラメータ空間におけるリーマン勾配降下によるパラメータ学習を、誤差をバックプロパゲートしたり、随伴方程式を10秒未満で解くことなく、約0.5$ gbメモリで512\times 512$イメージを実行できる。 実験により,本手法は自動微分を用いた高度に調整された機械学習ソフトウェアと同等の性能を示す。 自動微分を用いる手法とは異なり,本手法は内部パラメータとそのダイナミクスを低次元で表現し,ネットワークの動作を理解し,代入フローとその一般化を実現する。

We introduce a novel algorithm for estimating optimal parameters of linearized assignment flows for image labeling. An exact formula is derived for the parameter gradient of any loss function that is constrained by the linear system of ODEs determining the linearized assignment flow. We show how to efficiently evaluate this formula using a Krylov subspace and a low-rank approximation. This enables us to perform parameter learning by Riemannian gradient descent in the parameter space, without the need to backpropagate errors or to solve an adjoint equation, in less than 10 seconds for a $512\times 512$ image using just about $0.5$ GB memory. Experiments demonstrate that our method performs as good as highly-tuned machine learning software using automatic differentiation. Unlike methods employing automatic differentiation, our approach yields a low-dimensional representation of internal parameters and their dynamics which helps to understand how networks work and perform that realize assignment flows and generalizations thereof.
翻訳日:2021-08-07 02:59:49 公開日:2021-08-02
# (参考訳) 非侵襲負荷モニタリングのための逆エネルギー分散 [全文訳有]

Adversarial Energy Disaggregation for Non-intrusive Load Monitoring ( http://arxiv.org/abs/2108.01998v1 )

ライセンス: CC BY 4.0
Zhekai Du and Jingjing Li and Lei Zhu and Ke Lu and Heng Tao Shen(参考訳) 非侵入的負荷モニタリング(non-intrusive load monitoring, nilm)とも呼ばれるエネルギー分散は、家庭全体の電力使用量を家電固有の個人消費に分離する問題に挑戦する。 nilmは、家庭がエネルギーの使い方を理解し、エネルギーの効率的な管理方法を教え、持続可能エネルギー政策(すなわち、エネルギー効率と再生可能エネルギー)の2つの柱の1つと見なされるエネルギー効率を許容することを目的としている。 NILMは同定できないが、NILM問題はデータ科学によって対処できると広く信じられている。 既存のアプローチの多くは、スパース符号化、非負行列分解、隠れマルコフモデルといった従来の手法によるエネルギー分解問題に対処する。 近年の進歩により、ディープニューラルネットワーク(DNN)は、異なるアプライアンスの識別シグネチャを本質的に学習できるため、NILMに好適な性能が得られることが判明した。 本稿では,DNNに基づく敵エネルギー分散(AED)という新しい手法を提案する。 我々は、エネルギー分散タスクに新しくなったNILMに、敵対的学習の考え方を導入する。 本手法は, 発電機と複数の識別器を逆方向で訓練する。 提案手法は,異なるアプライアンスのシャード表現を学習するだけでなく,各アプライアンスの特定のマルチモード構造をキャプチャする。 実世界のデータセットに関する広範囲な実験は、この手法が新たな最先端のパフォーマンスを実現できることを検証します。

Energy disaggregation, also known as non-intrusive load monitoring (NILM), challenges the problem of separating the whole-home electricity usage into appliance-specific individual consumptions, which is a typical application of data analysis. {NILM aims to help households understand how the energy is used and consequently tell them how to effectively manage the energy, thus allowing energy efficiency which is considered as one of the twin pillars of sustainable energy policy (i.e., energy efficiency and renewable energy).} Although NILM is unidentifiable, it is widely believed that the NILM problem can be addressed by data science. Most of the existing approaches address the energy disaggregation problem by conventional techniques such as sparse coding, non-negative matrix factorization, and hidden Markov model. Recent advances reveal that deep neural networks (DNNs) can get favorable performance for NILM since DNNs can inherently learn the discriminative signatures of the different appliances. In this paper, we propose a novel method named adversarial energy disaggregation (AED) based on DNNs. We introduce the idea of adversarial learning into NILM, which is new for the energy disaggregation task. Our method trains a generator and multiple discriminators via an adversarial fashion. The proposed method not only learns shard representations for different appliances, but captures the specific multimode structures of each appliance. Extensive experiments on real-world datasets verify that our method can achieve new state-of-the-art performance.
翻訳日:2021-08-06 02:24:16 公開日:2021-08-02
# (参考訳) 生理学的ECGノイズに対する畳み込みニューラルネットワークのロバスト性 [全文訳有]

Robustness of convolutional neural networks to physiological ECG noise ( http://arxiv.org/abs/2108.01995v1 )

ライセンス: CC BY 4.0
J. Venton, P. M. Harris, A. Sundar, N. A. S. Smith, P. J. Aston(参考訳) 心電図(ECG)は、医療において最も普及している診断ツールの一つであり、心血管疾患の診断を支援する。 深層学習法は、心電図信号から障害の徴候を検出する手法として成功し、普及している。 しかしながら、これらの方法が生理的心電図ノイズを含む様々な要因に対して頑健性に関する疑問がある。 本研究では,SPAR(Symmetric Projection Attractor Reconstruction)と頭蓋骨画像変換を適用する前に,ECGデータセットのクリーンでノイズの多いバージョンを生成する。 事前訓練された畳み込みニューラルネットワークは、これらの画像変換を分類するために転送学習を用いて訓練される。 クリーンECGデータセットでは,SPARアトラクションのF1スコアは0.70と0.79であり,ノイズECGデータセットのスコアは0.05以下であった。 特に、クリーンデータでトレーニングされたネットワークを使用してノイズの多いデータセットを分類すると、f1スコアで最大0.18パーセントのパフォーマンス低下が見られた。 しかし,ノイズデータにトレーニングしたネットワークを用いてクリーンデータセットを分類した場合,0.05未満の性能低下が見られた。 本研究は, 深層学習を用いた生理的ECGノイズが分類に影響を及ぼし, トレーニングデータにノイズの多いECG信号が組み込まれていることを考慮すべきであると結論した。

The electrocardiogram (ECG) is one of the most widespread diagnostic tools in healthcare and supports the diagnosis of cardiovascular disorders. Deep learning methods are a successful and popular technique to detect indications of disorders from an ECG signal. However, there are open questions around the robustness of these methods to various factors, including physiological ECG noise. In this study we generate clean and noisy versions of an ECG dataset before applying Symmetric Projection Attractor Reconstruction (SPAR) and scalogram image transformations. A pretrained convolutional neural network is trained using transfer learning to classify these image transforms. For the clean ECG dataset, F1 scores for SPAR attractor and scalogram transforms were 0.70 and 0.79, respectively, and the scores decreased by less than 0.05 for the noisy ECG datasets. Notably, when the network trained on clean data was used to classify the noisy datasets, performance decreases of up to 0.18 in F1 scores were seen. However, when the network trained on the noisy data was used to classify the clean dataset, the performance decrease was less than 0.05. We conclude that physiological ECG noise impacts classification using deep learning methods and careful consideration should be given to the inclusion of noisy ECG signals in the training data when developing supervised networks for ECG classification.
翻訳日:2021-08-06 02:06:50 公開日:2021-08-02
# (参考訳) 接触者追跡のためのパーソナルデバイス - スマートフォンとウェアラブルによるcovid-19対策 [全文訳有]

Personal Devices for Contact Tracing: Smartphones and Wearables to Fight Covid-19 ( http://arxiv.org/abs/2108.02008v1 )

ライセンス: CC BY 4.0
Pai Chet Ng, Petros Spachos, Stefano Gregori, Konstantinos Plataniotis(参考訳) デジタル接触追跡は手動接触追跡を補完する有効なツールとして登場した。 これまでに100以上の接触追跡アプリケーションが公開されており、感染性の高いCovid-19の拡散を遅らせている。 アプリケーション間の微妙なばらつきにもかかわらず、いずれも以下の3つのコンポーネントを操作することで接触追跡を実現する。a) 個人デバイスを使用してユーザのアイデンティティを匿名化するためのセキュアなプロトコルを設計し、b) ネットワーク技術を活用してデータを分析および保存する、c) ユーザデバイス上のリッチなセンシング機能を活用してユーザ間のインタラクションを検出し、露光リスクを見積もる。 本稿では,これら3つのコンポーネントに基づいて,現在のデジタル接触追跡についてレビューする。 ユーザと親密な2つのパーソナルデバイス – スマートフォンとウェアラブル – に重点を置いています。 データフローの促進に使用される中央集権的かつ分散的なネットワークアプローチについて論じる。 最後に,スマートフォンやウェアラブルで使用可能なセンサ機能について検討し,2つのユーザ間の近接検知性能の比較実験を行った。

Digital contact tracing has emerged as a viable tool supplementing manual contact tracing. To date, more than 100 contact tracing applications have been published to slow down the spread of highly contagious Covid-19. Despite subtle variabilities among these applications, all of them achieve contact tracing by manipulating the following three components: a) use a personal device to identify the user while designing a secure protocol to anonymize the user's identity; b) leverage networking technologies to analyze and store the data; c) exploit rich sensing features on the user device to detect the interaction among users and thus estimate the exposure risk. This paper reviews the current digital contact tracing based on these three components. We focus on two personal devices that are intimate to the user: smartphones and wearables. We discuss the centralized and decentralized networking approaches that use to facilitate the data flow. Lastly, we investigate the sensing feature available on smartphones and wearables to detect the proximity between any two users and present experiments comparing the proximity sensing performance between these two personal devices.
翻訳日:2021-08-06 01:50:52 公開日:2021-08-02
# (参考訳) AIベースのサイバーセキュリティシステムにおけるドメイン固有の説明の重要性について(技術報告) [全文訳有]

On the Importance of Domain-specific Explanations in AI-based Cybersecurity Systems (Technical Report) ( http://arxiv.org/abs/2108.02006v1 )

ライセンス: CC BY 4.0
Jose N. Paredes, Juan Carlos L. Teze, Gerardo I. Simari, Maria Vanina Martinez(参考訳) 大規模なデータセットが利用可能になり、コンピューティング能力が継続的に向上するにつれ、データ駆動型人工知能システムの利用が増加し、さまざまな分野の応用が成功する可能性を示している。 しかし、これらのシステムの多くは、意思決定の背後にある根拠に関する情報をユーザーに提供できない。 このような決定に対する理解の欠如は、特にサイバーセキュリティに関連する重要な領域において大きな欠点となる。 In light of this problem, in this paper we make three contributions: (i) proposal and discussion of desiderata for the explanation of outputs generated by AI-based cybersecurity systems; (ii) a comparative analysis of approaches in the literature on Explainable Artificial Intelligence (XAI) under the lens of both our desiderata and further dimensions that are typically used for examining XAI approaches; and (iii) a general architecture that can serve as a roadmap for guiding research efforts towards the development of explainable AI-based cybersecurity systems -- at its core, this roadmap proposes combinations of several research lines in a novel way towards tackling the unique challenges that arise in this context.

With the availability of large datasets and ever-increasing computing power, there has been a growing use of data-driven artificial intelligence systems, which have shown their potential for successful application in diverse areas. However, many of these systems are not able to provide information about the rationale behind their decisions to their users. Lack of understanding of such decisions can be a major drawback, especially in critical domains such as those related to cybersecurity. In light of this problem, in this paper we make three contributions: (i) proposal and discussion of desiderata for the explanation of outputs generated by AI-based cybersecurity systems; (ii) a comparative analysis of approaches in the literature on Explainable Artificial Intelligence (XAI) under the lens of both our desiderata and further dimensions that are typically used for examining XAI approaches; and (iii) a general architecture that can serve as a roadmap for guiding research efforts towards the development of explainable AI-based cybersecurity systems -- at its core, this roadmap proposes combinations of several research lines in a novel way towards tackling the unique challenges that arise in this context.
翻訳日:2021-08-06 01:40:25 公開日:2021-08-02
# (参考訳) 量子ニューラルネットワーク:概念,応用,課題 [全文訳有]

Quantum Neural Networks: Concepts, Applications, and Challenges ( http://arxiv.org/abs/2108.01468v1 )

ライセンス: CC BY 4.0
Yunseok Kwak, Won Joon Yun, Soyi Jung, Joongheon Kim(参考訳) 量子ディープラーニングは、ディープニューラルネットワークのトレーニングに量子コンピューティング技術を使用する研究分野である。 ディープラーニングと量子コンピューティングの研究トピックと方向性は長い間分離されてきたが、量子回路が人工ニューラルネットワークのように振る舞うことを発見し、量子ディープラーニングの研究が広く採用されている。 本稿では,量子深層学習の背景と基本原理を説明し,その成果を紹介する。 その後、複数の観点から量子ディープラーニング研究の課題について論じる。 最後に,量子深層学習の今後の研究の方向性と応用分野について述べる。

Quantum deep learning is a research field for the use of quantum computing techniques for training deep neural networks. The research topics and directions of deep learning and quantum computing have been separated for long time, however by discovering that quantum circuits can act like artificial neural networks, quantum deep learning research is widely adopted. This paper explains the backgrounds and basic principles of quantum deep learning and also introduces major achievements. After that, this paper discusses the challenges of quantum deep learning research in multiple perspectives. Lastly, this paper presents various future research directions and application fields of quantum deep learning.
翻訳日:2021-08-05 00:07:29 公開日:2021-08-02
# (参考訳) ドイツ音声ディープフェイクの作成と検出 [全文訳有]

Creation and Detection of German Voice Deepfakes ( http://arxiv.org/abs/2108.01469v1 )

ライセンス: CC BY 4.0
Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto, Andreas Schaad and Felix Schmieder(参考訳) 機械学習技術の助けを借りて音声合成はここ数年で急速に進歩し、[1]、最近は最初の高名な詐欺事件が報告されている([2])。 オンライン教育における会議ツールの利用が増加している今、私たちはいかに簡単か(つまり)を疑問視している。 必要なデータ、ハードウェア、スキルセット) 説得力のある音声の偽造を作ることです。 参加者のトレーニングデータの量(例)を分析します。 学生)は実際に他の参加者の声(例えば)を偽装する必要がある。 教授)。 我々は、ボイスディープフェイクを作成する際の現在の技術状況の分析と、音声をコピーするのにどれだけの労力が必要かの詳細な技術的ガイダンスと証拠を提供する。 100人以上の参加者を対象にしたユーザスタディでは、実声と偽声の識別がいかに難しいかが示されています。 教授の本当の声と偽の声を区別できるのはたったの37%) ドイツ語とオンラインの教育環境に焦点をあて、社会的な意味を議論するとともに、機械学習技術を用いてそのような偽物を検出する方法を実証する。

Synthesizing voice with the help of machine learning techniques has made rapid progress over the last years [1] and first high profile fraud cases have been recently reported [2]. Given the current increase in using conferencing tools for online teaching, we question just how easy (i.e. needed data, hardware, skill set) it would be to create a convincing voice fake. We analyse how much training data a participant (e.g. a student) would actually need to fake another participants voice (e.g. a professor). We provide an analysis of the existing state of the art in creating voice deep fakes, as well as offer detailed technical guidance and evidence of just how much effort is needed to copy a voice. A user study with more than 100 participants shows how difficult it is to identify real and fake voice (on avg. only 37 percent can distinguish between real and fake voice of a professor). With a focus on German language and an online teaching environment we discuss the societal implications as well as demonstrate how to use machine learning techniques to possibly detect such fakes.
翻訳日:2021-08-04 23:58:04 公開日:2021-08-02
# (参考訳) ニュートンステップの計算はヘッセン累積より速い [全文訳有]

Computing the Newton-step faster than Hessian accumulation ( http://arxiv.org/abs/2108.01219v1 )

ライセンス: CC BY 4.0
Akshay Srinivasan, Emanuel Todorov(参考訳) N$決定変数を持つ一般関数のニュートンステップの計算は、$O(N^3)$ flopsを取る。 本稿では、関数の計算グラフを考えると、この境界は$o(m\tau^3)$となり、ここで$\tau, m$ はグラフのツリー分解の幅と大きさであることを示す。 提案アルゴリズムは,LQRに基づく非線形最適制御法を一般化し,ヘシアンが高密度である場合でも,反復複雑度において非自明なゲインを提供する。

Computing the Newton-step of a generic function with $N$ decision variables takes $O(N^3)$ flops. In this paper, we show that given the computational graph of the function, this bound can be reduced to $O(m\tau^3)$, where $\tau, m$ are the width and size of a tree-decomposition of the graph. The proposed algorithm generalizes nonlinear optimal-control methods based on LQR to general optimization problems and provides non-trivial gains in iteration-complexity even in cases where the Hessian is dense.
翻訳日:2021-08-04 23:40:49 公開日:2021-08-02
# (参考訳) 非重複データを用いたクロスドメインレコメンデーションのためのヒンジ損失に基づくコードブック転送 [全文訳有]

A Hinge-Loss based Codebook Transfer for Cross-Domain Recommendation with Nonoverlapping Data ( http://arxiv.org/abs/2108.01473v1 )

ライセンス: CC BY 4.0
Sowmini Devi Veeramachaneni, Arun K Pujari, Vineet Padmanabhan and Vikas Kumar(参考訳) Recommender System(RS)、特にコラボレーティブフィルタリング(CF)ベースのRSは、多くのeコマースアプリケーションにおいて重要な役割を担っている。 インターネット上で検索される情報が増えるにつれて、利用者は自分の興味のあるアイテムを見つけることが難しくなり、rsはそうしたタスクの助けとなることが多い。 近年の研究では、アイテムスペースが増加し、ユーザによって評価されるアイテムの数が大幅に減少するにつれて、スパーシリティのような問題が発生することが示されている。 疎度問題を緩和するために、疎度ドメイン(ソース)からのデータがスパースドメイン(ターゲット)の欠落するエントリを予測するために考慮される転送学習技術が用いられている。 本稿では,両ドメインがユーザとアイテムの重複を伴わない場合のドメイン間推薦のための転送学習手法を提案する。 我々のアプローチでは、ソースからターゲットドメインへの知識の転送は、新しい方法で行われます。 ソースドメインのコードブック(クラスタレベルレーティングパターン)を取得するために、共クラスタ技術を利用する。 ヒンジ損失関数を利用することで、学習したソースドメインのコードブックをターゲットに転送する。 ヒンジ損失を損失関数として用いることは新規であり、転送学習では試みられていない。 提案手法は,ベンチマークデータセット上でのターゲット行列の近似を改善することを実証する。

Recommender systems(RS), especially collaborative filtering(CF) based RS, has been playing an important role in many e-commerce applications. As the information being searched over the internet is rapidly increasing, users often face the difficulty of finding items of his/her own interest and RS often provides help in such tasks. Recent studies show that, as the item space increases, and the number of items rated by the users become very less, issues like sparsity arise. To mitigate the sparsity problem, transfer learning techniques are being used wherein the data from dense domain(source) is considered in order to predict the missing entries in the sparse domain(target). In this paper, we propose a transfer learning approach for cross-domain recommendation when both domains have no overlap of users and items. In our approach the transferring of knowledge from source to target domain is done in a novel way. We make use of co-clustering technique to obtain the codebook (cluster-level rating pattern) of source domain. By making use of hinge loss function we transfer the learnt codebook of the source domain to target. The use of hinge loss as a loss function is novel and has not been tried before in transfer learning. We demonstrate that our technique improves the approximation of the target matrix on benchmark datasets.
翻訳日:2021-08-04 23:30:31 公開日:2021-08-02
# (参考訳) ニューラルネットワークトレーニングのためのバッチ正規化事前条件

Batch Normalization Preconditioning for Neural Network Training ( http://arxiv.org/abs/2108.01110v1 )

ライセンス: CC BY 4.0
Susanna Lange, Kyle Helfrich, Qiang Ye(参考訳) バッチ正規化(BN)は、ディープラーニングにおいて一般的なユビキタスな手法であり、トレーニング時間を短縮し、ニューラルネットワークの一般化性能を向上させることが示されている。 その成功にもかかわらず、BNは理論的にはよく理解されていない。 非常に小さなミニバッチサイズやオンライン学習での使用には適していない。 本稿では,バッチ正規化事前条件(BNP)と呼ばれる新しい手法を提案する。 BNで行われているようなバッチ正規化層を明示的に正規化する代わりに、BNPはトレーニング中にパラメータ勾配を直接条件付けすることで正規化を適用する。 これは損失関数のヘッセン行列を改善するために設計され、訓練中に収束する。 1つの利点は、BNPがミニバッチサイズに制約されず、オンライン学習環境で機能することである。 さらに、BNとの接続は、BNがトレーニングをどのように改善し、BNが畳み込みニューラルネットワークのような特別なアーキテクチャに適用されるかに関する理論的洞察を提供する。

Batch normalization (BN) is a popular and ubiquitous method in deep learning that has been shown to decrease training time and improve generalization performance of neural networks. Despite its success, BN is not theoretically well understood. It is not suitable for use with very small mini-batch sizes or online learning. In this paper, we propose a new method called Batch Normalization Preconditioning (BNP). Instead of applying normalization explicitly through a batch normalization layer as is done in BN, BNP applies normalization by conditioning the parameter gradients directly during training. This is designed to improve the Hessian matrix of the loss function and hence convergence during training. One benefit is that BNP is not constrained on the mini-batch size and works in the online learning setting. Furthermore, its connection to BN provides theoretical insights on how BN improves training and how BN is applied to special architectures such as convolutional neural networks.
翻訳日:2021-08-04 23:18:46 公開日:2021-08-02
# (参考訳) ソナー画像の事前学習モデル [全文訳有]

Pre-trained Models for Sonar Images ( http://arxiv.org/abs/2108.01111v1 )

ライセンス: CC BY 4.0
Matias Valdenegro-Toro and Alan Preciado-Grijalva and Bilal Wehbe(参考訳) 機械学習とニューラルネットワークは現在、ソナー知覚においてユビキタスだが、ソナー画像のためのデータや事前学習されたモデルがないため、コンピュータビジョン分野に遅れをとっている。 本稿では,Mine Debris Turntableデータセットを提示し,このデータセットでトレーニングしたトレーニング済みニューラルネットワークを生成し,ソナー画像の未学習モデルのギャップを埋めることを目的とした。 Resnet 20、MobileNets、DenseNet121、SqueezeNet、MiniXception、AutoencoderをMine Debrisのターンテーブルデータセット上で、32 x 32から96 x 96までの入力画像サイズでトレーニングしています。 また,gemini 720i ソナーを用いて収集したデータを用いて,低ショット分類のためのトランスファー・ラーニングを用いたモデルの評価を行った。 両データセットにおいて,事前学習したモデルが,低値 (クラス毎10~30サンプル) で良好な分類精度を達成できる優れた特徴を持つことを示す。 Geminiデータセットは、機能が他の種類のソナーセンサーに転送されることを検証する。 トレーニング済みのモデルとターンテーブルデータセットの公開リリースによるコミュニティのメリットを期待しています。

Machine learning and neural networks are now ubiquitous in sonar perception, but it lags behind the computer vision field due to the lack of data and pre-trained models specifically for sonar images. In this paper we present the Marine Debris Turntable dataset and produce pre-trained neural networks trained on this dataset, meant to fill the gap of missing pre-trained models for sonar images. We train Resnet 20, MobileNets, DenseNet121, SqueezeNet, MiniXception, and an Autoencoder, over several input image sizes, from 32 x 32 to 96 x 96, on the Marine Debris turntable dataset. We evaluate these models using transfer learning for low-shot classification in the Marine Debris Watertank and another dataset captured using a Gemini 720i sonar. Our results show that in both datasets the pre-trained models produce good features that allow good classification accuracy with low samples (10-30 samples per class). The Gemini dataset validates that the features transfer to other kinds of sonar sensors. We expect that the community benefits from the public release of our pre-trained models and the turntable dataset.
翻訳日:2021-08-04 23:17:46 公開日:2021-08-02
# (参考訳) 音声における助詞の自動認識 [全文訳有]

Automatic recognition of suprasegmentals in speech ( http://arxiv.org/abs/2108.01122v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Neville Ryant, Xingyu Cai, Kenneth Church, Mark Liberman(参考訳) 自動音声認識に成功しているCTCを用いた微調整wav2vec 2.0による上顎骨の自動認識の改善の試みを報告する。 本手法は,音節,音調,ピッチアクセントの自動認識における最先端性の向上を実証する。 声調最終音や声調音節を認識単位としてセグメント情報を利用することで、マンダリン音調認識を大幅に改善することができる。 言語モデルは、音節を認識単位として使用する場合に役立つが、音調が認識単位である場合には役に立たない。 最後に、マンダリン音の認識は、微調整wav2vec 2.0における2つのタスクを組み合わせることで、英語の音素認識の恩恵を受けることができる。

This study reports our efforts to improve automatic recognition of suprasegmentals by fine-tuning wav2vec 2.0 with CTC, a method that has been successful in automatic speech recognition. We demonstrate that the method can improve the state-of-the-art on automatic recognition of syllables, tones, and pitch accents. Utilizing segmental information, by employing tonal finals or tonal syllables as recognition units, can significantly improve Mandarin tone recognition. Language models are helpful when tonal syllables are used as recognition units, but not helpful when tones are recognition units. Finally, Mandarin tone recognition can benefit from English phoneme recognition by combing the two tasks in fine-tuning wav2vec 2.0.
翻訳日:2021-08-04 23:04:31 公開日:2021-08-02
# (参考訳) 統計および人工知能を用いた不正情報サイバー攻撃検出モデルの有効性 [全文訳有]

Efficacy of Statistical and Artificial Intelligence-based False Information Cyberattack Detection Models for Connected Vehicles ( http://arxiv.org/abs/2108.01124v1 )

ライセンス: CC BY 4.0
Sakib Mahmud Khan, Gurcan Comert, Mashrur Chowdhury(参考訳) 接続された車両(CV)は、他のCVや接続されたインフラとの外部接続のために、車両自体や他の接続された車両や道路インフラの安全性を即座に損なうサイバー攻撃に脆弱である。 そのようなサイバー攻撃の1つは偽情報攻撃であり、外部の攻撃者は接続された車両に不正確な情報を注入し、最終的には前方衝突警告のような安全クリティカルなアプリケーションを妥協することで破滅的な結果をもたらす。 このような攻撃イベントの発生とターゲットは非常にダイナミックであり、リアルタイムおよび準リアルタイム検出が困難になる。 変更点モデルは、偽の情報攻撃によるリアルタイム異常検出に使用できる。 本稿では,CVデータにおけるサイバー攻撃検出のための予測最大化,累積要約,ベイズオンライン変更点アルゴリズムの3つの変化点統計モデルの評価を行った。 また、データセットの既知のパターンや未知のパターンを検出するために使用できるデータ駆動人工知能(AI)モデルでは、CVデータ内のリアルタイム異常を検出する可能性がある。 我々は、6つのAIモデルを用いて偽情報攻撃を検出し、攻撃を検出する性能を、開発した変更点モデルと比較した。 本研究は,AIモデルの性能よりもリアルタイムの偽情報攻撃検出において,変化点モデルの方が優れていることを示す。 トレーニング要件のない変更点モデルは、接続された車両における偽情報攻撃検出のためのAIモデルに代わる、実現可能かつ計算的に効率的である。

Connected vehicles (CVs), because of the external connectivity with other CVs and connected infrastructure, are vulnerable to cyberattacks that can instantly compromise the safety of the vehicle itself and other connected vehicles and roadway infrastructure. One such cyberattack is the false information attack, where an external attacker injects inaccurate information into the connected vehicles and eventually can cause catastrophic consequences by compromising safety-critical applications like the forward collision warning. The occurrence and target of such attack events can be very dynamic, making real-time and near-real-time detection challenging. Change point models, can be used for real-time anomaly detection caused by the false information attack. In this paper, we have evaluated three change point-based statistical models; Expectation Maximization, Cumulative Summation, and Bayesian Online Change Point Algorithms for cyberattack detection in the CV data. Also, data-driven artificial intelligence (AI) models, which can be used to detect known and unknown underlying patterns in the dataset, have the potential of detecting a real-time anomaly in the CV data. We have used six AI models to detect false information attacks and compared the performance for detecting the attacks with our developed change point models. Our study shows that change points models performed better in real-time false information attack detection compared to the performance of the AI models. Change point models having the advantage of no training requirements can be a feasible and computationally efficient alternative to AI models for false information attack detection in connected vehicles.
翻訳日:2021-08-04 22:52:24 公開日:2021-08-02
# (参考訳) 自律走行車交通画像分類のためのハイブリッド古典量子深層学習モデル [全文訳有]

Hybrid Classical-Quantum Deep Learning Models for Autonomous Vehicle Traffic Image Classification Under Adversarial Attack ( http://arxiv.org/abs/2108.01125v1 )

ライセンス: CC BY 4.0
Reek Majumder, Sakib Mahmud Khan, Fahim Ahmed, Zadid Khan, Frank Ngeni, Gurcan Comert, Judith Mwakalonge, Dimitra Michalaka, Mashrur Chowdhury(参考訳) 画像分類は、公道で走行する自動運転車(AV)に対して有効であり、画像誤分類に基づく行動は深刻な結果をもたらす可能性がある。 トラフィックサイン画像は、AVがトラフィックサイン認識に使用している機械学習モデルに対する敵攻撃によって、誤って分類することができる。 敵の攻撃に対してレジリエントな分類モデルを構築するために,量子層と古典層の両方を持つハイブリッドディープラーニングモデルを用いた。 我々の目標は、中規模量子技術の現在をサポートするために、古典量子移動学習モデルのハイブリッドディープラーニングアーキテクチャの研究である。 我々はこれらのハイブリッドモデルに対する様々なホワイトボックス攻撃の影響を評価した。 ハイブリッドモデルの古典的な部分は、事前訓練されたResnet18モデルからの畳み込みネットワークを含み、高次元LISAトラフィックサイン画像データセットから情報的特徴を抽出する。 古典的プロセッサからの出力は、様々な量子ゲートからなる量子層を通してさらに処理され、絡み合いや重ね合わせのような様々な量子力学的特徴をサポートする。 我々は,複数の量子回路の組み合わせをテストして,トレーニングデータの削減による分類精度の向上と,攻撃時の古典量子深層学習モデルに対するレジリエンスの向上を検証した。

Image classification must work for autonomous vehicles (AV) operating on public roads, and actions performed based on image misclassification can have serious consequences. Traffic sign images can be misclassified by an adversarial attack on machine learning models used by AVs for traffic sign recognition. To make classification models resilient against adversarial attacks, we used a hybrid deep-learning model with both the quantum and classical layers. Our goal is to study the hybrid deep-learning architecture for classical-quantum transfer learning models to support the current era of intermediate-scale quantum technology. We have evaluated the impacts of various white box adversarial attacks on these hybrid models. The classical part of hybrid models includes a convolution network from the pre-trained Resnet18 model, which extracts informative features from a high dimensional LISA traffic sign image dataset. The output from the classical processor is processed further through the quantum layer, which is composed of various quantum gates and provides support to various quantum mechanical features like entanglement and superposition. We have tested multiple combinations of quantum circuits to provide better classification accuracy with decreasing training data and found better resiliency for our hybrid classical-quantum deep learning model during attacks compared to the classical-only machine learning models.
翻訳日:2021-08-04 22:37:19 公開日:2021-08-02
# (参考訳) インシデント検出のためのハイブリッド量子古典ニューラルネットワーク [全文訳有]

Hybrid Quantum-Classical Neural Network for Incident Detection ( http://arxiv.org/abs/2108.01127v1 )

ライセンス: CC BY 4.0
Zadid Khan, Sakib Mahmud Khan, Jean Michel Tine, Ayse Turhan Comert, Diamon Rice, Gurcan Comert, Dimitra Michalaka, Judith Mwakalonge, Reek Majumdar, Mashrur Chowdhury(参考訳) リアルタイムインシデント検出モデルの効率と信頼性は、影響を受ける廊下の交通安全と運用条件に直接影響する。 最近のクラウドベースの量子コンピューティングインフラストラクチャの出現と、ノイズの多い中間スケール量子デバイスにおけるイノベーションにより、リアルタイムインシデント検出精度を向上させるために活用できる量子エンハンスアルゴリズムの新しい時代が明らかになった。 本研究では、古典的および量子機械学習(ML)モデルを含むハイブリッド機械学習モデルを開発し、コネクテッドカー(CV)データを用いてインシデントを特定する。 ハイブリッドモデルのインシデント検出性能を,ベースライン古典MLモデルに対して評価した。 このフレームワークは、様々なインシデントシナリオのためのマイクロシミュレーションツールのデータを用いて評価される。 その結果,4量子ビットの量子層を含むハイブリッドニューラルネットワークは,トレーニングデータがない場合には,他のベースラインモデルよりも優れていることがわかった。 十分なトレーニングデータを持つds-1,トレーニングデータ不足のds-2,ds-3の3つのデータセットを作成した。 ハイブリッドモデルは、それぞれDS-1、DS-2、DS-3の98.9%、98.3%、96.6%のリコールを達成する。 ds-2とds-3では、ハイブリッドモデルによって達成されたf2-score(インシデントを正確に識別するためのモデルの性能)は、古典的なモデルと比較してそれぞれ1.9%と7.8%であった。 これは、cvsに共通するデータ不足により、ハイブリッドmlモデルが従来のモデルよりもパフォーマンスが向上することを示している。 量子コンピューティングインフラストラクチャの継続的な改善により、利用可能なデータが不十分な場合、量子MLモデルはCV関連のアプリケーションにとって有望な代替となる可能性がある。

The efficiency and reliability of real-time incident detection models directly impact the affected corridors' traffic safety and operational conditions. The recent emergence of cloud-based quantum computing infrastructure and innovations in noisy intermediate-scale quantum devices have revealed a new era of quantum-enhanced algorithms that can be leveraged to improve real-time incident detection accuracy. In this research, a hybrid machine learning model, which includes classical and quantum machine learning (ML) models, is developed to identify incidents using the connected vehicle (CV) data. The incident detection performance of the hybrid model is evaluated against baseline classical ML models. The framework is evaluated using data from a microsimulation tool for different incident scenarios. The results indicate that a hybrid neural network containing a 4-qubit quantum layer outperforms all other baseline models when there is a lack of training data. We have created three datasets; DS-1 with sufficient training data, and DS-2 and DS-3 with insufficient training data. The hybrid model achieves a recall of 98.9%, 98.3%, and 96.6% for DS-1, DS-2, and DS-3, respectively. For DS-2 and DS-3, the average improvement in F2-score (measures model's performance to correctly identify incidents) achieved by the hybrid model is 1.9% and 7.8%, respectively, compared to the classical models. It shows that with insufficient data, which may be common for CVs, the hybrid ML model will perform better than the classical models. With the continuing improvements of quantum computing infrastructure, the quantum ML models could be a promising alternative for CV-related applications when the available data is insufficient.
翻訳日:2021-08-04 22:25:43 公開日:2021-08-02
# (参考訳) マンダリンASRにおける脱カップリング認識と転写 [全文訳有]

Decoupling recognition and transcription in Mandarin ASR ( http://arxiv.org/abs/2108.01129v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Xingyu Cai, Dongji Gao, Renjie Zheng, Liang Huang, Kenneth Church(参考訳) 近年の音声認識(ASR)に関する文献の多くは、エンドツーエンドのアプローチを採っている。 文字体系が音と密接に関連している英語とは異なり、漢字(ハンジー)は音ではなく意味を表す。 本研究では,(1)音声 ->Pinyinと(2)Pinyin ->Hanziの2つのサブタスクにハンジを分解することを提案する。 オーディオをファクタする -> この方法でHanziタスクは、Aishell-1コーパス上で3.9%のCER(文字エラー率)を達成する。

Much of the recent literature on automatic speech recognition (ASR) is taking an end-to-end approach. Unlike English where the writing system is closely related to sound, Chinese characters (Hanzi) represent meaning, not sound. We propose factoring audio -> Hanzi into two sub-tasks: (1) audio -> Pinyin and (2) Pinyin -> Hanzi, where Pinyin is a system of phonetic transcription of standard Chinese. Factoring the audio -> Hanzi task in this way achieves 3.9% CER (character error rate) on the Aishell-1 corpus, the best result reported on this dataset so far.
翻訳日:2021-08-04 22:15:50 公開日:2021-08-02
# (参考訳) 音声感情認識における音素単位の役割 [全文訳有]

The Role of Phonetic Units in Speech Emotion Recognition ( http://arxiv.org/abs/2108.01132v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Xingyu Cai, Renjie Zheng, Liang Huang, Kenneth Church(参考訳) 本稿では,Wav2vec 2.0を用いた感情依存音声認識による感情認識手法を提案する。 提案手法は,ベンチマーク感情データセットであるIEMOCAPにおいて,これまでに報告された結果よりも大幅に改善された。 データセットや言語間の感情認識の正確性と堅牢性の観点から異なるタイプの音声単位が採用され、比較される。 音素モデル,幅広い音韻クラス,音節のモデルは全て発話モデルを大幅に上回り,音声単位が有効であり,音声感情認識に組み込むべきであることを示す。 最高のパフォーマンスは、幅広い音素クラスを使用することです。 感情認識タスクのための幅広い音韻クラスを最適なものにするには、さらなる研究が必要である。 最後に、wav2vec 2.0を微調整することで、音素よりも粗い音素単位や大きな音素単位を認識できることがわかりました。

We propose a method for emotion recognition through emotiondependent speech recognition using Wav2vec 2.0. Our method achieved a significant improvement over most previously reported results on IEMOCAP, a benchmark emotion dataset. Different types of phonetic units are employed and compared in terms of accuracy and robustness of emotion recognition within and across datasets and languages. Models of phonemes, broad phonetic classes, and syllables all significantly outperform the utterance model, demonstrating that phonetic units are helpful and should be incorporated in speech emotion recognition. The best performance is from using broad phonetic classes. Further research is needed to investigate the optimal set of broad phonetic classes for the task of emotion recognition. Finally, we found that Wav2vec 2.0 can be fine-tuned to recognize coarser-grained or larger phonetic units than phonemes, such as broad phonetic classes and syllables.
翻訳日:2021-08-04 21:59:42 公開日:2021-08-02
# (参考訳) 映像中の移動物体の連続深さ [全文訳有]

Consistent Depth of Moving Objects in Video ( http://arxiv.org/abs/2108.01166v1 )

ライセンス: CC BY 4.0
Zhoutong Zhang, Forrester Cole, Richard Tucker, William T. Freeman, Tali Dekel(参考訳) 移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。 フレーム間の対応する点の深さ予測は、3次元において可塑性で滑らかな運動を誘導すべきである。 我々は、この目的を、入力ビデオ全体にわたって補助的なシーンフロー予測MLPを用いて、深度予測CNNをタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。 異なる時間ステップでシーンフロー予測MLPを逐次アンロールすることで、局所的なスムーズな動きを3Dに直接課すショートレンジシーンフローと、広いベースラインで複数ビューの整合性制約を課すロングレンジシーンフローの両方を計算する。 様々な移動物体(ペット、人間、車)やカメラの動きを含む様々な挑戦的なビデオで、正確かつ時間的に一貫性のある結果を示す。 深度マップは、物体や照明の挿入など、奥行きと動きを認識したビデオ編集効果を数多く生み出す。

We present a method to estimate depth of a dynamic scene, containing arbitrary moving objects, from an ordinary video captured with a moving camera. We seek a geometrically and temporally consistent solution to this underconstrained problem: the depth predictions of corresponding points across frames should induce plausible, smooth motion in 3D. We formulate this objective in a new test-time training framework where a depth-prediction CNN is trained in tandem with an auxiliary scene-flow prediction MLP over the entire input video. By recursively unrolling the scene-flow prediction MLP over varying time steps, we compute both short-range scene flow to impose local smooth motion priors directly in 3D, and long-range scene flow to impose multi-view consistency constraints with wide baselines. We demonstrate accurate and temporally coherent results on a variety of challenging videos containing diverse moving objects (pets, people, cars), as well as camera motion. Our depth maps give rise to a number of depth-and-motion aware video editing effects such as object and lighting insertion.
翻訳日:2021-08-04 21:51:25 公開日:2021-08-02
# (参考訳) 説明可能なAIのための知識集約型言語理解 [全文訳有]

Knowledge-intensive Language Understanding for Explainable AI ( http://arxiv.org/abs/2108.01174v1 )

ライセンス: CC BY 4.0
Amit Sheth, Manas Gaur, Kaushik Roy, Keyur Faldu(参考訳) aiシステムは様々な領域で広く採用されている。 同時に、一部のドメインでのさらなる採用は、AIシステムが人間に害を与えないように完全に信頼できないために妨げられている。 公平性、プライバシ、透明性、説明可能性に関する懸念に加えて、AIシステムにおける信頼を開発する上でも重要だ。 信頼できるAIについて述べたように、トラストは理解によって生まれる。 AI主導の意思決定の仕方と、どの決定要因が含まれているかを理解することが不可欠である。 AIシステムを説明するサブ領域はXAIとして知られるようになった。 AIシステムの複数の側面の説明には、データの持つ可能性のあるバイアス、サンプルスペースの特定の領域におけるデータポイントの欠如、データ収集の公正性、機能の重要性などが含まれる。 しかし、これらに加えて、ドメインの専門家が「ドメイン知識」に基づいて意思決定を行う方法と同様に、意思決定に直接関係する人間中心の説明を持つことが重要である。 aiシステムの信頼性向上につながるaiシステムの成果(分類、推奨、予測など)を理解し検証するには、人間が理解し、使用する明示的なドメイン知識が必要となる。

AI systems have seen significant adoption in various domains. At the same time, further adoption in some domains is hindered by inability to fully trust an AI system that it will not harm a human. Besides the concerns for fairness, privacy, transparency, and explainability are key to developing trusts in AI systems. As stated in describing trustworthy AI "Trust comes through understanding. How AI-led decisions are made and what determining factors were included are crucial to understand." The subarea of explaining AI systems has come to be known as XAI. Multiple aspects of an AI system can be explained; these include biases that the data might have, lack of data points in a particular region of the example space, fairness of gathering the data, feature importances, etc. However, besides these, it is critical to have human-centered explanations that are directly related to decision-making similar to how a domain expert makes decisions based on "domain knowledge," that also include well-established, peer-validated explicit guidelines. To understand and validate an AI system's outcomes (such as classification, recommendations, predictions), that lead to developing trust in the AI system, it is necessary to involve explicit domain knowledge that humans understand and use.
翻訳日:2021-08-04 21:30:22 公開日:2021-08-02
# (参考訳) NLG出力におけるエラーのアンダーレポートとその対策 [全文訳有]

Underreporting of errors in NLG output, and what to do about it ( http://arxiv.org/abs/2108.01182v1 )

ライセンス: CC BY 4.0
Emiel van Miltenburg, Miruna-Adriana Clinciu, Ond\v{r}ej Du\v{s}ek, Dimitra Gkatzia, Stephanie Inglis, Leo Lepp\"anen, Saad Mahamood, Emma Manning, Stephanie Schoch, Craig Thomson, Luou Wen(参考訳) 我々は,自然言語生成システムで発生するさまざまなエラーについて,厳密なアンダーレポーティングを観察する。 なぜなら、ミスはシステムがまだ改善されるべき場所を示す重要な指標だからです。 著者が全体的なパフォーマンス指標を報告していない場合、研究コミュニティは‘最先端’の研究によって示される特定の弱点について暗黙に残されている。 過誤報告の度合いを定量化するために,本研究では,誤りの特定,解析,報告を推奨する。

We observe a severe under-reporting of the different kinds of errors that Natural Language Generation systems make. This is a problem, because mistakes are an important indicator of where systems should still be improved. If authors only report overall performance metrics, the research community is left in the dark about the specific weaknesses that are exhibited by `state-of-the-art 7; research. Next to quantifying the extent of error under-reporting, this position paper provides recommendations for error identification, analysis and reporting.
翻訳日:2021-08-04 21:22:16 公開日:2021-08-02
# (参考訳) 量子化に基づくエッジの多目的リカレントニューラルネットワーク最適化 [全文訳有]

Multi-objective Recurrent Neural Networks Optimization for the Edge -- a Quantization-based Approach ( http://arxiv.org/abs/2108.01192v1 )

ライセンス: CC BY 4.0
Nesma M. Rezk, Tomas Nordstr\"om, Dimitrios Stathis, Zain Ul-Abdin, Eren Erdal Aksoy, Ahmed Hemani(参考訳) ディープラーニングモデルの圧縮は、このようなモデルをエッジデバイスにデプロイする上で、極めて重要である。 圧縮中にハードウェアモデルとアプリケーション制約を組み込むことは利点を最大化するが、特定のケースのために特別に設計する。 したがって圧縮を自動化する必要がある。 最適圧縮法パラメータの探索は最適化問題と考えられる。 本稿では,ハードウェア効率と推論誤差を混合精度量子化の目的とする多目的ハードウェアアウェア量子化(mohaq)手法を提案する。 提案手法は,2つのステップに依存して,大規模検索空間における候補解の評価を可能にする。 まず, 学習後の量子化を高速解法評価に適用する。 第二に,検索空間内でのみ選択された解を学習し,ビーコンとして利用し,他の解に対する再学習の効果を知るための検索手法「ビーコン検索」を提案する。 最適化ポテンシャルを評価するために,timitデータセットを用いた音声認識モデルを選択した。 このモデルは、他のリカレントユニットよりもかなりスピードアップするため、Simple Recurrent Unit (SRU) に基づいている。 提案手法をSiLagoとBitfusionの2つのプラットフォーム上での動作に適用した。 実験評価の結果, sru は誤差の大幅な増加を伴わず, 最大 12 倍まで圧縮でき, 誤差は 1.5 % の誤差増加に留まらず, 最大 8 倍まで圧縮できることがわかった。 シアゴでは、推論のみの探索により、最大速度アップと省エネルギーのそれぞれ80\%と64\%を達成する解を見つけ、誤差は0.5%増加した。 ビットフュージョンでは、sramサイズが小さい制約により、ビーコンベースの検索は推論のみ検索のエラーゲインを4ポイント減らし、ビットフュージョンのベースラインと比較して最大速度が47倍に向上した。

The compression of deep learning models is of fundamental importance in deploying such models to edge devices. Incorporating hardware model and application constraints during compression maximizes the benefits but makes it specifically designed for one case. Therefore, the compression needs to be automated. Searching for the optimal compression method parameters is considered an optimization problem. This article introduces a Multi-Objective Hardware-Aware Quantization (MOHAQ) method, which considers both hardware efficiency and inference error as objectives for mixed-precision quantization. The proposed method makes the evaluation of candidate solutions in a large search space feasible by relying on two steps. First, post-training quantization is applied for fast solution evaluation. Second, we propose a search technique named "beacon-based search" to retrain selected solutions only in the search space and use them as beacons to know the effect of retraining on other solutions. To evaluate the optimization potential, we chose a speech recognition model using the TIMIT dataset. The model is based on Simple Recurrent Unit (SRU) due to its considerable speedup over other recurrent units. We applied our method to run on two platforms: SiLago and Bitfusion. Experimental evaluations showed that SRU can be compressed up to 8x by post-training quantization without any significant increase in the error and up to 12x with only a 1.5 percentage point increase in error. On SiLago, the inference-only search found solutions that achieve 80\% and 64\% of the maximum possible speedup and energy saving, respectively, with a 0.5 percentage point increase in the error. On Bitfusion, with a constraint of a small SRAM size, beacon-based search reduced the error gain of inference-only search by 4 percentage points and increased the possible reached speedup to be 47x compared to the Bitfusion baseline.
翻訳日:2021-08-04 21:05:04 公開日:2021-08-02
# (参考訳) Multispectral Vineyard Segmentation: ディープラーニングアプローチ [全文訳有]

Multispectral Vineyard Segmentation: A Deep Learning approach ( http://arxiv.org/abs/2108.01200v1 )

ライセンス: CC BY 4.0
T. Barros, P. Conde, G. Gon\c{c}alves, C. Premebida, M. Monteiro, C.S.S. Ferreira, U.J. Nunes(参考訳) デジタル農業は、地中海地域の関連作物であるブドウ園を含む農業分野に適用される自動化と計算知能の技術的発展により、ここ数年で大きく発展してきた。 本稿では, 実世界のブドウ畑におけるワイン検出のためのセマンティックセグメンテーションについて, 最先端のディープセグメンテーションネットワークと従来の教師なし手法を探索して検討する。 カメラデータは、高解像度カラーカメラと5バンドマルチスペクトル熱カメラを備えたデュアルイメージングセンサーペイロードを備えた無人航空システム(UAS)を用いて、ブドウ園で収集された。 ポルトガル中部の3つの異なるブドウ畑を表すマルチモーダルデータセットでは、セグメンテーションネットワークと教師なしの方法の広範な実験が行われている。 また,NIRバンドを用いた従来の(ディープでない)アプローチは競争力のある結果を示した。 また, マルチモーダリティはブドウのセグメンテーションの性能をわずかに向上させるが, NIRスペクトルだけではほとんどのデータセットで十分であることがわかった。 コードとデータセットは、 \url{https://github.com/C ybonic/DL_vineyard_s egmentation_study.gi tで公開されている。

Digital agriculture has evolved significantly over the last few years due to the technological developments in automation and computational intelligence applied to the agricultural sector, including vineyards which are a relevant crop in the Mediterranean region. In this paper, a study of semantic segmentation for vine detection in real-world vineyards is presented by exploring state-of-the-art deep segmentation networks and conventional unsupervised methods. Camera data was collected on vineyards using an Unmanned Aerial System (UAS) equipped with a dual imaging sensor payload, namely a high-resolution color camera and a five-band multispectral and thermal camera. Extensive experiments of the segmentation networks and unsupervised methods have been performed on multimodal datasets representing three distinct vineyards located in the central region of Portugal. The reported results indicate that the best segmentation performances are obtained with deep networks, while traditional (non-deep) approaches using the NIR band shown competitive results. The results also show that multimodality slightly improves the performance of vine segmentation but the NIR spectrum alone generally is sufficient on most of the datasets. The code and dataset are publicly available on \url{https://github.com/C ybonic/DL_vineyard_s egmentation_study.gi t
翻訳日:2021-08-04 20:41:42 公開日:2021-08-02
# PyEuroVoc: EuroVoc記述子を用いた多言語法的文書分類ツール

PyEuroVoc: A Tool for Multilingual Legal Document Classification with EuroVoc Descriptors ( http://arxiv.org/abs/2108.01139v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, Vasile Pais, Dan Tufis(参考訳) EuroVocは欧州連合の機関の立法文書を整理するために作られた多言語シソーラスである。 特殊性の異なるレベルにある何千ものカテゴリを含み、記述者はおよそ30の言語で法的文書によって標的にされている。 本研究では,現代トランスフォーマーに基づく事前学習型言語モデルを用いて,22言語を対象としたEuroVoc分類のための統一フレームワークを提案する。 我々は、トレーニングされたモデルの性能を広範囲に研究し、同じデータセット上で、同様のツールであるJEXによって得られた結果が大幅に改善されたことを示す。 コードと微調整されたモデルは、トレーニングされたモデルの重みをロードし、新しいドキュメントを分類するプロセスを容易にするプログラムインターフェイスとともに、オープンソース化された。

EuroVoc is a multilingual thesaurus that was built for organizing the legislative documentary of the European Union institutions. It contains thousands of categories at different levels of specificity and its descriptors are targeted by legal texts in almost thirty languages. In this work we propose a unified framework for EuroVoc classification on 22 languages by fine-tuning modern Transformer-based pretrained language models. We study extensively the performance of our trained models and show that they significantly improve the results obtained by a similar tool - JEX - on the same dataset. The code and the fine-tuned models were open sourced, together with a programmatic interface that eases the process of loading the weights of a trained model and of classifying a new document.
翻訳日:2021-08-04 14:10:57 公開日:2021-08-02
# BiLSTMに基づく機械学習によるアラビア語のソフトスペル誤りの訂正

Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine Learning ( http://arxiv.org/abs/2108.01141v1 )

ライセンス: Link先を確認
Gheith A. Abandah, Ashraf Suyyagh, Mohammed Z. Khedher(参考訳) ソフトスペル誤り(Soft spelling error)とは、アラビア語話者や外国語学習者の間で広く見られる綴りミスの一種である。 これらの誤りのいくつかは、自然界におけるタイポグラフィ的である。 アラビア文字の正書法的なバリエーションと、それらの正しい用法を規定する複雑な規則が原因である。 多くの人々がこれらの規則を禁止し、同じ音質の音をすると、しばしばそのような文字を混同する。 本稿では,このタイプの誤りを訂正する双方向長短期記憶ネットワークを提案する。 我々は一連のBiLSTMネットワークを開発し、訓練し、評価し、比較する。 我々は文字レベルでスペル補正問題にアプローチする。 我々は古典と現代の両方のアラビア語のテキストを扱う。 我々はこの問題を1対1のシーケンス転写問題として扱う。 ソフトアラビアエラークラスは, 1対1のシーケンス転写を保存するために, 欠落と加算ミスを包含するので, 1対1のシーケンシングを維持し, コストのかかるエンコーダ-デコーダアーキテクチャを使わない, 簡単な低リソースかつ効果的な手法を提案する。 我々は、変換入力と確率的エラーインジェクションアプローチを用いてスペルミスを修正するためにbilstmモデルを訓練する。 2つのBiLSTMレイヤを持ち、ドロップアウト正規化を使用し、エラー注入率40%の後者のトレーニングアプローチを用いてトレーニングされる構成を推奨する。 最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%低い文字誤り率を達成する。

Soft spelling errors are a class of spelling mistakes that is widespread among native Arabic speakers and foreign learners alike. Some of these errors are typographical in nature. They occur due to orthographic variations of some Arabic letters and the complex rules that dictate their correct usage. Many people forgo these rules, and given the identical phonetic sounds, they often confuse such letters. In this paper, we propose a bidirectional long short-term memory network that corrects this class of errors. We develop, train, evaluate, and compare a set of BiLSTM networks. We approach the spelling correction problem at the character level. We handle Arabic texts from both classical and modern standard Arabic. We treat the problem as a one-to-one sequence transcription problem. Since the soft Arabic errors class encompasses omission and addition mistakes, to preserve the one-to-one sequence transcription, we propose a simple low-resource yet effective technique that maintains the one-to-one sequencing and avoids using a costly encoder-decoder architecture. We train the BiLSTM models to correct the spelling mistakes using transformed input and stochastic error injection approaches. We recommend a configuration that has two BiLSTM layers, uses the dropout regularization, and is trained using the latter training approach with error injection rate of 40%. The best model corrects 96.4% of the injected errors and achieves a low character error rate of 1.28% on a real test set of soft spelling mistakes.
翻訳日:2021-08-04 14:08:32 公開日:2021-08-02
# RareDis corpus: まれな疾患, その徴候, 症状を注記したコーパス

The RareDis corpus: a corpus annotated with rare diseases, their signs and symptoms ( http://arxiv.org/abs/2108.01204v1 )

ライセンス: Link先を確認
Claudia Mart\'inez-deMiguel and Isabel Segura-Bedmar and Esteban Chac\'on-Solano and Sara Guerrero-Aspizua(参考訳) RareDis corpus には5,000以上の稀な疾患があり、約6,000の臨床症状が注記されている。 さらに、インターアノテータ協定の評価は比較的高い合意を示している(F1-measure is equal to 83.5% under exact Match criteria for the entity and equal to 81.3% for the relations)。 これらの結果から, このコーパスは高品質であり, 稀な疾患に注がれたコーパスが不足しているため, この分野にとって重要なステップとなる。 これにより、これらの稀な疾患の診断と治療を容易にし、これらの患者の生活の質を劇的に改善するNLPのさらなる応用への扉を開くことができる。

The RareDis corpus contains more than 5,000 rare diseases and almost 6,000 clinical manifestations are annotated. Moreover, the Inter Annotator Agreement evaluation shows a relatively high agreement (F1-measure equal to 83.5% under exact match criteria for the entities and equal to 81.3% for the relations). Based on these results, this corpus is of high quality, supposing a significant step for the field since there is a scarcity of available corpus annotated with rare diseases. This could open the door to further NLP applications, which would facilitate the diagnosis and treatment of these rare diseases and, therefore, would improve dramatically the quality of life of these patients.
翻訳日:2021-08-04 14:08:08 公開日:2021-08-02
# グラフサイド情報を用いた多腕バンディットの純粋探査

Pure Exploration in Multi-armed Bandits with Graph Side Information ( http://arxiv.org/abs/2108.01152v1 )

ライセンス: Link先を確認
Parth K.Thaker, Nikhil Rao, Mohit Malu, Gautam Dasarathy(参考訳) グラフ側情報を用いたマルチアームバンディットの純粋探索について検討する。 特に、与えられた任意のグラフに対してアーム報酬が滑らかであるという仮定の下で、固定信頼設定における最高のアーム(および最良に近いアーム)識別問題を考える。 これは、検討中のオプションやアクションの類似性に関する情報をしばしば持っている現実世界の純粋な爆発シナリオを捉えている。 本稿では,この問題に対する新しいアルゴリズムgrub(graph based ucb)を提案し,その性能を理論的に評価し,グラフ側情報の有効性を明らかにした。 この理論を実験結果で補完し, 利用可能なグラフサイド情報を利用することで, 純粋な探索手法よりも大幅に改善できることを示す。

We study pure exploration in multi-armed bandits with graph side-information. In particular, we consider the best arm (and near-best arm) identification problem in the fixed confidence setting under the assumption that the arm rewards are smooth with respect to a given arbitrary graph. This captures a range of real world pure-exploration scenarios where one often has information about the similarity of the options or actions under consideration. We propose a novel algorithm GRUB (GRaph based UcB) for this problem and provide a theoretical characterization of its performance that elicits the benefit of the graph-side information. We complement our theory with experimental results that show that capitalizing on available graph side information yields significant improvements over pure exploration methods that are unable to use this information.
翻訳日:2021-08-04 14:06:55 公開日:2021-08-02
# 制約付きマルチクリトリアパスプラニングの学習による予測

Learning-based Preference Prediction for Constrained Multi-Criteria Path-Planning ( http://arxiv.org/abs/2108.01080v1 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Andrei Bursuc, Tristan Cazenave and Eric Jacopin(参考訳) 単一基準最適化問題における探索アルゴリズムでは,学習に基づく手法がますます普及している。 対照的に、多重基準最適化には、多くのアプリケーションが存在するにもかかわらず、アプローチが著しく少ない。 自律地上車両(AGV)のための制約された経路計画(Constrained path-planning for autonomous Ground Vehicles,AGV)は、一般に、災害救助や災害救助の目的で、オフロード環境においてAGVが展開される。 エージェントは以下のジレンマに直面することができる: 既知の基準に従ってソース決定経路を最適化し、運用上の制約の下で不確実な基準を満たす。 既知の基準は、距離を表すパスのコストに関連付けられている。 不確かな基準は、人間の介入を必要とせずに経路を走行する可能性を示す。 これは、車両の物理、探索された地形の状態、気象条件など、様々な外部パラメータに依存する。 本研究では,オフラインシミュレーションによって得られた知識を,不確実性を予測するためにニューラルネットワークモデルをトレーニングすることで活用する。 このモデルをパスプランナーに統合し、オンラインで問題を解決します。 最後に,現実的なAGVシナリオの実験を行い,提案手法では人的介入の頻度を低くし,経路距離を限定的に増加させる。

Learning-based methods are increasingly popular for search algorithms in single-criterion optimization problems. In contrast, for multiple-criteria optimization there are significantly fewer approaches despite the existence of numerous applications. Constrained path-planning for Autonomous Ground Vehicles (AGV) is one such application, where an AGV is typically deployed in disaster relief or search and rescue applications in off-road environments. The agent can be faced with the following dilemma : optimize a source-destination path according to a known criterion and an uncertain criterion under operational constraints. The known criterion is associated to the cost of the path, representing the distance. The uncertain criterion represents the feasibility of driving through the path without requiring human intervention. It depends on various external parameters such as the physics of the vehicle, the state of the explored terrains or weather conditions. In this work, we leverage knowledge acquired through offline simulations by training a neural network model to predict the uncertain criterion. We integrate this model inside a path-planner which can solve problems online. Finally, we conduct experiments on realistic AGV scenarios which illustrate that the proposed framework requires human intervention less frequently, trading for a limited increase in the path distance.
翻訳日:2021-08-04 14:05:33 公開日:2021-08-02
# 連系・自律型自動車充電におけるリスク対応学習システム

Risk Adversarial Learning System for Connected and Autonomous Vehicle Charging ( http://arxiv.org/abs/2108.01466v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Ki Tae Kim, Kyi Thar, Dusit Niyato, and Choong Seon Hong(参考訳) 本稿では,コネクテッド・自動運転車充電インフラ(CAV-CI)のための合理的意思決定支援システム(RDSS)の設計について述べる。 検討されたCAV-CIでは、配電システムオペレーター(DSO)が電気自動車供給装置(EVSE)を配備し、人間駆動のコネクテッドカー(CV)と自動運転車(AV)のためのEV充電設備を提供する。 人力EVによる充電要求は、実際の需要よりもエネルギーと充電時間を必要とすると不合理になる。 したがって、各EVSEのスケジューリングポリシーは、CVとAVの両方の充電要求を満たすために、不合理充電要求を適応的に蓄積しなければならない。 そこで, DSOにおけるRDSS問題を定式化し, DSOの遅延リスクを満たすことにより充電能力利用を最大化することを目的とする。 そこで我々は,データインフォームド方式でCVによる不合理な動作に適応する合理的報酬最大化問題を考案した。 本稿では, 定式化rdss問題を解くために, cav-ci のリスク回避型マルチエージェント学習システム (ramals) を提案する。 RAMALSでは、DSOは各EVSEに毒性リスクを知らせる集中型リスク対抗剤(RAA)として機能する。 その後、各EVSEは自己学習エージェントの役割を担い、RAAからのアドバイスに対処することで、自身のEVセッションを適応的にスケジュールする。 実験の結果、提案されたRAMALSは充電速度が46.6%向上し、EVSEのアクティブ充電時間は約28.6%改善し、現在展開されているACN EVSEシステムや他のベースラインと比較して少なくとも33.3%のエネルギー利用が可能であることが示された。

In this paper, the design of a rational decision support system (RDSS) for a connected and autonomous vehicle charging infrastructure (CAV-CI) is studied. In the considered CAV-CI, the distribution system operator (DSO) deploys electric vehicle supply equipment (EVSE) to provide an EV charging facility for human-driven connected vehicles (CVs) and autonomous vehicles (AVs). The charging request by the human-driven EV becomes irrational when it demands more energy and charging period than its actual need. Therefore, the scheduling policy of each EVSE must be adaptively accumulated the irrational charging request to satisfy the charging demand of both CVs and AVs. To tackle this, we formulate an RDSS problem for the DSO, where the objective is to maximize the charging capacity utilization by satisfying the laxity risk of the DSO. Thus, we devise a rational reward maximization problem to adapt the irrational behavior by CVs in a data-informed manner. We propose a novel risk adversarial multi-agent learning system (RAMALS) for CAV-CI to solve the formulated RDSS problem. In RAMALS, the DSO acts as a centralized risk adversarial agent (RAA) for informing the laxity risk to each EVSE. Subsequently, each EVSE plays the role of a self-learner agent to adaptively schedule its own EV sessions by coping advice from RAA. Experiment results show that the proposed RAMALS affords around 46.6% improvement in charging rate, about 28.6% improvement in the EVSE's active charging time and at least 33.3% more energy utilization, as compared to a currently deployed ACN EVSE system, and other baselines.
翻訳日:2021-08-04 14:04:39 公開日:2021-08-02
# 神経線維経路モデリングのための計算幾何学的アプローチ

A computational geometry approach for modeling neuronal fiber pathways ( http://arxiv.org/abs/2108.01175v1 )

ライセンス: Link先を確認
S. Shailja, Angela Zhang, and B.S. Manjunath(参考訳) 神経線維の高レベルトポロジー構造をモデル化する新規で効率的なアルゴリズムを提案する。 トラクトグラフィーは、脳内の白質経路の幾何学を示す3次元の複雑な神経線維を構成する。 しかし,ほとんどのトラクトグラフィー解析手法は時間がかかり,難易度が高い。 ホワイトマターファイバの接続を容易にすることを目的とした,計算幾何学に基づくトラクトグラフィー表現を開発した。 神経線維経路の軌跡から、幾何学的に重要な事象を符号化し、3次元脳空間における点対応を計算する軌跡の進化をモデル化する。 軌道間距離は、トラクトグラムの局所的あるいは大域的表現を可能にするモデルの粒度を制御するパラメータとして用いられる。 アルツハイマー病患者研究の拡散mriデータを用いて, 本モデルから気道像の特徴を抽出し, アルツハイマー病患者を正常なコントロールと区別する。 アルゴリズムのソフトウェア実装はgithubで公開されている。

We propose a novel and efficient algorithm to model high-level topological structures of neuronal fibers. Tractography constructs complex neuronal fibers in three dimensions that exhibit the geometry of white matter pathways in the brain. However, most tractography analysis methods are time consuming and intractable. We develop a computational geometry-based tractography representation that aims to simplify the connectivity of white matter fibers. Given the trajectories of neuronal fiber pathways, we model the evolution of trajectories that encodes geometrically significant events and calculate their point correspondence in the 3D brain space. Trajectory inter-distance is used as a parameter to control the granularity of the model that allows local or global representation of the tractogram. Using diffusion MRI data from Alzheimer's patient study, we extract tractography features from our model for distinguishing the Alzheimer's subject from the normal control. Software implementation of our algorithm is available on GitHub.
翻訳日:2021-08-04 14:01:59 公開日:2021-08-02
# マルチイメージ融合と層分離のためのニューラルイメージ表現

Neural Image Representations for Multi-Image Fusion and Layer Separation ( http://arxiv.org/abs/2108.01199v1 )

ライセンス: Link先を確認
Seonghyeon Nam, Marcus A. Brubaker, Michael S. Brown(参考訳) 本稿では,複数の画像を1つの座標ベースニューラル表現に調整・融合するフレームワークを提案する。 私たちのフレームワークは、カメラのエゴモーションとシーンの小さな変更による不一致のあるバーストイメージをターゲットにしています。 シーンの動きの仮定によるアライメント戦略,すなわち,視点平面(すなわちホモグラフィ),最小限のシーン変化を伴う光流,および顕著な咬合と解離を伴う光流について述べる。 このフレームワークは、複数の入力を単一の神経暗黙関数に効果的に組み合わせ、参照フレームとして画像を選択する必要がない。 本稿では,このマルチフレーム融合フレームワークを様々な層分離タスクに利用する方法を示す。

We propose a framework for aligning and fusing multiple images into a single coordinate-based neural representations. Our framework targets burst images that have misalignment due to camera ego motion and small changes in the scene. We describe different strategies for alignment depending on the assumption of the scene motion, namely, perspective planar (i.e., homography), optical flow with minimal scene change, and optical flow with notable occlusion and disocclusion. Our framework effectively combines the multiple inputs into a single neural implicit function without the need for selecting one of the images as a reference frame. We demonstrate how to use this multi-frame fusion framework for various layer separation tasks.
翻訳日:2021-08-04 14:01:44 公開日:2021-08-02
# Shift-Robust GNN: 局所グラフトレーニングデータの限界を克服する

Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training data ( http://arxiv.org/abs/2108.01099v1 )

ライセンス: Link先を確認
Qi Zhu, Natalia Ponomareva, Jiawei Han, Bryan Perozzi(参考訳) 半教師付き学習タスクのためのグラフニューラルネットワーク(GNN)の設計への関心が高まっている。 残念なことに、この研究はトレーニングで使用するためにラベル付けされたノードがランダム(すなわちランダム)で一様に選択されたと仮定している。 IIDサンプルである)。 しかし、多くの現実世界のシナリオでは、グラフノードのラベルを集めるのにコストがかかり、本質的にバイアスがかかります。 GNNは、トレーニングデータに存在する過剰な正規性に過度に適合することにより、この現象が発生した場合の一般化を損なう可能性がある。 本研究では、偏りのあるトレーニングデータとグラフの真の推論分布の分布差を考慮に入れたShift-Robust GNN(SR-GNN)を提案する。 sr-gnnは、トレーニング用のラベルとデータセットの残りの部分を備えたノード間の分散シフトの存在をgnnモデルに適応させる。 本稿では,sr-gnnが他のgnnベースラインよりも精度が高く,バイアスドトレーニングデータによって引き起こされる悪影響の少なくとも(約40%)を除去し,sr-gnnが他のgnnベースラインよりも優れる,半教師付き学習のための共通gnnベンチマークデータセット上でのバイアスドトレーニングデータセットを用いた各種実験におけるsr-gnnの有効性を示す。 最も大きなデータセットであるogb-arxivでは、ベースラインに対する2%の絶対的な改善が観察され、負の効果の30%が減少する。

There has been a recent surge of interest in designing Graph Neural Networks (GNNs) for semi-supervised learning tasks. Unfortunately this work has assumed that the nodes labeled for use in training were selected uniformly at random (i.e. are an IID sample). However in many real world scenarios gathering labels for graph nodes is both expensive and inherently biased -- so this assumption can not be met. GNNs can suffer poor generalization when this occurs, by overfitting to superfluous regularities present in the training data. In this work we present a method, Shift-Robust GNN (SR-GNN), designed to account for distributional differences between biased training data and the graph's true inference distribution. SR-GNN adapts GNN models for the presence of distributional shifts between the nodes which have had labels provided for training and the rest of the dataset. We illustrate the effectiveness of SR-GNN in a variety of experiments with biased training datasets on common GNN benchmark datasets for semi-supervised learning, where we see that SR-GNN outperforms other GNN baselines by accuracy, eliminating at least (~40%) of the negative effects introduced by biased training data. On the largest dataset we consider, ogb-arxiv, we observe an 2% absolute improvement over the baseline and reduce 30% of the negative effects.
翻訳日:2021-08-04 13:57:48 公開日:2021-08-02
# 階層表現と明示記憶:グラフニューラルネットワークを用いた3次元シーングラフの効果的なナビゲーションポリシーの学習

Hierarchical Representations and Explicit Memory: Learning Effective Navigation Policies on 3D Scene Graphs using Graph Neural Networks ( http://arxiv.org/abs/2108.01176v1 )

ライセンス: Link先を確認
Zachary Ravichandran, Lisa Peng, Nathan Hughes, J. Daniel Griffith, Luca Carlone(参考訳) 表現は、ロボットが効果的なナビゲーションポリシーを学ぶために不可欠である。 近年の研究では、深度推定や2次元セマンティックセグメンテーションのような中レベルの知覚的抽象化が、生センサデータ(例えばRGB画像)の代わりに観測として提供される場合、より効果的なポリシーをもたらすことが示されている。 しかし、そのようなポリシーは、中レベルの抽象から潜在的な3次元の情景特性を学ばなければならない。 対照的に、3Dシーングラフのような高レベルの階層表現は、シーンの幾何学、トポロジ、セマンティクスを明示的に提供し、ナビゲーションに魅力的な表現を与える。 本稿では,高レベルの階層表現を活用し,ナビゲーションポリシーを学習する強化学習フレームワークを提案する。 この目的に向けて,グラフニューラルネットワークアーキテクチャを提案し,エージェント中心の機能空間に3次元シーングラフを埋め込む方法を示す。 シーングラフの各ノードに対して,ロボットの軌跡の記憶を明示的に保持しつつ,占有率と意味的コンテントをキャプチャする機能を用いる。 対象探索課題において,一般的なビジュモータポリシーに対する提案手法の有効性を実証する。 これらの実験とアブレーション研究により,本手法はより効果的な対象探索行動をもたらし,長期記憶が向上し,階層的な情報を利用してナビゲーションの目的を導出することを示す。

Representations are crucial for a robot to learn effective navigation policies. Recent work has shown that mid-level perceptual abstractions, such as depth estimates or 2D semantic segmentation, lead to more effective policies when provided as observations in place of raw sensor data (e.g., RGB images). However, such policies must still learn latent three-dimensional scene properties from mid-level abstractions. In contrast, high-level, hierarchical representations such as 3D scene graphs explicitly provide a scene's geometry, topology, and semantics, making them compelling representations for navigation. In this work, we present a reinforcement learning framework that leverages high-level hierarchical representations to learn navigation policies. Towards this goal, we propose a graph neural network architecture and show how to embed a 3D scene graph into an agent-centric feature space, which enables the robot to learn policies for low-level action in an end-to-end manner. For each node in the scene graph, our method uses features that capture occupancy and semantic content, while explicitly retaining memory of the robot trajectory. We demonstrate the effectiveness of our method against commonly used visuomotor policies in a challenging object search task. These experiments and supporting ablation studies show that our method leads to more effective object search behaviors, exhibits improved long-term memory, and successfully leverages hierarchical information to guide its navigation objectives.
翻訳日:2021-08-04 13:56:51 公開日:2021-08-02
# 複数発話対話システムにおけるユーザ主導の繰り返しに基づくリカバリ

User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue Systems ( http://arxiv.org/abs/2108.01208v1 )

ライセンス: Link先を確認
Hoang Long Nguyen, Vincent Renkens, Joris Pelemans, Srividya Pranavi Potharaju, Anil Kumar Nalamalapu, Murat Akbacak(参考訳) 認識エラーは人間のコミュニケーションによく見られる。 同様のエラーは、しばしば対話システムや仮想アシスタントにおいて望ましくない振る舞いを引き起こす。 人間同士のコミュニケーションでは、誤認識された単語やフレーズを繰り返し繰り返すことで回復することができるが、人間同士のコミュニケーションでは、この回復メカニズムは利用できない。 本稿では,このギャップを埋めて,誤解された単語を繰り返すことで,仮想アシスタントの音声認識誤差を補正するシステムを提案する。 ユーザがフレーズの一部を繰り返すと、システムは元のクエリを書き換えて修正を組み込む。 この書き換えにより、仮想アシスタントは元のクエリをうまく理解することができる。 本稿では,不正確に理解された発話と訂正のフォローアップを融合することにより,書き直しクエリを生成できる,エンドツーエンドの2段階注意ポインタネットワークを提案する。 このタスクのために収集したデータに関するモデルを評価し,提案モデルをルールベースベースラインと標準ポインターネットワークと比較する。 また,提案手法が規則ベースのベースラインを上回り,アノテートされたデータに対して2%の誤報率で単語誤り率を19%削減することを示した。

Recognition errors are common in human communication. Similar errors often lead to unwanted behaviour in dialogue systems or virtual assistants. In human communication, we can recover from them by repeating misrecognized words or phrases; however in human-machine communication this recovery mechanism is not available. In this paper, we attempt to bridge this gap and present a system that allows a user to correct speech recognition errors in a virtual assistant by repeating misunderstood words. When a user repeats part of the phrase the system rewrites the original query to incorporate the correction. This rewrite allows the virtual assistant to understand the original query successfully. We present an end-to-end 2-step attention pointer network that can generate the the rewritten query by merging together the incorrectly understood utterance with the correction follow-up. We evaluate the model on data collected for this task and compare the proposed model to a rule-based baseline and a standard pointer network. We show that rewriting the original query is an effective way to handle repetition-based recovery and that the proposed model outperforms the rule based baseline, reducing Word Error Rate by 19% relative at 2% False Alarm Rate on annotated data.
翻訳日:2021-08-04 13:55:15 公開日:2021-08-02
# エスタギオスにおけるアグリパメントの諸相

Metodos de Agrupamentos em dois Estagios ( http://arxiv.org/abs/2108.01123v1 )

ライセンス: Link先を確認
Jefferson Souza, Teresa Ludermir(参考訳) 本研究では,二段階クラスタリング手法について検討する。 SOMK、SOMAK、ASCAK、SoINAKの4つの技術が提案された。 SOMKはSOM(Self-Organizing Maps)とK-meansアルゴリズム、SOMAKはSOM、Ant K-means(AK)アルゴリズム、ASCAKはASCA(Ant System-based Clustering Algorithm)、AKアルゴリズム、SOINAKはSOINN(Self-Organizin g Incremental Neural Network)で構成されている。 SOINAKはパターン認識問題に適用した場合に提案した4つの手法の中で優れた性能を示した。

This work investigates the use of two-stage clustering methods. Four techniques were proposed: SOMK, SOMAK, ASCAK and SOINAK. SOMK is composed of a SOM (Self-Organizing Maps) followed by the K-means algorithm, SOMAK is a combination of SOM followed by the Ant K-means (AK) algorithm, ASCAK is composed by the ASCA (Ant System-based Clustering Algorithm) and AK algorithms, SOINAK is composed by the Self-Organizing Incremental Neural Network (SOINN) and AK. SOINAK presented a better performance among the four proposed techniques when applied to pattern recognition problems.
翻訳日:2021-08-04 13:51:25 公開日:2021-08-02
# ニューラルネットワークトランスフォーマによる神経集団活動の表現学習

Representation learning for neural population activity with Neural Data Transformers ( http://arxiv.org/abs/2108.01210v1 )

ライセンス: Link先を確認
Joel Ye, Chethan Pandarinath(参考訳) 神経集団活動は、基礎となる動的構造を反映するように理論化されている。 この構造は、リカレントニューラルネットワーク(RNN)に基づくような明示的なダイナミックスを持つ状態空間モデルを使用して正確にキャプチャすることができる。 しかし、ダイナミックスを明示的にモデル化するために繰り返しを使用するには、データのシーケンシャルな処理が必要である。 ここでは、非リカレントな代替手段であるNeural Data Transformer (NDT)を紹介する。 rnnsによくモデル化された到達タスク中に、既知のダイナミクスとサル運動野からのデータを持つ合成データセットに適用することにより、ndtの自律力学系をキャプチャする能力をテストする。 NDTはこれらのデータセットと最先端のリカレントモデルをモデル化する。 さらに、その非再帰は3.9msの推論を可能にし、リアルタイムアプリケーションのループ時間の範囲内で、サル到達データセットのリカレントベースラインよりも6倍以上高速である。 これらの結果は、自律神経集団力学をモデル化するために明示的な力学モデルは必要ないことを示唆している。 コード: https://github.com/s nel-repo/neural-data -transformers

Neural population activity is theorized to reflect an underlying dynamical structure. This structure can be accurately captured using state space models with explicit dynamics, such as those based on recurrent neural networks (RNNs). However, using recurrence to explicitly model dynamics necessitates sequential processing of data, slowing real-time applications such as brain-computer interfaces. Here we introduce the Neural Data Transformer (NDT), a non-recurrent alternative. We test the NDT's ability to capture autonomous dynamical systems by applying it to synthetic datasets with known dynamics and data from monkey motor cortex during a reaching task well-modeled by RNNs. The NDT models these datasets as well as state-of-the-art recurrent models. Further, its non-recurrence enables 3.9ms inference, well within the loop time of real-time applications and more than 6 times faster than recurrent baselines on the monkey reaching dataset. These results suggest that an explicit dynamics model is not necessary to model autonomous neural population dynamics. Code: https://github.com/s nel-repo/neural-data -transformers
翻訳日:2021-08-04 13:51:09 公開日:2021-08-02
# ユニバーサル学習による記憶のあるターゲットチャネルにおけるレーダ追跡のための波形選択

Waveform Selection for Radar Tracking in Target Channels With Memory via Universal Learning ( http://arxiv.org/abs/2108.01181v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) 追跡レーダでは、ターゲットの軌跡と動的干渉により、センシング環境はしばしばトラック持続時間を大きく変化させる。 シーンの状態に関する部分的な情報を用いてレーダの波形を適応させることは、多くの実用的なシナリオにおいてパフォーマンスの利点をもたらすことが示されている。 さらに、レーダー測定は時間相関が強く、メモリベースの学習アルゴリズムは波形選択戦略を効果的に学習することができる。 本研究では,レーダー環境インタフェースの圧縮モデルをコンテキストツリーとして構築するレーダシステムについて検討する。 radarは、このコンテキストツリーベースのモデルを使用して、信号に依存したターゲットチャネル内の波形を選択する。 このアプローチは、レーダーに定数 U が未知の順序 U < $\infty$ のマルコフ過程として表現できる任意の定常目標チャネルに対する平均コスト最適ポリシーに漸近的に収束することが保証されている。 提案手法はシミュレーション実験で検証され、2つの最先端波形選択方式による追跡性能の向上が示されている。

In tracking radar, the sensing environment often varies significantly over a track duration due to the target's trajectory and dynamic interference. Adapting the radar's waveform using partial information about the state of the scene has been shown to provide performance benefits in many practical scenarios. Moreover, radar measurements generally exhibit strong temporal correlation, allowing memory-based learning algorithms to effectively learn waveform selection strategies. This work examines a radar system which builds a compressed model of the radar-environment interface in the form of a context-tree. The radar uses this context tree-based model to select waveforms in a signal-dependent target channel, which may respond adversarially to the radar's strategy. This approach is guaranteed to asymptotically converge to the average-cost optimal policy for any stationary target channel that can be represented as a Markov process of order U < $\infty$, where the constant U is unknown to the radar. The proposed approach is tested in a simulation study, and is shown to provide tracking performance improvements over two state-of-the-art waveform selection schemes.
翻訳日:2021-08-04 13:49:19 公開日:2021-08-02
# (参考訳) ベルの不等式の実験的違反 [全文訳有]

Ab-initio experimental violation of Bell inequalities ( http://arxiv.org/abs/2108.00574v1 )

ライセンス: CC BY 4.0
Davide Poderini, Emanuele Polino, Giovanni Rodari, Alessia Suprano, Rafael Chaves and Fabio Sciarrino(参考訳) ベルの不等式違反は、デバイスに依存しない量子情報のパラダイム的例である:データの非古典性は、デバイスの機能に関する知識がなくても認証される。 しかし実際には、全てのベルの実験は基礎となる物理的メカニズムの正確な理解に依存している。 真にブラックボックスなシナリオで非古典的行動を目撃することは可能か? 本稿では,このab-initioタスクの解法として,計算的,実験的に提案する。 Stochastic Nelder-Meadアルゴリズムに基づく堅牢な自動最適化アプローチを利用する。 測定装置をブラックボックスとして処理し,観測値のみに依存する適応プロトコルは,様々なフォトニック状態,測定応答,ベルシナリオの反復回数に制限された後,最適なベル不等式違反にアプローチする。 特に,未知の状態や測定値からのランダム性認証に活用する。 本研究は、デバイス非依存量子技術の実験的な実装のための新しい会場を開設し、自動化アルゴリズムのパワーを実証する。

The violation of a Bell inequality is the paradigmatic example of device-independent quantum information: the nonclassicality of the data is certified without the knowledge of the functioning of devices. In practice, however, all Bell experiments rely on the precise understanding of the underlying physical mechanisms. Given that, it is natural to ask: Can one witness nonclassical behaviour in a truly black-box scenario? Here we propose and implement, computationally and experimentally, a solution to this ab-initio task. It exploits a robust automated optimization approach based on the Stochastic Nelder-Mead algorithm. Treating preparation and measurement devices as black-boxes, and relying on the observed statistics only, our adaptive protocol approaches the optimal Bell inequality violation after a limited number of iterations for a variety photonic states, measurement responses and Bell scenarios. In particular, we exploit it for randomness certification from unknown states and measurements. Our results demonstrate the power of automated algorithms, opening a new venue for the experimental implementation of device-independent quantum technologies.
翻訳日:2021-08-04 03:42:43 公開日:2021-08-02
# (参考訳) セマンティックParseからの論理一貫性テキスト生成 [全文訳有]

Logic-Consistency Text Generation from Semantic Parses ( http://arxiv.org/abs/2108.00577v1 )

ライセンス: CC BY 4.0
Chang Shu, Yusen Zhang, Xiangyu Dong, Peng Shi, Tao Yu, Rui Zhang(参考訳) 意味構文解析からのテキスト生成は、論理形式やsqlクエリなどの形式表現入力のためのテキスト記述を生成することである。 1)データ不足の制約を伴う複雑で集中的な内部ロジック,(2)論理一貫性のための自動評価指標の欠如,という2つの理由により,これは難しい。 そこで本稿では,この2つの課題を解決するために,まずsnowballを提案する。snowballは意味構文解析から論理一貫性のあるテキスト生成のためのフレームワークであり,反復学習手順を用いて,品質制御を伴う学習セットを反復的に強化する。 第2に,意味構文解析と生成テキストの論理的一貫性を評価するための新しい自動メトリクスblecを提案する。 Logic2TextとSpiderという2つのベンチマークデータセットの実験結果は、SNOWBALLフレームワークがBLECと人的評価の両方における論理一貫性を向上させることを実証している。 さらに, BLEU, ROUGE, BLEURTなどの汎用自動測定値よりも, BLECは人的評価と論理的に一致していることが明らかとなった。 私たちのデータとコードはhttps://github.com/c iaranshu/relogicで利用可能です。

Text generation from semantic parses is to generate textual descriptions for formal representation inputs such as logic forms and SQL queries. This is challenging due to two reasons: (1) the complex and intensive inner logic with the data scarcity constraint, (2) the lack of automatic evaluation metrics for logic consistency. To address these two challenges, this paper first proposes SNOWBALL, a framework for logic consistent text generation from semantic parses that employs an iterative training procedure by recursively augmenting the training set with quality control. Second, we propose a novel automatic metric, BLEC, for evaluating the logical consistency between the semantic parses and generated texts. The experimental results on two benchmark datasets, Logic2Text and Spider, demonstrate the SNOWBALL framework enhances the logic consistency on both BLEC and human evaluation. Furthermore, our statistical analysis reveals that BLEC is more logically consistent with human evaluation than general-purpose automatic metrics including BLEU, ROUGE and, BLEURT. Our data and code are available at https://github.com/C iaranshu/relogic.
翻訳日:2021-08-04 03:15:51 公開日:2021-08-02
# (参考訳) 私のモデルは正しい証拠を使っているか? Evidence-based Tabular Reasoning の体系的プローブ [全文訳有]

Is My Model Using The Right Evidence? Systematic Probes for Examining Evidence-Based Tabular Reasoning ( http://arxiv.org/abs/2108.00578v1 )

ライセンス: CC BY 4.0
Vivek Gupta, Riyaz A. Bhat, Atreya Ghosal, Manish Srivastava, Maneesh Singh, Vivek Srikumar(参考訳) ニューラルモデルは、推論を含むNLPタスクにまたがる最先端のパフォーマンスを定期的に報告するが、そのアウトプットは正しく使用されず、インプットに提示されたエビデンスを推論することがしばしば観察される。 適切な理由のあるモデルは、入力の適切な部分に従うことが期待され、サンプル間の予測において自己一貫性を持ち、入力のスプリアスパターンを避け、基礎となる事前学習された言語モデルから、ニュアンス的で文脈に敏感な方法でバイアスを無視する(例えば、)。 偽造品の扱い) 今日のモデルはそうなるのか? 本稿では,表データに対する推論の問題を用いて,この問題を考察する。 入力の表的な性質は、上述した特性を対象とする系統的なプローブを認めるため、研究に特に適している。 a) 関連する証拠を見逃すこと、(b) 仮説や知識バイアスに苦しむこと、(c) 表形式の入力の前提に頼らずに、事前学習された言語モデルからの注釈的アーティファクトや知識に頼ること。

While neural models routinely report state-of-the-art performance across NLP tasks involving reasoning, their outputs are often observed to not properly use and reason on the evidence presented to them in the inputs. A model that reasons properly is expected to attend to the right parts of the input, be self-consistent in its predictions across examples, avoid spurious patterns in inputs, and to ignore biasing from its underlying pre-trained language model in a nuanced, context-sensitive fashion (e.g. handling counterfactuals). Do today's models do so? In this paper, we study this question using the problem of reasoning on tabular data. The tabular nature of the input is particularly suited for the study as it admits systematic probes targeting the properties listed above. Our experiments demonstrate that a BERT-based model representative of today's state-of-the-art fails to properly reason on the following counts: it often (a) misses the relevant evidence, (b) suffers from hypothesis and knowledge biases, and, (c) relies on annotation artifacts and knowledge from pre-trained language models as primary evidence rather than relying on reasoning on the premises in the tabular input.
翻訳日:2021-08-04 02:59:04 公開日:2021-08-02
# (参考訳) Dilated Convolutional Swin Transformer を用いた混雑群集の局所化 [全文訳有]

Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer ( http://arxiv.org/abs/2108.00584v1 )

ライセンス: CC BY 4.0
Junyu Gao, Maoguo Gong, Xuelong Li(参考訳) クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。 後者とは違って、各インスタンスの正確な位置情報を提供し、群衆シーン全体の数字をカウントするだけでなく、特に非常に混雑した群衆シーンにおいて大きな課題をもたらす。 本稿では,高濃度の群衆シーンにおける正確なインスタンスローカライズを実現する方法に着目し,従来のモデルの特徴抽出能力が目標のオクルージョンや画像のぼかしなどにより低下する問題を緩和する。 そこで本研究では,混み合った群衆シーンに対する拡張畳み込みスウィントランス(dcst)を提案する。 具体的には、ウィンドウベースの視覚変換器をクラウドローカライゼーションタスクに導入し、表現学習の能力を効果的に向上させる。 そして、よく設計された拡張畳み込みモジュールを変圧器のいくつかの異なるステージに挿入して、大域的文脈情報を強化する。 広範な実験により、提案手法の有効性が証明され、5つの人気のあるデータセットで最先端のパフォーマンスが得られた。 特に,提案モデルでは, 局所化およびカウント性能の観点から, 77.5\%のF1値と84.2のMAE値をそれぞれ達成している。

Crowd localization is a new computer vision task, evolved from crowd counting. Different from the latter, it provides more precise location information for each instance, not just counting numbers for the whole crowd scene, which brings greater challenges, especially in extremely congested crowd scenes. In this paper, we focus on how to achieve precise instance localization in high-density crowd scenes, and to alleviate the problem that the feature extraction ability of the traditional model is reduced due to the target occlusion, the image blur, etc. To this end, we propose a Dilated Convolutional Swin Transformer (DCST) for congested crowd scenes. Specifically, a window-based vision transformer is introduced into the crowd localization task, which effectively improves the capacity of representation learning. Then, the well-designed dilated convolutional module is inserted into some different stages of the transformer to enhance the large-range contextual information. Extensive experiments evidence the effectiveness of the proposed methods and achieve state-of-the-art performance on five popular datasets. Especially, the proposed model achieves F1-measure of 77.5\% and MAE of 84.2 in terms of localization and counting performance, respectively.
翻訳日:2021-08-04 02:36:43 公開日:2021-08-02
# (参考訳) SimCLRによる半教師学習, 移行学習, 知識蒸留 [全文訳有]

Semi-Supervising Learning, Transfer Learning, and Knowledge Distillation with SimCLR ( http://arxiv.org/abs/2108.00587v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Yen Nguyen, Bao Le(参考訳) 半教師付き学習の分野における最近のブレークスルーは、最先端の従来の教師付き学習手法と一致する結果を得た。 コンピュータビジョンにおける最も成功した半教師付き学習アプローチは、膨大な量のラベル付きデータを活用すること、データ拡張と変換を通じて一般的な表現を学ぶこと、擬似ラベルを作成し、異なる損失関数を実装し、最終的にこれらの知識をタスク固有のより小さなモデルに転送することである。 本稿では,コンピュータビジョンのための最先端の半教師付き学習フレームワークであるsimclrの3つの異なる側面の分析を行う。 まず,コントラスト学習の特性を微調整で解析し,コントラスト学習がこのような手法を成功させる要因であることを理解する。 第二に, 教員育成パラダイムによる知識蒸留の研究である。 教師と生徒が同じベースモデルを共有すると、知識蒸留がより良い結果をもたらすことを観察する。 最後に、転送学習の仕組みと、異なるデータセット上のクラス数との関係について検討する。 その結果, 授業数が少ない場合, 転校学習の成績は良好であった。

Recent breakthroughs in the field of semi-supervised learning have achieved results that match state-of-the-art traditional supervised learning methods. Most successful semi-supervised learning approaches in computer vision focus on leveraging huge amount of unlabeled data, learning the general representation via data augmentation and transformation, creating pseudo labels, implementing different loss functions, and eventually transferring this knowledge to more task-specific smaller models. In this paper, we aim to conduct our analyses on three different aspects of SimCLR, the current state-of-the-art semi-supervised learning framework for computer vision. First, we analyze properties of contrast learning on fine-tuning, as we understand that contrast learning is what makes this method so successful. Second, we research knowledge distillation through teacher-forcing paradigm. We observe that when the teacher and the student share the same base model, knowledge distillation will achieve better result. Finally, we study how transfer learning works and its relationship with the number of classes on different data sets. Our results indicate that transfer learning performs better when number of classes are smaller.
翻訳日:2021-08-04 02:12:24 公開日:2021-08-02
# (参考訳) gtnet:guided transformer network for detection human-object interaction [全文訳有]

GTNet:Guided Transformer Network for Detecting Human-Object Interactions ( http://arxiv.org/abs/2108.00596v1 )

ライセンス: CC BY 4.0
A S M Iftekhar, Satish Kumar, R. Austin McEver, Suya You, B.S. Manjunath(参考訳) human-object interaction (hoi) 検出タスクは、人間をローカライズし、オブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測することを指す。 HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと考えられている。 hoiの検出には、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の突出した空間領域を見つけることが重要である。 この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。 GTNetは、V-COCOとHICO-DETの両方のデータセットにおいて、この空間的コンテキスト情報を自己注意を介して人間とオブジェクトの視覚的特徴にエンコードし、過去の技術結果よりも4%-6%改善する。 コードはオンラインで入手できる。

The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the proposed self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving a 4%-6% improvement over previous state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online.
翻訳日:2021-08-04 02:04:45 公開日:2021-08-02
# (参考訳) マルチタスク学習のための正確なpareto最適探索:paretoの最前線を巡る

Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto Front ( http://arxiv.org/abs/2108.00597v1 )

ライセンス: CC BY 4.0
Debabrata Mahapatra, Vaibhav Rajan(参考訳) マルチタスク学習(mtl)は、複数の相関タスクに対してディープニューラルネットワークモデルをトレーニングするための確立されたパラダイムである。 多くの場合、タスクの目的が衝突し、モデル構築中にそれらの間のトレードオフが必要になる。 このような場合、MTLモデルは勾配に基づく多目的最適化(MOO)を用いて1つ以上のパレート最適解を求めることができる。 MTLアプリケーションで一般的な要件は、タスク固有の目的関数に関してユーザの好みを満たすパレート最適(EPO)ソリューションを見つけることである。 さらに、モデル一般化を改善するためには、トレーニング中に重量に関する様々な制約を課す必要がある。 これらの要件に対処するには、パレート前面だけでなく入力優先方向への降下を許容する探索方向が必要であるため、制約の範囲内で、高次元勾配にスケールする方法では困難である。 我々は,このような探索方向を設計・理論的に解析し,ボックスと等式制約が課された場合を含むEPOソリューションを見つけるために,収束の理論的保証のある最初のスケーラブルアルゴリズムを開発する。 本手法は,複数の勾配降下と注意深く制御された上昇を組み合わせることで,パレート前線を原理的に横断し,初期化に頑健な手法である。 このことはパレート前線の体系的な探索にも役立ち、多基準意思決定にパレート前線の近似に役立てる。 実験結果から,提案アルゴリズムはベンチマークMTLデータセットとMOO問題において競合する手法よりも優れていた。

Multi-Task Learning (MTL) is a well-established paradigm for training deep neural network models for multiple correlated tasks. Often the task objectives conflict, requiring trade-offs between them during model building. In such cases, MTL models can use gradient-based multi-objective optimization (MOO) to find one or more Pareto optimal solutions. A common requirement in MTL applications is to find an {\it Exact} Pareto optimal (EPO) solution, which satisfies user preferences with respect to task-specific objective functions. Further, to improve model generalization, various constraints on the weights may need to be enforced during training. Addressing these requirements is challenging because it requires a search direction that allows descent not only towards the Pareto front but also towards the input preference, within the constraints imposed and in a manner that scales to high-dimensional gradients. We design and theoretically analyze such search directions and develop the first scalable algorithm, with theoretical guarantees of convergence, to find an EPO solution, including when box and equality constraints are imposed. Our unique method combines multiple gradient descent with carefully controlled ascent to traverse the Pareto front in a principled manner, making it robust to initialization. This also facilitates systematic exploration of the Pareto front, that we utilize to approximate the Pareto front for multi-criteria decision-making. Empirical results show that our algorithm outperforms competing methods on benchmark MTL datasets and MOO problems.
翻訳日:2021-08-04 01:48:29 公開日:2021-08-02
# (参考訳) tabpert: 表の摂動に有効なプラットフォーム [全文訳有]

TabPert: An Effective Platform for Tabular Perturbation ( http://arxiv.org/abs/2108.00603v1 )

ライセンス: CC BY 4.0
Nupur Jain, Vivek Gupta, Anshul Rai, Gaurav Kumar(参考訳) 推論能力を真に把握するには、偽データを用いて自然言語推論モデルを評価する必要がある。 TabPertは、そのような偽データの生成を支援して、モデル表の推論問題を評価することで、これを促進する。 TabPertを使えば、ユーザはテーブルを更新し、関連する仮説を変更し、ラベルを変更し、仮説分類に重要な行をハイライトすることができる。 tabpertは、テーブルの自動生成に使用されるテクニックに関する情報と、挑戦的な仮説を生成するための戦略もキャプチャする。 これらの反事実テーブルと仮説、およびメタデータは、既存のモデルの欠点を体系的かつ定量的に探究するために使用できる。

To truly grasp reasoning ability, a Natural Language Inference model should be evaluated on counterfactual data. TabPert facilitates this by assisting in the generation of such counterfactual data for assessing model tabular reasoning issues. TabPert allows a user to update a table, change its associated hypotheses, change their labels, and highlight rows that are important for hypothesis classification. TabPert also captures information about the techniques used to automatically produce the table, as well as the strategies employed to generate the challenging hypotheses. These counterfactual tables and hypotheses, as well as the metadata, can then be used to explore an existing model's shortcomings methodically and quantitatively.
翻訳日:2021-08-04 01:47:03 公開日:2021-08-02
# (参考訳) ニューロンミラー信号を用いたバケット型PCAニューラルネットワーク [全文訳有]

Bucketed PCA Neural Networks with Neurons Mirroring Signals ( http://arxiv.org/abs/2108.00605v1 )

ライセンス: CC BY 4.0
Jackie Shen(参考訳) 深いニューラルネットワーク(DNN)をベンチマークするために、トランスフォーメーションを備えたバケット付きPCAニューラルネットワーク(PCA-NN)を開発した。 ほとんどの古典的PCAモデルは、還元表現を確立するためにトレーニングデータセット全体にPCAを適用し、高階多項式分類器のような非ネットワークツールを使用する。 対照的に、バケット付きPCA-NNは、2つの連続したフェーズで構築される個々のバケットにPCAを適用し、ニューラルネットワークの真のアーキテクチャを保持する。 これにより、dnnのespとapple対appleの公平な比較が容易になる。 多くの印象的なDNNによって達成された大きな精度は、バケツ入りPCA-NNによって説明できる可能性がある(例:MNISTデータセットの98%のうち96%)。 多くのDNNと比較して、バケット付きPCA-NNの3つのビルディングブロックは概念的に理解しやすい。 さらに、DNNで広く見られる準ランダムニューロンとは異なり、PCAニューロンは入力信号に類似または反映しており、結果としてより容易に解読できる。

The bucketed PCA neural network (PCA-NN) with transforms is developed here in an effort to benchmark deep neural networks (DNN's), for problems on supervised classification. Most classical PCA models apply PCA to the entire training data set to establish a reductive representation and then employ non-network tools such as high-order polynomial classifiers. In contrast, the bucketed PCA-NN applies PCA to individual buckets which are constructed in two consecutive phases, as well as retains a genuine architecture of a neural network. This facilitates a fair apple-to-apple comparison to DNN's, esp. to reveal that a major chunk of accuracy achieved by many impressive DNN's could possibly be explained by the bucketed PCA-NN (e.g., 96% out of 98% for the MNIST data set as an example). Compared with most DNN's, the three building blocks of the bucketed PCA-NN are easier to comprehend conceptually - PCA, transforms, and bucketing for error correction. Furthermore, unlike the somewhat quasi-random neurons ubiquitously observed in DNN's, the PCA neurons resemble or mirror the input signals and are more straightforward to decipher as a result.
翻訳日:2021-08-04 01:35:00 公開日:2021-08-02
# (参考訳) 教師なし領域適応のための多重分類器に基づく最大分類器不一致 [全文訳有]

Multiple Classifiers Based Maximum Classifier Discrepancy for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.00610v1 )

ライセンス: CC BY 4.0
Yiju Yang, Taejoon Kim, Guanghui Wang(参考訳) 画像分類のための教師なし領域適応タスクにおいて、2つの分類器構造間の最大分類器の差に基づく対立訓練は大きな成功を収めた。 このアプローチは2つの分類器の構造を採用するが、単純かつ直感的であるが、学習された分類境界は新しい領域のデータ特性をうまく表現していないかもしれない。 本稿では,構造を複数の分類器に拡張し,性能をさらに向上することを提案する。 この目的のために、より単純な分類器の追加手法を提案する。 我々は、分類器が互いに異なるという原則を用いて、複数の分類器に対する差分損失関数を構築する。 損失関数構築メソッドによって、任意の数の分類器を元のフレームワークに追加することができる。 提案手法は広範囲な実験評価によって検証される。 平均的に3つの分類器の構造を採用すると、精度と効率のトレードオフとして最高の性能が得られることを実証する。 最小限の計算コストで、提案手法は元のアルゴリズムを大幅に改善することができる。

Adversarial training based on the maximum classifier discrepancy between the two classifier structures has achieved great success in unsupervised domain adaptation tasks for image classification. The approach adopts the structure of two classifiers, though simple and intuitive, the learned classification boundary may not well represent the data property in the new domain. In this paper, we propose to extend the structure to multiple classifiers to further boost its performance. To this end, we propose a very straightforward approach to adding more classifiers. We employ the principle that the classifiers are different from each other to construct a discrepancy loss function for multiple classifiers. Through the loss function construction method, we make it possible to add any number of classifiers to the original framework. The proposed approach is validated through extensive experimental evaluations. We demonstrate that, on average, adopting the structure of three classifiers normally yields the best performance as a trade-off between the accuracy and efficiency. With minimum extra computational costs, the proposed approach can significantly improve the original algorithm.
翻訳日:2021-08-04 01:23:47 公開日:2021-08-02
# (参考訳) 軽度医用画像分割術におけるマスク再留置術

Recurrent Mask Refinement for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2108.00622v1 )

ライセンス: CC BY 4.0
Hao Tang, Xingwei Liu, Shanlin Sun, Xiangyi Yan, and Xiaohui Xie(参考訳) 深層畳み込みニューラルネットワークは医用画像セグメンテーションで大きな成功を収めているが、通常、トレーニングのために手動アノテーションを備えた大きなデータセットを必要とし、目に見えないクラスに一般化するのは難しい。 わずかにラベル付き例から新しいクラスを学ぶことで、これらの課題に対処するチャンスは、ほとんどない。 本研究では, プロトタイプネットワークに基づく医療画像分割のための新しいフレームワークを提案する。 我々のイノベーションは、2つの重要なモジュールの設計にある: 1)前景と背景領域の間の局所的な関係の特徴を捉えるために相関を利用するコンテキスト関係エンコーダ(cre)、2)コンテキスト関係の変化を捉え、反復的にセグメンテーションマスクを洗練するためにcreとプロトタイプネットワークを繰り返し使用する反復マスクリファインメントモジュールである。 2つの腹部CTデータセットと1つの腹部MRIデータセットを用いた実験により、提案手法は、それぞれDSCの平均16.32%、8.45%、および6.24%で最先端の方法よりも大幅に改善された。 コードは公開されている。

Although having achieved great success in medical image segmentation, deep convolutional neural networks usually require a large dataset with manual annotations for training and are difficult to generalize to unseen classes. Few-shot learning has the potential to address these challenges by learning new classes from only a few labeled examples. In this work, we propose a new framework for few-shot medical image segmentation based on prototypical networks. Our innovation lies in the design of two key modules: 1) a context relation encoder (CRE) that uses correlation to capture local relation features between foreground and background regions; and 2) a recurrent mask refinement module that repeatedly uses the CRE and a prototypical network to recapture the change of context relationship and refine the segmentation mask iteratively. Experiments on two abdomen CT datasets and an abdomen MRI dataset show the proposed method obtains substantial improvement over the state-of-the-art methods by an average of 16.32%, 8.45% and 6.24% in terms of DSC, respectively. Code is publicly available.
翻訳日:2021-08-04 01:09:42 公開日:2021-08-02
# (参考訳) 学習型二元化ニューラルネットワークによるMaxSAT評価2021のための計画 [全文訳有]

Planning with Learned Binarized Neural Networks Benchmarks for MaxSAT Evaluation 2021 ( http://arxiv.org/abs/2108.00633v1 )

ライセンス: CC BY 4.0
Buser Say, Scott Sanner, Jo Devriendt, Jakob Nordstr\"om, Peter J. Stuckey(参考訳) この文書では、状態遷移関数が二項化ニューラルネットワーク(BNN)の形式で学習された自動計画問題の簡単な紹介を行い、この問題に対する一般的なMaxSATエンコーディングを示し、MaxSAT Evaluation 2021のベンチマークとして提出されたナビゲーション、インベントリコントロール、システム管理者、セルダの4つのドメインについて説明する。

This document provides a brief introduction to learned automated planning problem where the state transition function is in the form of a binarized neural network (BNN), presents a general MaxSAT encoding for this problem, and describes the four domains, namely: Navigation, Inventory Control, System Administrator and Cellda, that are submitted as benchmarks for MaxSAT Evaluation 2021.
翻訳日:2021-08-04 01:08:30 公開日:2021-08-02
# (参考訳) LSATから - 複雑推論の進歩と課題- [全文訳有]

From LSAT: The Progress and Challenges of Complex Reasoning ( http://arxiv.org/abs/2108.00648v1 )

ライセンス: CC BY 4.0
Siyuan Wang, Zhongkun Liu, Wanjun Zhong, Ming Zhou, Zhongyu Wei, Zhumin Chen and Nan Duan(参考訳) 複雑な推論は、複雑なルールに基づいて正しい推論を描くことを目的としている。 人間の知性の目印として、明示的な読解、論理的知識の解釈、複雑な規則の適用などが含まれる。 本稿では,LSAT(Law School Admission Test)の3つの課題を,解析的推論,論理的推論,読解的理解を含む体系的に研究することで,複雑な推論に一歩前進する。 本稿では,これら3つのタスクを統合し,lsatテストにおいて印象的な総合的性能を実現するためのハイブリッド推論システムを提案する。 実験の結果,本システムには複雑な推論能力,特に基本的な読解能力と論理的推論能力が備わっていることがわかった。 さらに、事前学習されたモデルとタスク固有の推論モジュールを組み合わせることで、複雑な推論においてシンボル知識を個別の解釈可能な推論ステップに統合する効果も示した。 我々はさらに,教師なしの記号的知識抽出,モデル解釈可能性,少数ショット学習,複雑な推論のための包括的ベンチマークなど,将来的な方向性について考察した。

Complex reasoning aims to draw a correct inference based on complex rules. As a hallmark of human intelligence, it involves a degree of explicit reading comprehension, interpretation of logical knowledge and complex rule application. In this paper, we take a step forward in complex reasoning by systematically studying the three challenging and domain-general tasks of the Law School Admission Test (LSAT), including analytical reasoning, logical reasoning and reading comprehension. We propose a hybrid reasoning system to integrate these three tasks and achieve impressive overall performance on the LSAT tests. The experimental results demonstrate that our system endows itself a certain complex reasoning ability, especially the fundamental reading comprehension and challenging logical reasoning capacities. Further analysis also shows the effectiveness of combining the pre-trained models with the task-specific reasoning module, and integrating symbolic knowledge into discrete interpretable reasoning steps in complex reasoning. We further shed a light on the potential future directions, like unsupervised symbolic knowledge extraction, model interpretability, few-shot learning and comprehensive benchmark for complex reasoning.
翻訳日:2021-08-04 00:53:35 公開日:2021-08-02
# (参考訳) 教育システムにおける因果推論:グラフィカルモデリングアプローチ [全文訳有]

Causal Inference in Educational Systems: A Graphical Modeling Approach ( http://arxiv.org/abs/2108.00654v1 )

ライセンス: CC BY 4.0
Manie Tadayon, Greg Pottie(参考訳) 教育システムは伝統的に、プレテスト、ポストテスト、シングル介入など、横断的な研究を用いて評価されてきた。 これは一般的なアプローチであるが、変数の結合、学生へのフィードバック、理想的な条件からの研究の現実世界の偏りなど、貴重な情報をモデル化するものではない。 さらに、本質的に学習はシーケンシャルなプロセスであり、一連の介入を伴わなければならない。 本稿では, グラフィカルモデルと有向非巡回グラフ(DAG)言語を用いて, 教育システムの実験および準実験設計を提案し, それらを定量化する。 教育における各手法の適用と限界について論じる。 さらに, 教育システムを, 時変療法, 共同設立者, 時変療法-共同設立者フィードバックとしてモデル化することを提案する。 十分な共同創設者の集合を制御し、治療重み付けの逆確率(IPTW)やg-formulaなどの適切な推論手法を用いて、バックドアパスを閉じ、結果に対する共同介入のバイアスのない因果推定を導出できることを示す。 最後に,g-formula と IPTW のパフォーマンスを比較し,各手法の長所と短所について考察する。

Educational systems have traditionally been evaluated using cross-sectional studies, namely, examining a pretest, posttest, and single intervention. Although this is a popular approach, it does not model valuable information such as confounding variables, feedback to students, and other real-world deviations of studies from ideal conditions. Moreover, learning inherently is a sequential process and should involve a sequence of interventions. In this paper, we propose various experimental and quasi-experimental designs for educational systems and quantify them using the graphical model and directed acyclic graph (DAG) language. We discuss the applications and limitations of each method in education. Furthermore, we propose to model the education system as time-varying treatments, confounders, and time-varying treatments-confounde rs feedback. We show that if we control for a sufficient set of confounders and use appropriate inference techniques such as the inverse probability of treatment weighting (IPTW) or g-formula, we can close the backdoor paths and derive the unbiased causal estimate of joint interventions on the outcome. Finally, we compare the g-formula and IPTW performance and discuss the pros and cons of using each method.
翻訳日:2021-08-04 00:13:32 公開日:2021-08-02
# (参考訳) スタッキングアンサンブルによるビデオ広告タギングのためのマルチモーダル特徴融合 [全文訳有]

Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking Ensemble ( http://arxiv.org/abs/2108.00679v1 )

ライセンス: CC BY 4.0
Qingsong Zhou, Hai Liang, Zhimin Lin, Kele Xu(参考訳) ビデオ広告の自動タグ付けは、批判的だが困難な問題であり、多くの分野でその応用が明らかになっているため、近年は関心が高まっている。 持続的努力にもかかわらず、タグづけ作業は、効率的な機能融合アプローチが望ましいなど、いくつかの課題に苦しめられているが、以前の研究では未検討である。 本稿では,2021年のtencent広告アルゴリズムコンペティションにおいて,マルチモーダルビデオ広告タギングのアプローチを提案する。 具体的には,複数のモダリティからの補完情報を組み合わせることを目的とした,新しいマルチモーダル機能融合フレームワークを提案する。 このフレームワークは、様々なレベルのノイズと異なるモダリティ間の衝突の影響を低減するために、スタック方式のアンサンブルアプローチを導入する。 このように、我々のフレームワークは従来の手法と比較してタグ付けタスクの性能を向上させることができる。 提案手法の有効性とロバスト性を実証的に検討するため,課題データセットについて広範な実験を行った。 その結果,我々のフレームワークは関連するアプローチを著しく上回ることができ,最終リーダボードでは第1位にランクインし,グローバル平均精度 (gap) は82.63%であった。 この分野での研究をより促進するために、最終バージョンでコードをリリースします。

Automated tagging of video advertisements has been a critical yet challenging problem, and it has drawn increasing interests in last years as its applications seem to be evident in many fields. Despite sustainable efforts have been made, the tagging task is still suffered from several challenges, such as, efficiently feature fusion approach is desirable, but under-explored in previous studies. In this paper, we present our approach for Multimodal Video Ads Tagging in the 2021 Tencent Advertising Algorithm Competition. Specifically, we propose a novel multi-modal feature fusion framework, with the goal to combine complementary information from multiple modalities. This framework introduces stacking-based ensembling approach to reduce the influence of varying levels of noise and conflicts between different modalities. Thus, our framework can boost the performance of the tagging task, compared to previous methods. To empirically investigate the effectiveness and robustness of the proposed framework, we conduct extensive experiments on the challenge datasets. The obtained results suggest that our framework can significantly outperform related approaches and our method ranks as the 1st place on the final leaderboard, with a Global Average Precision (GAP) of 82.63%. To better promote the research in this field, we will release our code in the final version.
翻訳日:2021-08-03 23:55:55 公開日:2021-08-02
# (参考訳) リモートセンシングデータの自己教師付き視覚表現学習 [全文訳有]

Self-supervised Audiovisual Representation Learning for Remote Sensing Data ( http://arxiv.org/abs/2108.00688v1 )

ライセンス: CC BY-SA 4.0
Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu(参考訳) 現在のディープラーニングのアプローチの多くは、imagenetのような大規模データセットで事前トレーニングされたバックボーンネットワークを広範囲に利用し、特定のタスクを実行するように微調整されている。 リモートセンシングでは、比較可能な大きな注釈付きデータセットの欠如と、さまざまなセンシングプラットフォームが同様の開発を妨げる。 リモートセンシングにおける事前学習されたバックボーンネットワークの可用性に寄与するため、深層ニューラルネットワークを事前学習するための自己教師ありアプローチを考案する。 ジオタグ付きオーディオ記録とリモートセンシング画像との対応を利用して、これは完全にラベルのない方法で行われ、面倒な手作業によるアノテーションは不要である。 そこで本研究では,世界中の空中画像と音声サンプルを同時配置したサウンドアースデータセットを提案する。 このデータセットを使用して、両方のモダリティからサンプルを共通の埋め込み空間にマッピングするためにresnetモデルを事前トレーニングし、視覚と聴覚の両方に影響を与えるシーンの重要な特性を理解するようにモデルに促します。 提案手法の有効性を検証するため,他の方法で得られた重みに対して得られた事前学習重みの伝達学習性能を評価する。 一般的なリモートセンシングデータセットでモデルを微調整することにより、我々のアプローチはリモートセンシング画像のための既存の事前学習戦略よりも優れていることを示す。 データセット、コード、事前トレーニングされたモデルの重み付けはhttps://github.com/k hdlr/SoundingEarth.c omから入手できる。

Many current deep learning approaches make extensive use of backbone networks pre-trained on large datasets like ImageNet, which are then fine-tuned to perform a certain task. In remote sensing, the lack of comparable large annotated datasets and the wide diversity of sensing platforms impedes similar developments. In order to contribute towards the availability of pre-trained backbone networks in remote sensing, we devise a self-supervised approach for pre-training deep neural networks. By exploiting the correspondence between geo-tagged audio recordings and remote sensing imagery, this is done in a completely label-free manner, eliminating the need for laborious manual annotation. For this purpose, we introduce the SoundingEarth dataset, which consists of co-located aerial imagery and audio samples all around the world. Using this dataset, we then pre-train ResNet models to map samples from both modalities into a common embedding space, which encourages the models to understand key properties of a scene that influence both visual and auditory appearance. To validate the usefulness of the proposed approach, we evaluate the transfer learning performance of pre-trained weights obtained against weights obtained through other means. By fine-tuning the models on a number of commonly used remote sensing datasets, we show that our approach outperforms existing pre-training strategies for remote sensing imagery. The dataset, code and pre-trained model weights will be available at https://github.com/k hdlr/SoundingEarth.
翻訳日:2021-08-03 23:48:48 公開日:2021-08-02
# (参考訳) 深層ニューラルネットワークを改良したPiecewise Linear Unit [全文訳有]

Piecewise Linear Units Improve Deep Neural Networks ( http://arxiv.org/abs/2108.00700v1 )

ライセンス: CC BY 4.0
Jordan Inturrisi, Sui Yang Khoo, Abbas Kouzani, Riccardo Pagliarella(参考訳) 活性化関数はディープニューラルネットワークの非線形性の中心であり、その関数の選択はトレーニングの成功に大きな影響を与える。 現在、多くの実践者は単純さと信頼性から整定線形単位(relu)を好むが、欠点は少ない。 ReLUの代替として提案された機能のほとんどは手作業で設計されているが、トレーニング中の関数の学習に関する最近の研究は有望な結果を示している。 本稿では,ニューラルネットワークの各次元に対して独立に学習可能な適応的ピースワイド線形活性化関数Piecewise Linear Unit (PiLU)を提案する。 我々は、PiLUが一般化整流器ユニットであることを示すとともに、適応ピアースワイド線形ユニットと類似点について述べる。 30実験の分布を通して、同じモデルアーキテクチャ、ハイパーパラメータ、前処理において、PiLUはReLUを著しく上回り、CIFAR-10では18.53%、CIFAR-100では13.13%の分類誤差を減らし、ニューロンの数もわずかに増加した。 さらなる研究は、一般化された区分線形単位の探索と、他の困難な領域やより大きな問題に対するこれらの結果の検証に費やされるべきである。

The activation function is at the heart of a deep neural networks nonlinearity; the choice of the function has great impact on the success of training. Currently, many practitioners prefer the Rectified Linear Unit (ReLU) due to its simplicity and reliability, despite its few drawbacks. While most previous functions proposed to supplant ReLU have been hand-designed, recent work on learning the function during training has shown promising results. In this paper we propose an adaptive piecewise linear activation function, the Piecewise Linear Unit (PiLU), which can be learned independently for each dimension of the neural network. We demonstrate how PiLU is a generalised rectifier unit and note its similarities with the Adaptive Piecewise Linear Units, namely adaptive and piecewise linear. Across a distribution of 30 experiments, we show that for the same model architecture, hyperparameters, and pre-processing, PiLU significantly outperforms ReLU: reducing classification error by 18.53% on CIFAR-10 and 13.13% on CIFAR-100, for a minor increase in the number of neurons. Further work should be dedicated to exploring generalised piecewise linear units, as well as verifying these results across other challenging domains and larger problems.
翻訳日:2021-08-03 23:28:15 公開日:2021-08-02
# (参考訳) 生成型adversarial networkに基づく連合学習システムにおける情報盗み [全文訳有]

Information Stealing in Federated Learning Systems Based on Generative Adversarial Networks ( http://arxiv.org/abs/2108.00701v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Ng Chong, Hideya Ochiai(参考訳) インテリジェントマシンが協調して問題解決を行うディープラーニングシステムへの攻撃は、ネットワーク内のノードが重要な判断に誤りを犯す可能性がある。 同時に、AIのセキュリティとプライバシーに関する懸念は、複数の分野の専門家の注意を喚起している。 本研究では,3つの異なるデータセットを用いて,FL環境に対する敵攻撃の実施に成功した。 この攻撃はGANを利用して学習プロセスに影響を与え、共有されたローカルモデルパラメータから隠れた特徴を学習することでユーザのプライベートデータを再構築する。 攻撃はターゲット指向の描画データであり、それぞれcifar-10,mnist, fashion-mnistと異なるクラス分布を示した。 さらに, 実データと再構成した逆数サンプルとのユークリッド距離を計測することにより, 種々のシナリオにおいて, 学習過程における逆数の性能を評価した。 最後に,すべての適用データセットを用いて,共有グローバルモデルパラメータから被害者の実データを再構築することに成功しました。

An attack on deep learning systems where intelligent machines collaborate to solve problems could cause a node in the network to make a mistake on a critical judgment. At the same time, the security and privacy concerns of AI have galvanized the attention of experts from multiple disciplines. In this research, we successfully mounted adversarial attacks on a federated learning (FL) environment using three different datasets. The attacks leveraged generative adversarial networks (GANs) to affect the learning process and strive to reconstruct the private data of users by learning hidden features from shared local model parameters. The attack was target-oriented drawing data with distinct class distribution from the CIFAR- 10, MNIST, and Fashion-MNIST respectively. Moreover, by measuring the Euclidean distance between the real data and the reconstructed adversarial samples, we evaluated the performance of the adversary in the learning processes in various scenarios. At last, we successfully reconstructed the real data of the victim from the shared global model parameters with all the applied datasets.
翻訳日:2021-08-03 23:16:22 公開日:2021-08-02
# (参考訳) 全方向移動ロボットの並列タスク実行のための方向認識計画 [全文訳有]

Orientation-Aware Planning for Parallel Task Execution of Omni-Directional Mobile Robot ( http://arxiv.org/abs/2108.00716v1 )

ライセンス: CC BY 4.0
Cheng Gong and Zirui Li and Xingyu Zhou and Jiachen Li and Jianwei Gong and Junhui Zhou(参考訳) オムニ指向型移動ロボット(Omni-directional mobile robot, OMR)システムは、学界や業界で非常に人気がある。 しかし、OMRの余分な自由度によって、ロボットが余分なタスクを実行できる可能性があるため、そのポテンシャルは十分に活用されていない。 例えば、ロボット上のジンバルやセンサーは視野が限られているり、固有の機械設計によって制約を受けることがある。 そこで本研究では, omr シャシーに関連するタスクを方向遷移タスクと位置遷移タスクに分類し, 2つのタスクを同時に実行可能にする。 並列タスクの目標を単一計画問題に組み込むことにより,OMRシステムのための配向遷移と位置遷移を統一的かつ効率的な方法で実行するための配向対応計画アーキテクチャを提案する。 両タスクの要求を満たす軌道を生成するために,向き認識型時間-弾性バンド (OATEB) と呼ばれる改良された軌道最適化手法が導入された。 2次元シミュレーション環境と実シーンの両方で実験を行う。 実シーン実験を行うために4輪のomrを配置し,提案手法が並列タスクを同時に実行でき,実生活シナリオに適用可能であることを示す。

Omni-directional mobile robot (OMR) systems have been very popular in academia and industry for their superb maneuverability and flexibility. Yet their potential has not been fully exploited, where the extra degree of freedom in OMR can potentially enable the robot to carry out extra tasks. For instance, gimbals or sensors on robots may suffer from a limited field of view or be constrained by the inherent mechanical design, which will require the chassis to be orientation-aware and respond in time. To solve this problem and further develop the OMR systems, in this paper, we categorize the tasks related to OMR chassis into orientation transition tasks and position transition tasks, where the two tasks can be carried out at the same time. By integrating the parallel task goals in a single planning problem, we proposed an orientation-aware planning architecture for OMR systems to execute the orientation transition and position transition in a unified and efficient way. A modified trajectory optimization method called orientation-aware timed-elastic-band (OATEB) is introduced to generate the trajectory that satisfies the requirements of both tasks. Experiments in both 2D simulated environments and real scenes are carried out. A four-wheeled OMR is deployed to conduct the real scene experiment and the results demonstrate that the proposed method is capable of simultaneously executing parallel tasks and is applicable to real-life scenarios.
翻訳日:2021-08-03 23:07:48 公開日:2021-08-02
# (参考訳) ConveRT - FAQアンサーリングへの応用 [全文訳有]

ConveRT, an Application to FAQ Answering ( http://arxiv.org/abs/2108.00719v1 )

ライセンス: CC BY 4.0
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) 知識豊富なfaqチャットボットは、あらゆる組織にとって貴重なリソースです。 従来のコールセンタやFAQ Webページとは異なり、インスタントレスポンスを提供し、常に利用できる。 COVID19チャットボットを運用した経験から、英語以外の言語でFAQに答えるリソースが不足していることが分かりました。 英語には強力で効率的な検索ベースモデルが存在するが、同じ量のトレーニングデータを持っていない他の言語ではまれである。 本研究では、英語のSOTA会話エージェントであるConveRTを、トレーニングデータが少ない他の言語に適応させる、新しい保持手順を提案する。 これを初めて、オランダのfaqがcovid-19ワクチンに関する質問に答えるタスクに適用しました。 低データ体制と高データ体制におけるオープンソースの代替手段よりも優れた性能を示す。

Knowledgeable FAQ chatbots are a valuable resource to any organization. Unlike traditional call centers or FAQ web pages, they provide instant responses and are always available. Our experience running a COVID19 chatbot revealed the lack of resources available for FAQ answering in non-English languages. While powerful and efficient retrieval-based models exist for English, it is rarely the case for other languages which do not have the same amount of training data available. In this work, we propose a novel pretaining procedure to adapt ConveRT, an English SOTA conversational agent, to other languages with less training data available. We apply it for the first time to the task of Dutch FAQ answering related to the COVID19 vaccine. We show it performs better than an open-source alternative in a low-data regime and high-data regime.
翻訳日:2021-08-03 22:53:21 公開日:2021-08-02
# (参考訳) 対称錐分解の乗法的更新 [全文訳有]

Multiplicative updates for symmetric-cone factorizations ( http://arxiv.org/abs/2108.00740v1 )

ライセンス: CC BY 4.0
Yong Sheng Soh, Antonios Varvitsiotis(参考訳) 非負の成分を持つ行列 $X\in \mathbb{R}^{m\times n}_+$ が与えられたとき、コーン $\mathcal{K}\subseteq \mathbb{R}^k$ に関するコーン分解問題は、計算 $\{ a_1,\ldots, a_{m} \} \subseteq \mathcal{K}$ と $\{ b_1,\ldots, b_{n} \} \subseteq~\mathcal{K}^*$ が双対に属するので、$X_{ij} = \langle a_i, b_j \rangle$ がすべての $i\in [m], j\in [n] に対して成り立つ。 凸係数分解は、線形円錐プログラムの可能な領域として凸体を表現できる数学的最適化の基礎となる。 本稿では,$\mathcal{K}$が対称であること,すなわち,自己双対で同質である場合,円錐分解を計算するための対称錐乗算更新(SCMU)アルゴリズムを導入,解析する。 対称錐は、非負のオルタン(線形計画)、二階の円錐(二階の円錐計画)、正の半定義行列(半定義的計画)の円錐上の線形最適化を研究する共通の言語を提供するため、数学的最適化において中心的な関心を持つ。 SCMUアルゴリズムは、幾何平均の一般化を用いて計算された錐体の巧妙に選択された自己同型を対称錐に適用することにより、反復を更新するという意味で乗法的である。 リーブの凹凸定理とフォン・ノイマンのトレース不等式を対称錐に拡張することにより、平方損失目標がSCMUアルゴリズムの軌道に沿って非減少していることを示す。 非負のオルサントに特化して、SCMUアルゴリズムは非負行列分解を計算するためのLee and Seungによるセミナルアルゴリズムに対応する。

Given a matrix $X\in \mathbb{R}^{m\times n}_+$ with non-negative entries, the cone factorization problem over a cone $\mathcal{K}\subseteq \mathbb{R}^k$ concerns computing $\{ a_1,\ldots, a_{m} \} \subseteq \mathcal{K}$ and $\{ b_1,\ldots, b_{n} \} \subseteq~\mathcal{K}^*$ belonging to its dual so that $X_{ij} = \langle a_i, b_j \rangle$ for all $i\in [m], j\in [n]$. Cone factorizations are fundamental to mathematical optimization as they allow us to express convex bodies as feasible regions of linear conic programs. In this paper, we introduce and analyze the symmetric-cone multiplicative update (SCMU) algorithm for computing cone factorizations when $\mathcal{K}$ is symmetric; i.e., it is self-dual and homogeneous. Symmetric cones are of central interest in mathematical optimization as they provide a common language for studying linear optimization over the nonnegative orthant (linear programs), over the second-order cone (second order cone programs), and over the cone of positive semidefinite matrices (semidefinite programs). The SCMU algorithm is multiplicative in the sense that the iterates are updated by applying a meticulously chosen automorphism of the cone computed using a generalization of the geometric mean to symmetric cones. Using an extension of Lieb's concavity theorem and von Neumann's trace inequality to symmetric cones, we show that the squared loss objective is non-decreasing along the trajectories of the SCMU algorithm. Specialized to the nonnegative orthant, the SCMU algorithm corresponds to the seminal algorithm by Lee and Seung for computing Nonnegative Matrix Factorizations.
翻訳日:2021-08-03 22:47:26 公開日:2021-08-02
# (参考訳) 水圧破砕設計最適化のためのデータ駆動モデル 第2部:逆問題 [全文訳有]

Data-driven model for hydraulic fracturing design optimization. Part II: Inverse problem ( http://arxiv.org/abs/2108.00751v1 )

ライセンス: CC BY 4.0
Viktor Duplyakov, Anton Morozov, Dmitriy Popkov, Egor Shel, Albert Vainshtein, Evgeny Burnaev, Andrei Osiptsov, Grigory Paderin(参考訳) 本稿では,リッジ回帰法とcatboostアルゴリズムを組み合わせた多段フラクチャーコンプリートを用いた油井の累積流体生成予測のための積み重ねモデルについて述べる。 このモデルは、貯留層、井戸およびフラクチャリング設計パラメータの拡張デジタルフィールドデータベースに基づいて開発された。 現在このデータベースには、西シベリア(ロシア)の23の油田から5000以上の油井が含まれており、合計6687回の破砕作業が行われている。 構築, 貯留特性, フラクチャー設計の特徴, 生産など, それぞれを特徴付ける387個のパラメータから始めると, モデルトレーニングプロセスにおいて各ウェルの入力特徴として38個のキーパラメータが使用される。 このモデルは、設計パラメータ(ステージ数、プロパント質量、平均および最終プロパント濃度、流体速度)に対するターゲットの物理的説明可能な依存性プロットを示す。 本研究では, ユークリッド距離法とクラスタリング法を用いて, 同様の(オフセット)ウェルズ探索を行う手法を含む一連の手法を開発した。 これらのアプローチは、方法論のフィールドテストキャンペーンの一部として、特定のパイロットの最適化パラメータ境界を得るためにも適用されている。 逆問題(生産を最大化するために最適な設計パラメータの集合を選択する)は、境界によって制約された高次元のブラックボックス近似関数を最適化し、4つの異なる最適化手法で解いたものとして定式化される。 これらすべての方法を含む推奨システムは、生産刺激エンジニアに最適化された破砕設計について助言するように設計されている。

We describe a stacked model for predicting the cumulative fluid production for an oil well with a multistage-fracture completion based on a combination of Ridge Regression and CatBoost algorithms. The model is developed based on an extended digital field data base of reservoir, well and fracturing design parameters. The database now includes more than 5000 wells from 23 oilfields of Western Siberia (Russia), with 6687 fracturing operations in total. Starting with 387 parameters characterizing each well, including construction, reservoir properties, fracturing design features and production, we end up with 38 key parameters used as input features for each well in the model training process. The model demonstrates physically explainable dependencies plots of the target on the design parameters (number of stages, proppant mass, average and final proppant concentrations and fluid rate). We developed a set of methods including those based on the use of Euclidean distance and clustering techniques to perform similar (offset) wells search, which is useful for a field engineer to analyze earlier fracturing treatments on similar wells. These approaches are also adapted for obtaining the optimization parameters boundaries for the particular pilot well, as part of the field testing campaign of the methodology. An inverse problem (selecting an optimum set of fracturing design parameters to maximize production) is formulated as optimizing a high dimensional black box approximation function constrained by boundaries and solved with four different optimization methods: surrogate-based optimization, sequential least squares programming, particle swarm optimization and differential evolution. A recommendation system containing all the above methods is designed to advise a production stimulation engineer on an optimized fracturing design.
翻訳日:2021-08-03 22:29:56 公開日:2021-08-02
# (参考訳) 臨床ノートにおける自己指導型回答検索 [全文訳有]

Self-supervised Answer Retrieval on Clinical Notes ( http://arxiv.org/abs/2108.00775v1 )

ライセンス: CC BY 4.0
Paul Grundmann, Sebastian Arnold, Alexander L\"oser(参考訳) 長い文書から回答文を取得することは、会話と文書コンテキストの両方を意味的に理解する必要がある複雑な作業である。 医師が診断やその他の潜伏する医療的側面に基づいて患者のコホートを検索する臨床シナリオにおいて、この課題に特にアプローチする。 ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースの自己スーパービジョン目標であるcaprを紹介する。 さらに,このシナリオを臨床ノートの大規模コーパスでシミュレートするために,臨床ノートに基づく新たな検索データセットを寄贈した。 目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。 MIMIC-IIIおよび他の3つの医療データセットに対する広範な評価から、CAPRはドメイン固有のパスの検索において強いベースラインを上回り、ルールベースおよび人間ラベルのパスを効果的に一般化する。 これにより、特に限られたトレーニングデータしか利用できないゼロショットシナリオでは、モデルが強力になる。

Retrieving answer passages from long documents is a complex task requiring semantic understanding of both discourse and document context. We approach this challenge specifically in a clinical scenario, where doctors retrieve cohorts of patients based on diagnoses and other latent medical aspects. We introduce CAPR, a rule-based self-supervision objective for training Transformer language models for domain-specific passage matching. In addition, we contribute a novel retrieval dataset based on clinical notes to simulate this scenario on a large corpus of clinical notes. We apply our objective in four Transformer-based architectures: Contextual Document Vectors, Bi-, Poly- and Cross-encoders. From our extensive evaluation on MIMIC-III and three other healthcare datasets, we report that CAPR outperforms strong baselines in the retrieval of domain-specific passages and effectively generalizes across rule-based and human-labeled passages. This makes the model powerful especially in zero-shot scenarios where only limited training data is available.
翻訳日:2021-08-03 22:15:23 公開日:2021-08-02
# (参考訳) CARLA: アルゴリズム記述と対実説明アルゴリズムをベンチマークするPythonライブラリ [全文訳有]

CARLA: A Python Library to Benchmark Algorithmic Recourse and Counterfactual Explanation Algorithms ( http://arxiv.org/abs/2108.00783v1 )

ライセンス: CC BY 4.0
Martin Pawelczyk and Sascha Bielawski and Johannes van den Heuvel and Tobias Richter and Gjergji Kasneci(参考訳) カウンターファクチュアルな説明は、将来の望ましい結果(保険承認など)を個人が達成できる行動可能な特徴変化(例えば収入の増加)を提案することによって、規範的なモデル説明の手段を提供する。 適切な方法を選択することは、意味のある反事実的説明にとって重要な側面である。 最近のレビューで述べられているように、利用可能な方法を持つ文献が急速に増えている。 しかし、広く利用可能なオープンソース実装が存在しないため、特定のモデルに賛成する決定は、主に簡単に利用できるものに基づいている。 今後は、説明メソッド間の有意義な比較を保証するために、さまざまなデータセットと異なる機械学習モデルにまたがる反事実説明メソッドをベンチマークするためのpythonライブラリであるcarla(counterfactual and recourse library)を提示します。 まとめると,本研究は,11の一般的な反事実説明手法の広範なベンチマーク,(ii)今後の反事実説明手法の研究のためのベンチマークフレームワーク,(iii)これらの手法を透明かつ広範囲に比較するための統合評価尺度とデータセットの標準化セットを提供する。 CARLAとGithubの実験成果をオープンソースとして公開し、競争上のベースラインとして利用しました。 他の研究グループや実践者からの貢献を歓迎します。

Counterfactual explanations provide means for prescriptive model explanations by suggesting actionable feature changes (e.g., increase income) that allow individuals to achieve favorable outcomes in the future (e.g., insurance approval). Choosing an appropriate method is a crucial aspect for meaningful counterfactual explanations. As documented in recent reviews, there exists a quickly growing literature with available methods. Yet, in the absence of widely available opensource implementations, the decision in favor of certain models is primarily based on what is readily available. Going forward - to guarantee meaningful comparisons across explanation methods - we present CARLA (Counterfactual And Recourse LibrAry), a python library for benchmarking counterfactual explanation methods across both different data sets and different machine learning models. In summary, our work provides the following contributions: (i) an extensive benchmark of 11 popular counterfactual explanation methods, (ii) a benchmarking framework for research on future counterfactual explanation methods, and (iii) a standardized set of integrated evaluation measures and data sets for transparent and extensive comparisons of these methods. We have open-sourced CARLA and our experimental results on Github, making them available as competitive baselines. We welcome contributions from other research groups and practitioners.
翻訳日:2021-08-03 21:58:18 公開日:2021-08-02
# (参考訳) 顔識別データを用いた顔認証モデルの訓練 [全文訳有]

Training face verification models from generated face identity data ( http://arxiv.org/abs/2108.00800v1 )

ライセンス: CC BY 4.0
Dennis Conway, Loic Simon, Alexis Lechervy, Frederic Jurie(参考訳) 機械学習ツールはますます強力で広く使われている。 残念なことに、機械学習で使用されるデータセットから情報を明らかにする会員攻撃は、データ共有を制限する可能性がある。 本稿では,顔認識に適用されるように,データセットのプライバシ保護を高めるアプローチを検討する。 補助的な顔認識モデルを用いて,スタイルガン生成逆ネットワークを基盤として,視覚識別係数を符号化する2つのサブコードと,非識別要素を組み合わせた潜在コードを生成する。 画像生成中にこれらのベクトルを独立に変化させることにより、架空の顔識別の合成データセットを作成する。 私たちはこのデータセットを使って顔認識モデルをトレーニングします。 モデル性能は顔認証の最先端と比較して低下する。 単純なメンバーシップアタックでテストすると、モデルは優れたプライバシー保護を提供しますが、モデルのパフォーマンスは、顔認証の最先端と比べて低下します。 少量のプライベートデータを追加することで、モデルの性能が大幅に向上し、機械学習モデルのトレーニングに合成データを使用することの制限が強調されることがわかった。

Machine learning tools are becoming increasingly powerful and widely used. Unfortunately membership attacks, which seek to uncover information from data sets used in machine learning, have the potential to limit data sharing. In this paper we consider an approach to increase the privacy protection of data sets, as applied to face recognition. Using an auxiliary face recognition model, we build on the StyleGAN generative adversarial network and feed it with latent codes combining two distinct sub-codes, one encoding visual identity factors, and, the other, non-identity factors. By independently varying these vectors during image generation, we create a synthetic data set of fictitious face identities. We use this data set to train a face recognition model. The model performance degrades in comparison to the state-of-the-art of face verification. When tested with a simple membership attack our model provides good privacy protection, however the model performance degrades in comparison to the state-of-the-art of face verification. We find that the addition of a small amount of private data greatly improves the performance of our model, which highlights the limitations of using synthetic data to train machine learning models.
翻訳日:2021-08-03 21:39:22 公開日:2021-08-02
# (参考訳) NL2SQLにおける半自己回帰的意味解析 [全文訳有]

Relation Aware Semi-autoregressive Semantic Parsing for NL2SQL ( http://arxiv.org/abs/2108.00804v1 )

ライセンス: CC BY 4.0
Junyang Huang, Yongbo Wang, Yongliang Wang, Yang Dong and Yanghua Xiao(参考訳) SQLへの自然言語(NL2SQL)は、あるデータベースで自然言語を解析してSQLクエリにすることを目的としている。 データベーススキーマと質問発話を共同でエンコードすることは、NL2SQLでは難しいが重要なタスクである。 一つの解決策は、入力を異質なグラフとして扱うことである。 しかし、質問発声において良い単語表現を学ばなかった。 優れた単語表現の学習は、よく設計されたNL2SQLシステムを構築する上で重要である。 この課題を解決するために,NL2SQLより適応性の高い半自動意味解析(\MODN)・フレームワークを提案する。 まず、ELECTRAと事前定義されたスキーマ関係を持つスキーマエンティティと疑問語に埋め込まれた関係を学習する。 次に、クエリSQLを半自己回帰パーサと事前定義されたSQL構文でデコードします。 実験結果とケーススタディから,NL2SQLにおける単語表現の学習の有効性を示す。

Natural language to SQL (NL2SQL) aims to parse a natural language with a given database into a SQL query, which widely appears in practical Internet applications. Jointly encode database schema and question utterance is a difficult but important task in NL2SQL. One solution is to treat the input as a heterogeneous graph. However, it failed to learn good word representation in question utterance. Learning better word representation is important for constructing a well-designed NL2SQL system. To solve the challenging task, we present a Relation aware Semi-autogressive Semantic Parsing (\MODN) ~framework, which is more adaptable for NL2SQL. It first learns relation embedding over the schema entities and question words with predefined schema relations with ELECTRA and relation aware transformer layer as backbone. Then we decode the query SQL with a semi-autoregressive parser and predefined SQL syntax. From empirical results and case study, our model shows its effectiveness in learning better word representation in NL2SQL.
翻訳日:2021-08-03 21:30:31 公開日:2021-08-02
# (参考訳) 網膜octの次元部分集合に沿ったセグメンテーションのための射影的スキップ接続 [全文訳有]

Projective Skip-Connections for Segmentation Along a Subset of Dimensions in Retinal OCT ( http://arxiv.org/abs/2108.00831v1 )

ライセンス: CC BY 4.0
Dmitrii Lachinov, Philipp Seeboeck, Julia Mai, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) 医療画像では、出力マスクが入力画像次元のサブセットへの投影である、臨床的に関連するセグメンテーションタスクが存在する。 本研究では,入力画像よりも低次元のセグメンテーションマスクを効果的に生成できる新しい畳み込みニューラルネットワークアーキテクチャを提案する。 ネットワークは、入力された空間次元のサブセットでのみ符号化表現を復元し、他の部分で表現を不変に保つ。 新たに提案されたスキップ接続により、UNetのような構造でエンコーダとデコーダをリンクできる。 網膜光学コヒーレンス断層撮影 (oct) における2つの臨床関連課題 (地理的萎縮と網膜血管分画) について検討した。 提案手法は、3dボリュームと対応する2d内面マスクからなる全octデータセットにおける最先端のアプローチよりも優れていた。 提案アーキテクチャは,画像分類とND画像分割の方法論的ギャップを埋める。

In medical imaging, there are clinically relevant segmentation tasks where the output mask is a projection to a subset of input image dimensions. In this work, we propose a novel convolutional neural network architecture that can effectively learn to produce a lower-dimensional segmentation mask than the input image. The network restores encoded representation only in a subset of input spatial dimensions and keeps the representation unchanged in the others. The newly proposed projective skip-connections allow linking the encoder and decoder in a UNet-like structure. We evaluated the proposed method on two clinically relevant tasks in retinal Optical Coherence Tomography (OCT): geographic atrophy and retinal blood vessel segmentation. The proposed method outperformed the current state-of-the-art approaches on all the OCT datasets used, consisting of 3D volumes and corresponding 2D en-face masks. The proposed architecture fills the methodological gap between image classification and ND image segmentation.
翻訳日:2021-08-03 21:18:36 公開日:2021-08-02
# (参考訳) 弱教師付き物体定位のための浅部特徴量 [全文訳有]

Shallow Feature Matters for Weakly Supervised Object Localization ( http://arxiv.org/abs/2108.00873v1 )

ライセンス: CC BY 4.0
Jun Wei, Qin Wang, Zhen Li, Sheng Wang, S.Kevin Zhou, Shuguang Cui(参考訳) weakly supervised object localization (wsol) は、画像レベルのラベルのみを利用してオブジェクトをローカライズすることを目的としている。 クラスアクティベーションマップ(CAM)はWSOLを実現するのによく使われる機能である。 しかし、従来のCAMベースの手法は、WSOLの重要性にもかかわらず、浅い特徴を完全に活用しなかった。 浅い特徴は従来の融合によって容易に背景雑音に埋もれるためである。 本稿では, 浅層に埋もれた低レベル特徴を最大限に活用する, 高精度なwsolのための, 単純かつ効果的な浅層特徴認識擬似教師付き物体定位モデルを提案する。 実際、SPOLモデルは、背景雑音をフィルタし、よりシャープな境界を強固に生成する、浅い特徴写像と深い特徴写像の要素ワイド乗算により、まずCAMを生成する。 さらに,初期CAMを付加アノテーションなしで擬似ラベルとしてのみ使用することにより,精度の高いオブジェクトマスクを実現するための一般クラス非依存セグメンテーションモデルを提案する。 最終的に、対象マスクにバウンディングボックス抽出器を塗布してターゲットを特定する。 実験により、我々のSPOLはCUB-200とImageNet-1Kのベンチマークでそれぞれ93.44%と67.15%(すなわち3.93%と2.13%の改善)を達成した。

Weakly supervised object localization (WSOL) aims to localize objects by only utilizing image-level labels. Class activation maps (CAMs) are the commonly used features to achieve WSOL. However, previous CAM-based methods did not take full advantage of the shallow features, despite their importance for WSOL. Because shallow features are easily buried in background noise through conventional fusion. In this paper, we propose a simple but effective Shallow feature-aware Pseudo supervised Object Localization (SPOL) model for accurate WSOL, which makes the utmost of low-level features embedded in shallow layers. In practice, our SPOL model first generates the CAMs through a novel element-wise multiplication of shallow and deep feature maps, which filters the background noise and generates sharper boundaries robustly. Besides, we further propose a general class-agnostic segmentation model to achieve the accurate object mask, by only using the initial CAMs as the pseudo label without any extra annotation. Eventually, a bounding box extractor is applied to the object mask to locate the target. Experiments verify that our SPOL outperforms the state-of-the-art on both CUB-200 and ImageNet-1K benchmarks, achieving 93.44% and 67.15% (i.e., 3.93% and 2.13% improvement) Top-5 localization accuracy, respectively.
翻訳日:2021-08-03 21:05:39 公開日:2021-08-02
# (参考訳) ポリプセグメンテーションのための浅い注意ネットワーク [全文訳有]

Shallow Attention Network for Polyp Segmentation ( http://arxiv.org/abs/2108.00882v1 )

ライセンス: CC BY 4.0
Jun Wei, Yiwen Hu, Ruimao Zhang, Zhen Li, S.Kevin Zhou, Shuguang Cui(参考訳) 正確なポリープの分画は大腸癌の診断に非常に重要である。 しかし、強力なディープニューラルネットワークであっても、ポリプセグメンテーションの開発を妨げる3つの大きな課題は残っている。 (i)異なる条件下で収集されたサンプルは、不整合色を示し、特徴分布ギャップと過度な適合の問題を引き起こし、(ii)繰り返し機能ダウンサンプリングにより、小さなポリープが容易に劣化し、(iii)前景と背景画素が不整合し、バイアスのある訓練につながる。 上記の問題に対処するため,ポリプセグメンテーションのためのShallow Attention Network (SANet)を提案する。 具体的には、色の影響をなくすために、色交換操作をデザインし、画像内容と色を分離し、モデルに対象の形状と構造をより集中させる。 さらに,小型ポリプのセグメンテーション品質を向上させるため,浅い特徴の背景雑音を除去できる浅層アテンションモジュールを提案する。 浅い特徴の高分解能により、小さなポリープを正確に保存することができる。 さらに,小型ポリープの画素不均衡を緩和するため,推定フェーズにおける確率補正戦略(PCS)を提案する。 PCSはトレーニングフェーズには関与していないが、偏りのあるモデルでもうまく機能し、セグメンテーション性能を一貫して改善できる。 5つの挑戦的ベンチマークにおける定量的および定性的な実験結果から,提案したSANetは従来の最先端手法よりも高い性能を示し,72FPSの速度を達成した。

Accurate polyp segmentation is of great importance for colorectal cancer diagnosis. However, even with a powerful deep neural network, there still exists three big challenges that impede the development of polyp segmentation. (i) Samples collected under different conditions show inconsistent colors, causing the feature distribution gap and overfitting issue; (ii) Due to repeated feature downsampling, small polyps are easily degraded; (iii) Foreground and background pixels are imbalanced, leading to a biased training. To address the above issues, we propose the Shallow Attention Network (SANet) for polyp segmentation. Specifically, to eliminate the effects of color, we design the color exchange operation to decouple the image contents and colors, and force the model to focus more on the target shape and structure. Furthermore, to enhance the segmentation quality of small polyps, we propose the shallow attention module to filter out the background noise of shallow features. Thanks to the high resolution of shallow features, small polyps can be preserved correctly. In addition, to ease the severe pixel imbalance for small polyps, we propose a probability correction strategy (PCS) during the inference phase. Note that even though PCS is not involved in the training phase, it can still work well on a biased model and consistently improve the segmentation performance. Quantitative and qualitative experimental results on five challenging benchmarks confirm that our proposed SANet outperforms previous state-of-the-art methods by a large margin and achieves a speed about 72FPS.
翻訳日:2021-08-03 20:53:04 公開日:2021-08-02
# (参考訳) Sticky-Datalog+/- by Finite-Position SelectionFunctions: Tractability, Algorithms, Optimizations

Extending Sticky-Datalog+/- via Finite-Position SelectionFunctions: Tractability, Algorithms, and Optimization ( http://arxiv.org/abs/2108.00903v1 )

ライセンス: CC BY 4.0
Leopoldo Bertossi, Mostafa Milani(参考訳) weakly-sticky(ws) datalog+/-は、粘着性と非循環性の条件に基づいて定義されるdatalog+/-プログラムクラスの表現力のあるメンバーである。 WS プログラム上での接続型クエリ応答 (QA) について検討し,データ複雑性のトラクタビリティを確立した。 しかし,実効的なQAアルゴリズムの設計と実装とその最適化は未完成である。 このギャップを埋めるために、私たちはまず、追跡手順の振る舞いの観点から、StickyとWSプログラムを研究します。 我々は、チェイスのスティッキネス特性を、チェイス中に有限の値が現れる述語位置を選択する(そして提供する)オラクルの一般化されたスティッキネス(gsch)モジュロに拡張する。 これらの位置のサブセットのみを提供する選択関数 S の粘度変調は、GSCh のセマンティックサブクラス sch(S) を定義する。 選択関数を持つプログラムクラスには、Sticky と WS と、WS を含むジョイント弱スティックプログラムの導入と特徴付けを行う別の構文クラス、すなわち JWS がある。 これら3つのクラスの選択関数は計算可能であり、外部の計算不可能なオラクルは必要ない。 本稿では,一般選択 s に対して,クラス sch(s) におけるプログラムのボトムアップ qa アルゴリズムを提案する。 WSと異なり、JWSはマジックセットのクエリ最適化の下でクローズされている。 その結果、一般的な多項式時間QAアルゴリズムとマジックセット最適化の両方を具体化し、WSに適用することができる。

Weakly-Sticky(WS) Datalog+/- is an expressive member of the family of Datalog+/- program classes that is defined on the basis of the conditions of stickiness and weak-acyclicity. Conjunctive query answering (QA) over the WS programs has been investigated, and its tractability in data complexity has been established. However, the design and implementation of practical QA algorithms and their optimizations have been open. In order to fill this gap, we first study Sticky and WS programs from the point of view of the behavior of the chase procedure. We extend the stickiness property of the chase to that of generalized stickiness of the chase (GSCh) modulo an oracle that selects (and provides) the predicate positions where finitely values appear during the chase. Stickiness modulo a selection function S that provides only a subset of those positions defines sch(S), a semantic subclass of GSCh. Program classes with selection functions include Sticky and WS, and another syntactic class that we introduce and characterize, namely JWS, of jointly-weakly-stick y programs, which contains WS. The selection functions for these last three classes are computable, and no external, possibly non-computable oracle is needed. We propose a bottom-up QA algorithm for programs in the class sch(S), for a general selection S.As a particular case, we obtain a polynomial-time QA algorithm for JWS and weakly-sticky programs. Unlike WS, JWS turns out to be closed under magic-sets query optimization. As a consequence, both the generic polynomial-time QA algorithm and its magic-set optimization can be particularized and applied to WS.
翻訳日:2021-08-03 20:43:42 公開日:2021-08-02
# (参考訳) 予測符号化によるコミュニケーション効率のよい連合学習 [全文訳有]

Communication-Effici ent Federated Learning via Predictive Coding ( http://arxiv.org/abs/2108.00918v1 )

ライセンス: CC BY 4.0
Kai Yue, Richeng Jin, Chau-Wai Wong, Huaiyu Dai(参考訳) フェデレーション学習は、リモートワーカーが共有機械学習モデルを協調的にトレーニングし、トレーニングデータをローカルに保持できるようにする。 無線モバイルデバイスの場合、通信のオーバーヘッドは電力と帯域幅が限られているため、重大なボトルネックとなる。 以前の作業では、量子化やスパーシフィケーションといったさまざまなデータ圧縮ツールを使用してオーバーヘッドを削減している。 本稿では,フェデレーション学習のための予測符号化に基づく通信方式を提案する。 このスキームはすべてのデバイス間で予測機能を共有しており、各作業者は基準から導出された圧縮された残留ベクトルを送信できる。 各通信ラウンドにおいて、レート歪みコストに基づいて予測器と量子化器を選択し、エントロピー符号化による冗長性をさらに低減する。 大規模なシミュレーションにより,他のベースライン手法と比較して,学習性能が向上し,通信コストを99%まで削減できることがわかった。

Federated learning can enable remote workers to collaboratively train a shared machine learning model while allowing training data to be kept locally. In the use case of wireless mobile devices, the communication overhead is a critical bottleneck due to limited power and bandwidth. Prior work has utilized various data compression tools such as quantization and sparsification to reduce the overhead. In this paper, we propose a predictive coding based communication scheme for federated learning. The scheme has shared prediction functions among all devices and allows each worker to transmit a compressed residual vector derived from the reference. In each communication round, we select the predictor and quantizer based on the rate-distortion cost, and further reduce the redundancy with entropy coding. Extensive simulations reveal that the communication cost can be reduced up to 99% with even better learning performance when compared with other baseline methods.
翻訳日:2021-08-03 20:42:26 公開日:2021-08-02
# (参考訳) 旅行セールスマン問題における機械学習構成と局所探索 [全文訳有]

Machine Learning Constructives and Local Searches for the Travelling Salesman Problem ( http://arxiv.org/abs/2108.00938v1 )

ライセンス: CC BY-SA 4.0
Tommaso Vitali, Umberto Junior Mele, Luca Maria Gambardella, Roberto Montemanni(参考訳) ML-Constructive Heuristic(ML-コンストラクティブ・ヒューリスティック)は,現実の旅行セールスマン問題にスケールアップ可能な,最初のハイブリッド手法である。 機械学習技術と古典的な最適化技術を組み合わせている。 本稿では,従来のディープラーニングモデルの計算量の改善について述べる。 さらに,より単純なモデルにより実行時間を短縮し,局所探索フェーズを追加することにより,さらなる性能向上が期待できる。 実験の結果,提案する改良の質が一致した。

The ML-Constructive heuristic is a recently presented method and the first hybrid method capable of scaling up to real scale traveling salesman problems. It combines machine learning techniques and classic optimization techniques. In this paper we present improvements to the computational weight of the original deep learning model. In addition, as simpler models reduce the execution time, the possibility of adding a local-search phase is explored to further improve performance. Experimental results corroborate the quality of the proposed improvements.
翻訳日:2021-08-03 20:04:37 公開日:2021-08-02
# (参考訳) 機械学習のためのHuman-in-the-loopに関する調査 [全文訳有]

A Survey of Human-in-the-loop for Machine Learning ( http://arxiv.org/abs/2108.00941v1 )

ライセンス: CC BY 4.0
Xingjiao Wu, Luwei Xiao, Yixuan Sun, Junhang Zhang, Tianlong Ma, Liang He(参考訳) human-in-the-loopの目的は、人間の知識と経験を統合することによって、最小コストで正確な予測モデルを訓練することである。 人間は機械学習アプリケーションのためのトレーニングデータを提供し、機械学習アプローチの助けを借りて、パイプライン内のコンピュータにとって難しいタスクを直接達成することができる。 本稿では,(1)データ処理によるモデル性能向上作業,(2)介入型モデルトレーニングによるモデル性能向上作業,(3)独立型ヒューマン・イン・ザ・ループの設計という3つのカテゴリに分類した。 上記の分類を用いて、分野における主要なアプローチを要約し、その技術的強みや弱点とともに、自然言語処理、コンピュータビジョンなどにおける単純な分類と議論を行う。 さらに、オープンな課題と機会も提供します。 本調査は,ループ内人間に対する高レベルな要約を提供することを目的としている。

Human-in-the-loop aims to train an accurate prediction model with minimum cost by integrating human knowledge and experience. Humans can provide training data for machine learning applications and directly accomplish some tasks that are hard for computers in the pipeline with the help of machine-based approaches. In this paper, we survey existing works on human-in-the-loop from a data perspective and classify them into three categories with a progressive relationship: (1) the work of improving model performance from data processing, (2) the work of improving model performance through interventional model training, and (3) the design of the system independent human-in-the-loop. Using the above categorization, we summarize major approaches in the field, along with their technical strengths/ weaknesses, we have simple classification and discussion in natural language processing, computer vision, and others. Besides, we provide some open challenges and opportunities. This survey intends to provide a high-level summarization for human-in-the-loop and motivates interested readers to consider approaches for designing effective human-in-the-loop solutions.
翻訳日:2021-08-03 19:58:59 公開日:2021-08-02
# (参考訳) StyleGAN-NADA:CLIP誘導画像生成領域適応 [全文訳有]

StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators ( http://arxiv.org/abs/2108.00946v1 )

ライセンス: CC BY 4.0
Rinon Gal, Or Patashnik, Haggai Maron, Gal Chechik, Daniel Cohen-Or(参考訳) 生成モデルは、画像を見ることなく、テキストプロンプトのみに導かれ、特定のドメインから画像を生成するように訓練できるだろうか? 言い換えれば、画像生成器は盲目的に訓練できるのか? 大規模コントラスト言語-イメージ-プレトレーニング(clip)モデルのセマンティックパワーを活用して,生成モデルから新たなドメインへのシフトを可能にするテキスト駆動方式を提案する。 自然言語プロンプトと数分のトレーニングによって,多様なスタイルと形状を特徴とする多数のドメインにわたってジェネレータを適応させることができることを示す。 特に、これらの変更の多くは、既存のメソッドに到達するのが困難か、あるいは完全に不可能である。 幅広い領域にわたる広範な実験と比較を実施します。 これらの結果は,提案手法の有効性を示し,シフトモデルが潜在空間特性を保ち,下流タスクにアピールする生成モデルとなることを示す。

Can a generative model be trained to produce images from a specific domain, guided by a text prompt only, without seeing any image? In other words: can an image generator be trained blindly? Leveraging the semantic power of large scale Contrastive-Language -Image-Pre-training (CLIP) models, we present a text-driven method that allows shifting a generative model to new domains, without having to collect even a single image from those domains. We show that through natural language prompts and a few minutes of training, our method can adapt a generator across a multitude of domains characterized by diverse styles and shapes. Notably, many of these modifications would be difficult or outright impossible to reach with existing methods. We conduct an extensive set of experiments and comparisons across a wide range of domains. These demonstrate the effectiveness of our approach and show that our shifted models maintain the latent-space properties that make generative models appealing for downstream tasks.
翻訳日:2021-08-03 18:51:52 公開日:2021-08-02
# (参考訳) 超画素混合による信頼性の高い意味セグメンテーション [全文訳有]

Reliable Semantic Segmentation with Superpixel-Mix ( http://arxiv.org/abs/2108.00968v1 )

ライセンス: CC BY-SA 4.0
Gianni Franchi, Nacim Belkhir, Mai Lan Ha, Yufei Hu, Andrei Bursuc, Volker Blanz, Angela Yao(参考訳) 予測性能と実行速度に加えて、信頼性は現実のセマンティックセグメンテーションにとって重要な要件である。 信頼性には堅牢性、予測の不確実性、バイアスの低減が含まれる。 信頼性を向上させるために,教師と教師の一貫性トレーニングによる新しいスーパーピクセルベースのデータ拡張手法であるsuperpixel-mixを導入する。 他の混合ベースの拡張技術とは異なり、画像間のスーパーピクセルの混合はオブジェクトの境界を認識し、セグメンテーション精度は一貫して向上する。 提案手法は,都市景観データセット上で半教師ありセマンティクスセグメンテーションを実現する。 さらに、スーパーピクセル混合は、強い分布シフト(逆天候、画像腐敗)と分散データに直面する場合の競合結果によって確認されるように、ネットワークの不確実性とバイアスを低減し、意味セグメンテーションの信頼性を向上させる。

Along with predictive performance and runtime speed, reliability is a key requirement for real-world semantic segmentation. Reliability encompasses robustness, predictive uncertainty and reduced bias. To improve reliability, we introduce Superpixel-mix, a new superpixel-based data augmentation method with teacher-student consistency training. Unlike other mixing-based augmentation techniques, mixing superpixels between images is aware of object boundaries, while yielding consistent gains in segmentation accuracy. Our proposed technique achieves state-of-the-art results in semi-supervised semantic segmentation on the Cityscapes dataset. Moreover, Superpixel-mix improves the reliability of semantic segmentation by reducing network uncertainty and bias, as confirmed by competitive results under strong distributions shift (adverse weather, image corruptions) and when facing out-of-distribution data.
翻訳日:2021-08-03 18:35:28 公開日:2021-08-02
# (参考訳) モノのインターネットにおける侵入検知のためのフェデレーション学習の評価:レビューと課題

Evaluating Federated Learning for Intrusion Detection in Internet of Things: Review and Challenges ( http://arxiv.org/abs/2108.00974v1 )

ライセンス: CC BY 4.0
Enrique M\'armol Campos, Pablo Fern\'andez Saura, Aurora Gonz\'alez-Vidal, Jos\'e L. Hern\'andez-Ramos, Jorge Bernal Bernabe, Gianmarco Baldini, Antonio Skarmeta(参考訳) 機械学習(ML)技術のよく知られた侵入検知システム(IDS)への適用は、効率的かつ効率的な検出プロセスを通じて、ますます高度なサイバーセキュリティ攻撃に対処する鍵となる。 IoT(Internet of Things)のコンテキストでは、ほとんどのML対応IDSアプローチは、IoTデバイスがデータセンタとデータを共有する集中型アプローチを使用して、さらなる分析を行う。 集中型アプローチに関連するプライバシーの懸念を軽減するため、近年では、医療や交通システムなど、さまざまな分野へのフェデレートラーニング(FL)の利用が注目されている。 しかし、FL対応IoT用IDSの開発はまだ初期段階であり、現実のシナリオにおけるデプロイメントの主な課題を特定するためには、さまざまな分野の研究作業が必要である。 本研究は,IoTシナリオにおける異なる攻撃を検出するために,異なるデータ分布を考慮したマルチクラス分類器に基づくFL対応IDSアプローチを評価する。 特に、IoTデバイスのIPアドレスと攻撃タイプに応じて、最新のToN\_IoTデータセットをパーティショニングすることで得られる3つの異なる設定を使用します。 さらに,最近のIBMFLフレームワークをFL実装として使用することにより,異なるアグリゲーション関数の影響を評価した。 さらに,既存の文献と評価結果の分析に基づいて,課題の集合と今後の方向性を明らかにした。

The application of Machine Learning (ML) techniques to the well-known intrusion detection systems (IDS) is key to cope with increasingly sophisticated cybersecurity attacks through an effective and efficient detection process. In the context of the Internet of Things (IoT), most ML-enabled IDS approaches use centralized approaches where IoT devices share their data with data centers for further analysis. To mitigate privacy concerns associated with centralized approaches, in recent years the use of Federated Learning (FL) has attracted a significant interest in different sectors, including healthcare and transport systems. However, the development of FL-enabled IDS for IoT is in its infancy, and still requires research efforts from various areas, in order to identify the main challenges for the deployment in real-world scenarios. In this direction, our work evaluates a FL-enabled IDS approach based on a multiclass classifier considering different data distributions for the detection of different attacks in an IoT scenario. In particular, we use three different settings that are obtained by partitioning the recent ToN\_IoT dataset according to IoT devices' IP address and types of attack. Furthermore, we evaluate the impact of different aggregation functions according to such setting by using the recent IBMFL framework as FL implementation. Additionally, we identify a set of challenges and future directions based on the existing literature and the analysis of our evaluation results.
翻訳日:2021-08-03 18:32:27 公開日:2021-08-02
# (参考訳) クロスドメインオブジェクト検出のための多レベル知識転送 [全文訳有]

Multilevel Knowledge Transfer for Cross-Domain Object Detection ( http://arxiv.org/abs/2108.00977v1 )

ライセンス: CC BY 4.0
Botos Csaba, Xiaojuan Qi, Arslan Chaudhry, Puneet Dokania, Philip Torr(参考訳) ドメインシフトはよく知られた問題であり、特定のドメイン(ソース)でトレーニングされたモデルは、異なるドメイン(ターゲット)のサンプルに公開してもうまく機能しない。 ドメインシフトに適応できる教師なしの方法は、ターゲットから追加の注釈付きトレーニングデータを必要とせずに、ソースデータの有効活用を可能にするため、非常に望ましい。 実際、対象領域から十分な量の注釈付きデータを取得することは、実現不可能かつ極めて高価である。 本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。 我々のアプローチは、ソースとターゲットドメインの間のドメインシフトを徐々に取り除くことに依存している。 このアプローチの重要な要素は, (a) 画素レベルでソースをターゲットドメインにマッピングすること, (b) 教師ネットワークをマップしたソースと無注釈のターゲットドメインで訓練すること, (c) 教師から得られた擬似ラベルを用いて学生ネットワークを訓練することである。 実験的に、ドメインシフトを含む挑戦的なシナリオをテストすると、さまざまな最先端技術に対して、一貫して大きなパフォーマンス向上が得られる。

Domain shift is a well known problem where a model trained on a particular domain (source) does not perform well when exposed to samples from a different domain (target). Unsupervised methods that can adapt to domain shift are highly desirable as they allow effective utilization of the source data without requiring additional annotated training data from the target. Practically, obtaining sufficient amount of annotated data from the target domain can be both infeasible and extremely expensive. In this work, we address the domain shift problem for the object detection task. Our approach relies on gradually removing the domain shift between the source and the target domains. The key ingredients to our approach are -- (a) mapping the source to the target domain on pixel-level; (b) training a teacher network on the mapped source and the unannotated target domain using adversarial feature alignment; and (c) finally training a student network using the pseudo-labels obtained from the teacher. Experimentally, when tested on challenging scenarios involving domain shift, we consistently obtain significantly large performance gains over various recent state of the art approaches.
翻訳日:2021-08-03 18:31:22 公開日:2021-08-02
# (参考訳) $\beta-$mixingサンプルを用いた非パラメトリック回帰の一般化境界

Generalization bounds for nonparametric regression with $\beta-$mixing samples ( http://arxiv.org/abs/2108.00997v1 )

ライセンス: CC BY 4.0
David Barrera and Emmanuel Gobet(参考訳) 本稿では,実験過程の均一な偏差不等式を,訓練試料に付随する$\beta-$mixing係数を用いて付加誤差を特徴付ける従属事例に対して直接的に拡張できる一連の結果を示す。 この結果を非パラメトリック回帰における最小二乗誤差の偏差に関連する独立サンプルの不等式に適用し、トレーニングサンプルが独立ではないような回帰スキームに対する対応する一般化境界を求める。 これらの結果は、トレーニングサンプルが独立したケースのみを使用して、幾何学的にエルゴードマルコフサンプルを含む多数の$\beta-$mixingシーケンスのクラスに由来する回帰スキームに関連するエラーを分析するフレームワークを提供する。 より一般的には、独立なトレーニングサンプルに対して、Vapnik-Chervonenkisと同様の理論の有意義な拡張を許可し、このクラスは$\beta-$mixingサンプルである。

In this paper we present a series of results that permit to extend in a direct manner uniform deviation inequalities of the empirical process from the independent to the dependent case characterizing the additional error in terms of $\beta-$mixing coefficients associated to the training sample. We then apply these results to some previously obtained inequalities for independent samples associated to the deviation of the least-squared error in nonparametric regression to derive corresponding generalization bounds for regression schemes in which the training sample may not be independent. These results provide a framework to analyze the error associated to regression schemes whose training sample comes from a large class of $\beta-$mixing sequences, including geometrically ergodic Markov samples, using only the independent case. More generally, they permit a meaningful extension of the Vapnik-Chervonenkis and similar theories for independent training samples to this class of $\beta-$mixing samples.
翻訳日:2021-08-03 18:10:45 公開日:2021-08-02
# (参考訳) オブジェクトプッシュポリシー学習のための高能率画像変換HourGlassアーキテクチャ [全文訳有]

An Efficient Image-to-Image Translation HourGlass-based Architecture for Object Pushing Policy Learning ( http://arxiv.org/abs/2108.01034v1 )

ライセンス: CC BY 4.0
Marco Ewerton, Angel Mart\'inez-Gonz\'alez, Jean-Marc Odobez(参考訳) 人間は日常におけるタスクの押し出しを無力に解決するが、これらの能力の解錠はロボット工学の課題であり続けている。 最先端のデータ駆動アプローチは、これらの不正確さを補うか、近似した物理モデルを完全に置き換えるかを学ぶ。 それでも、Deep Q-Networks (DQN) のようなアプローチは、大きな状態作用空間における局所的な最適性に悩まされている。 さらに、深層学習アーキテクチャや学習パラダイムにも依存している。 本稿では,dqnsによるプッシュポリシーの学習を画像から画像への翻訳問題として枠組み化し,砂時計ベースのアーキテクチャを活用することを提案する。 本稿では,環境変化に寄与する予測器と,プッシュタスク専用の状態-作用値予測器を組み合わせたアーキテクチャを提案する。 さらに,位置依存型政策行動学習のための位置情報符号化について検討する。 我々は、ur5ロボットアームを用いたシミュレーション実験で、dqnがより速く学習し、未知のダイナミクスを持つオブジェクトを含むプッシュタスクにおいて高いパフォーマンスを達成するのに役立つことを実証した。

Humans effortlessly solve pushing tasks in everyday life but unlocking these capabilities remains a challenge in robotics because physics models of these tasks are often inaccurate or unattainable. State-of-the-art data-driven approaches learn to compensate for these inaccuracies or replace the approximated physics models altogether. Nevertheless, approaches like Deep Q-Networks (DQNs) suffer from local optima in large state-action spaces. Furthermore, they rely on well-chosen deep learning architectures and learning paradigms. In this paper, we propose to frame the learning of pushing policies (where to push and how) by DQNs as an image-to-image translation problem and exploit an Hourglass-based architecture. We present an architecture combining a predictor of which pushes lead to changes in the environment with a state-action value predictor dedicated to the pushing task. Moreover, we investigate positional information encoding to learn position-dependent policy behaviors. We demonstrate in simulation experiments with a UR5 robot arm that our overall architecture helps the DQN learn faster and achieve higher performance in a pushing task involving objects with unknown dynamics.
翻訳日:2021-08-03 18:09:48 公開日:2021-08-02
# (参考訳) 新型コロナウイルス(covid-19)前後における欧州連帯の変遷--大群衆と専門家によるtwitterデータから [全文訳有]

Changes in European Solidarity Before and During COVID-19: Evidence from a Large Crowd- and Expert-Annotated Twitter Dataset ( http://arxiv.org/abs/2108.01042v1 )

ライセンス: CC BY 4.0
Alexandra Ils and Dan Liu and Daniela Grunow and Steffen Eger(参考訳) 我々は、新型コロナウイルスの感染拡大が世界的なパンデミックであると宣言された後、欧州の連帯言論がどのように変化したかを評価するため、NLPにおける機械学習を監督する新たな問題として、社会的連帯という確立した社会科学的概念と、その競争、反連帯(anti-solidarity)を紹介した。 この目的のために、私たちは2.3kの英語とドイツ語のつぶやきに、複数の人間の注釈と2つのアノテーションアプローチ(専門家 vs.\ crowds)を利用して、(アンチ)連帯表現を注釈します。 これらのアノテーションを使って、複数のデータ拡張戦略でBERTモデルをトレーニングします。 エキスパートアノテーションとクラウドアノテーションを組み合わせた拡張BERTモデルは、エキスパートアノテーションでトレーニングされたベースラインBERT分類器を58\%のマクロF1から85\%の25ポイントで上回ります。 この高品質なモデルを使って、2019年9月から2020年12月までに270万以上のツイートを自動的にラベル付けします。 次に、covid-19危機の前後において、ヨーロッパ(反連帯)の言論に関連する言論が、時間とともに相互にどのように発展していくかに関する、自動ラベル付きデータを評価する。 我々の結果は、連帯がますます健全になり、危機の間に争われたことを示している。 連帯ツイートの数は高い水準にとどまり、精査された時間枠の会話を支配していたが、反連帯ツイートは当初急増し、2020年末まで安定した高水準に上昇する前に(ほぼ)covid-19以前の値に低下した。

We introduce the well-established social scientific concept of social solidarity and its contestation, anti-solidarity, as a new problem setting to supervised machine learning in NLP to assess how European solidarity discourses changed before and after the COVID-19 outbreak was declared a global pandemic. To this end, we annotate 2.3k English and German tweets for (anti-)solidarity expressions, utilizing multiple human annotators and two annotation approaches (experts vs.\ crowds). We use these annotations to train a BERT model with multiple data augmentation strategies. Our augmented BERT model that combines both expert and crowd annotations outperforms the baseline BERT classifier trained with expert annotations only by over 25 points, from 58\% macro-F1 to almost 85\%. We use this high-quality model to automatically label over 270k tweets between September 2019 and December 2020. We then assess the automatically labeled data for how statements related to European (anti-)solidarity discourses developed over time and in relation to one another, before and during the COVID-19 crisis. Our results show that solidarity became increasingly salient and contested during the crisis. While the number of solidarity tweets remained on a higher level and dominated the discourse in the scrutinized time frame, anti-solidarity tweets initially spiked, then decreased to (almost) pre-COVID-19 values before rising to a stable higher level until the end of 2020.
翻訳日:2021-08-03 17:57:17 公開日:2021-08-02
# (参考訳) cold start similar artists ranking with gravity-inspired graph autoencoder (英語) [全文訳有]

Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders ( http://arxiv.org/abs/2108.01053v1 )

ライセンス: CC BY 4.0
Guillaume Salha-Galvan and Romain Hennequin and Benjamin Chapus and Viet-Anh Tran and Michalis Vazirgiannis(参考訳) アーティストのプロフィールページでは、音楽ストリーミングサービスはファンが好んだ「類似アーティスト」のランキングをしばしば推奨している。 しかし、こうした機能を実装することは、サービス上の使用データ(例えば、サービス上の使用データ)を持つ新しいアーティストにとって困難である。 ストリームやlikes)はまだ利用できない。 本稿では,このコールドスタート類似アーティストランキング問題を,有意かつ帰属的なグラフにおけるリンク予測タスクとしてモデル化し,アーティストと最上位の類似アーティストを接続し,サイド音楽情報を取り込む。 次に、グラフオートエンコーダアーキテクチャを用いて、このグラフからノード埋め込み表現を学習し、重力に着想を得たメカニズムを用いて、新しいアーティストの最もよく似た隣人を自動的にランク付けする。 我々は,世界規模の音楽ストリーミングサービスにおける類似アーティストのランキング問題に対処することで,その柔軟性と効果を実証的に示す。 この論文と並行して,実験から得られた産業用グラフデータとともに,ソースコードの公開も行います。

On an artist's profile page, music streaming services frequently recommend a ranked list of "similar artists" that fans also liked. However, implementing such a feature is challenging for new artists, for which usage data on the service (e.g. streams or likes) is not yet available. In this paper, we model this cold start similar artists ranking problem as a link prediction task in a directed and attributed graph, connecting artists to their top-k most similar neighbors and incorporating side musical information. Then, we leverage a graph autoencoder architecture to learn node embedding representations from this graph, and to automatically rank the top-k most similar neighbors of new artists using a gravity-inspired mechanism. We empirically show the flexibility and the effectiveness of our framework, by addressing a real-world cold start similar artists ranking problem on a global music streaming service. Along with this paper, we also publicly release our source code as well as the industrial graph data from our experiments.
翻訳日:2021-08-03 17:41:09 公開日:2021-08-02
# (参考訳) 接地画像キャプションのための分散注意 [全文訳有]

Distributed Attention for Grounded Image Captioning ( http://arxiv.org/abs/2108.01056v1 )

ライセンス: CC BY 4.0
Nenglun Chen, Xingjia Pan, Runnan Chen, Lei Yang, Zhiwen Lin, Yuqiang Ren, Haolei Yuan, Xiaowei Guo, Feiyue Huang, Wenping Wang(参考訳) 弱教師付き画像キャプションの問題点について検討する。 すなわち、画像が与えられたとき、画像中の対応する領域に接する名詞単語ごとに、画像の文脈を記述した文を自動的に生成することである。 このタスクは、監督としての明示的なきめ細かな地域単語アライメントが欠如しているため、難しい。 従来の弱教師付き手法は主に注意の精度を向上させるために様々な正規化スキームを探索する。 しかし、そのパフォーマンスは、完全に監督されたものとは程遠い。 無視されている主な問題は、視覚的に接地可能な単語を生成することの注意は、最も差別化された部分だけに集中し、オブジェクト全体をカバーできないことである。 この目的のために,本稿では,部分基底問題と呼ばれる問題を緩和する簡易かつ効果的な手法を提案する。 具体的には,複数の空間的に異なる領域の情報を一貫したセマンティクスで集約し,単語を生成するためにネットワークを強制する分散アテンション機構を設計する。 したがって、焦点を絞った地域提案の結合は、関心の対象を完全に囲む視覚領域を形成するべきである。 実験により,提案手法が最先端技術よりも優れていることを示した。

We study the problem of weakly supervised grounded image captioning. That is, given an image, the goal is to automatically generate a sentence describing the context of the image with each noun word grounded to the corresponding region in the image. This task is challenging due to the lack of explicit fine-grained region word alignments as supervision. Previous weakly supervised methods mainly explore various kinds of regularization schemes to improve attention accuracy. However, their performances are still far from the fully supervised ones. One main issue that has been ignored is that the attention for generating visually groundable words may only focus on the most discriminate parts and can not cover the whole object. To this end, we propose a simple yet effective method to alleviate the issue, termed as partial grounding problem in our paper. Specifically, we design a distributed attention mechanism to enforce the network to aggregate information from multiple spatially different regions with consistent semantics while generating the words. Therefore, the union of the focused region proposals should form a visual region that encloses the object of interest completely. Extensive experiments have demonstrated the superiority of our proposed method compared with the state-of-the-arts.
翻訳日:2021-08-03 17:21:32 公開日:2021-08-02
# (参考訳) 前向きなSonar Patch Matching:現代のCNN、組み立て、不確実性 [全文訳有]

Forward-Looking Sonar Patch Matching: Modern CNNs, Ensembling, and Uncertainty ( http://arxiv.org/abs/2108.01066v1 )

ライセンス: CC BY 4.0
Arka Mallick and Paul Pl\"oger and Matias Valdenegro-Toro(参考訳) 水中ロボットの応用は増加しており、そのほとんどが水中視覚のためのソナーに依存しているが、強い知覚能力の欠如は、このタスクにおいてそれらを制限する。 ソナー認識における重要な問題は、画像パッチのマッチングであり、ローカライゼーション、変更検出、マッピングなどの他のテクニックを可能にする。 カラー画像には、この問題に関する豊富な文献があるが、音響画像では、これらの画像を生成する物理学のために不足している。 本稿では,この問題に対するこれまでの結果(valdenegro-toro et al, 2017)を,手作業でモデリングする代わりに,畳み込みニューラルネットワーク(cnn)が類似度関数を学習し,2つの入力ソナー画像が類似しているか否かを予測する。 さらに、ソナー画像マッチング問題を改善することを目的として、CNNアーキテクチャの3つの状態が、DenseNetとVGGというMarine Debrisデータセット上で評価され、シアムまたは2チャネルアーキテクチャと対照的な損失が生じる。 各ネットワークの公平な評価を確保するために、徹底的なハイパーパラメータ最適化を行う。 DenseNet Two-Channel Network with 0.955 AUC, VGG-Siamese with 0.949 AUC, DenseNet Siamese with 0.921 AUCが最適である。 DenseNetの2チャンネルモデルとDenseNet-Siameseモデルの上位をアンサンブルすることで、得られる予測精度は0.978 AUCとなり、芸術の状況において0.91 AUCよりも大幅に改善された。

Application of underwater robots are on the rise, most of them are dependent on sonar for underwater vision, but the lack of strong perception capabilities limits them in this task. An important issue in sonar perception is matching image patches, which can enable other techniques like localization, change detection, and mapping. There is a rich literature for this problem in color images, but for acoustic images, it is lacking, due to the physics that produce these images. In this paper we improve on our previous results for this problem (Valdenegro-Toro et al, 2017), instead of modeling features manually, a Convolutional Neural Network (CNN) learns a similarity function and predicts if two input sonar images are similar or not. With the objective of improving the sonar image matching problem further, three state of the art CNN architectures are evaluated on the Marine Debris dataset, namely DenseNet, and VGG, with a siamese or two-channel architecture, and contrastive loss. To ensure a fair evaluation of each network, thorough hyper-parameter optimization is executed. We find that the best performing models are DenseNet Two-Channel network with 0.955 AUC, VGG-Siamese with contrastive loss at 0.949 AUC and DenseNet Siamese with 0.921 AUC. By ensembling the top performing DenseNet two-channel and DenseNet-Siamese models overall highest prediction accuracy obtained is 0.978 AUC, showing a large improvement over the 0.91 AUC in the state of the art.
翻訳日:2021-08-03 17:07:14 公開日:2021-08-02
# (参考訳) S$^2$-MLPv2:視覚のための空間シフト型MLPアーキテクチャの改善 [全文訳有]

S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision ( http://arxiv.org/abs/2108.01072v1 )

ライセンス: CC BY 4.0
Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li(参考訳) 近年、MLPベースの視覚バックボーンが出現している。 帰納バイアスの少ないMLPベースの視覚アーキテクチャは、CNNや視覚変換器と比較して、画像認識における競合性能を実現する。 これらのうち、空間シフト型MLP(S$^2$-MLP)は、単純空間シフト型演算を採用し、MLP-mixerやResMLPといった先駆的な作業よりも優れた性能を実現する。 最近では、ピラミッド構造を持つ小さなパッチを使用して、ViP(Vision Permutator)とGFNet(Global Filter Network)は、S$^2$-MLPよりも優れたパフォーマンスを実現している。 本稿では、S$^2$-MLPビジョンバックボーンを改善する。 チャネル次元に沿ってフィーチャーマップを拡張し、拡張したフィーチャーマップをいくつかの部分に分割します。 分割部分に対して異なる空間シフト操作を行う。 一方,分割注意操作を利用して分割部分を融合する。 さらに,提案手法と同様に,小規模のパッチを適用し,ピラミッド構造を用いて画像認識精度を向上させる。 改良型空間シフト型MLP視覚バックボーンをS$^2$-MLPv2と呼ぶ。 55mパラメータを用いることで、中規模モデルであるs$^2$-mlpv2-mediumは、224\times 224$イメージを自己参照と外部トレーニングデータなしでimagenet-1kベンチマークで83.6\%のtop-1精度を達成しました。

Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S$^2$-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S$^2$-MLP. In this paper, we improve the S$^2$-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts. Meanwhile, we exploit the split-attention operation to fuse these split parts. Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy. We term the improved spatial-shift MLP vision backbone as S$^2$-MLPv2. Using 55M parameters, our medium-scale model, S$^2$-MLPv2-Medium achieves an $83.6\%$ top-1 accuracy on the ImageNet-1K benchmark using $224\times 224$ images without self-attention and external training data.
翻訳日:2021-08-03 16:54:42 公開日:2021-08-02
# (参考訳) 音楽音声:トランスフォーマーベースの作曲ツール [全文訳有]

Musical Speech: A Transformer-based Composition Tool ( http://arxiv.org/abs/2108.01043v1 )

ライセンス: CC BY 4.0
Jason d'Eon, Sri Harsha Dumpala, Chandramouli Shama Sastry, Dani Oore and Sageev Oore(参考訳) 本稿では,ユーザが録音/提供した音声の楽曲アウトラインを合成し,その楽曲に音楽ビルディングブロックとして用いるための新しい構成ツールを提案する。 このツールを使うと、ユーザーは自分の音声を使って音楽素材を生成できるが、録音した音声と結果の音楽との直接のつながりを聴くことができる。 このツールは、提案されたパイプライン上に構築されます。 このパイプラインは音声に基づく信号処理から始まり、その後いくつかの単純な音楽ヒューリスティックを適用し、最終的にこれらの前処理された信号を新しい音楽タスクで訓練されたトランスフォーマーモデルに渡す。 私たちは、トレーニング用のペアデータセットを必要としないパイプラインの有効性を、ツールを使用してミュージシャンが作成した音楽の例を通じて説明します。

In this paper, we propose a new compositional tool that will generate a musical outline of speech recorded/provided by the user for use as a musical building block in their compositions. The tool allows any user to use their own speech to generate musical material, while still being able to hear the direct connection between their recorded speech and the resulting music. The tool is built on our proposed pipeline. This pipeline begins with speech-based signal processing, after which some simple musical heuristics are applied, and finally these pre-processed signals are passed through Transformer models trained on new musical tasks. We illustrate the effectiveness of our pipeline -- which does not require a paired dataset for training -- through examples of music created by musicians making use of our tool.
翻訳日:2021-08-03 16:19:15 公開日:2021-08-02
# flip learning: セグメントを消去する

Flip Learning: Erase to Segment ( http://arxiv.org/abs/2108.00752v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Yuxin Zou, Chaoyu Chen, Jian Wang, Haoran Dou, Nishant Ravikumar, Alejandro F Frangi, Jianqiao Zhou, Dong Ni(参考訳) 乳房超音波像からの結節分画は診断に不可欠である。 弱い教師付きセグメンテーション(WSS)は、時間と面倒なマニュアルアノテーションを減らすのに役立つ。 本稿では、既存の弱い教師付きアプローチとは異なり、ボックスアノテーションのみを必要とするflip learningと呼ばれる新しい一般的なwssフレームワークを提案する。 具体的には、ラベルボックス内のターゲットを徐々に消去して分類タグを反転させ、削除された領域を最後にセグメント化結果とする。 私たちの貢献は3倍です。 まず,提案手法は,事前境界知識を活用し学習プロセスを高速化するために,マルチエージェント強化学習フレームワークを用いてスーパーピクセルレベルで消去する。 第2に,下位セグメンテーションと過剰セグメンテーションを避けるために,分類スコアと強度分布報酬の2つの報酬をデザインする。 第3に,残差を低減し,セグメンテーション性能を向上させるために,粗大な学習戦略を採用する。 大規模データセット上で広く検証され,提案手法は競争性能を達成し,完全教師付き学習と弱い教師付き学習のギャップを狭める可能性を示す。

Nodule segmentation from breast ultrasound images is challenging yet essential for the diagnosis. Weakly-supervised segmentation (WSS) can help reduce time-consuming and cumbersome manual annotation. Unlike existing weakly-supervised approaches, in this study, we propose a novel and general WSS framework called Flip Learning, which only needs the box annotation. Specifically, the target in the label box will be erased gradually to flip the classification tag, and the erased region will be considered as the segmentation result finally. Our contribution is three-fold. First, our proposed approach erases on superpixel level using a Multi-agent Reinforcement Learning framework to exploit the prior boundary knowledge and accelerate the learning process. Second, we design two rewards: classification score and intensity distribution reward, to avoid under- and over-segmentation, respectively. Third, we adopt a coarse-to-fine learning strategy to reduce the residual errors and improve the segmentation performance. Extensively validated on a large dataset, our proposed approach achieves competitive performance and shows great potential to narrow the gap between fully-supervised and weakly-supervised learning.
翻訳日:2021-08-03 15:40:18 公開日:2021-08-02
# MuSiQue: シングルホップ質問構成によるマルチホップ質問

MuSiQue: Multi-hop Questions via Single-hop Question Composition ( http://arxiv.org/abs/2108.00573v1 )

ライセンス: Link先を確認
Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal(参考訳) 探索的なマルチホップ質問応答データセットを構築するために,シングルホップ質問の合成によるボトムアップな半自動プロセスを提案する。 マルチホップ質問を単一ホップ質問の構成として構成することで、その結果のマルチホップ質問の品質をよりよく制御することができる。 このプロセスにより、 (i) 接続された推論でデータセットを構築することができ、 (ii) 推論ステップの部分的な重複を排除し、最小限のトレインテストリーク、 (iii) ホップと構成構造の変数数、 (iv) コンテキストを変更することで解決不可能な質問を対比することができる。 このプロセスを使用して、新しいマルチホップQAデータセットを構築する。 MuSiQue-Ans with ~25K 2-4 ホップ質問。 我々の実験は、MuSiqueが最先端のQAモデル(例えば、30F1 ptsの人間と機械のギャップなど)には挑戦的であり、既存のデータセット(2倍の人間と機械のギャップ)よりもはるかに困難であり、非常に不正ではないことを実証している。 さらに,さらに難解なデータセットであるmusique-fullを構築して,回答可能なコントラスト質問ペアと回答不能なコントラスト質問ペアから構成した。 データとコードは \url{https://github.com/s tonybrooknlp/musique } を参照。

To build challenging multi-hop question answering datasets, we propose a bottom-up semi-automatic process of constructing multi-hop question via composition of single-hop questions. Constructing multi-hop questions as composition of single-hop questions allows us to exercise greater control over the quality of the resulting multi-hop questions. This process allows building a dataset with (i) connected reasoning where each step needs the answer from a previous step; (ii) minimal train-test leakage by eliminating even partial overlap of reasoning steps; (iii) variable number of hops and composition structures; and (iv) contrasting unanswerable questions by modifying the context. We use this process to construct a new multihop QA dataset: MuSiQue-Ans with ~25K 2-4 hop questions using seed questions from 5 existing single-hop datasets. Our experiments demonstrate that MuSique is challenging for state-of-the-art QA models (e.g., human-machine gap of $~$30 F1 pts), significantly harder than existing datasets (2x human-machine gap), and substantially less cheatable (e.g., a single-hop model is worse by 30 F1 pts). We also build an even more challenging dataset, MuSiQue-Full, consisting of answerable and unanswerable contrast question pairs, where model performance drops further by 13+ F1 pts. For data and code, see \url{https://github.com/s tonybrooknlp/musique }.
翻訳日:2021-08-03 15:39:15 公開日:2021-08-02
# licHEE:多粒化による言語モデル事前学習の改善

LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization ( http://arxiv.org/abs/2108.00801v1 )

ライセンス: Link先を確認
Weidong Guo, Mingjun Zhao, Lusheng Zhang, Di Niu, Jinwen Luo, Zhenhua Liu, Zhenyang Li and Jianbo Tang(参考訳) 大規模コーパスに基づく言語モデルの事前学習は、豊富な文脈表現の構築において大きな成功を収め、様々な自然言語理解(NLU)タスクにおいて大きなパフォーマンス向上をもたらした。 この成功にもかかわらず、BERTのような現在の事前訓練された言語モデルのほとんどは、単一の粒度のトークン化に基づいて訓練されており、通常は粒度の細かい文字やサブワードで訓練されている。 本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。 本手法は,様々な事前学習言語モデルに適用でき,表現能力を向上させることができる。 CLUE と SuperGLUE で行った大規模な実験により,提案手法は中国語と英語の多種多様な NLU タスクに対して,余分な推論コストを伴わずに包括的な改善を実現し,また,我々の最高のアンサンブルモデルがCLUE ベンチマーク競争における最先端性能を達成することを示した。

Language model pre-training based on large corpora has achieved tremendous success in terms of constructing enriched contextual representations and has led to significant performance gains on a diverse range of Natural Language Understanding (NLU) tasks. Despite the success, most current pre-trained language models, such as BERT, are trained based on single-grained tokenization, usually with fine-grained characters or sub-words, making it hard for them to learn the precise meaning of coarse-grained words and phrases. In this paper, we propose a simple yet effective pre-training method named LICHEE to efficiently incorporate multi-grained information of input text. Our method can be applied to various pre-trained language models and improve their representation capability. Extensive experiments conducted on CLUE and SuperGLUE demonstrate that our method achieves comprehensive improvements on a wide variety of NLU tasks in both Chinese and English with little extra inference cost incurred, and that our best ensemble model achieves the state-of-the-art performance on CLUE benchmark competition.
翻訳日:2021-08-03 15:38:43 公開日:2021-08-02
# BezierSeg:医療画像における高速物体分割のためのパラメトリック形状表現

BezierSeg: Parametric Shape Representation for Fast Object Segmentation in Medical Images ( http://arxiv.org/abs/2108.00760v1 )

ライセンス: Link先を確認
Haichou Chen, Yishu Deng, Bin Li, Zeqin Li, Haohua Chen, Bingzhong Jing and Chaofeng Li(参考訳) 病変領域の描出は画像診断において重要な課題である。 ピクセル単位の分類は、関心領域を分割する一般的なアプローチである。 しかし、ファジィ境界においては、そのような方法は通常、病変が固く滑らかであるという事実と矛盾するグリッチ、不連続または切断をもたらす。 これらの望ましくないアーチファクトを克服するために、関心領域を含むベジエ曲線を出力するBezierSegモデルを提案する。 輪郭を解析方程式で直接モデル化することで、セグメンテーションは連結で連続であり、境界は滑らかである。 さらに、サブピクセルの精度も提供する。 精度を損なうことなく、ベジエ輪郭を再サンプリングし、任意の解像度の画像でオーバーレイすることができる。 さらに、医師は曲線の制御ポイントを都合よく調整して結果を洗練することができる。 実験により,提案手法はリアルタイムに動作し,画素ワイドセグメンテーションモデルと競合する精度を実現する。

Delineating the lesion area is an important task in image-based diagnosis. Pixel-wise classification is a popular approach to segmenting the region of interest. However, at fuzzy boundaries such methods usually result in glitches, discontinuity, or disconnection, inconsistent with the fact that lesions are solid and smooth. To overcome these undesirable artifacts, we propose the BezierSeg model which outputs bezier curves encompassing the region of interest. Directly modelling the contour with analytic equations ensures that the segmentation is connected, continuous, and the boundary is smooth. In addition, it offers sub-pixel accuracy. Without loss of accuracy, the bezier contour can be resampled and overlaid with images of any resolution. Moreover, a doctor can conveniently adjust the curve's control points to refine the result. Our experiments show that the proposed method runs in real time and achieves accuracy competitive with pixel-wise segmentation models.
翻訳日:2021-08-03 15:37:18 公開日:2021-08-02
# ブラインド超解像における特定劣化に対する識別フィルタの探索

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution ( http://arxiv.org/abs/2108.01070v1 )

ライセンス: Link先を確認
Liangbin Xie, Xintao Wang, Chao Dong, Zhongang Qi, Ying Shan(参考訳) 最近のブラインド超解像法(SR)法は、通常、劣化予測と条件回復のための2つの枝からなる。 しかし,本実験では,1分岐ネットワークが2分岐方式に匹敵する性能を実現できることを示した。 ワンブランチネットワークは、どのようにして自動的に劣化を区別するか? そこで本研究では,積分勾配(faig)に基づく新しい診断ツール -- フィルタ帰属法を提案する。 従来の積分勾配法とは異なり、FAIGはブラインドSRネットワークの劣化除去のために入力画素/特徴の代わりに最も識別性の高いフィルタを求める。 検出されたフィルタを用いて,入力画像の劣化を簡易かつ効果的に予測する手法を考案する。 FAIGをベースとして,1) 特定の劣化に対して非常に少数の(1%) 識別フィルタが検出可能であること,2) 検出されたフィルタの重み,位置,接続がネットワーク機能を決定する上で重要であること,などが示されている。 3) 劣化予測の課題は, 明示的な教師付き学習を伴わない識別フィルタによって暗黙的に実現することができる。 我々の発見は、一つのブラインドSRネットワーク内のネットワークの振る舞いをよりよく理解するだけでなく、より効率的なアーキテクチャの設計や、ブラインドSRのためのネットワークの診断に関するガイダンスを提供する。

Recent blind super-resolution (SR) methods typically consist of two branches, one for degradation prediction and the other for conditional restoration. However, our experiments show that a one-branch network can achieve comparable performance to the two-branch scheme. Then we wonder: how can one-branch networks automatically learn to distinguish degradations? To find the answer, we propose a new diagnostic tool -- Filter Attribution method based on Integral Gradient (FAIG). Unlike previous integral gradient methods, our FAIG aims at finding the most discriminative filters instead of input pixels/features for degradation removal in blind SR networks. With the discovered filters, we further develop a simple yet effective method to predict the degradation of an input image. Based on FAIG, we show that, in one-branch blind SR networks, 1) we are able to find a very small number of (1%) discriminative filters for each specific degradation; 2) The weights, locations and connections of the discovered filters are all important to determine the specific network function. 3) The task of degradation prediction can be implicitly realized by these discriminative filters without explicit supervised learning. Our findings can not only help us better understand network behaviors inside one-branch blind SR networks, but also provide guidance on designing more efficient architectures and diagnosing networks for blind SR.
翻訳日:2021-08-03 15:37:04 公開日:2021-08-02
# sdedit:確率微分方程式による画像合成と編集

SDEdit: Image Synthesis and Editing with Stochastic Differential Equations ( http://arxiv.org/abs/2108.01073v1 )

ライセンス: Link先を確認
Chenlin Meng, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon(参考訳) 本稿では、確率微分方程式(SDE)を用いた最近の生成モデルに基づいて、新しい画像編集合成フレームワーク、Stochastic Differential Editing (SDEdit)を導入する。 ユーザが編集した入力画像(例えば手書きカラーストローク)が与えられた場合、まずSDEに従って入力にノイズを加え、その後、逆SDEをシミュレートしてノイズを消音し、その確率を事前に徐々に増加させる。 GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。 条件付きGANと比較して、新しいアプリケーションのために、原画像と編集画像の新しいデータセットを収集する必要はない。 そこで本手法は,モデルを再学習することなく,テスト時に様々な編集タスクに迅速に適応することができる。 本手法は,ストローク絵画による画像合成や編集,画像合成など,幅広い用途において高い性能を発揮する。

We introduce a new image editing and synthesis framework, Stochastic Differential Editing (SDEdit), based on a recent generative model using stochastic differential equations (SDEs). Given an input image with user edits (e.g., hand-drawn color strokes), we first add noise to the input according to an SDE, and subsequently denoise it by simulating the reverse SDE to gradually increase its likelihood under the prior. Our method does not require task-specific loss function designs, which are critical components for recent image editing methods based on GAN inversion. Compared to conditional GANs, we do not need to collect new datasets of original and edited images for new applications. Therefore, our method can quickly adapt to various editing tasks at test time without re-training models. Our approach achieves strong performance on a wide range of applications, including image synthesis and editing guided by stroke paintings and image compositing.
翻訳日:2021-08-03 15:36:42 公開日:2021-08-02
# ディープグラフニューラルネットワークの評価

Evaluating Deep Graph Neural Networks ( http://arxiv.org/abs/2108.00955v1 )

ライセンス: Link先を確認
Wentao Zhang, Zeang Sheng, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)はすでに様々なグラフマイニングタスクに広く適用されている。 しかし、モデルの性能改善を妨げる重要な障害である、浅いアーキテクチャの問題に悩まされている。 いくつかの関連するアプローチが提案されているが、既存の研究はいずれも、深いGNNの性能劣化の根本原因を深く理解するものではない。 本稿では,浅層建築の基本的限界を示すための,最初の体系的実験評価を行う。 実験結果に基づき,(1)深層gnnの性能が損なわれる原因は何か,(2)必要時,そしてどのように深層gnnを構築するか,という2つの重要な疑問に答える。 上記の質問に対する回答は、研究者が深くてよく表現されたgnnを設計するための経験的洞察とガイドラインを提供する。 提案するガイドラインの有効性を示すために,深層グラフ多層受容器(DGMLP)を提案する。 高い精度 - 様々なデータセットで最先端のノード分類性能を実現する - 高い柔軟性 - グラフのサイズとスパーシティに応じて、異なる伝播と変換深さを柔軟に選択できる - 高いスケーラビリティと効率 -- 大規模グラフの高速トレーニングをサポートする - という3つのdgmlpのメリットが実証された。 私たちのコードはhttps://github.com/z wt233/DGMLPで利用可能です。

Graph Neural Networks (GNNs) have already been widely applied in various graph mining tasks. However, they suffer from the shallow architecture issue, which is the key impediment that hinders the model performance improvement. Although several relevant approaches have been proposed, none of the existing studies provides an in-depth understanding of the root causes of performance degradation in deep GNNs. In this paper, we conduct the first systematic experimental evaluation to present the fundamental limitations of shallow architectures. Based on the experimental results, we answer the following two essential questions: (1) what actually leads to the compromised performance of deep GNNs; (2) when we need and how to build deep GNNs. The answers to the above questions provide empirical insights and guidelines for researchers to design deep and well-performed GNNs. To show the effectiveness of our proposed guidelines, we present Deep Graph Multi-Layer Perceptron (DGMLP), a powerful approach (a paradigm in its own right) that helps guide deep GNN designs. Experimental results demonstrate three advantages of DGMLP: 1) high accuracy -- it achieves state-of-the-art node classification performance on various datasets; 2) high flexibility -- it can flexibly choose different propagation and transformation depths according to graph size and sparsity; 3) high scalability and efficiency -- it supports fast training on large-scale graphs. Our code is available in https://github.com/z wt233/DGMLP.
翻訳日:2021-08-03 15:35:47 公開日:2021-08-02
# 軌道解析による確率最適化器の一般化特性

Generalization Properties of Stochastic Optimizers via Trajectory Analysis ( http://arxiv.org/abs/2108.00781v1 )

ライセンス: Link先を確認
Liam Hodgkinson, Umut \c{S}im\c{s}ekli, Rajiv Khanna, Michael W. Mahoney(参考訳) 機械学習における確率最適化アルゴリズムのユビキタスな使用にもかかわらず、現実的な非凸設定における一般化性能に対するこれらのアルゴリズムの正確な影響はいまだに理解されていない。 本稿では,その動力学に基づく確率的最適化器の一般化特性を調べるための包括的理論的枠組みを提案する。 まず、オプティマイザの軌道に適用されるフェルニク・タラグランド関数の有名な項で、オプティマイザダイナミクスに起因する有界な一般化を証明する。 このデータとアルゴリズムに依存した境界は、さらなる仮定がなければ最もシャープであることが示されている。 次に、確率最適化器のマルコフ構造を利用して、最適化アルゴリズムに関連する(データ依存)遷移カーネルの一般化境界を導出した。 確率最適化における一般化と重み付き挙動の関連を明らかにする最近の研究に合わせて、一般化誤差と遷移カーネルの局所的テール挙動をリンクする。 本稿では、カーネルの局所的なパワーロー指数が有効次元として作用し、遷移が「非ガウス」となるにつれて減少することを示す。 我々は,様々なニューラルネットワークを用いた実験結果を用いて,我々の理論を支持するとともに,fernique-talagrand functional とlocal power-law exponent の両方が一般化性能を予測できることを示した。

Despite the ubiquitous use of stochastic optimization algorithms in machine learning, the precise impact of these algorithms on generalization performance in realistic non-convex settings is still poorly understood. In this paper, we provide an encompassing theoretical framework for investigating the generalization properties of stochastic optimizers, which is based on their dynamics. We first prove a generalization bound attributable to the optimizer dynamics in terms of the celebrated Fernique-Talagrand functional applied to the trajectory of the optimizer. This data- and algorithm-dependent bound is shown to be the sharpest possible in the absence of further assumptions. We then specialize this result by exploiting the Markovian structure of stochastic optimizers, deriving generalization bounds in terms of the (data-dependent) transition kernels associated with the optimization algorithms. In line with recent work that has revealed connections between generalization and heavy-tailed behavior in stochastic optimization, we link the generalization error to the local tail behavior of the transition kernels. We illustrate that the local power-law exponent of the kernel acts as an effective dimension, which decreases as the transitions become "less Gaussian". We support our theory with empirical results from a variety of neural networks, and we show that both the Fernique-Talagrand functional and the local power-law exponent are predictive of generalization performance.
翻訳日:2021-08-03 15:35:13 公開日:2021-08-02
# 実用的ネットワーク圧縮のためのグループフィッシャープルーニング

Group Fisher Pruning for Practical Network Compression ( http://arxiv.org/abs/2108.00708v1 )

ライセンス: Link先を確認
Liyang Liu, Shilong Zhang, Zhanghui Kuang, Aojun Zhou, Jing-Hao Xue, Xinjiang Wang, Yimin Chen, Wenming Yang, Qingmin Liao, Wayne Zhang(参考訳) ネットワーク圧縮は、推論中にメモリと計算コストを削減できるため、広く研究されている。 しかし、従来の手法では、残差接続、グループ/奥行き畳み込み、機能ピラミッドネットワークなどの複雑な構造を扱うことはほとんどなく、複数の層が結合され、同時に刈り取る必要がある。 本稿では,様々な複雑な構造に適用可能な一般チャネルプルーニング手法を提案する。 特に,結合チャネルを自動的に見つけるための層グループ化アルゴリズムを提案する。 次に,フィッシャー情報に基づく統一指標を導出して,単一チャネルと結合チャネルの重要性を評価する。 さらに,gpu上での推論の高速化はフラップよりもメモリ削減とより相関しており,各チャネルのメモリ削減を重要度を正規化するために採用している。 本手法はチャネル結合構造を含む任意の構造をプルーピングするために使用できる。 我々は,従来のResNetやResNeXt,モバイルフレンドリーなMobileNetV2,NASベースのRegNetなど,さまざまなバックボーンに関する広範な実験を行い,画像分類と対象検出について検討する。 実験により,提案手法は精度を犠牲にすることなく,推論速度を向上できることを確認した。

Network compression has been widely studied since it is able to reduce the memory and computation cost during inference. However, previous methods seldom deal with complicated structures like residual connections, group/depth-wise convolution and feature pyramid network, where channels of multiple layers are coupled and need to be pruned simultaneously. In this paper, we present a general channel pruning approach that can be applied to various complicated structures. Particularly, we propose a layer grouping algorithm to find coupled channels automatically. Then we derive a unified metric based on Fisher information to evaluate the importance of a single channel and coupled channels. Moreover, we find that inference speedup on GPUs is more correlated with the reduction of memory rather than FLOPs, and thus we employ the memory reduction of each channel to normalize the importance. Our method can be used to prune any structures including those with coupled channels. We conduct extensive experiments on various backbones, including the classic ResNet and ResNeXt, mobile-friendly MobileNetV2, and the NAS-based RegNet, both on image classification and object detection which is under-explored. Experimental results validate that our method can effectively prune sophisticated networks, boosting inference speed without sacrificing accuracy.
翻訳日:2021-08-03 15:33:34 公開日:2021-08-02
# ポイントクラウドを用いた3次元物体検出のためのGNNにおける角度に基づく特徴学習

Angle Based Feature Learning in GNN for 3D Object Detection using Point Cloud ( http://arxiv.org/abs/2108.00780v1 )

ライセンス: Link先を確認
Md Afzal Ansari, Md Meraz, Pavan Chakraborty and Mohammed Javed(参考訳) 本稿では,点群内の3次元物体検出のための特徴符号化手法を提案する。 車、歩行者、自転車といった3D物体の検出には、グラフニューラルネットワーク(GNN)を使用しました。 特徴符号化は3Dオブジェクトの検出における重要なステップの1つである。 使用されるデータセットは、不規則で構造化されていないポイントクラウドデータであり、より良い機能カプセル化を保証するような方法でエンコードする必要がある。 初期の作品では、特徴をエンコードする手法の1つとして相対距離を用いた。 これらの手法はグラフニューラルネットワークの回転分散問題に耐性がない。 グラフニューラルネットワークで特徴符号化を行いながら角ベースの測度を含む。 これに加えて、絶対値、相対値、ユークリッド距離などの他の手法と角度と相対値の組み合わせとの比較を行った。 モデルは、リソース制約下でkitti object detection benchmarkデータセットのサブセット上でトレーニングされ、評価される。 その結果,角度測定と相対距離の組み合わせは,他の手法よりも優れていることがわかった。 ベースライン法(相対法)と比較すると、性能は向上した。 また,様々な特徴符号化手法の時間解析を行った。

In this paper, we present new feature encoding methods for Detection of 3D objects in point clouds. We used a graph neural network (GNN) for Detection of 3D objects namely cars, pedestrians, and cyclists. Feature encoding is one of the important steps in Detection of 3D objects. The dataset used is point cloud data which is irregular and unstructured and it needs to be encoded in such a way that ensures better feature encapsulation. Earlier works have used relative distance as one of the methods to encode the features. These methods are not resistant to rotation variance problems in Graph Neural Networks. We have included angular-based measures while performing feature encoding in graph neural networks. Along with that, we have performed a comparison between other methods like Absolute, Relative, Euclidean distances, and a combination of the Angle and Relative methods. The model is trained and evaluated on the subset of the KITTI object detection benchmark dataset under resource constraints. Our results demonstrate that a combination of angle measures and relative distance has performed better than other methods. In comparison to the baseline method(relative), it achieved better performance. We also performed time analysis of various feature encoding methods.
翻訳日:2021-08-03 15:33:14 公開日:2021-08-02
# ロバストな物体検出に向けて:ホモシedastic aleatoric uncertainty modelingのためのベイズ型網膜

Towards Robust Object Detection: Bayesian RetinaNet for Homoscedastic Aleatoric Uncertainty Modeling ( http://arxiv.org/abs/2108.00784v1 )

ライセンス: Link先を確認
Natalia Khanzhina, Alexey Lapenok, Andrey Filchenkov(参考訳) 最近の研究によると、一般的に使われるコンピュータビジョンデータセットはラベルエラーの約4%を含んでいる。 例えば、COCOデータセットは、データラベルの高レベルのノイズで知られており、実際のシナリオで堅牢なニューラルディープアーキテクチャをトレーニングするための使用を制限する。 このようなノイズをモデル化するため,本稿ではホモシedastic aleatoric uncertainty estimationを提案し,画像物体の大規模検出問題に対処するための新しい損失関数を提案する。 具体的には,提案した関数はベイズ推定に基づいており,一般コミュニティが提案するディープラーニングアーキテクチャRetinaNetに組み込んでいる。 また,新しい関数を用いたホモシedastic aleatoric uncertaintyのモデル化により,モデル解釈性が向上し,cocoデータセット上で評価されるオブジェクト検出性能が向上することを示した。

According to recent studies, commonly used computer vision datasets contain about 4% of label errors. For example, the COCO dataset is known for its high level of noise in data labels, which limits its use for training robust neural deep architectures in a real-world scenario. To model such a noise, in this paper we have proposed the homoscedastic aleatoric uncertainty estimation, and present a series of novel loss functions to address the problem of image object detection at scale. Specifically, the proposed functions are based on Bayesian inference and we have incorporated them into the common community-adopted object detection deep learning architecture RetinaNet. We have also shown that modeling of homoscedastic aleatoric uncertainty using our novel functions allows to increase the model interpretability and to improve the object detection performance being evaluated on the COCO dataset.
翻訳日:2021-08-03 15:33:01 公開日:2021-08-02
# グラフ畳み込みニューラルネットワークを用いた最小経路探索

Constrained Shortest Path Search with Graph Convolutional Neural Networks ( http://arxiv.org/abs/2108.00978v1 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Andrei Bursuc, Tristan Cazenave, Eric Jacopin(参考訳) 無人地上車両の計画(AUGV)は、特に困難でオフロードで重要な状況において依然として課題である。 自動プランニングは、ミッション目標に達するために、ナビゲーションや操作のために使用することができる。 ほとんどの場合、問題は、いくつかの運用上の制約を満たしながら、ソースから目的地へのパスを見つけることにあります。 負のサイクルのないグラフでは、開始ノードから終了ノードまでの単対短経路の計算を多項式時間で解く。 しかし、ソリューションパスに関する追加の制約は、問題の解決を難しくする可能性がある。 これは、特定の訪問順序を必要とせずに、いくつかの必須ノードを通過するパスが必要な場合になります。 複雑さは、訪問するノードの数によって指数関数的に増加する。 本稿では,与えられた連結グラフ上の必須ノードを用いた最短経路探索に着目する。 本稿では,制約に基づく解法とグラフ畳み込みニューラルネットワークを組み合わせたハイブリッドモデルを提案する。 現実的なシナリオで結果が得られます。

Planning for Autonomous Unmanned Ground Vehicles (AUGV) is still a challenge, especially in difficult, off-road, critical situations. Automatic planning can be used to reach mission objectives, to perform navigation or maneuvers. Most of the time, the problem consists in finding a path from a source to a destination, while satisfying some operational constraints. In a graph without negative cycles, the computation of the single-pair shortest path from a start node to an end node is solved in polynomial time. Additional constraints on the solution path can however make the problem harder to solve. This becomes the case when we need the path to pass through a few mandatory nodes without requiring a specific order of visit. The complexity grows exponentially with the number of mandatory nodes to visit. In this paper, we focus on shortest path search with mandatory nodes on a given connected graph. We propose a hybrid model that combines a constraint-based solver and a graph convolutional neural network to improve search performance. Promising results are obtained on realistic scenarios.
翻訳日:2021-08-03 15:30:46 公開日:2021-08-02
# 自動運転車のオフロード操縦計画の学習

Learning off-road maneuver plans for autonomous vehicles ( http://arxiv.org/abs/2108.01021v1 )

ライセンス: Link先を確認
Kevin Osanlou(参考訳) この論文では、オフロード環境での自動運転車のオンライン計画とスケジューリングに機械学習アルゴリズムがもたらすメリットを探求する。 主に、特定の目的を満たす計算反復や、他の車両との同期操作を実行するための計算スケジューリング戦略を含む、関心の典型的な問題に焦点を当てる。 我々は,異なる計画立案者を支援するための学習に基づくヒューリスティックスについて紹介する。 これらのヒューリスティックにより,最適プランナーの性能が大幅に向上することを示す。 さらに, 概略計画の場合, 実行時間が減少するだけでなく, 検出したイチナリーの品質もほぼ常に向上することを示す。 最後に,同期操作を実行するための戦略を合成するために,新しいスケジューリング制御可能性と学習支援アルゴリズムを提案する。 提案フレームワークは,この制御可能性型における既知のベンチマークを,関連する制御可能性型における最先端作業のパフォーマンスよりも大幅に改善する。 さらに、以前の作業が失敗する複雑なスケジューリング問題に関する戦略を見つけることができる。

This thesis explores the benefits machine learning algorithms can bring to online planning and scheduling for autonomous vehicles in off-road situations. Mainly, we focus on typical problems of interest which include computing itineraries that meet certain objectives, as well as computing scheduling strategies to execute synchronized maneuvers with other vehicles. We present a range of learning-based heuristics to assist different itinerary planners. We show that these heuristics allow a significant increase in performance for optimal planners. Furthermore, in the case of approximate planning, we show that not only does the running time decrease, the quality of the itinerary found also becomes almost always better. Finally, in order to synthesize strategies to execute synchronized maneuvers, we propose a novel type of scheduling controllability and a learning-assisted algorithm. The proposed framework achieves significant improvement on known benchmarks in this controllability type over the performance of state-of-the-art works in a related controllability type. Moreover, it is able to find strategies on complex scheduling problems for which previous works fail to do so.
翻訳日:2021-08-03 15:30:33 公開日:2021-08-02
# グラフ畳み込みネットワークと最適化木探索による制約付き経路計画問題の最適解法

Optimal Solving of Constrained Path-Planning Problems with Graph Convolutional Networks and Optimized Tree Search ( http://arxiv.org/abs/2108.01036v1 )

ライセンス: Link先を確認
Kevin Osanlou, Andrei Bursuc, Christophe Guettier, Tristan Cazenave and Eric Jacopin(参考訳) 学習ベースの手法は計画目的のために人気を増している。 しかし、グラフ上の制約付きパスプランニングを学習するアプローチはほとんどないが、下流の実践的な応用はいくつかある。 これは、通常災害救助や捜索救助用途に配備される自律無人地上車両(AUGV)の制約された経路計画のケースである。 オフロード環境では、AUGVは様々な運用上の制約の下でソース決定経路を動的に最適化する必要がある。 本稿では,機械学習モデルと最適解法を組み合わせたハイブリッド解法プランナーを提案する。 より具体的には、グラフ畳み込みネットワーク(GCN)は、制約を扱うために分岐とバウンド(B&B)アルゴリズムを支援するために使用される。 我々は現実的なシナリオで実験を行い、GCNサポートがより難しい問題に対して、大幅な高速化とスムーズなスケーリングを可能にしていることを示す。

Learning-based methods are growing prominence for planning purposes. However, there are very few approaches for learning-assisted constrained path-planning on graphs, while there are multiple downstream practical applications. This is the case for constrained path-planning for Autonomous Unmanned Ground Vehicles (AUGV), typically deployed in disaster relief or search and rescue applications. In off-road environments, the AUGV must dynamically optimize a source-destination path under various operational constraints, out of which several are difficult to predict in advance and need to be addressed on-line. We propose a hybrid solving planner that combines machine learning models and an optimal solver. More specifically, a graph convolutional network (GCN) is used to assist a branch and bound (B&B) algorithm in handling the constraints. We conduct experiments on realistic scenarios and show that GCN support enables substantial speedup and smoother scaling to harder problems.
翻訳日:2021-08-03 15:30:19 公開日:2021-08-02
# 不確実性のある分節時間ネットワークの時間的動的制御性:グラフニューラルネットワーク誘導を用いた木探索手法

Time-based Dynamic Controllability of Disjunctive Temporal Networks with Uncertainty: A Tree Search Approach with Graph Neural Network Guidance ( http://arxiv.org/abs/2108.01068v1 )

ライセンス: Link先を確認
Kevin Osanlou, Jeremy Frank, J. Benton, Andrei Bursuc, Christophe Guettier, Eric Jacopin and Tristan Cazenave(参考訳) 不確実性の存在下でのスケジューリングは、多くの応用のために人工知能への関心の領域である。 本研究では,不確実性を伴う分散時間ネットワーク(DTNU)の動的制御可能性(DC)の問題について検討し,制御不能な動作時間に対する全ての制約を満たすための戦略を提案する。 我々は,DTNUのDCよりも制限された,より強い制御性,時間に基づく動的制御性(TDC)を導入し,DTNUがTDCであるか否かを決定する木探索手法を提案する。 さらに、木探索指導のためのヒューリスティックとして、メッセージパッシングニューラルネットワーク(MPNN)の学習能力を活用する。 最後に,最先端のtimed-game automata (tga) ベースのアプローチに対して,木探索が優れた結果を示す実験を行う。 我々は,木探索指導にmpnnを使用することにより,dtnu問題に対する性能とスケーラビリティの大幅な向上が期待できる。

Scheduling in the presence of uncertainty is an area of interest in artificial intelligence due to the large number of applications. We study the problem of dynamic controllability (DC) of disjunctive temporal networks with uncertainty (DTNU), which seeks a strategy to satisfy all constraints in response to uncontrollable action durations. We introduce a more restricted, stronger form of controllability than DC for DTNUs, time-based dynamic controllability (TDC), and present a tree search approach to determine whether or not a DTNU is TDC. Moreover, we leverage the learning capability of a message passing neural network (MPNN) as a heuristic for tree search guidance. Finally, we conduct experiments for which the tree search shows superior results to state-of-the-art timed-game automata (TGA) based approaches. We observe that using an MPNN for tree search guidance leads to a significant increase in solving performance and scalability to harder DTNU problems.
翻訳日:2021-08-03 15:30:02 公開日:2021-08-02
# ランダムテンソル上のランダム行列の視点

A Random Matrix Perspective on Random Tensors ( http://arxiv.org/abs/2108.00774v1 )

ライセンス: Link先を確認
Jos\'e Henrique de Morais Goulart, Romain Couillet and Pierre Comon(参考訳) テンソルモデルは、特に機械学習において、多くの分野においてますます顕著な役割を果たす。 コミュニティ検出、トピックモデリング、ガウス混合学習などのそのようなモデルのいくつかの応用では、ノイズのあるテンソルから低ランク信号を推定する必要がある。 したがって、その信号の推定器の基本的な限界と到達可能な性能を理解することは、必然的にランダムテンソルの研究を要求する。 テンソル次元が大きくなるという仮定の下で、近年の努力により、この主題は実質的な進歩を遂げている。 しかし、これらの結果の中で最も重要なものは、特に、急激な位相転移(信号対雑音比)を正確に特徴づけることであり、非専門家に容易にアクセスできない統計物理学の考えに基づいて、ガウスノイズを持つ対称ランクワンモデルの最大極大(ML)推定器の性能を左右するものである。 本研究では、ランダム行列理論の長年の進歩によってもたらされた標準的だが強力なツールに代えて、鮮明に異なるアプローチを開発する。 鍵となるアイデアは、与えられたランダムテンソルの収縮から生じるランダム行列のスペクトルを研究することである。 これにより、ランダムテンソル自体のスペクトル特性にどのようにアクセスするかを示す。 ガウス雑音を持つ対称階数1モデルの特定の場合、この手法は位相遷移しきい値を超える大域的なML問題の局所的な最大値について、未知の特徴を与える。 このキャラクタリゼーションは、統計物理学の手法でのみ得られる公式によって満たされた固定点方程式の項である。 さらに,本稿では,ML問題におけるランドスケープの特性を多次元的に明らかにした。 我々のアプローチは汎用性があり、非対称、非ゲージ、高階モデルなど他のモデルにも拡張できる。

Tensor models play an increasingly prominent role in many fields, notably in machine learning. In several applications of such models, such as community detection, topic modeling and Gaussian mixture learning, one must estimate a low-rank signal from a noisy tensor. Hence, understanding the fundamental limits and the attainable performance of estimators of that signal inevitably calls for the study of random tensors. Substantial progress has been achieved on this subject thanks to recent efforts, under the assumption that the tensor dimensions grow large. Yet, some of the most significant among these results--in particular, a precise characterization of the abrupt phase transition (in terms of signal-to-noise ratio) that governs the performance of the maximum likelihood (ML) estimator of a symmetric rank-one model with Gaussian noise--were derived on the basis of statistical physics ideas, which are not easily accessible to non-experts. In this work, we develop a sharply distinct approach, relying instead on standard but powerful tools brought by years of advances in random matrix theory. The key idea is to study the spectra of random matrices arising from contractions of a given random tensor. We show how this gives access to spectral properties of the random tensor itself. In the specific case of a symmetric rank-one model with Gaussian noise, our technique yields a hitherto unknown characterization of the local maximum of the ML problem that is global above the phase transition threshold. This characterization is in terms of a fixed-point equation satisfied by a formula that had only been previously obtained via statistical physics methods. Moreover, our analysis sheds light on certain properties of the landscape of the ML problem in the large-dimensional setting. Our approach is versatile and can be extended to other models, such as asymmetric, non-Gaussian and higher-order ones.
翻訳日:2021-08-03 15:28:28 公開日:2021-08-02
# 校正・メモリレス偽検出率による連続多変量変化検出

Sequential Multivariate Change Detection with Calibrated and Memoryless False Detection Rates ( http://arxiv.org/abs/2108.00883v1 )

ライセンス: Link先を確認
Oliver Cobb, Arnaud Van Looveren and Janis Klaise(参考訳) 逐次変化検出器の検出に適切に応答するには、変化がない場合に偽陽性が発生する確率の知識が必要である。 変更前および変更後分布が不明な場合には、基準分布から多数のサンプルが存在する場合でも、所望の偽陽性率を達成するための検出しきい値の設定が困難となる。 既存の作業では、変化がない場合に検知器の期待されるランタイムにフォーカスする時間不変のしきい値を設定することを採用しています。 本稿では,予測されるランタイムを20倍の誤校正で目標とし,同時に時間ステップ間で偽陽性率を一定に保つためのシミュレーションベース手法を提案する。 しきい値設定へのアプローチはメートル法に依存しないが、人気で強力な二次時間MDD推定器を使用すると、計算の思慮深い構造化により、構成中のコストが$O(N^2B)$から$O(N^2+NB)$に減少し、動作中の$O(N^2)$から$O(N)$に減少し、$N$が参照サンプルの数、$B$がブートストラップサンプルの数であることを示す。 コードはオープンソースのPythonライブラリ \texttt{alibi-detect}の一部として利用できる。

Responding appropriately to the detections of a sequential change detector requires knowledge of the rate at which false positives occur in the absence of change. When the pre-change and post-change distributions are unknown, setting detection thresholds to achieve a desired false positive rate is challenging, even when there exists a large number of samples from the reference distribution. Existing works resort to setting time-invariant thresholds that focus on the expected runtime of the detector in the absence of change, either bounding it loosely from below or targeting it directly but with asymptotic arguments that we show cause significant miscalibration in practice. We present a simulation-based approach to setting time-varying thresholds that allows a desired expected runtime to be targeted with a 20x reduction in miscalibration whilst additionally keeping the false positive rate constant across time steps. Whilst the approach to threshold setting is metric agnostic, we show that when using the popular and powerful quadratic time MMD estimator, thoughtful structuring of the computation can reduce the cost during configuration from $O(N^2B)$ to $O(N^2+NB)$ and during operation from $O(N^2)$ to $O(N)$, where $N$ is the number of reference samples and $B$ the number of bootstrap samples. Code is made available as part of the open-source Python library \texttt{alibi-detect}.
翻訳日:2021-08-03 15:27:59 公開日:2021-08-02
# 大規模量子機械学習

Large-scale quantum machine learning ( http://arxiv.org/abs/2108.01039v1 )

ライセンス: Link先を確認
Tobias Haug, Chris N. Self, M. S. Kim(参考訳) 量子コンピュータは、実用化のための機械学習を強化することを約束する。 現実世界のデータに対する量子機械学習は、大量の高次元データを扱う必要がある。 しかし、従来の量子カーネルの測定方法は、データセットのサイズの二乗にスケールするため、大規模なデータセットでは実用的ではない。 ここでは、ランダム化測定を用いて量子カーネルを測定し、計算時間の2次高速化と大規模データセットの高速処理を行う。 さらに,高次元データを回路深さと線形にスケーリングする特徴数で量子コンピュータに効率的にエンコードする。 エンコーディングは量子フィッシャー情報メトリックによって特徴づけられ、放射基底関数カーネルと関連付けられる。 我々は,IBM量子コンピュータによる画像の分類による手法の利点と高速化を実証する。 提案手法は相補的誤り緩和スキームにより雑音に対して極めて頑健である。 現在利用可能な量子コンピュータを使用すると、MNISTデータベースは10年ではなく220時間以内に処理され、量子機械学習の産業的応用が開放される。

Quantum computers promise to enhance machine learning for practical applications. Quantum machine learning for real-world data has to handle extensive amounts of high-dimensional data. However, conventional methods for measuring quantum kernels are impractical for large datasets as they scale with the square of the dataset size. Here, we measure quantum kernels using randomized measurements to gain a quadratic speedup in computation time and quickly process large datasets. Further, we efficiently encode high-dimensional data into quantum computers with the number of features scaling linearly with the circuit depth. The encoding is characterized by the quantum Fisher information metric and is related to the radial basis function kernel. We demonstrate the advantages and speedups of our methods by classifying images with the IBM quantum computer. Our approach is exceptionally robust to noise via a complementary error mitigation scheme. Using currently available quantum computers, the MNIST database can be processed within 220 hours instead of 10 years which opens up industrial applications of quantum machine learning.
翻訳日:2021-08-03 15:27:30 公開日:2021-08-02
# 病変分割のための集計データセットにおけるコホートバイアス適応

Cohort Bias Adaptation in Aggregated Datasets for Lesion Segmentation ( http://arxiv.org/abs/2108.00713v1 )

ライセンス: Link先を確認
Brennan Nichyporuk, Jillian Cardinell, Justin Szeto, Raghav Mehta, Sotirios Tsaftaris, Douglas L. Arnold, Tal Arbel(参考訳) 焦点病理学のために開発された多くの自動機械学習モデル(例) 病変,腫瘍)の検出と分節は良好だが,新しい患者のコホートにも一般化せず,実際の臨床状況への普及を妨げている。 より多様で一般化可能なトレーニングセットを作成するための戦略の1つは、異なるコホートからデータセットをNaivelyプールすることである。 驚くべきことに、この \it{big data} でのトレーニングは必ずしも増加せず、ラベル分布に影響を与えるコホートバイアスの存在により、全体的なパフォーマンスとモデルの一般化可能性も低下する可能性がある。 本稿では,ソース・コンディションド・インスタンス正規化(SCIN)と呼ばれるマルチソースデータセット間のコホートバイアスを学習し,考慮するための一般化アフィン条件付けフレームワークを提案する。 大規模・大規模・マルチスキャン・多中心性多発性硬化症(MS)臨床MRIデータセットに対する広範囲な実験により,(1)正常化パラメータを微調整することで,プールされたデータセット上のネットワークの性能を向上させるとともに,10個のラベル付きサンプルで新たなコホートバイアスを学習できることが判明した。

Many automatic machine learning models developed for focal pathology (e.g. lesions, tumours) detection and segmentation perform well, but do not generalize as well to new patient cohorts, impeding their widespread adoption into real clinical contexts. One strategy to create a more diverse, generalizable training set is to naively pool datasets from different cohorts. Surprisingly, training on this \it{big data} does not necessarily increase, and may even reduce, overall performance and model generalizability, due to the existence of cohort biases that affect label distributions. In this paper, we propose a generalized affine conditioning framework to learn and account for cohort biases across multi-source datasets, which we call Source-Conditioned Instance Normalization (SCIN). Through extensive experimentation on three different, large scale, multi-scanner, multi-centre Multiple Sclerosis (MS) clinical trial MRI datasets, we show that our cohort bias adaptation method (1) improves performance of the network on pooled datasets relative to naively pooling datasets and (2) can quickly adapt to a new cohort by fine-tuning the instance normalization parameters, thus learning the new cohort bias with only 10 labelled samples.
翻訳日:2021-08-03 15:27:01 公開日:2021-08-02
# uav画像から大豆の相対成熟度を推定する深層学習手法による植物の育種決定支援

An Applied Deep Learning Approach for Estimating Soybean Relative Maturity from UAV Imagery to Aid Plant Breeding Decisions ( http://arxiv.org/abs/2108.00952v1 )

ライセンス: Link先を確認
Saba Moeinizade, Hieu Pham, Ye Han, Austin Dobbels, Guiping Hu(参考訳) 地球規模の育種組織では、次世代の優良作物を特定することが成功に不可欠である。 新しい遺伝的品種を認識するには、作物の収量、害虫耐性、耐熱性などに関するデータを集めるために、長年のフィールドテストが必要となる。 成長期が終わると、組織はどの品種が次の成長期(または農家に売られる)に進行し、どの品種が候補プールから廃棄されるかを決定する必要がある。 特に大豆の場合、その相対的な成熟度は、進歩決定に使用される重要な情報である。 しかし、この特性を物理的に観察する必要があるため、リソースの制限(時間、お金など)がある。 データ収集プロセスのボトルネックになります これに対抗するために、育種組織は高度な撮像装置に向かっている。 本稿では,UAV画像の時系列を用いて,大豆の相対的成熟度を推定するための頑健で自動的なアプローチを開発する。 The end-to-end hybrid model using Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) was proposed to extract features and capture the sequence behavior of time series data。 提案されたディープラーニングモデルは、米国中の6つの異なる環境でテストされた。 その結果,CNN-LSTMモデルの有効性を局所回帰法と比較した。 さらに,この新たな知見が植物育種促進決定にどのように役立つかを示す。

For a global breeding organization, identifying the next generation of superior crops is vital for its success. Recognizing new genetic varieties requires years of in-field testing to gather data about the crop's yield, pest resistance, heat resistance, etc. At the conclusion of the growing season, organizations need to determine which varieties will be advanced to the next growing season (or sold to farmers) and which ones will be discarded from the candidate pool. Specifically for soybeans, identifying their relative maturity is a vital piece of information used for advancement decisions. However, this trait needs to be physically observed, and there are resource limitations (time, money, etc.) that bottleneck the data collection process. To combat this, breeding organizations are moving toward advanced image capturing devices. In this paper, we develop a robust and automatic approach for estimating the relative maturity of soybeans using a time series of UAV images. An end-to-end hybrid model combining Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) is proposed to extract features and capture the sequential behavior of time series data. The proposed deep learning model was tested on six different environments across the United States. Results suggest the effectiveness of our proposed CNN-LSTM model compared to the local regression method. Furthermore, we demonstrate how this newfound information can be used to aid in plant breeding advancement decisions.
翻訳日:2021-08-03 15:26:09 公開日:2021-08-02
# 自己監督型ディスタングル表現学習による3人称模倣学習

Self-Supervised Disentangled Representation Learning for Third-Person Imitation Learning ( http://arxiv.org/abs/2108.01069v1 )

ライセンス: Link先を確認
Jinghuan Shang and Michael S. Ryoo(参考訳) 人間は他人を観察して模倣することを学ぶ。 しかし、ロボット模倣学習は通常、ファーストパーソンビュー(fpv)で専門家によるデモンストレーションを必要とする。 すべてのロボットにこうしたFPVビデオを集めるのは、非常にコストがかかる。 第三者模倣学習(英語: third-person mimicion learning, TPIL)とは、第三者の視点(TPV)で他のエージェントを観察することで行動ポリシーを学習する概念である。 これにより、ポリシー学習のために、さまざまなデータソースからtpv内の人間とロボットのデモビデオを活用することができる。 本稿では,ロボット作業におけるエゴモーションを用いたTPIL手法を提案する。 地上・空中移動のロボットタスクの多くは、カメラの自走動作を伴うことが多いが、そのようなタスクに対するTPILの研究は限られている。 ここでは、FPVとTPVの観察は視覚的には全く異なり、FPVは自走を示し、エージェントの外観はTPVでしか観察できない。 TPILのステートラーニングを改善するために,不整合表現学習法を提案する。 2つのオートエンコーダ構造と表現置換損失と時間連続損失を用いて、状態と視点の表現が適切に絡み合っていることを保証する。 我々の実験は我々のアプローチの有効性を示している。

Humans learn to imitate by observing others. However, robot imitation learning generally requires expert demonstrations in the first-person view (FPV). Collecting such FPV videos for every robot could be very expensive. Third-person imitation learning (TPIL) is the concept of learning action policies by observing other agents in a third-person view (TPV), similar to what humans do. This ultimately allows utilizing human and robot demonstration videos in TPV from many different data sources, for the policy learning. In this paper, we present a TPIL approach for robot tasks with egomotion. Although many robot tasks with ground/aerial mobility often involve actions with camera egomotion, study on TPIL for such tasks has been limited. Here, FPV and TPV observations are visually very different; FPV shows egomotion while the agent appearance is only observable in TPV. To enable better state learning for TPIL, we propose our disentangled representation learning method. We use a dual auto-encoder structure plus representation permutation loss and time-contrastive loss to ensure the state and viewpoint representations are well disentangled. Our experiments show the effectiveness of our approach.
翻訳日:2021-08-03 15:25:47 公開日:2021-08-02
# 無線通信におけるオートエンコーダによるエンドツーエンド通信のためのドメイン適応

Domain Adaptation for Autoencoder-Based End-to-End Communication Over Wireless Channels ( http://arxiv.org/abs/2108.00874v1 )

ライセンス: Link先を確認
Jayaram Raghuram, Yijing Zeng, Dolores Garc\'ia Mart\'i, Somesh Jha, Suman Banerjee, Joerg Widmer, Rafael Ruiz Ortiz(参考訳) ドメイン適応の問題は、従来、ソースドメインがラベル付きデータが多く、(異なるデータ分布を持つ)ターゲットドメインがラベル付きデータが多いがラベル付きデータに制限がないような設定を考慮してきた。 本稿では,対象ドメインが頻繁に変化すると予想される分布からのラベル付きデータのみを限定した設定に対処する。 まず,ターゲット領域のサンプル群のみを用いて,ガウス混合密度ネットワーク(mdn)を高速かつ軽量に適応させる手法を提案する。 この方法は、ターゲットデータの分布が急速に変化する設定(例えば、無線チャネル)に適しており、多数のサンプルを収集して再訓練することは困難である。 次に,提案手法を,無線通信オートエンコーダのエンド・オブ・エンド学習問題に適用する。 通信オートエンコーダは、ニューラルネットワークを用いてエンコーダ、デコーダ、チャネルをモデル化し、それらを共同で学習し、全体的なデコーダ誤り率を最小化する。 しかし、特定の(ソース)チャネル分布でトレーニングされたオートエンコーダのエラーレートは、チャネル分布が頻繁に変化するため劣化し、データ収集とターゲットチャネル分布へのオートエンコーダの再トレーニングに十分な時間がかからない。 本稿では、エンコーダとデコーダのニューラルネットワークを変更することなくオートエンコーダを適応させ、チャネルのMDNモデルのみを適用する手法を提案する。 この方法は、デコーダにおける特徴変換を利用してチャネル分布の変化を補償し、ソース分布に近いデコーダサンプルに効果的に存在する。 シミュレーションデータセットと実mm波無線チャネルの実験的評価により,提案手法はmdnモデルに迅速に適応でき,チャネル条件の変化によりオートエンコーダの誤差率を向上・維持できることを示した。

The problem of domain adaptation conventionally considers the setting where a source domain has plenty of labeled data, and a target domain (with a different data distribution) has plenty of unlabeled data but none or very limited labeled data. In this paper, we address the setting where the target domain has only limited labeled data from a distribution that is expected to change frequently. We first propose a fast and light-weight method for adapting a Gaussian mixture density network (MDN) using only a small set of target domain samples. This method is well-suited for the setting where the distribution of target data changes rapidly (e.g., a wireless channel), making it challenging to collect a large number of samples and retrain. We then apply the proposed MDN adaptation method to the problem of end-of-end learning of a wireless communication autoencoder. A communication autoencoder models the encoder, decoder, and the channel using neural networks, and learns them jointly to minimize the overall decoding error rate. However, the error rate of an autoencoder trained on a particular (source) channel distribution can degrade as the channel distribution changes frequently, not allowing enough time for data collection and retraining of the autoencoder to the target channel distribution. We propose a method for adapting the autoencoder without modifying the encoder and decoder neural networks, and adapting only the MDN model of the channel. The method utilizes feature transformations at the decoder to compensate for changes in the channel distribution, and effectively present to the decoder samples close to the source distribution. Experimental evaluation on simulated datasets and real mmWave wireless channels demonstrate that the proposed methods can quickly adapt the MDN model, and improve or maintain the error rate of the autoencoder under changing channel conditions.
翻訳日:2021-08-03 15:25:01 公開日:2021-08-02
# GraphFPN:オブジェクト検出のためのグラフ特徴ピラミッドネットワーク

GraphFPN: Graph Feature Pyramid Network for Object Detection ( http://arxiv.org/abs/2108.00580v1 )

ライセンス: Link先を確認
Gangming Zhao, Weifeng Ge, and Yizhou Yu(参考訳) 機能ピラミッドは、マルチスケール機能を必要とする画像理解タスクにおいて強力であることが証明されている。 マルチスケール機能学習のための最先端手法は、固定トポロジを持つニューラルネットワークを用いた空間とスケール間の機能インタラクションの実行に重点を置いている。 本稿では,そのトポロジ構造を固有の画像構造に適応させ,全てのスケールで同時特徴相互作用をサポートするグラフ特徴ピラミッドネットワークを提案する。 まず、各入力画像に対して画像固有のスーパーピクセル階層を定義し、その固有画像構造を表現する。 グラフ特徴ピラミッドネットワークは、このスーパーピクセル階層からその構造を継承する。 コンテキスト層と階層層は同じスケールで異なるスケールで機能インタラクションを実現するように設計されている。 これらの層をより強力にするため,畳み込みニューラルネットワークのグローバルチャネルアテンションを一般化することにより,グラフニューラルネットワークに2種類の局所チャネルアテンションを導入する。 提案したグラフ特徴ピラミッドネットワークは,畳み込み特徴ピラミッドネットワークからマルチスケール特徴を拡張できる。 我々は、オブジェクト検出タスクにおいて、より高速なR-CNNアルゴリズムに統合することで、グラフ特徴ピラミッドネットワークを評価する。 修正アルゴリズムは、明確なマージンを持つ以前の最先端の機能ピラミッドベースメソッドだけでなく、ms-coco 2017バリデーションとテストデータセットの両方で一般的な検出方法よりも優れています。

Feature pyramids have been proven powerful in image understanding tasks that require multi-scale features. State-of-the-art methods for multi-scale feature learning focus on performing feature interactions across space and scales using neural networks with a fixed topology. In this paper, we propose graph feature pyramid networks that are capable of adapting their topological structures to varying intrinsic image structures and supporting simultaneous feature interactions across all scales. We first define an image-specific superpixel hierarchy for each input image to represent its intrinsic image structures. The graph feature pyramid network inherits its structure from this superpixel hierarchy. Contextual and hierarchical layers are designed to achieve feature interactions within the same scale and across different scales. To make these layers more powerful, we introduce two types of local channel attention for graph neural networks by generalizing global channel attention for convolutional neural networks. The proposed graph feature pyramid network can enhance the multiscale features from a convolutional feature pyramid network. We evaluate our graph feature pyramid network in the object detection task by integrating it into the Faster R-CNN algorithm. The modified algorithm outperforms not only previous state-of-the-art feature pyramid-based methods with a clear margin but also other popular detection methods on both MS-COCO 2017 validation and test datasets.
翻訳日:2021-08-03 15:17:34 公開日:2021-08-02
# pro-uigan:オクルードサムネイルによる進行性顔面幻覚

Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails ( http://arxiv.org/abs/2108.00602v1 )

ライセンス: Link先を確認
Yang Zhang, Xin Yu, Xiaobo Lu, Ping Liu(参考訳) 本稿では,隠蔽サムネイルから高分解能顔(HR)を幻覚させる作業について検討する。 本稿では,多段階のプログレッシブアップサンプリングとインペインティングによる生成的敵ネットワーク,pro-uiganを提案する。 Pro-UIGAN は,(1) 低分解能 (LR) 顔の顔形状を推定し,(2) 推定した先行画像に基づいて非閉塞なHR顔画像を取得する。 我々の多段階幻覚ネットワークは、密閉されたLR面を粗い方法で超解像し、塗布することにより、望ましくないぼかしやアーティファクトを著しく低減する。 具体的には,入力面とそのランドマーク特徴をそれぞれクエリとキーとして定式化した,顔先行推定のための新しいクロスモーダルトランスフォーマーモジュールを設計した。 このようなデザインは、入力された顔とランドマークにまたがる共同機能学習を奨励し、深い特徴対応を注意して発見する。 これにより、顔の外観特徴と顔の形状を相互に促進して学習する。 広範な実験により,我々の親uiganは,他の最先端(sota)手法と比較して,下級タスク,すなわち顔のアライメント,顔解析,顔認識,表情分類において優れた性能を達成できることを示した。

In this paper, we study the task of hallucinating an authentic high-resolution (HR) face from an occluded thumbnail. We propose a multi-stage Progressive Upsampling and Inpainting Generative Adversarial Network, dubbed Pro-UIGAN, which exploits facial geometry priors to replenish and upsample (8*) the occluded and tiny faces (16*16 pixels). Pro-UIGAN iteratively (1) estimates facial geometry priors for low-resolution (LR) faces and (2) acquires non-occluded HR face images under the guidance of the estimated priors. Our multi-stage hallucination network super-resolves and inpaints occluded LR faces in a coarse-to-fine manner, thus reducing unwanted blurriness and artifacts significantly. Specifically, we design a novel cross-modal transformer module for facial priors estimation, in which an input face and its landmark features are formulated as queries and keys, respectively. Such a design encourages joint feature learning across the input facial and landmark features, and deep feature correspondences will be discovered by attention. Thus, facial appearance features and facial geometry priors are learned in a mutual promotion manner. Extensive experiments demonstrate that our Pro-UIGAN achieves visually pleasing HR faces, reaching superior performance in downstream tasks, i.e., face alignment, face parsing, face recognition and expression classification, compared with other state-of-the-art (SotA) methods.
翻訳日:2021-08-03 15:17:10 公開日:2021-08-02
# rindnet: 反射、照明、正常、深さの不連続性のエッジ検出

RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth ( http://arxiv.org/abs/2108.00616v1 )

ライセンス: Link先を確認
Mengyang Pu, Yaping Huang, Qingji Guan and Haibin Ling(参考訳) コンピュータビジョンの基本的な構成要素として、エッジは表面反射、照明、表面正常、深さの不連続性に応じて4つのタイプに分類できる。 汎用エッジや個別エッジの検出には大きな進歩があったが、これら4つのエッジタイプを総合的に研究することは未検討のままである。 本稿では,新しいニューラルネットワークソリューション RINDNet を提案し,これら4種類のエッジを共同で検出する。 各エッジの異なる属性とそれらの関係を考慮すると、RINDNetはそれぞれのエッジに対して効果的な表現を学び、3段階で機能する。 ステージIでは、RINDNetは共通のバックボーンを使用して、すべてのエッジで共有される特徴を抽出する。 そして、ステージIIでは、対応するデコーダによって、エッジタイプごとに識別機能を準備するように分岐する。 ステージIIIでは、各タイプの独立決定ヘッドが前のステージの特徴を集約し、初期結果を予測する。 さらに、アテンションモジュールは、すべてのタイプのアテンションマップを学習し、それらの関係をキャプチャし、これらのマップを初期結果と組み合わせて最終的なエッジ検出結果を生成する。 トレーニングと評価のために,4種類のエッジを注意深く注釈付けした最初の公開ベンチマークbsds-rindを構築した。 我々の実験では、RINDNetは最先端の手法と比較して有望な結果が得られる。 追加分析は補足資料で示される。

As a fundamental building block in computer vision, edges can be categorised into four types according to the discontinuity in surface-Reflectance, Illumination, surface-Normal or Depth. While great progress has been made in detecting generic or individual types of edges, it remains under-explored to comprehensively study all four edge types together. In this paper, we propose a novel neural network solution, RINDNet, to jointly detect all four types of edges. Taking into consideration the distinct attributes of each type of edges and the relationship between them, RINDNet learns effective representations for each of them and works in three stages. In stage I, RINDNet uses a common backbone to extract features shared by all edges. Then in stage II it branches to prepare discriminative features for each edge type by the corresponding decoder. In stage III, an independent decision head for each type aggregates the features from previous stages to predict the initial results. Additionally, an attention module learns attention maps for all types to capture the underlying relations between them, and these maps are combined with initial results to generate the final edge detection results. For training and evaluation, we construct the first public benchmark, BSDS-RIND, with all four types of edges carefully annotated. In our experiments, RINDNet yields promising results in comparison with state-of-the-art methods. Additional analysis is presented in supplementary material.
翻訳日:2021-08-03 15:16:38 公開日:2021-08-02
# 3次元点雲物体検出における注意機構の検討

Investigating Attention Mechanism in 3D Point Cloud Object Detection ( http://arxiv.org/abs/2108.00620v1 )

ライセンス: Link先を確認
Shi Qiu, Yunfan Wu, Saeed Anwar, Chongyi Li(参考訳) 三次元(3D)空間における物体検出は、ロボット工学、自律運転、拡張現実といったAI駆動アプリケーションにおいて重要なタスクであるため、学術や産業から多くの関心を集めている。 3Dデータの基本形式として、ポイントクラウドは元の3D空間のオブジェクトに関する詳細な幾何学的情報を提供することができる。 しかし、3Dデータの幅と非順序性のため、この種のデータを処理するには特別に設計されたネットワークとモジュールが必要である。 注意機構は様々なコンピュータビジョンタスクにおいて顕著なパフォーマンスを達成したが、注意モジュールが3Dポイントクラウドオブジェクト検出のパフォーマンスにどのような影響を及ぼすのか、また、どのような注意モジュールが3Dデータ固有の特性に適合するかは不明である。 本研究では,3dポイントクラウドオブジェクト検出におけるアテンション機構の役割を調査し,アテンションモジュールの可能性を考察する。 そこで本研究では,SUN RGB-DおよびScanNetV2データセット上でのクラウドトランスフォーマの最新点を含む,従来の2Dアテンション,新しい3Dアテンションを包括的に調査する。 詳細な実験と分析に基づいて,注意モジュールの違いが与える影響を結論づける。 本稿では,注意を組み込んだ3dポイントクラウドオブジェクト検出のためのリファレンスソースとしての役割を期待する。 コードとトレーニングされたモデルは、https://github.com/S hiQiu0419/attentions _in_3D_detectionで利用可能だ。

Object detection in three-dimensional (3D) space attracts much interest from academia and industry since it is an essential task in AI-driven applications such as robotics, autonomous driving, and augmented reality. As the basic format of 3D data, the point cloud can provide detailed geometric information about the objects in the original 3D space. However, due to 3D data's sparsity and unorderedness, specially designed networks and modules are needed to process this type of data. Attention mechanism has achieved impressive performance in diverse computer vision tasks; however, it is unclear how attention modules would affect the performance of 3D point cloud object detection and what sort of attention modules could fit with the inherent properties of 3D data. This work investigates the role of the attention mechanism in 3D point cloud object detection and provides insights into the potential of different attention modules. To achieve that, we comprehensively investigate classical 2D attentions, novel 3D attentions, including the latest point cloud transformers on SUN RGB-D and ScanNetV2 datasets. Based on the detailed experiments and analysis, we conclude the effects of different attention modules. This paper is expected to serve as a reference source for benefiting attention-embedded 3D point cloud object detection. The code and trained models are available at: https://github.com/S hiQiu0419/attentions _in_3D_detection.
翻訳日:2021-08-03 15:16:16 公開日:2021-08-02
# LDDMM-Face:フレキシブルかつ一貫性のある顔アライメントのための大変形拡散型メトリックラーニング

LDDMM-Face: Large Deformation Diffeomorphic Metric Learning for Flexible and Consistent Face Alignment ( http://arxiv.org/abs/2108.00690v1 )

ライセンス: Link先を確認
Huilin Yang, Junyan Lyu, Pujin Cheng, Xiaoying Tang(参考訳) 本稿では, フレキシブルで一貫した顔アライメントフレームワーク LDDMM-Face を革新的に提案する。 ヒートマップや座標回帰によって顔のランドマークを予測する代わりに、このタスクをディファモーフィックな登録方法で定式化し、初期境界と真の境界の間の変形を一意にパラメータ化するモーメントを予測し、曲線とランドマークを同時に大変形ディファモーフィメトリックマッピング(lddmm)を行い、顔のランドマークを局所化する。 ディープネットワークへのltdmmの埋め込みにより、lddmm-faceはあいまいさなく一貫して顔のランドマークに注釈を付けることができ、様々なアノテーションスキームを柔軟に処理できる。 本手法は様々な顔アライメントネットワークに容易に統合できる。 我々は,300W,WFLW,HELEN,COF W-68の4つのベンチマークデータセット上でLDDMM-Faceを広範囲に評価した。 lddmm-faceは、従来のイントラデータセットや同注釈設定の最先端の手法に匹敵する、あるいは優れているが、弱い教師付き学習(部分対フル)、挑戦的なケース(例: occluded faces)、異なるトレーニングと予測データセットを扱う際の優れたパフォーマンスと真に区別する。 さらに、LCDMM-Faceは、異なるアノテーションスキームを持つデータセット間で予測する最も難しいタスクにおいて、有望な結果を示す。

We innovatively propose a flexible and consistent face alignment framework, LDDMM-Face, the key contribution of which is a deformation layer that naturally embeds facial geometry in a diffeomorphic way. Instead of predicting facial landmarks via heatmap or coordinate regression, we formulate this task in a diffeomorphic registration manner and predict momenta that uniquely parameterize the deformation between initial boundary and true boundary, and then perform large deformation diffeomorphic metric mapping (LDDMM) simultaneously for curve and landmark to localize the facial landmarks. Due to the embedding of LDDMM into a deep network, LDDMM-Face can consistently annotate facial landmarks without ambiguity and flexibly handle various annotation schemes, and can even predict dense annotations from sparse ones. Our method can be easily integrated into various face alignment networks. We extensively evaluate LDDMM-Face on four benchmark datasets: 300W, WFLW, HELEN and COFW-68. LDDMM-Face is comparable or superior to state-of-the-art methods for traditional within-dataset and same-annotation settings, but truly distinguishes itself with outstanding performance when dealing with weakly-supervised learning (partial-to-full), challenging cases (e.g., occluded faces), and different training and prediction datasets. In addition, LDDMM-Face shows promising results on the most challenging task of predicting across datasets with different annotation schemes.
翻訳日:2021-08-03 15:15:54 公開日:2021-08-02
# マッチングを学ぶ:ビジュアルトラッキングのための自動マッチングネットワーク設計

Learn to Match: Automatic Matching Network Design for Visual Tracking ( http://arxiv.org/abs/2108.00803v1 )

ライセンス: Link先を確認
Zhipeng Zhang, Yihao Liu, Xiao Wang, Bing Li, Weiming Hu(参考訳) シームズ追跡は近年、効率的な整合演算子相互相関とその変種を基本とする画期的な性能を達成している。 顕著な成功に加えて、ヒューリスティックなマッチングネットワーク設計は専門家の経験に大きく依存していることに注意する必要がある。 さらに,1つの単独マッチング演算子では,すべての困難な環境で安定したトラッキングを保証することが困難であることが実験的に判明した。 そこで,本研究では,特徴融合の観点から,類似性学習(Concatenation, Pointwise-Addition, Pairwise-Relation, FiLM, Simple-Transformer, Transductive-Guidanc e)の6つの新しいマッチング演算子を紹介し,マッチング演算子選択の実現可能性について検討する。 分析により, 異なる環境劣化型に対する操作者の選択的適応性を明らかにし, 相補的特徴を探求するきっかけとなった。 そこで本稿では,これらの演算子の最適組み合わせを探索するためのバイナリチャネル操作(BCM)を提案する。 bcmは、他の追跡ステップへの貢献を学習することによって、あるオペレータを再訓練または破棄することを決定する。 学習したマッチングネットワークを強力なベースライントラッカーであるOceanに挿入することで、当社のモデルは67.2 \rightarrow 71.4$, 5,2.6 \rightarrow 58.3$, 70.3 \rightarrow 76.0$, OTB100, LaSOT, TrackingNetでそれぞれ良好な利益を得ることができた。 特に、automattchと呼ばれる当社のトラッカーは、ベースライントラッカよりもトレーニングデータ/時間の半分未満で、pytorchを使用して50fpsで動作します。 コードとモデルはhttps://github.com/J udasDie/SOTS.comでリリースされる。

Siamese tracking has achieved groundbreaking performance in recent years, where the essence is the efficient matching operator cross-correlation and its variants. Besides the remarkable success, it is important to note that the heuristic matching network design relies heavily on expert experience. Moreover, we experimentally find that one sole matching operator is difficult to guarantee stable tracking in all challenging environments. Thus, in this work, we introduce six novel matching operators from the perspective of feature fusion instead of explicit similarity learning, namely Concatenation, Pointwise-Addition, Pairwise-Relation, FiLM, Simple-Transformer and Transductive-Guidanc e, to explore more feasibility on matching operator selection. The analyses reveal these operators' selective adaptability on different environment degradation types, which inspires us to combine them to explore complementary features. To this end, we propose binary channel manipulation (BCM) to search for the optimal combination of these operators. BCM determines to retrain or discard one operator by learning its contribution to other tracking steps. By inserting the learned matching networks to a strong baseline tracker Ocean, our model achieves favorable gains by $67.2 \rightarrow 71.4$, $52.6 \rightarrow 58.3$, $70.3 \rightarrow 76.0$ success on OTB100, LaSOT, and TrackingNet, respectively. Notably, Our tracker, dubbed AutoMatch, uses less than half of training data/time than the baseline tracker, and runs at 50 FPS using PyTorch. Code and model will be released at https://github.com/J udasDie/SOTS.
翻訳日:2021-08-03 15:15:22 公開日:2021-08-02
# I2V-GAN:赤外線可視光ビデオ翻訳

I2V-GAN: Unpaired Infrared-to-Visible Video Translation ( http://arxiv.org/abs/2108.00913v1 )

ライセンス: Link先を確認
Shuang Li, Bingfeng Han, Zhenjie Yu, Chi Harold Liu, Kai Chen, Shuigen Wang(参考訳) 人間の視覚はしばしば複雑な環境要因、特に夜間視覚のシナリオに影響される。 したがって、赤外線カメラは周囲の環境の赤外線を検知することで視覚効果を高めるためにしばしば利用されるが、詳細な意味情報の欠如により赤外線映像は望ましくない。 この場合、赤外線領域から可視光領域への効果的な映像から映像への変換は、赤外線領域と可視領域の間の内在的な大きなギャップを克服することによって強く必要となる。 この課題に対処するために、不対向赤外線ビデオによって微細で時空間的に一貫した可視光ビデオを生成する赤外線可視(I2V)ビデオ変換法I2V-GANを提案する。 技術的には,1) 実物に近い合成フレームを生成するための対角的制約,2) 効果的なコンテント変換とスタイル保存のために導入された知覚的損失に対する循環的整合性,3) 空間空間と時間空間の両方におけるコンテントと運動の整合性を高めるためのドメイン内および領域内における相似性制約,である。 さらに、現在公開されている赤外線と可視光のデータセットは、主にオブジェクトの検出や追跡に使われており、ビデオタスクには適さない不連続画像で構成されているものもある。 そこで我々は,IRVI と呼ばれる I2V ビデオ翻訳のための新しいデータセットを提供する。 具体的には、車両と監視シーンの12連続のビデオクリップがあり、赤外線と可視光の両方を24352フレームに分割することができる。 包括的な実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。 コードとIRVIデータセットはhttps://github.com/B IT-DA/I2V-GANで公開されている。

Human vision is often adversely affected by complex environmental factors, especially in night vision scenarios. Thus, infrared cameras are often leveraged to help enhance the visual effects via detecting infrared radiation in the surrounding environment, but the infrared videos are undesirable due to the lack of detailed semantic information. In such a case, an effective video-to-video translation method from the infrared domain to the visible light counterpart is strongly needed by overcoming the intrinsic huge gap between infrared and visible fields. To address this challenging problem, we propose an infrared-to-visible (I2V) video translation method I2V-GAN to generate fine-grained and spatial-temporal consistent visible light videos by given unpaired infrared videos. Technically, our model capitalizes on three types of constraints: 1)adversarial constraint to generate synthetic frames that are similar to the real ones, 2)cyclic consistency with the introduced perceptual loss for effective content conversion as well as style preservation, and 3)similarity constraints across and within domains to enhance the content and motion consistency in both spatial and temporal spaces at a fine-grained level. Furthermore, the current public available infrared and visible light datasets are mainly used for object detection or tracking, and some are composed of discontinuous images which are not suitable for video tasks. Thus, we provide a new dataset for I2V video translation, which is named IRVI. Specifically, it has 12 consecutive video clips of vehicle and monitoring scenes, and both infrared and visible light videos could be apart into 24352 frames. Comprehensive experiments validate that I2V-GAN is superior to the compared SOTA methods in the translation of I2V videos with higher fluency and finer semantic details. The code and IRVI dataset are available at https://github.com/B IT-DA/I2V-GAN.
翻訳日:2021-08-03 15:14:48 公開日:2021-08-02
# 私の目が見えてきた: マスク付き顔認識で露見した領域に焦点をあてる

My Eyes Are Up Here: Promoting Focus on Uncovered Regions in Masked Face Recognition ( http://arxiv.org/abs/2108.00996v1 )

ライセンス: Link先を確認
Pedro C. Neto, Fadi Boutros, Mohsen Saffari, Jo\~ao Ribeiro Pinto, Naser Damer, Ana F. Sequeira, Jaime S. Cardoso(参考訳) 新型コロナウイルスのパンデミックや、いくつかの国でマスクを着用することが義務付けられているという事実は、顔認識システム(FRS)の使用に課題を生み出した。 本研究では,マスク付き顔認証(MFR)の課題に対処し,マスク付き顔とマスクなし顔の検証において,マスク付き顔とマスクなし顔のみの検証に焦点をあてる。 本研究では,従来の三重項損失と平均二乗誤差(MSE)を組み合わせることで,マスク付き非マスク比較モードにおけるMFRシステムのロバスト性を改善する手法を提案する。 提案手法により得られた結果は,ステップワイドアブレーション研究において改善された。 本研究は,2つの評価データベースにおけるトレーニングパラダイムと修正三重項損失により有意な性能向上を示した。

The recent Covid-19 pandemic and the fact that wearing masks in public is now mandatory in several countries, created challenges in the use of face recognition systems (FRS). In this work, we address the challenge of masked face recognition (MFR) and focus on evaluating the verification performance in FRS when verifying masked vs unmasked faces compared to verifying only unmasked faces. We propose a methodology that combines the traditional triplet loss and the mean squared error (MSE) intending to improve the robustness of an MFR system in the masked-unmasked comparison mode. The results obtained by our proposed method show improvements in a detailed step-wise ablation study. The conducted study showed significant performance gains induced by our proposed training paradigm and modified triplet loss on two evaluation databases.
翻訳日:2021-08-03 15:14:18 公開日:2021-08-02
# 強度と幾何学的情報に基づく樹木点雲のウッドリーフ分類

Wood-leaf classification of tree point cloud based on intensity and geometrical information ( http://arxiv.org/abs/2108.01002v1 )

ライセンス: Link先を確認
Jingqian Sun, Pei Wang, Zhiyong Gao, Zichu Liu, Yaxin Li, Xiaozheng Gan(参考訳) 地上レーザー走査(TLS)は高精度で高密度のツリーポイント雲を得ることができる。 樹木の構造パラメータと生態特性を研究するためには,効率的な木点と葉点の分類が不可欠である。 強度情報と空間情報の両方を用いて,自動木葉分類を実現するために3段階の分類と検証手法を提案した。 木点雲は,強度閾値,近傍密度,ボクセル化によって,木点と葉点に分類した。 実験は北京のハイディアンパークで行われ、RIEGL VZ-400スキャナーを用いて24本の木がスキャンされた。 木点雲は,本手法を用いて処理され,その分類結果と標準値として使用した手動分類結果との比較を行った。 分類精度を評価するために, 総合精度 (oa), kappa係数 (kappa) およびマシューズ相関係数 (mcc) の3つの指標を用いた。 提案手法のOA, Kappa, MCCの範囲は0.9167から0.9872, 0.7276から0.9191, 0.7544から0.9211である。 OA、Kappa、MCCの平均値はそれぞれ0.9550、0.8547、0.8627である。 木葉分類の時間費用も,アルゴリズムの効率を評価するために記録された。 平均処理時間は1億ポイントあたり1.4秒である。 その結果,本手法は実験データに基づく木葉分類において,自動的かつ迅速に動作することがわかった。

Terrestrial laser scanning (TLS) can obtain tree point cloud with high precision and high density. Efficient classification of wood points and leaf points is essential to study tree structural parameters and ecological characteristics. By using both the intensity and spatial information, a three-step classification and verification method was proposed to achieve automated wood-leaf classification. Tree point cloud was classified into wood points and leaf points by using intensity threshold, neighborhood density and voxelization successively. Experiment was carried in Haidian Park, Beijing, and 24 trees were scanned by using the RIEGL VZ-400 scanner. The tree point clouds were processed by using the proposed method, whose classification results were compared with the manual classification results which were used as standard results. To evaluate the classification accuracy, three indicators were used in the experiment, which are Overall Accuracy (OA), Kappa coefficient (Kappa) and Matthews correlation coefficient (MCC). The ranges of OA, Kappa and MCC of the proposed method are from 0.9167 to 0.9872, from 0.7276 to 0.9191, and from 0.7544 to 0.9211 respectively. The average values of OA, Kappa and MCC are 0.9550, 0.8547 and 0.8627 respectively. Time cost of wood-leaf classification was also recorded to evaluate the algorithm efficiency. The average processing time are 1.4 seconds per million points. The results showed that the proposed method performed well automatically and quickly on wood-leaf classification based on the experimental dataset.
翻訳日:2021-08-03 15:14:02 公開日:2021-08-02
# ツイートとApp Storeレビューによるマイニング機能要求とバグレポートの転送学習

Transfer Learning for Mining Feature Requests and Bug Reports from Tweets and App Store Reviews ( http://arxiv.org/abs/2108.00663v1 )

ライセンス: Link先を確認
Pablo Restrepo Henao, Jannik Fischbach, Dominik Spies, Julian Frattini, and Andreas Vogelsang(参考訳) 機能要求とバグレポートをユーザコメントで特定することは、開発チームにとって大きな可能性を秘めている。 しかし,(1)ユーザコメントの約70%はノイズや無関係な情報を含むため,ソーシャルメディアやアプリストアからのRE関連情報の自動マイニングは困難であり,(2)ユーザコメントの量は日々増加し,手動による分析は不可能であり,(3)ユーザコメントは異なる言語で書かれる。 既存のアプローチは、従来の機械学習(ML)とディープラーニング(DL)をベースにしているが、この機能要求やバグレポートを高いリコールと許容精度で検出することができない。 本稿では,ユーザコメントの分類における転送学習(TL)の可能性について検討する。 具体的には,単言語モデルと多言語モデルの両方を訓練し,その性能を最先端手法と比較する。 モノリンガルBERTモデルは、英語およびイタリア語のつぶやきだけでなく、英語App Reviewsの分類において、既存のベースライン手法よりも優れていることがわかった。 しかし,重み付きTLモデルの適用が必ずしも性能向上につながるとは限らないことも確認した。 実際、我々の多言語BERTモデルは従来のML手法よりも性能が劣る。

Identifying feature requests and bug reports in user comments holds great potential for development teams. However, automated mining of RE-related information from social media and app stores is challenging since (1) about 70% of user comments contain noisy, irrelevant information, (2) the amount of user comments grows daily making manual analysis unfeasible, and (3) user comments are written in different languages. Existing approaches build on traditional machine learning (ML) and deep learning (DL), but fail to detect feature requests and bug reports with high Recall and acceptable Precision which is necessary for this task. In this paper, we investigate the potential of transfer learning (TL) for the classification of user comments. Specifically, we train both monolingual and multilingual BERT models and compare the performance with state-of-the-art methods. We found that monolingual BERT models outperform existing baseline methods in the classification of English App Reviews as well as English and Italian Tweets. However, we also observed that the application of heavyweight TL models does not necessarily lead to better performance. In fact, our multilingual BERT models perform worse than traditional ML methods.
翻訳日:2021-08-03 15:13:37 公開日:2021-08-02
# 模倣学習におけるアダプティブt-momentum-based optimization for unknown ratio of outliers in amateur data

Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in Amateur Data in Imitation Learning ( http://arxiv.org/abs/2108.00625v1 )

ライセンス: Link先を確認
Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi, Kenji Sugimoto(参考訳) 行動クローニング(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。 しかしながら、人間のオペレーターによるデモンストレーションでは、未確認の場合には模倣者の効率に影響を与えるノイズや不完全な振る舞いがしばしば含まれる。 不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。 このアルゴリズムは、重い尾のデータを処理し、外部観測の効果を減らすために、学生のt分布に基づいて構築される。 適応的かつ自動的なロバスト性を実現するためにt-momentumアルゴリズムを拡張し、未知のヘビーネスを持つデータセットに対してロバストなbc模倣子を生成するために、このアルゴリズムをどのように利用できるか実証的に示す。 実際、t-momentumベースのadamオプティマイザで訓練された模倣者は、異なるロボットで2つの異なる操作タスクで不完全なデモンストレーションを行うための堅牢さを示し、非最適動作の悪影響を低減しながら、追加データを利用する能力を明らかにしました。

Behavioral cloning (BC) bears a high potential for safe and direct transfer of human skills to robots. However, demonstrations performed by human operators often contain noise or imperfect behaviors that can affect the efficiency of the imitator if left unchecked. In order to allow the imitators to effectively learn from imperfect demonstrations, we propose to employ the robust t-momentum optimization algorithm. This algorithm builds on the Student's t-distribution in order to deal with heavy-tailed data and reduce the effect of outlying observations. We extend the t-momentum algorithm to allow for an adaptive and automatic robustness and show empirically how the algorithm can be used to produce robust BC imitators against datasets with unknown heaviness. Indeed, the imitators trained with the t-momentum-based Adam optimizers displayed robustness to imperfect demonstrations on two different manipulation tasks with different robots and revealed the capability to take advantage of the additional data while reducing the adverse effect of non-optimal behaviors.
翻訳日:2021-08-03 15:11:36 公開日:2021-08-02
# 車両インターネットにおける深層強化学習フレームワークに対する敵意攻撃

Adversarial Attacks Against Deep Reinforcement Learning Framework in Internet of Vehicles ( http://arxiv.org/abs/2108.00833v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 機械学習(ML)は、広範囲の車載アプリケーションにおいて、驚くべき影響と変革をもたらしています。 インターネット・オブ・ビークルズ(IoV)におけるMLの利用が進み続けており、敵の脅威とその影響は探究する価値のある研究対象となっている。 本稿では,深部強化学習(DRL)支援IoVフレームワークに対するSybilベースの敵対的脅威,具体的にはIoVにおけるDRLベースの動的サービス配置に着目した。 DRLをベースとした動的サービス配置アプリケーションにおいて,異なる攻撃シナリオ下でのサービス遅延とリソース混雑の影響を実車軌道で解析する実験を行った。 ネットワークにおけるシビル攻撃車両の割合の影響についても検討する。 その結果,sybilベースのデータ中毒攻撃は,悪意のない健全なネットワークシナリオと比較した場合,その性能に大きく影響することが示された。

Machine learning (ML) has made incredible impacts and transformations in a wide range of vehicular applications. As the use of ML in Internet of Vehicles (IoV) continues to advance, adversarial threats and their impact have become an important subject of research worth exploring. In this paper, we focus on Sybil-based adversarial threats against a deep reinforcement learning (DRL)-assisted IoV framework and more specifically, DRL-based dynamic service placement in IoV. We carry out an experimental study with real vehicle trajectories to analyze the impact on service delay and resource congestion under different attack scenarios for the DRL-based dynamic service placement application. We further investigate the impact of the proportion of Sybil-attacked vehicles in the network. The results demonstrate that the performance is significantly affected by Sybil-based data poisoning attacks when compared to adversary-free healthy network scenario.
翻訳日:2021-08-03 15:11:15 公開日:2021-08-02
# PSA-GAN: 時系列合成のためのプログレッシブセルフアテンションGAN

PSA-GAN: Progressive Self Attention GANs for Synthetic Time Series ( http://arxiv.org/abs/2108.00981v1 )

ライセンス: Link先を確認
Jeha Paul, Bohlke-Schneider Michael, Mercado Pedro, Singh Nirwan Rajbir, Kapoor Shubham, Flunkert Valentin, Gasthaus Jan, Januschowski Tim(参考訳) 十分な長さのリアルな合成時系列データは、予測などの時系列モデリングタスクに実用的な応用を可能にするが、依然として課題である。 本稿では,GAN(Generative Adversarial Network, GAN)を用いて, GANの進行的成長と自己注意を用いて, 高品質の時系列サンプルを生成する。 PSA-GANは,実データのみを使用するベースライン上の2つの下流予測タスクにおいて,誤差を低減できることを示す。 また、Frechet-Inception Distance-like scoreであるContext-FIDを導入し、合成時系列サンプルの品質を評価する。 下流のタスクでは、最も低いスコアリングモデルは最もパフォーマンスの高いものに対応しています。 したがって、Context-FIDは時系列GANモデルを開発するのに役立つ。

Realistic synthetic time series data of sufficient length enables practical applications in time series modeling tasks, such as forecasting, but remains a challenge. In this paper we present PSA-GAN, a generative adversarial network (GAN) that generates long time series samples of high quality using progressive growing of GANs and self-attention. We show that PSA-GAN can be used to reduce the error in two downstream forecasting tasks over baselines that only use real data. We also introduce a Frechet-Inception Distance-like score, Context-FID, assessing the quality of synthetic time series samples. In our downstream tasks, we find that the lowest scoring models correspond to the best-performing ones. Therefore, Context-FID could be a useful tool to develop time series GAN models.
翻訳日:2021-08-03 15:11:03 公開日:2021-08-02
# Sequoia: 継続的な学習研究を統合するソフトウェアフレームワーク

Sequoia: A Software Framework to Unify Continual Learning Research ( http://arxiv.org/abs/2108.01005v1 )

ライセンス: Link先を確認
Fabrice Normandin, Florian Golemo, Oleksiy Ostapenko, Pau Rodriguez, Matthew D Riemer, Julio Hurtado, Khimya Khetarpal1, Dominic Zhao, Ryan Lindeborg, Thimoth\'ee Lesort, Laurent Charlin, Irina Rish, Massimo Caccia(参考訳) 連続学習(cl)の分野は、非定常環境とデータ分散とのインタラクションを通じて、時間とともに知識とスキルを蓄積するアルゴリズムの開発を目指している。 CL の進行度を測定することは、CL 問題に関する多くの評価手順 (\emph{settings}) とアルゴリズム解 (\emph{methods}) が出現し、それぞれが、CL 問題に関する仮定に相反する可能性があるため困難である。 この研究では、各設定を \emph{assumption} の集合とみなす。 次に、CLにおける研究環境のツリー型階層を作成し、より一般的な設定がより制限的な仮定を持つ人の親となる。 これにより、遺伝を利用して研究を共有、再利用することが可能となり、与えられた設定の方法を開発することで、子供にも直接適用することができる。 我々はこのアイデアを,CSL(Continuous Supervised Learning)ドメインとCRL(Continuous Reinforcement Learning)ドメインの両方からさまざまな設定を特徴とする,"emph{Sequoia}"という,公開可能なソフトウェアフレームワークとしてインスタンス化する。 sequoiaには、拡張やカスタマイズが容易なメソッドスイートや、サードパーティライブラリのより専門的なメソッドも含まれている。 我々は,この新たなパラダイムとその最初の実装が,CLにおける研究の統合と加速の基礎となることを願っている。 ツリーの成長を助けるには、 \url{www.github.com/lebri ce/sequoia} を参照してください。

The field of Continual Learning (CL) seeks to develop algorithms that accumulate knowledge and skills over time through interaction with non-stationary environments and data distributions. Measuring progress in CL can be difficult because a plethora of evaluation procedures (\emph{settings}) and algorithmic solutions (\emph{methods}) have emerged, each with their own potentially disjoint set of assumptions about the CL problem. In this work, we view each setting as a set of \emph{assumptions}. We then create a tree-shaped hierarchy of the research settings in CL, in which more general settings become the parents of those with more restrictive assumptions. This makes it possible to use inheritance to share and reuse research, as developing a method for a given setting also makes it directly applicable onto any of its children. We instantiate this idea as a publicly available software framework called \emph{Sequoia}, which features a variety of settings from both the Continual Supervised Learning (CSL) and Continual Reinforcement Learning (CRL) domains. Sequoia also includes a growing suite of methods which are easy to extend and customize, in addition to more specialized methods from third-party libraries. We hope that this new paradigm and its first implementation can serve as a foundation for the unification and acceleration of research in CL. You can help us grow the tree by visiting \url{www.github.com/lebri ce/Sequoia}.
翻訳日:2021-08-03 15:10:48 公開日:2021-08-02
# 特徴のマルチビュー分類のためのフレームワーク

A Framework for Multi-View Classification of Features ( http://arxiv.org/abs/2108.01019v1 )

ライセンス: Link先を確認
Khalil Taheri, Hadi Moradi, Mostafa Tavassolipour(参考訳) パターン認識の分野で最も重要な問題の1つは、データ分類である。 データ分類の分野で導入された技術の発展により、いくつかのソリューションはまだオープンであり、さらなる研究が必要である。 この領域における課題の1つは、データ分類問題の特徴集合の次元性の呪いである。 データ分類問題の解決では、機能セットが大きすぎると、典型的なアプローチではその問題を解決することができない。 この場合、特徴集合を複数の特徴部分集合に分割して、各特徴集合に対してデータ分類問題を解決し、最後にアンサンブル分類を用いることで、特徴集合全体に分類を適用することができる。 上述のアプローチでは、特徴集合を特徴部分集合に分割することは、この分野の文献における興味深い分野である。 本研究では,人間の多視点理論における物体認識の問題に触発された,多視点アンサンブル分類のための革新的な枠組みを提案する。 本手法では,まず,特徴の協調基準と呼ばれる基準を用いて,特徴間の協調値を算出する。 そして、算出されたコラボレーション値に基づいてコラボレーショングラフを形成する。 次のステップでは、コミュニティ検出手法を使用して、グラフコミュニティを見つける。 コミュニティは問題ビューと見なされ、異なるベース分類器は対応するトレーニングデータを用いて異なるビューのために訓練される。 マルチビューアンサンブル分類器は、adaboostアルゴリズムに基づくベース分類器の組み合わせによって構成される。 実データと合成データを用いたシミュレーションの結果,提案手法により分類精度が向上した。

One of the most important problems in the field of pattern recognition is data classification. Due to the increasing development of technologies introduced in the field of data classification, some of the solutions are still open and need more research. One of the challenging problems in this area is the curse of dimensionality of the feature set of the data classification problem. In solving the data classification problems, when the feature set is too large, typical approaches will not be able to solve the problem. In this case, an approach can be used to partition the feature set into multiple feature sub-sets so that the data classification problem is solved for each of the feature subsets and finally using the ensemble classification, the classification is applied to the entire feature set. In the above-mentioned approach, the partitioning of feature set into feature sub-sets is still an interesting area in the literature of this field. In this research, an innovative framework for multi-view ensemble classification, inspired by the problem of object recognition in the multiple views theory of humans, is proposed. In this method, at first, the collaboration values between the features is calculated using a criterion called the features collaboration criterion. Then, the collaboration graph is formed based on the calculated collaboration values. In the next step, using the community detection method, graph communities are found. The communities are considered as the problem views and the different base classifiers are trained for different views using the views corresponding training data. The multi-view ensemble classifier is then formed by a combination of base classifiers based on the AdaBoost algorithm. The simulation results of the proposed method on the real and synthetic datasets show that the proposed method increases the classification accuracy.
翻訳日:2021-08-03 15:10:20 公開日:2021-08-02
# 多目的パスベースD*ライト

Multi-Objective Path-Based D* Lite ( http://arxiv.org/abs/2108.00710v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) d* liteのようなインクリメンタルグラフ検索アルゴリズムは、同様の経路計画タスクを高速化するために、以前の検索作業を再利用する。 これらのアルゴリズムは、スクラッチからの検索と比較してその効率を実証し、未知の地形でのナビゲーションのような多くのアプリケーションで活用されている。 一方、パスプランニングでは、一般的に、旅行リスクや到着時間など、複数の競合対象を同時に最適化する。 多目的経路計画は、グラフのサイズに関して「パレート最適」な解の数が指数関数的に増加するため、類似の計画課題を解決する必要があるたびに、スクラッチから計画を立てるのが計算的に負担になるため、困難である。 本稿では,マルチ目的パスベースd* lite (mopbd*) と呼ばれる新しい多目的インクリメンタル検索アルゴリズムを提案する。 数値計算の結果,MOPBD* はスクラッチからの探索よりも効率的であり,既存の多目的経路計画法に比べて桁違いに高速であることがわかった。

Incremental graph search algorithms, such as D* Lite, reuse previous search efforts to speed up subsequent similar path planning tasks. These algorithms have demonstrated their efficiency in comparison with search from scratch, and have been leveraged in many applications such as navigation in unknown terrain. On the other hand, path planning typically involves optimizing multiple conflicting objectives simultaneously, such as travel risk, arrival time, etc. Multi-objective path planning is challenging as the number of "Pareto-optimal" solutions can grow exponentially with respect to the size of the graph, which makes it computationally burdensome to plan from scratch each time when similar planning tasks needs to be solved. This article presents a new multi-objective incremental search algorithm called Multi-Objective Path-Based D* Lite (MOPBD*) which reuses previous search efforts to speed up subsequent planning tasks while optimizing multiple objectives. Numerical results show that MOPBD* is more efficient than search from scratch and runs an order of magnitude faster than existing incremental method for multi-objective path planning.
翻訳日:2021-08-03 15:09:19 公開日:2021-08-02
# 安全区間計画を用いた多目的衝突探索

Multi-objective Conflict-based Search Using Safe-interval Path Planning ( http://arxiv.org/abs/2108.00745v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) 本稿では,旅行時間や経路リスクなど複数の競合目標を同時に最適化する,よく知られたマルチエージェント経路探索(mapf)問題の一般化について述べる。 この一般化は多目的MAPF (MOMAPF) と呼ばれ、有害物質輸送から建設現場計画まで、いくつかの応用で実現されている。 本稿では,その低レベル探索のための新しいマルチオブジェクトセーフインターバルパス計画(MO-SIPP)アルゴリズムに依存する,新しいマルチオブジェクトコンフリクトベースサーチ(MO-CBS)を提案する。 まずmo-sippアルゴリズムを開発し,その特性を示し,mo-cbsに組み込む。 その結果,(1)平均低レベルの探索時間には桁違いに改善がみられ,(2)パレートオプティカルフロントの探索成功率の大幅な向上が,アートの状況と比較して提案手法を用いて得られた。 最後に,建設現場計画における提案アルゴリズムの適用可能性を示すケーススタディを提案する。

This paper addresses a generalization of the well known multi-agent path finding (MAPF) problem that optimizes multiple conflicting objectives simultaneously such as travel time and path risk. This generalization, referred to as multi-objective MAPF (MOMAPF), arises in several applications ranging from hazardous material transportation to construction site planning. In this paper, we present a new multi-objective conflict-based search (MO-CBS) approach that relies on a novel multi-objective safe interval path planning (MO-SIPP) algorithm for its low-level search. We first develop the MO-SIPP algorithm, show its properties and then embed it in MO-CBS. We present extensive numerical results to show that (1) there is an order of magnitude improvement in the average low level search time, and (2) a significant improvement in the success rates of finding the Pareto-optimal front can be obtained using the proposed approach in comparison with the state of the art. Finally, we also provide a case study to demonstrate the potential application of the proposed algorithms for construction site planning.
翻訳日:2021-08-03 15:09:00 公開日:2021-08-02
# ソフトウェア要件優先順位付けのためのai技術

AI Techniques for Software Requirements Prioritization ( http://arxiv.org/abs/2108.00832v1 )

ライセンス: Link先を確認
Alexander Felfernig(参考訳) リソースの制限、市場要求の頻繁な変更、ソフトウェア要件(機能)の実装に関する技術的な制約といった側面は、しばしば要求の優先順位付けを要求する。 優先順位付けのタスクは、将来のソフトウェアリリースに含まれるべき要件のランク付けと選択です。 この文脈では、インテリジェントな優先順位決定支援が非常に重要です。 本稿では,要求優先プロセスの全体的な品質向上を支援する人工知能(AI)技術に基づく優先順位付け手法について述べる。

Aspects such as limited resources, frequently changing market demands, and different technical restrictions regarding the implementation of software requirements (features) often demand for the prioritization of requirements. The task of prioritization is the ranking and selection of requirements that should be included in future software releases. In this context, an intelligent prioritization decision support is extremely important. The prioritization approaches discussed in this paper are based on different Artificial Intelligence (AI) techniques that can help to improve the overall quality of requirements prioritization processes
翻訳日:2021-08-03 15:08:44 公開日:2021-08-02
# 興味分析に基づくユーザ人口統計の予測

Predicting user demographics based on interest analysis ( http://arxiv.org/abs/2108.01014v1 )

ライセンス: Link先を確認
Reza Shafiloo, Marjan Kaedi, Ali Pourmiri(参考訳) 近年,web 上で発生する情報量が増加しているため,ほとんどの web サービスプロバイダがサービスのパーソナライズを試みている。 ユーザは複数の方法でWebベースのシステムと対話し、提供されたアイテムを評価することによって、自分の興味や好みを述べる。 本稿では,システム利用者が登録した評価に基づいて,利用者の人口分布を予測する枠組みを提案する。 我々の知る限り、レコメンデーションシステムやサービスパーソナライゼーションにおいて広く研究されているユーザの人口予測問題に対して、項目評価が採用されるのは今回が初めてである。 このフレームワークをmovielensデータセットのレーティングに適用し、ユーザの年齢と性別を予測します。 実験結果から, 利用者が登録した全ての評価値を用いて予測精度を16%向上することが示された。 さらに, 商品を人気度と不人気度に分類することで, 95%の品目に属する格付けを排除し, 精度が許容できるレベルまで到達した。 これにより、時間を要する環境でのアップデートコストが大幅に削減される。 この分類に加えて,予測精度を維持しつつデータ量を削減する手法を提案する。

These days, due to the increasing amount of information generated on the web, most web service providers try to personalize their services. Users also interact with web-based systems in multiple ways and state their interests and preferences by rating the provided items. This paper proposes a framework to predict users' demographic based on ratings registered by users in a system. To the best of our knowledge, this is the first time that the item ratings are employed for users' demographic prediction problems, which have extensively been studied in recommendation systems and service personalization. We apply the framework to the Movielens dataset's ratings and predict users' age and gender. The experimental results show that using all ratings registered by users improves the prediction accuracy by at least 16% compared with previously studied models. Moreover, by classifying the items as popular and unpopular, we eliminate ratings that belong to 95% of items and still reach an acceptable level of accuracy. This significantly reduces update costs in a time-varying environment. Besides this classification, we propose other methods to reduce data volume while keeping the predictions accurate.
翻訳日:2021-08-03 15:08:36 公開日:2021-08-02
# 電力市場浄化のための純需要規定

Prescribing net demand for electricity market clearing ( http://arxiv.org/abs/2108.01003v1 )

ライセンス: Link先を確認
Juan M. Morales, Miguel \'A. Mu\~noz and Salvador Pineda(参考訳) 我々は、フォワードとリアルタイム決済からなる2段階の電力市場を考える。 前者は、低コストの功労命令に従って電力系統を前払いし、不確実な純需要に直面する一方、後者は、システムの実際の運用中に電力規制を利用することで、前払いスケジュールに関する可算偏差に対処する。 標準産業の慣行は、電力規制の必要性をリアルタイムに最小化するために、条件付き期待値(通常はポイント予測と呼ばれる)を適切に見積もることによって、前段階における不確定な純需要に対処する。 しかし、電力系統のコスト構造が非対称であり、その運用点に依存することが知られており、電力不均衡の量を最小化することは必ずしも運用コストの最小化と一致しない。 本稿では,電力系統のコスト非対称性を考慮に入れた電力需要の代替推定法として,利用可能な履歴データから混合整数計画を提案する。 さらに,電力系統の運用ポイントに対するコストの強い依存に対応するために,提案する推定値を予測されたネット需要体制に合わせるためにクラスタリングを用いる。 欧州電力システムに基づく実証的な例とより現実的なケーススタディによって、我々のアプローチは、慣習的なやり方と比較してかなりのコスト削減をもたらすことが示されている。

We consider a two-stage electricity market comprising a forward and a real-time settlement. The former pre-dispatches the power system following a least-cost merit order and facing an uncertain net demand, while the latter copes with the plausible deviations with respect to the forward schedule by making use of power regulation during the actual operation of the system. Standard industry practice deals with the uncertain net demand in the forward stage by replacing it with a good estimate of its conditional expectation (usually referred to as a point forecast), so as to minimize the need for power regulation in real time. However, it is well known that the cost structure of a power system is highly asymmetric and dependent on its operating point, with the result that minimizing the amount of power imbalances is not necessarily aligned with minimizing operating costs. In this paper, we propose a mixed-integer program to construct, from the available historical data, an alternative estimate of the net demand that accounts for the power system's cost asymmetry. Furthermore, to accommodate the strong dependence of this cost on the power system's operating point, we use clustering to tailor the proposed estimate to the foreseen net-demand regime. By way of an illustrative example and a more realistic case study based on the European power system, we show that our approach leads to substantial cost savings compared to the customary way of doing.
翻訳日:2021-08-03 15:08:03 公開日:2021-08-02
# カレイドスコープ変換による離散フーリエ空間の局所フラクタルサンプリングパターン

Bespoke Fractal Sampling Patterns for Discrete Fourier Space via the Kaleidoscope Transform ( http://arxiv.org/abs/2108.00639v1 )

ライセンス: Link先を確認
Jacob M. White, Stuart Crozier, and Shekhar S. Chandra(参考訳) サンプリング戦略はスパースイメージング手法、特に離散フーリエ変換(dft)を用いる手法において重要である。 カオスセンシングは決定論的フラクタルサンプリングと有限反復再構成スキームを併用して限られたサンプルから画像を生成する手法の一つである。 DFT空間の周期線から完全に構成されたサンプリングパターンを用いることで、カオスセンシングは従来の圧縮された磁気共鳴イメージングよりも優れることがわかったが、そのようなサンプリングパターンは1つだけ提示され、そのフラクタル性は証明されなかった。 Through the introduction of a novel image transform known as the kaleidoscope transform, which formalises and extends upon the concept of downsampling and concatenating an image with itself, this paper: (1) demonstrates a fundamental relationship between multiplication in modular arithmetic and downsampling; (2) provides a rigorous mathematical explanation for the fractal nature of the sampling pattern in the DFT; and (3) leverages this understanding to develop a collection of novel fractal sampling patterns for the 2D DFT with customisable properties. テーラーメイドのフラクタルサンプリングパターンを設計する能力は、カオスイメージングにおけるDFTの有用性を拡大し、フラクタルサンプリングがイメージタスクにマッチして再構成を改善するようなカオスセンシング手法の基礎を形成する可能性がある。

Sampling strategies are important for sparse imaging methodologies, especially those employing the discrete Fourier transform (DFT). Chaotic sensing is one such methodology that employs deterministic, fractal sampling in conjunction with finite, iterative reconstruction schemes to form an image from limited samples. Using a sampling pattern constructed entirely from periodic lines in DFT space, chaotic sensing was found to outperform traditional compressed sensing for magnetic resonance imaging; however, only one such sampling pattern was presented and the reason for its fractal nature was not proven. Through the introduction of a novel image transform known as the kaleidoscope transform, which formalises and extends upon the concept of downsampling and concatenating an image with itself, this paper: (1) demonstrates a fundamental relationship between multiplication in modular arithmetic and downsampling; (2) provides a rigorous mathematical explanation for the fractal nature of the sampling pattern in the DFT; and (3) leverages this understanding to develop a collection of novel fractal sampling patterns for the 2D DFT with customisable properties. The ability to design tailor-made fractal sampling patterns expands the utility of the DFT in chaotic imaging and may form the basis for a bespoke chaotic sensing methodology, in which the fractal sampling matches the imaging task for improved reconstruction.
翻訳日:2021-08-03 15:06:35 公開日:2021-08-02
# PoseFusion2: バックグラウンドでの同時再構築と人体形状復元

PoseFusion2: Simultaneous Background Reconstruction and Human Shape Recovery in Real-time ( http://arxiv.org/abs/2108.00695v1 )

ライセンス: Link先を確認
Huayan Zhang, Tianwei Zhang, Tin Lun Lam, and Sethu Vijayakumar(参考訳) 非構造化移動オブジェクトを含む動的環境は、同時ローカライゼーションとマッピング(slam)のパフォーマンスに困難をもたらす。 剛体の運動は、そのテクスチャと幾何学的特徴を利用して追跡することができる。 しかし、現場を移動する人間は多くの場合、最も重要で対話的な標的の1つです。 そこで本研究では,動的物体を分離し,リアルタイムの濃密な背景復元フレームワークを実現するための高速学習に基づくヒューマンオブジェクト検出器を提案する。 さらに、人間のポーズや形状を推定し、再構成する。 最終的な出力環境マップは、密度の高い静的背景を提供するだけでなく、動的人間のメッシュとその軌道も含んでいる。 われわれのDynamic SLAMシステムはGPU上で約26フレーム/秒(fps)で動作し、同時に正確な人間のポーズ推定を最大10fpsで行うことができる。

Dynamic environments that include unstructured moving objects pose a hard problem for Simultaneous Localization and Mapping (SLAM) performance. The motion of rigid objects can be typically tracked by exploiting their texture and geometric features. However, humans moving in the scene are often one of the most important, interactive targets - they are very hard to track and reconstruct robustly due to non-rigid shapes. In this work, we present a fast, learning-based human object detector to isolate the dynamic human objects and realise a real-time dense background reconstruction framework. We go further by estimating and reconstructing the human pose and shape. The final output environment maps not only provide the dense static backgrounds but also contain the dynamic human meshes and their trajectories. Our Dynamic SLAM system runs at around 26 frames per second (fps) on GPUs, while additionally turning on accurate human pose estimation can be executed at up to 10 fps.
翻訳日:2021-08-03 15:06:15 公開日:2021-08-02
# クロスモーダル・ジョイント・エンベディング学習におけるDeep Feature Calibration

Efficient Deep Feature Calibration for Cross-Modal Joint Embedding Learning ( http://arxiv.org/abs/2108.00705v1 )

ライセンス: Link先を確認
Zhongwei Xie, Ling Liu, Lin Li, Luo Zhong(参考訳) 本稿では,データ前処理における深い特徴キャリブレーションを,関節埋め込みモデルのトレーニングから明確に分離する,セマンティクスを効率的に学習するための2段階の深層特徴キャリブレーションフレームワークを提案する。 技術的記述と実証検証にはRecipe1Mデータセットを使用します。 先行処理では,テキスト画像入力データから得られた意味的文脈特徴と深層特徴工学を組み合わせることで,深い特徴量校正を行う。 我々はLSTMを利用してキー項を識別し、キー項の特徴を生成する前にキー項のランキングスコアを生成する。 We leverage wideResNet50 to extract and encode the image category semantics to help semantic connection of the learned recipe and image embeddeds in the joint latent space。 組込み学習では,ソフトマージンと二重負サンプリングでバッチハード三重項損失関数を最適化し,カテゴリベースアライメント損失と判別器ベースアライメント損失を利用して,深い特徴校正を行う。 広汎な実験により, 深い特徴キャリブレーションによるSEJEのアプローチは, 最先端のアプローチよりも優れていることが示された。

This paper introduces a two-phase deep feature calibration framework for efficient learning of semantics enhanced text-image cross-modal joint embedding, which clearly separates the deep feature calibration in data preprocessing from training the joint embedding model. We use the Recipe1M dataset for the technical description and empirical validation. In preprocessing, we perform deep feature calibration by combining deep feature engineering with semantic context features derived from raw text-image input data. We leverage LSTM to identify key terms, NLP methods to produce ranking scores for key terms before generating the key term feature. We leverage wideResNet50 to extract and encode the image category semantics to help semantic alignment of the learned recipe and image embeddings in the joint latent space. In joint embedding learning, we perform deep feature calibration by optimizing the batch-hard triplet loss function with soft-margin and double negative sampling, also utilizing the category-based alignment loss and discriminator-based alignment loss. Extensive experiments demonstrate that our SEJE approach with the deep feature calibration significantly outperforms the state-of-the-art approaches.
翻訳日:2021-08-03 15:06:00 公開日:2021-08-02
# レシピ画像クロスモーダル検索サービスのためのtfidf強化ジョイント埋め込み学習

Learning TFIDF Enhanced Joint Embedding for Recipe-Image Cross-Modal Retrieval Service ( http://arxiv.org/abs/2108.00724v1 )

ライセンス: Link先を確認
Zhongwei Xie, Ling Liu, Yanzhao Wu, Lin Li, Luo Zhong(参考訳) 調理工程における材料組成や変形の多様さから, レシピと画像の融合埋め込みの学習は困難であることが広く認識されている。 本稿では,2つのモード間の共通特徴空間(テキストと画像)を学習するためのマルチモーダル・セマンティックス強化共同埋め込み(MSJE)手法を提案する。 msjeのアプローチには3つのユニークな特徴があります。 まず,レシピの題名,具材,調理指導からtfidfの特徴を抽出する。 LSTM学習特徴とTFIDF特徴を組み合わせて単語列の重要度を決定することにより、重要なキーワードを抽出するためのTFIDF重み付きベクトルにレシピをエンコードし、それに対応する調理指示にそのキーワードがどのように使われるかを示す。 第2に、レシピTFIDF機能と、2段階のLSTMネットワークから抽出されたレシピシーケンス機能を組み合わせることで、レシピとその関連画像のユニークな関係を捉えるのに有効である。 第3に,tfidf強化カテゴリセマンティクスを組み込んで画像モダリティのマッピングを改善し,クロスモーダル関節埋め込みの反復学習中に類似度損失関数を制御する。 ベンチマークデータセットRecipe1Mの実験では、提案されたアプローチは最先端のアプローチよりも優れていた。

It is widely acknowledged that learning joint embeddings of recipes with images is challenging due to the diverse composition and deformation of ingredients in cooking procedures. We present a Multi-modal Semantics enhanced Joint Embedding approach (MSJE) for learning a common feature space between the two modalities (text and image), with the ultimate goal of providing high-performance cross-modal retrieval services. Our MSJE approach has three unique features. First, we extract the TFIDF feature from the title, ingredients and cooking instructions of recipes. By determining the significance of word sequences through combining LSTM learned features with their TFIDF features, we encode a recipe into a TFIDF weighted vector for capturing significant key terms and how such key terms are used in the corresponding cooking instructions. Second, we combine the recipe TFIDF feature with the recipe sequence feature extracted through two-stage LSTM networks, which is effective in capturing the unique relationship between a recipe and its associated image(s). Third, we further incorporate TFIDF enhanced category semantics to improve the mapping of image modality and to regulate the similarity loss function during the iterative learning of cross-modal joint embedding. Experiments on the benchmark dataset Recipe1M show the proposed approach outperforms the state-of-the-art approaches.
翻訳日:2021-08-03 15:05:36 公開日:2021-08-02
# あいまいな物体分類のためのアクティブ・パーセプション

Active Perception for Ambiguous Objects Classification ( http://arxiv.org/abs/2108.00737v1 )

ライセンス: Link先を確認
Evgenii Safronov, Nicola Piga, Michele Colledanchise, and Lorenzo Natale(参考訳) 最近の視覚的ポーズ推定と追跡ソリューションは、T-LESSやYCBといった一般的なデータセットに顕著な結果をもたらす。 しかし、現実の世界では、単一の視点から正確な分類と検出を許さない曖昧な物体を見つけることができる。 本研究では,オブジェクトの単一ビューが与えられた場合,オブジェクトを類似するものと識別するための次の視点の座標を提供し,あいまいさを解消するフレームワークを提案する。 また、実際のオブジェクトのスキャンから視点の選択と分類まで、完全なパイプラインを記述する。 我々は,franka emika pandaロボットと,あいまいさを特徴とする一般的な家庭用ロボットを用いて,このアプローチを検証する。 実験を再現するソースコードをリリースしました。

Recent visual pose estimation and tracking solutions provide notable results on popular datasets such as T-LESS and YCB. However, in the real world, we can find ambiguous objects that do not allow exact classification and detection from a single view. In this work, we propose a framework that, given a single view of an object, provides the coordinates of a next viewpoint to discriminate the object against similar ones, if any, and eliminates ambiguities. We also describe a complete pipeline from a real object's scans to the viewpoint selection and classification. We validate our approach with a Franka Emika Panda robot and common household objects featured with ambiguities. We released the source code to reproduce our experiments.
翻訳日:2021-08-03 15:05:12 公開日:2021-08-02
# 潜在最適化による制約付きグラフィックレイアウト生成

Constrained Graphic Layout Generation via Latent Optimization ( http://arxiv.org/abs/2108.00871v1 )

ライセンス: Link先を確認
Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi(参考訳) グラフィックデザインでは、人間がデザイン意図やセマンティクスに応じて視覚的に様々な要素を配置するのが一般的である。 例えば、タイトルテキストはほとんどの場合、ドキュメント内の他の要素の上に表示される。 本研究では,ユーザによって暗黙的に,あるいは明示的に指定された設計意味を柔軟に組み込むことのできるグラフィックレイアウトを生成する。 既成のレイアウト生成モデルの潜在空間の利用を最適化し、既存のレイアウト生成モデルと補完し、使用できるようにする。 本手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいて構築され,要素のアライメント,重なり回避,その他のユーザ特定関係に設計制約を用いる制約付き最適化問題としてレイアウト生成を定式化する。 実験では,制約のある生成タスクと制約のない生成タスクの両方において,単一のモデルで現実的なレイアウトを生成できることを示す。 コードはhttps://github.com/k trk115/const_layoutで入手できる。

It is common in graphic design humans visually arrange various elements according to their design intent and semantics. For example, a title text almost always appears on top of other elements in a document. In this work, we generate graphic layouts that can flexibly incorporate such design semantics, either specified implicitly or explicitly by a user. We optimize using the latent space of an off-the-shelf layout generation model, allowing our approach to be complementary to and used with existing layout generation models. Our approach builds on a generative layout model based on a Transformer architecture, and formulates the layout generation as a constrained optimization problem where design constraints are used for element alignment, overlap avoidance, or any other user-specified relationship. We show in the experiments that our approach is capable of generating realistic layouts in both constrained and unconstrained generation tasks with a single model. The code is available at https://github.com/k trk115/const_layout .
翻訳日:2021-08-03 15:05:02 公開日:2021-08-02
# 空間的集積と不確かさを伴う多相肝腫瘍分画

Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting ( http://arxiv.org/abs/2108.00911v1 )

ライセンス: Link先を確認
Yue Zhang, Chengtao Pen, Liying Peng, Huimin Huang, RuofengTong, Lanfen Lin, Jingsong Li, Yen-Wei Chen, Qingqing Chen, HongjieHu, Zhiyi Peng(参考訳) 多相CT画像は肝腫瘍の正確なセグメンテーション(LiTS)に重要な相補的情報を提供する。 最先端多相LiTS法は通常、位相重み付け和やチャネルアテンションに基づく結合を通じて、相を融合する。 しかし、これらの手法は異なる位相間の空間的(ピクセル単位で)関係を無視し、機能統合が不十分になった。 また, 腫瘍境界領域では特に急激なセグメンテーションにおいて, 既存手法の性能は依然として不確実性に起因している。 本研究では,多相情報を適切に集約し,不確実領域分割を洗練するための新しいLiTS法を提案する。 この目的のために、異なる位相間の画素間相互作用を促進する空間集約モジュール(SAM)を導入し、クロスフェーズ情報を完全に活用する。 さらに,隣接する識別特徴を用いて不確実な画素を精査するための不確実な領域塗装モジュール(URIM)を考案した。 局所肝病変 (mpct-flls) の多相ctデータセットを用いた実験により, 肝腫瘍の分画を有望に達成し, 術式を上回った。

Multi-phase computed tomography (CT) images provide crucial complementary information for accurate liver tumor segmentation (LiTS). State-of-the-art multi-phase LiTS methods usually fused cross-phase features through phase-weighted summation or channel-attention based concatenation. However, these methods ignored the spatial (pixel-wise) relationships between different phases, hence leading to insufficient feature integration. In addition, the performance of existing methods remains subject to the uncertainty in segmentation, which is particularly acute in tumor boundary regions. In this work, we propose a novel LiTS method to adequately aggregate multi-phase information and refine uncertain region segmentation. To this end, we introduce a spatial aggregation module (SAM), which encourages per-pixel interactions between different phases, to make full use of cross-phase information. Moreover, we devise an uncertain region inpainting module (URIM) to refine uncertain pixels using neighboring discriminative features. Experiments on an in-house multi-phase CT dataset of focal liver lesions (MPCT-FLLs) demonstrate that our method achieves promising liver tumor segmentation and outperforms state-of-the-arts.
翻訳日:2021-08-03 15:04:46 公開日:2021-08-02
# L_1$正規化ニューラルネットワーク予測による二重ロバスト推定器のバイアス変動トレードオフ

The Bias-Variance Tradeoff of Doubly Robust Estimator with Targeted $L_1$ regularized Neural Networks Predictions ( http://arxiv.org/abs/2108.00990v1 )

ライセンス: Link先を確認
Mehdi Rostami, Olli Saarela, Michael Escobar(参考訳) ATEの二重ロバスト(DR)推定は、第1ステップでは治療と結果がモデル化され、第2ステップでは予測がDR推定器に挿入される2ステップで行うことができる。 最初の段階でのモデルの誤特定は、研究者がパラメトリックアルゴリズムの代わりに機械学習アルゴリズムを使うきっかけとなった。 しかし、強力な共同設立者やインストゥルメンタル変数(IVs)の存在は、複雑なMLアルゴリズムを導くことで、肯定的な仮定に違反し、DR推定器のばらつきを高めることができる治療モデルに完璧な予測を与えることができる。 したがって、MLアルゴリズムは、共同創設者と治療と結果の関係を学習しながら、治療モデルの完全な予測を避けるために制御されなければならない。 2つのニューラルネットワークアーキテクチャを使用して,そのハイパーパラメータを共同設立者やivsの存在下でチューニングして,dr estimatorなどのate推定者に対するバイアス分散トレードオフを低く抑える方法を検討する。 シミュレーションの結果から,NN を ATE 推定に利用する方法についての提言を行う。

The Doubly Robust (DR) estimation of ATE can be carried out in 2 steps, where in the first step, the treatment and outcome are modeled, and in the second step the predictions are inserted into the DR estimator. The model misspecification in the first step has led researchers to utilize Machine Learning algorithms instead of parametric algorithms. However, existence of strong confounders and/or Instrumental Variables (IVs) can lead the complex ML algorithms to provide perfect predictions for the treatment model which can violate the positivity assumption and elevate the variance of DR estimators. Thus the ML algorithms must be controlled to avoid perfect predictions for the treatment model while still learn the relationship between the confounders and the treatment and outcome. We use two Neural network architectures and investigate how their hyperparameters should be tuned in the presence of confounders and IVs to achieve a low bias-variance tradeoff for ATE estimators such as DR estimator. Through simulation results, we will provide recommendations as to how NNs can be employed for ATE estimation.
翻訳日:2021-08-03 15:03:36 公開日:2021-08-02
# 不確かさ量子化によるマルコフ確率場推定の高速化

Accelerating Markov Random Field Inference with Uncertainty Quantification ( http://arxiv.org/abs/2108.00570v1 )

ライセンス: Link先を確認
Ramin Bashizade, Xiangyu Zhang, Sayan Mukherjee, Alvin R. Lebeck(参考訳) 統計機械学習は様々な分野に広く応用されている。 これらの手法は確率分布から乱数を生成するマルコフ連鎖モンテカルロ(mcmc)のような確率論的アルゴリズムを含んでいる。 これらのアルゴリズムは従来のプロセッサでは計算コストがかかるが、その統計的性質、すなわち深層学習と比較して解釈可能性と不確実性定量化(UQ)は魅力的な代替手法である。 したがって、これらのアプリケーションを実行する際の従来のプロセッサの欠点に対処するために、ハードウェアの特殊化が採用できる。 本稿では,Gibs サンプリングを用いた MCMC を用いて,幅広いアプリケーションを表現する強力なモデルである Markov Random Field (MRF) 推論のための高スループット加速器を提案する。 MRFのセマンティクスに合わせて,ニアメモリコンピューティングを利用するタイルアーキテクチャとメモリ最適化を提案する。 さらに,UQを効率的にサポートするためのハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。 このメモリシステム設計は、MRFモデルに特化せず、確率論的アルゴリズムを用いたアプリケーションに適用できる。 さらに、チップ外のメモリ帯域幅を劇的に削減する。 提案アーキテクチャのFPGAプロトタイプを高レベル合成ツールを用いて実装し,Intel Arria 10 FPGA上で32個の関数ユニットを持つアクセラレータに対して146MHzの周波数を実現した。 FPGAの以前の研究と比較して、我々のアクセラレータは26倍のスピードアップを達成した。 さらに、UQをサポートするメモリシステムとロギング方式により、2つのアプリケーションに対してオフチップ帯域幅を71%削減する。 15nmのASIC分析では、3GHzで動作する2048の関数ユニットがNvidia RTX2080Tiの動作推定とステレオビジョンのGPU実装を120X-210Xで上回り、面積の7.7%しか占めていない。

Statistical machine learning has widespread application in various domains. These methods include probabilistic algorithms, such as Markov Chain Monte-Carlo (MCMC), which rely on generating random numbers from probability distributions. These algorithms are computationally expensive on conventional processors, yet their statistical properties, namely interpretability and uncertainty quantification (UQ) compared to deep learning, make them an attractive alternative approach. Therefore, hardware specialization can be adopted to address the shortcomings of conventional processors in running these applications. In this paper, we propose a high-throughput accelerator for Markov Random Field (MRF) inference, a powerful model for representing a wide range of applications, using MCMC with Gibbs sampling. We propose a tiled architecture which takes advantage of near-memory computing, and memory optimizations tailored to the semantics of MRF. Additionally, we propose a novel hybrid on-chip/off-chip memory system and logging scheme to efficiently support UQ. This memory system design is not specific to MRF models and is applicable to applications using probabilistic algorithms. In addition, it dramatically reduces off-chip memory bandwidth requirements. We implemented an FPGA prototype of our proposed architecture using high-level synthesis tools and achieved 146MHz frequency for an accelerator with 32 function units on an Intel Arria 10 FPGA. Compared to prior work on FPGA, our accelerator achieves 26X speedup. Furthermore, our proposed memory system and logging scheme to support UQ reduces off-chip bandwidth by 71% for two applications. ASIC analysis in 15nm shows our design with 2048 function units running at 3GHz outperforms GPU implementations of motion estimation and stereo vision on Nvidia RTX2080Ti by 120X-210X, occupying only 7.7% of the area.
翻訳日:2021-08-03 14:59:52 公開日:2021-08-02
# メタラーニングによる低コスト大気汚染センサ(PM2.5)の校正

Few-shot calibration of low-cost air pollution (PM2.5) sensors using meta-learning ( http://arxiv.org/abs/2108.00640v1 )

ライセンス: Link先を確認
Kalpit Yadav, Vipul Arora, Sonu Kumar Jha, Mohit Kumar, Sachchida Nand Tripathi(参考訳) 低コスト粒子状物質センサは、基準モニターに比べて低コストで移動性が高いため、空気質の監視に変化をもたらしている。 これらの低コストセンサーのキャリブレーションには、共同デプロイされた参照モニターからのトレーニングデータが必要である。 機械学習に基づくキャリブレーションは、従来の技術よりも優れたパフォーマンスを提供するが、センサーからの大量のトレーニングデータを校正し、参照モニターと共同デプロイする必要がある。 本研究では,レファレンスモニタと最小限の協調配置を持つセンサの高速キャリブレーションのための新しい転送学習手法を提案する。 転送学習は、ターゲットセンサーからの限られたデータとともに、他のセンサーからの大量のデータを利用する。 提案したモデル非依存メタラーニング(MAML)に基づくトランスファー学習法は,他の競争ベースラインよりも効果的である。

Low-cost particulate matter sensors are transforming air quality monitoring because they have lower costs and greater mobility as compared to reference monitors. Calibration of these low-cost sensors requires training data from co-deployed reference monitors. Machine Learning based calibration gives better performance than conventional techniques, but requires a large amount of training data from the sensor, to be calibrated, co-deployed with a reference monitor. In this work, we propose novel transfer learning methods for quick calibration of sensors with minimal co-deployment with reference monitors. Transfer learning utilizes a large amount of data from other sensors along with a limited amount of data from the target sensor. Our extensive experimentation finds the proposed Model-Agnostic- Meta-Learning (MAML) based transfer learning method to be the most effective over other competitive baselines.
翻訳日:2021-08-03 14:59:19 公開日:2021-08-02
# 深層学習に基づく脆弱性検出器のロバスト化に向けて

Towards Making Deep Learning-based Vulnerability Detectors Robust ( http://arxiv.org/abs/2108.00669v1 )

ライセンス: Link先を確認
Zhen Li, Jing Tang, Deqing Zou, Qian Chen, Shouhuai Xu, Chao Zhang, Yichen Li, Hai Jin(参考訳) ソースコードのソフトウェア脆弱性を自動的に検出することは重要な問題であり、多くの注目を集めている。 特に、ディープラーニングベースの脆弱性検出(DLベースの脆弱性検出)は、人間の専門家が脆弱性の特徴やパターンを定義する必要がないため、魅力的である。 しかし、そのような検出器の堅牢性は不明である。 本稿では,DLベースの検出器が,攻撃と呼ばれる単純なコード変換に対して堅牢ではないことを示すことによって,この側面における研究を開始する。 このような攻撃に対してDLベースの検出器を堅牢化するための第一歩として、(i)特徴学習と分類器学習を分離することに焦点を当てたZigZagと呼ばれる革新的なフレームワークを提案し、(ii)頑健な特徴や頑健な分類器に収束するまで、ZigZagスタイルの戦略を反復的に洗練させる。 実験の結果、zigzagフレームワークはdlベースの検出器のロバスト性を大幅に改善できることがわかった。

Automatically detecting software vulnerabilities in source code is an important problem that has attracted much attention. In particular, deep learning-based vulnerability detectors, or DL-based detectors, are attractive because they do not need human experts to define features or patterns of vulnerabilities. However, such detectors' robustness is unclear. In this paper, we initiate the study in this aspect by demonstrating that DL-based detectors are not robust against simple code transformations, dubbed attacks in this paper, as these transformations may be leveraged for malicious purposes. As a first step towards making DL-based detectors robust against such attacks, we propose an innovative framework, dubbed ZigZag, which is centered at (i) decoupling feature learning and classifier learning and (ii) using a ZigZag-style strategy to iteratively refine them until they converge to robust features and robust classifiers. Experimental results show that the ZigZag framework can substantially improve the robustness of DL-based detectors.
翻訳日:2021-08-03 14:59:09 公開日:2021-08-02
# 浅いLSTMによるHARの深層学習の改善

Improving Deep Learning for HAR with shallow LSTMs ( http://arxiv.org/abs/2108.00702v1 )

ライセンス: Link先を確認
Marius Bock, Alexander Hoelzemann, Michael Moeller, Kristof Van Laerhoven(参考訳) 近年のHAR(Human Activity Recognition)では,ディープラーニング手法が従来の機械学習アルゴリズムより優れていることが示されている。 HARで人気のあるDeep LearningアーキテクチャはDeepConvLSTMである。 本稿では,DeepConvLSTMアーキテクチャを2層型LSTMではなく1層型LSTMに変更することを提案する。 LSTM層内の様々な隠蔽ユニットを用いて,予測性能と変更の有無を比較して,5つの公開HARデータセット上でのアーキテクチャ変更を検証する。 その結果,F1スコアでは認識性能が最大11.7%向上し,学習可能なパラメータの量が大幅に減少することがわかった。 DeepConvLSTMによるこの改善は、トレーニング時間を最大48%短縮する。 この結果は、シーケンシャルデータを扱う場合、少なくとも2層LSTMが必要であるという信念とは対照的である。 以上の結果から,センサベースHARには適用できない可能性が示唆された。

Recent studies in Human Activity Recognition (HAR) have shown that Deep Learning methods are able to outperform classical Machine Learning algorithms. One popular Deep Learning architecture in HAR is the DeepConvLSTM. In this paper we propose to alter the DeepConvLSTM architecture to employ a 1-layered instead of a 2-layered LSTM. We validate our architecture change on 5 publicly available HAR datasets by comparing the predictive performance with and without the change employing varying hidden units within the LSTM layer(s). Results show that across all datasets, our architecture consistently improves on the original one: Recognition performance increases up to 11.7% for the F1-score, and our architecture significantly decreases the amount of learnable parameters. This improvement over DeepConvLSTM decreases training time by as much as 48%. Our results stand in contrast to the belief that one needs at least a 2-layered LSTM when dealing with sequential data. Based on our results we argue that said claim might not be applicable to sensor-based HAR.
翻訳日:2021-08-03 14:58:49 公開日:2021-08-02
# ベイズメタラーニングによる不確実性定量化による復調学習

Learning to Learn to Demodulate with Uncertainty Quantification via Bayesian Meta-Learning ( http://arxiv.org/abs/2108.00785v1 )

ライセンス: Link先を確認
Kfir M. Cohen, Sangwoo Park, Osvaldo Simeone, Shlomo Shamai (Shitz)(参考訳) メタ学習(meta-learning)、あるいは学習する学習(learning to learning)は、最小限の学習のための原則付きフレームワークを提供する。 複数の関連する学習タスクからのデータを活用し、新しいタスクへの迅速な適応を可能にする帰納的バイアスを推測する。 メタラーニングの応用は、最近、少数のパイロットから復調する方法を学ぶために提案された。 アイデアは、複数のデバイスからオフラインで利用するために受信されたパイロットを使って、新しいデバイスでのオンライントレーニングをスピードアップするために適応手順をメタ学習する。 比較的正確な"ハード"な分類決定を得られる標準的頻度主義学習は、特に小規模データ体制において、校正が不十分であることが知られている。 不正確なキャリブレーションは、復調器が出力するソフトスコアが正確な復調確率の正確な推定値であることを示している。 本稿では,多変量推論によるベイズ的メタラーニングを,よく校正された数パイロット復調器を得るために導入する。 ベイジアンフレームワークでは、各ニューラルネットワークの重みは分布で表され、てんかんの不確実性を捉える。 ベイズメタラーニングは、重みの事前分布を最適化する。 その結果得られたベイズアンサンブルは、復調のためにニューラルネットワークの複数のインスタンスを実行する計算コストにおいて、より良い校正されたソフトな決定を提供する。 送信機の非線形性を持つ単入力単出力レイリーフェージングチャネルの数値結果は、頻繁なメタラーニングとベイズ的メタラーニングの両方においてシンボル誤り率と期待キャリブレーション誤差を比較し、後者がより正確でより良いキャリブレーションであることを示す。

Meta-learning, or learning to learn, offers a principled framework for few-shot learning. It leverages data from multiple related learning tasks to infer an inductive bias that enables fast adaptation on a new task. The application of meta-learning was recently proposed for learning how to demodulate from few pilots. The idea is to use pilots received and stored for offline use from multiple devices in order to meta-learn an adaptation procedure with the aim of speeding up online training on new devices. Standard frequentist learning, which can yield relatively accurate "hard" classification decisions, is known to be poorly calibrated, particularly in the small-data regime. Poor calibration implies that the soft scores output by the demodulator are inaccurate estimates of the true probability of correct demodulation. In this work, we introduce the use of Bayesian meta-learning via variational inference for the purpose of obtaining well-calibrated few-pilot demodulators. In a Bayesian framework, each neural network weight is represented by a distribution, capturing epistemic uncertainty. Bayesian meta-learning optimizes over the prior distribution of the weights. The resulting Bayesian ensembles offer better calibrated soft decisions, at the computational cost of running multiple instances of the neural network for demodulation. Numerical results for single-input single-output Rayleigh fading channels with transmitter's non-linearities are provided that compare symbol error rate and expected calibration error for both frequentist and Bayesian meta-learning, illustrating how the latter is both more accurate and better-calibrated.
翻訳日:2021-08-03 14:58:34 公開日:2021-08-02
# CirCor DigiScope データセット:Murmur 検出からMurmur 分類へ

The CirCor DigiScope Dataset: From Murmur Detection to Murmur Classification ( http://arxiv.org/abs/2108.00813v1 )

ライセンス: Link先を確認
Jorge Oliveira, Francesco Renna, Paulo Dias Costa, Marcelo Nogueira, Cristina Oliveira, Carlos Ferreira, Alipio Jorge, Sandra Mattos, Thamine Hatem, Thiago Tavares, Andoni Elola, Ali Bahrami Rad, Reza Sameni, Gari D Clifford, Miguel T. Coimbra(参考訳) 心臓の聴診は、多くの心臓疾患の検出と同定に最も費用対効果の高いテクニックの1つである。 聴診に基づくコンピュータ支援意思決定システムは、医師の意思決定を支援することができる。 残念なことに、これらのシステムの臨床試験での応用は、ほとんどが心電図信号の余剰または異常な波の存在を検出することだけを目的としているため、まだ最小限である。 これは主に、そのような異常な波(例えば心臓の大腿骨)のより詳細な記述が存在しない大規模な公開データセットがないためである。 その結果、現在の機械学習アルゴリズムはそのような波を分類できない。 聴診に基づく医療レコメンデーションシステムに関するより効果的な研究の道を開くため、我々のチームは現在最大の小児心音データセットを作成しました。 1568人の4つの主要な聴診所から計5282の録音が収集され、215780の心臓の音が手動で注釈付けされている。 さらに, 各心室は, そのタイミング, 形状, ピッチ, 格付け, 品質に応じて, 専門家アノテータによって手動で注釈付けされている。 また, 大腿骨の存在部位と, 大腿骨がより集中的に検出されるオースカルテーション位置が同定された。

Cardiac auscultation is one of the most cost-effective techniques used to detect and identify many heart conditions. Computer-assisted decision systems based on auscultation can support physicians in their decisions. Unfortunately, the application of such systems in clinical trials is still minimal since most of them only aim to detect the presence of extra or abnormal waves in the phonocardiogram signal. This is mainly due to the lack of large publicly available datasets, where a more detailed description of such abnormal waves (e.g., cardiac murmurs) exists. As a result, current machine learning algorithms are unable to classify such waves. To pave the way to more effective research on healthcare recommendation systems based on auscultation, our team has prepared the currently largest pediatric heart sound dataset. A total of 5282 recordings have been collected from the four main auscultation locations of 1568 patients, in the process 215780 heart sounds have been manually annotated. Furthermore, and for the first time, each cardiac murmur has been manually annotated by an expert annotator according to its timing, shape, pitch, grading and quality. In addition, the auscultation locations where the murmur is present were identified as well as the auscultation location where the murmur is detected more intensively.
翻訳日:2021-08-03 14:58:09 公開日:2021-08-02
# cloud-hpcにaiパイプラインを導入する:covid-19 ai診断の精度基準を設定する

Bringing AI pipelines onto cloud-HPC: setting a baseline for accuracy of COVID-19 AI diagnosis ( http://arxiv.org/abs/2108.01033v1 )

ライセンス: Link先を確認
Iacopo Colonnelli and Barbara Cantalupo and Concetto Spampinato and Matteo Pennisi and Marco Aldinucci(参考訳) HPCはAIの可能なプラットフォームである。 HPCアプリケーションバスケットにおけるAIワークロードの導入は、AIアプリケーションの設計方法とHPCコンピューティングの提供方法の両方において、自明な結果をもたらす。 これは、HPCとAIの収束の理由である。 AIパイプラインの正式な定義は、HPC-AI収束のマイルストーンの1つだ。 うまく実行されれば、ポータブルでスケーラブルなアプリケーションを得ることができる。 一方で、科学的パイプラインの再現性には不可欠である。 本研究は,CTスキャンからCOVID-19肺病変を分類する手法の最適化空間を探索し,精度で比較し,パフォーマンス基準を設定可能な,パラメータパイプライン"CLAIRE COVID-19 Universal Pipeline"を定義するための重要な要素として,StreamFlow Workflow Management Systemを提唱する。 ユニバーサルパイプラインは、多くの異なるディープニューラルネットワーク(DNN)と多くの異なるハイパーパラメータのトレーニングを自動化する。 そのため、streamflowで設計されたパイプラインの設計によるポータビリティにより、従来のhpcインフラストラクチャで見られる巨大なコンピューティングパワーが必要になる。 ユニバーサルパイプラインを用いて,CT検査で90%以上の精度でDNNが検出された。

HPC is an enabling platform for AI. The introduction of AI workloads in the HPC applications basket has non-trivial consequences both on the way of designing AI applications and on the way of providing HPC computing. This is the leitmotif of the convergence between HPC and AI. The formalized definition of AI pipelines is one of the milestones of HPC-AI convergence. If well conducted, it allows, on the one hand, to obtain portable and scalable applications. On the other hand, it is crucial for the reproducibility of scientific pipelines. In this work, we advocate the StreamFlow Workflow Management System as a crucial ingredient to define a parametric pipeline, called "CLAIRE COVID-19 Universal Pipeline," which is able to explore the optimization space of methods to classify COVID-19 lung lesions from CT scans, compare them for accuracy, and therefore set a performance baseline. The universal pipeline automatizes the training of many different Deep Neural Networks (DNNs) and many different hyperparameters. It, therefore, requires a massive computing power, which is found in traditional HPC infrastructure thanks to the portability-by-desig n of pipelines designed with StreamFlow. Using the universal pipeline, we identified a DNN reaching over 90% accuracy in detecting COVID-19 lesions in CT scans.
翻訳日:2021-08-03 14:57:51 公開日:2021-08-02
# 高次元におけるマルコフ連鎖モンテカルロ法の漸近バイアス

Asymptotic bias of inexact Markov Chain Monte Carlo methods in high dimension ( http://arxiv.org/abs/2108.00682v1 )

ライセンス: Link先を確認
Alain Durmus and Andreas Eberle(参考訳) 本稿では,不規則mcmc法の不変確率測度と対象分布との間のワッサースタイン距離の非漸近境界を定式化する。 特に、この結果は未調整ランジュバンアルゴリズムや未調整のハミルトニアンモンテカルロにも適用されるが、他の離散化スキームに依存する方法にも適用される。 我々の焦点は、寸法と離散化ステップサイズの両方の精度の正確な依存性を理解することである。 次元はいくつかの重要な量に依存することを示す。 その結果、いくつかの重要なモデルのクラスに対して、製品の場合と同様のステップサイズと寸法への依存を回復することができる。 一方、より一般的なモデルでは、漸近バイアスの次元依存性は、正確なダイナミクスが次元フリーな混合特性を持っているとしても、積の場合よりも悪いかもしれない。

This paper establishes non-asymptotic bounds on Wasserstein distances between the invariant probability measures of inexact MCMC methods and their target distribution. In particular, the results apply to the unadjusted Langevin algorithm and to unadjusted Hamiltonian Monte Carlo, but also to methods relying on other discretization schemes. Our focus is on understanding the precise dependence of the accuracy on both the dimension and the discretization step size. We show that the dimension dependence relies on some key quantities. As a consequence, the same dependence on the step size and the dimension as in the product case can be recovered for several important classes of models. On the other hand, for more general models, the dimension dependence of the asymptotic bias may be worse than in the product case even if the exact dynamics has dimension-free mixing properties.
翻訳日:2021-08-03 14:57:29 公開日:2021-08-02
# 非平衡グラフ生成逆ネットワークによる合成能動分布系の生成

Synthetic Active Distribution System Generation via Unbalanced Graph Generative Adversarial Network ( http://arxiv.org/abs/2108.00599v1 )

ライセンス: Link先を確認
Rong Yan, Yuxuan Yuan, Zhaoyu Wang, Guangchao Geng, Quanyuan Jiang(参考訳) 電力研究者にとって、関連するスマートメータ(SM)データを持つ実アクティブ配信ネットワークが重要である。 しかし,プライバシ上の懸念から,研究者がこのような包括的なデータセットをユーティリティから取得することは事実上困難である。 このギャップを埋めるために、ワッサースタイン GAN の目的を持つ暗黙的な生成モデル、すなわち、非平衡グラフ生成逆数ネットワーク(UG-GAN)は、合成三相非平衡アクティブ分散系接続を生成するように設計されている。 基本的な考え方は、実世界のシステムと線分の各フェーズのランダムウォークの分布を学習し、個々の実世界の分布ネットワークの基盤となる局所特性を捕捉し、それに応じて特定の合成ネットワークを生成することである。 次に、総合的な総合的なテストケースを作成するために、分散エネルギー資源(ders)やキャパシティバンクを含む現実的なパラメータを持つ時系列nodal要求と標準分散グリッドコンポーネントを得るためのネットワーク補正と拡張プロセスを提案する。 1年間のSMデータを用いた中西部配電システムを用いて,本手法の性能評価を行った。 いくつかの電力応用によるケーススタディでは、提案フレームワークによって生成された合成アクティブネットワークが、秘密情報の開示を回避しつつ、現実世界のネットワークのほとんど全ての特徴を模倣できることが示されている。

Real active distribution networks with associated smart meter (SM) data are critical for power researchers. However, it is practically difficult for researchers to obtain such comprehensive datasets from utilities due to privacy concerns. To bridge this gap, an implicit generative model with Wasserstein GAN objectives, namely unbalanced graph generative adversarial network (UG-GAN), is designed to generate synthetic three-phase unbalanced active distribution system connectivity. The basic idea is to learn the distribution of random walks both over a real-world system and across each phase of line segments, capturing the underlying local properties of an individual real-world distribution network and generating specific synthetic networks accordingly. Then, to create a comprehensive synthetic test case, a network correction and extension process is proposed to obtain time-series nodal demands and standard distribution grid components with realistic parameters, including distributed energy resources (DERs) and capacity banks. A Midwest distribution system with 1-year SM data has been utilized to validate the performance of our method. Case studies with several power applications demonstrate that synthetic active networks generated by the proposed framework can mimic almost all features of real-world networks while avoiding the disclosure of confidential information.
翻訳日:2021-08-03 14:54:21 公開日:2021-08-02
# 時系列から市場にいる学習者:マルチエージェントシミュレータの逆校正による市場参加者発見

Learning who is in the market from time series: market participant discovery through adversarial calibration of multi-agent simulators ( http://arxiv.org/abs/2108.00664v1 )

ライセンス: Link先を確認
Victor Storchan, Svitlana Vyetrenko, Tucker Balch(参考訳) 電子取引市場では、複数の市場参加者の相互作用から生じる価格やボリュームの時系列だけが直接観測可能であることが多い。 リアルタイム取引に展開する前に取引戦略をテストするため、マルチエージェント市場環境は、シミュレーションエージェントの相互作用による時系列が歴史的に類似するように調整されている。 適切なテストを確保するためには、通常の市場日を示すシナリオと、(新型コロナウイルスのパンデミックの始まりで最近観測された)ストレスのある市場の両方を含む、さまざまな市場シナリオで取引戦略をテストする必要がある。 本稿では,マルチエージェント・シミュレーターパラメータ・キャリブレーションの問題に対処し,異なる市場体制のシミュレーターキャプチャー特性を実現する。 我々は,ganの一部として「リアル」価格と「フェイク」価格とボリューム時系列とを自己認識で区別できる判別器を訓練する新しい二段階法を提案し,市場シナリオを表現するために既知のエージェントアーチタイプを持つシミュレータモデルのパラメータをチューニングするための最適化フレームワークの中で利用する。 その結果,本手法の有効性を示す実験結果を得た。

In electronic trading markets often only the price or volume time series, that result from interaction of multiple market participants, are directly observable. In order to test trading strategies before deploying them to real-time trading, multi-agent market environments calibrated so that the time series that result from interaction of simulated agents resemble historical are often used. To ensure adequate testing, one must test trading strategies in a variety of market scenarios -- which includes both scenarios that represent ordinary market days as well as stressed markets (most recently observed due to the beginning of COVID pandemic). In this paper, we address the problem of multi-agent simulator parameter calibration to allow simulator capture characteristics of different market regimes. We propose a novel two-step method to train a discriminator that is able to distinguish between "real" and "fake" price and volume time series as a part of GAN with self-attention, and then utilize it within an optimization framework to tune parameters of a simulator model with known agent archetypes to represent a market scenario. We conclude with experimental results that demonstrate effectiveness of our method.
翻訳日:2021-08-03 14:53:59 公開日:2021-08-02
# segre多様体上の測地線を用いたテンソル完全化

Tensor completion using geodesics on Segre manifolds ( http://arxiv.org/abs/2108.00735v1 )

ライセンス: Link先を確認
Lars Swijsen, Joeri Van der Veken and Nick Vannieuwenhoven(参考訳) 不完全テンソルの低階近似を求めるためのリーマン共役勾配(CG)最適化法を提案する。 我々の主な貢献は、セグレ多様体上の測地線の明示的な表現である。 これらをアルゴリズムで活用してリトラクションを行う。 本手法は,MovieLensデータセットのレコメンデータシステムにおける映画評価予測に応用し,蛍光分光法と欠測データを用いた純粋な蛍光フッ化物の同定を行う。 この最後のアプリケーションでは、テンソル分解を10〜%未満のデータから回収する。

We propose a Riemannian conjugate gradient (CG) optimization method for finding low rank approximations of incomplete tensors. Our main contribution consists of an explicit expression of the geodesics on the Segre manifold. These are exploited in our algorithm to perform the retractions. We apply our method to movie rating predictions in a recommender system for the MovieLens dataset, and identification of pure fluorophores via fluorescent spectroscopy with missing data. In this last application, we recover the tensor decomposition from less than $10\%$ of the data.
翻訳日:2021-08-03 14:53:38 公開日:2021-08-02
# 全誤差最小化としての勾配スパーシフィケーションの再考

Rethinking gradient sparsification as total error minimization ( http://arxiv.org/abs/2108.00951v1 )

ライセンス: Link先を確認
Atal Narayan Sahu (1), Aritra Dutta (1), Ahmed M. Abdelmoniem (1), Trambak Banerjee (2), Marco Canini (1), Panos Kalnis (1) ((1) KAUST, (2) University of Kansas)(参考訳) 勾配圧縮は、大規模ディープニューラルネットワーク(dnn)の分散トレーニングにおける通信ボトルネックに取り組むために広く確立された修正である。 エラーフィードバックフレームワークの下では、Top-k$スペーシフィケーション(時として$k$でグラデーションサイズの0.1\%$)は、同様のイテレーションカウントの非圧縮ケースと同じモデル品質のトレーニングを可能にする。 最適化の観点からは、Top-$k$は、要素予算当たりの$k$を与えられた通信最適化スペーサーであることが分かる。 勾配スパーシフィケーションの利点をさらに高めるためには、特にdnnでは、シナリオ毎の最適性からトレーニング全体の最適性を検討するために、異なる視点が必要であると論じている。 すべてのイテレーションにおける圧縮エラーの総和である総エラーが、トレーニング全体を通してスペーシングをカプセル化する。 そこで本研究では,訓練全体における通信予算の総誤差を最小限に抑える通信複雑性モデルを提案する。 我々は、Top-k$スパリファイアの変種であるHard-threshold Sparsifierが、定数のHard-thresholdによって決定される$k$であることを確認した。 そこで本研究では,誤りフィードバックを伴うハードスレッショルドスパルシファイザに対して,凸および非凸収束解析を行う。 トップ$k$のスパーシファイザとは異なり、ハードスレッショルドは凸の場合sgdと同じ漸近収束と線形スピードアップ特性を持ち、非凸の場合のデータヘテロゲニティに影響を与えない。 各種DNNの多種多様な実験とロジスティック回帰モデルにより, 通信効率がTop-$k$よりも高いことを示した。

Gradient compression is a widely-established remedy to tackle the communication bottleneck in distributed training of large deep neural networks (DNNs). Under the error-feedback framework, Top-$k$ sparsification, sometimes with $k$ as little as $0.1\%$ of the gradient size, enables training to the same model quality as the uncompressed case for a similar iteration count. From the optimization perspective, we find that Top-$k$ is the communication-optima l sparsifier given a per-iteration $k$ element budget. We argue that to further the benefits of gradient sparsification, especially for DNNs, a different perspective is necessary -- one that moves from per-iteration optimality to consider optimality for the entire training. We identify that the total error -- the sum of the compression errors for all iterations -- encapsulates sparsification throughout training. Then, we propose a communication complexity model that minimizes the total error under a communication budget for the entire training. We find that the hard-threshold sparsifier, a variant of the Top-$k$ sparsifier with $k$ determined by a constant hard-threshold, is the optimal sparsifier for this model. Motivated by this, we provide convex and non-convex convergence analyses for the hard-threshold sparsifier with error-feedback. Unlike with Top-$k$ sparsifier, we show that hard-threshold has the same asymptotic convergence and linear speedup property as SGD in the convex case and has no impact on the data-heterogeneity in the non-convex case. Our diverse experiments on various DNNs and a logistic regression model demonstrated that the hard-threshold sparsifier is more communication-effici ent than Top-$k$.
翻訳日:2021-08-03 14:53:14 公開日:2021-08-02
# 多クラス分類のための深部ReLUネットワークの収束率

Convergence rates of deep ReLU networks for multiclass classification ( http://arxiv.org/abs/2108.00969v1 )

ライセンス: Link先を確認
Thijs Bos and Johannes Schmidt-Hieber(参考訳) 分類問題では、訓練されたディープニューラルネットワークがクラスメンバーシップの確率を返す。 本研究では,学習確率の真の条件クラス確率への収束について検討する。 より具体的には、マルチクラス分類設定におけるクロスエントロピー損失を最小化する疎密なディープreluネットワーク再構成を考える。 興味ある現象は、クラスメンバーシップ確率が0に近いときに起こる。 収束率は、マージン型条件を介してゼロに近い挙動に依存する。

For classification problems, trained deep neural networks return probabilities of class memberships. In this work we study convergence of the learned probabilities to the true conditional class probabilities. More specifically we consider sparse deep ReLU network reconstructions minimizing cross-entropy loss in the multiclass classification setup. Interesting phenomena occur when the class membership probabilities are close to zero. Convergence rates are derived that depend on the near-zero behaviour via a margin-type condition.
翻訳日:2021-08-03 14:52:40 公開日:2021-08-02
# (参考訳) 正規化フローを用いた確率的単眼3次元人物位置推定 [全文訳有]

Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows ( http://arxiv.org/abs/2107.13788v2 )

ライセンス: CC BY 4.0
Tom Wehrbein, Marco Rudolph, Bodo Rosenhahn, Bastian Wandt(参考訳) 単眼画像からの3次元人物ポーズ推定は, 深さの曖昧さや咬合による問題である。 それでも、既存のほとんどの研究はこれらの曖昧さを無視し、1つの解のみを見積もっている。 対照的に、我々は、実現可能な3dポーズの完全な後方分布を表す多様な仮説群を生成する。 そこで本研究では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。 さらに、2D検出器の不確かさ情報を条件として組み込むことにより、不確かさの検出と閉塞を効果的にモデル化する。 さらなる成功の鍵は、学習された3Dポーズと、最高のM損失の一般化である。 ベンチマークデータセット human3.6m と mpi-inf-3dhp のアプローチを評価し,ほとんどの指標で比較した手法を上回った。 実装はgithubで公開されている。

3D human pose estimation from monocular images is a highly ill-posed problem due to depth ambiguities and occlusions. Nonetheless, most existing works ignore these ambiguities and only estimate a single solution. In contrast, we generate a diverse set of hypotheses that represents the full posterior distribution of feasible 3D poses. To this end, we propose a normalizing flow based method that exploits the deterministic 3D-to-2D mapping to solve the ambiguous inverse 2D-to-3D problem. Additionally, uncertain detections and occlusions are effectively modeled by incorporating uncertainty information of the 2D detector as condition. Further keys to success are a learned 3D pose prior and a generalization of the best-of-M loss. We evaluate our approach on the two benchmark datasets Human3.6M and MPI-INF-3DHP, outperforming all comparable methods in most metrics. The implementation is available on GitHub.
翻訳日:2021-08-03 11:17:21 公開日:2021-08-02
# (参考訳) ニューラルDP差分プライベートニューラルネットワークの設計

NeuralDP Differentially private neural networks by design ( http://arxiv.org/abs/2107.14582v2 )

ライセンス: CC BY 4.0
Moritz Knolle, Dmitrii Usynin, Alexander Ziller, Marcus R. Makowski, Daniel Rueckert, Georgios Kaissis(参考訳) ディープニューラルネットワークのトレーニングに対する差分プライバシーの適用は、個人に対して厳格なプライバシ保証を提供しながら、大規模な(分散化された)機密データの使用を可能にするという約束を果たす。 ニューラルネットワークの差分プライベートトレーニングの主なアプローチはdp-sgdであり、境界感度の方法としてノルムベースの勾配クリッピングに依存する。 本稿では,差動プライバシの処理後特性によって差動プライベートネットワークが形成されるニューラルネットワーク内のレイヤの活性化を民営化する手法であるneuraldpを提案する。 そこで我々は,本手法がdp-sgdと比較してプライバシー利用上のトレードオフを大幅に改善することを示す2つのデータセット(mnistおよびppd)を実験的に検証した。

The application of differential privacy to the training of deep neural networks holds the promise of allowing large-scale (decentralized) use of sensitive data while providing rigorous privacy guarantees to the individual. The predominant approach to differentially private training of neural networks is DP-SGD, which relies on norm-based gradient clipping as a method for bounding sensitivity, followed by the addition of appropriately calibrated Gaussian noise. In this work we propose NeuralDP, a technique for privatising activations of some layer within a neural network, which by the post-processing properties of differential privacy yields a differentially private network. We experimentally demonstrate on two datasets (MNIST and Pediatric Pneumonia Dataset (PPD)) that our method offers substantially improved privacy-utility trade-offs compared to DP-SGD.
翻訳日:2021-08-03 11:01:41 公開日:2021-08-02
# perceiver io: 構造化入力と出力のための汎用アーキテクチャ

Perceiver IO: A General Architecture for Structured Inputs & Outputs ( http://arxiv.org/abs/2107.14795v2 )

ライセンス: Link先を確認
Andrew Jaegle and Sebastian Borgeaud and Jean-Baptiste Alayrac and Carl Doersch and Catalin Ionescu and David Ding and Skanda Koppula and Daniel Zoran and Andrew Brock and Evan Shelhamer and Olivier H\'enaff and Matthew M. Botvinick and Andrew Zisserman and Oriol Vinyals and Jo\~ao Carreira(参考訳) 最近提案されたPerceiverモデルは、いくつかの領域(画像、オーディオ、マルチモーダル、ポイントクラウド)で良い結果を得ると同時に、入力サイズで計算とメモリで線形にスケールする。 Perceiverは多くの種類の入力をサポートしているが、クラススコアのような非常に単純な出力しか生成できない。 Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟に問い合わせることを学ぶことで、オリジナルの魅力を犠牲にすることなく、この制限を克服する。 Perceiver IOは依然としてモデル深さをデータサイズから切り離し、データサイズと線形にスケールするが、現在では入力サイズと出力サイズの両方でスケールしている。 完全なperceiver ioモデルでは、自然言語や視覚理解、starcraft ii、マルチタスクやマルチモーダルドメインなど、高度に構造化された出力空間を持つタスクで強い結果が得られる。 強調されているように、Perceiver IOは入力トークン化を必要とせず、GLUE言語ベンチマーク上のTransformerベースのBERTベースラインと一致し、シンテル光フロー推定における最先端のパフォーマンスを達成する。

The recently-proposed Perceiver model obtains good results on several domains (images, audio, multimodal, point clouds) while scaling linearly in compute and memory with the input size. While the Perceiver supports many kinds of inputs, it can only produce very simple outputs such as class scores. Perceiver IO overcomes this limitation without sacrificing the original's appealing properties by learning to flexibly query the model's latent space to produce outputs of arbitrary size and semantics. Perceiver IO still decouples model depth from data size and still scales linearly with data size, but now with respect to both input and output sizes. The full Perceiver IO model achieves strong results on tasks with highly structured output spaces, such as natural language and visual understanding, StarCraft II, and multi-task and multi-modal domains. As highlights, Perceiver IO matches a Transformer-based BERT baseline on the GLUE language benchmark without the need for input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation.
翻訳日:2021-08-03 10:46:31 公開日:2021-08-02
# ChrEnTranslate: 品質推定と修正フィードバックを備えたチェロキー英語機械翻訳デモ

ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality Estimation and Corrective Feedback ( http://arxiv.org/abs/2107.14800v2 )

ライセンス: Link先を確認
Shiyue Zhang, Benjamin Frey, Mohit Bansal(参考訳) ChrEnTranslateは、英語と絶滅危惧言語であるチェロキー語を翻訳するオンライン機械翻訳実証システムである。 統計モデルとニューラル翻訳モデルの両方をサポートし、信頼性をユーザに知らせる品質推定、専門家と一般ユーザのための2つのユーザフィードバックインターフェース、モノリンガルデータのための人間の翻訳を収集する入力、単語のアライメントの可視化、チェロキー英語辞典からの関連用語を提供する。 定量的評価は, バックボーン翻訳モデルが最先端の翻訳性能を達成し, 品質推定はbleuと人間の判断とよく相関することを示した。 216個の専門家フィードバックを解析することにより、NMTはSMTよりコピーが少ないため、現在のモデルでは、ソース文の断片を翻訳できるが、大きな誤りを犯すことができる。 トレーニングセットとリトレーニングモデルに、これらの216のエキスパート修正パラレルテキストを追加して、同等か、あるいはやや優れたパフォーマンスを観察することで、ループ内学習の可能性を示しています。 私たちのコードはhttps://github.com/Z hangShiyue/ChrEnTran slateで、データはhttps://github.com/Z hangShiyue/ChrEnで利用可能です。

We introduce ChrEnTranslate, an online machine translation demonstration system for translation between English and an endangered language Cherokee. It supports both statistical and neural translation models as well as provides quality estimation to inform users of reliability, two user feedback interfaces for experts and common users respectively, example inputs to collect human translations for monolingual data, word alignment visualization, and relevant terms from the Cherokee-English dictionary. The quantitative evaluation demonstrates that our backbone translation models achieve state-of-the-art translation performance and our quality estimation well correlates with both BLEU and human judgment. By analyzing 216 pieces of expert feedback, we find that NMT is preferable because it copies less than SMT, and, in general, current models can translate fragments of the source sentence but make major mistakes. When we add these 216 expert-corrected parallel texts back into the training set and retrain models, equal or slightly better performance is observed, which indicates the potential of human-in-the-loop learning. Our online demo is at https://chren.cs.unc .edu/ , our code is open-sourced at https://github.com/Z hangShiyue/ChrEnTran slate , and our data is available at https://github.com/Z hangShiyue/ChrEn
翻訳日:2021-08-03 10:46:10 公開日:2021-08-02
# sparse-to-dense特徴マッチング:3次元意味セグメンテーションのためのドメイン適応におけるドメイン内およびドメイン間クロスモーダル学習

Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal Learning in Domain Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2107.14724v2 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Wen Li, Pingping Zhang and Yulan Guo(参考訳) 新しいドメインにおけるアノテーションの欠如に直面する場合、ドメイン適応は成功に不可欠である。 3Dポイントクラウド上でのラベリングプロセスの膨大な時間消費として、3Dセマンティックセグメンテーションのドメイン適応は非常に期待できる。 マルチモーダルデータセットの増加に伴い、大量の2D画像が3Dポイントクラウド以外にアクセス可能である。 そこで本研究では,領域内および領域間クロスモーダル学習による3次元領域適応のための2次元データをさらに活用することを提案する。 ドメイン内クロスモーダル学習については、既存のほとんどの研究は、高密度の2Dピクセルワイドな特徴とスパース3Dポイントワイドな特徴を同一サイズにサンプリングし、多くの有用な2D特徴を放棄している。 この問題に対処するために,dscml(dynamic sparse-to-dense cross modal learning)を提案する。 ドメイン間クロスモーダル学習では,高次モーダル相補性向上を目的とした意味内容の異なる2次元および3次元データに対して,クロスモーダル適応学習(CMAL)をさらに進める。 我々は、昼夜、国間、データセットを含む様々なマルチモダリティドメイン適応設定の下でモデルを評価することにより、すべての設定において、ユニモダリティおよびマルチモダリティドメイン適応法に対して大きな改善をもたらす。

Domain adaptation is critical for success when confronting with the lack of annotations in a new domain. As the huge time consumption of labeling process on 3D point cloud, domain adaptation for 3D semantic segmentation is of great expectation. With the rise of multi-modal datasets, large amount of 2D images are accessible besides 3D point clouds. In light of this, we propose to further leverage 2D data for 3D domain adaptation by intra and inter domain cross modal learning. As for intra-domain cross modal learning, most existing works sample the dense 2D pixel-wise features into the same size with sparse 3D point-wise features, resulting in the abandon of numerous useful 2D features. To address this problem, we propose Dynamic sparse-to-dense Cross Modal Learning (DsCML) to increase the sufficiency of multi-modality information interaction for domain adaptation. For inter-domain cross modal learning, we further advance Cross Modal Adversarial Learning (CMAL) on 2D and 3D data which contains different semantic content aiming to promote high-level modal complementarity. We evaluate our model under various multi-modality domain adaptation settings including day-to-night, country-to-country and dataset-to-dataset, brings large improvements over both uni-modal and multi-modal domain adaptation methods on all settings.
翻訳日:2021-08-03 10:45:44 公開日:2021-08-02
# 悪性・良性縦隔病変の鑑別のための3次元畳み込みニューラルネットワークを用いた内胚葉超音波像の解釈

The interpretation of endobronchial ultrasound image using 3D convolutional neural network for differentiating malignant and benign mediastinal lesions ( http://arxiv.org/abs/2107.13820v2 )

ライセンス: Link先を確認
Ching-Kai Lin, Shao-Hua Wu, Jerry Chang, Yun-Chien Cheng(参考訳) 本研究の目的は,3次元畳み込みニューラルネットワークを用いた気管支内超音波画像による悪性,良性縦隔病変の鑑別である。 前報と比較して,提案手法はノイズに耐性があり,EBUSビデオの様々な画像特徴と時空間的特徴を融合させることができる。 気管支内超音波ガイド下経気管支針吸引術(EBUS-TBNA)は胸腔内リンパ節の診断ツールである。 外科医は、手術中にグレースケールモード、ドップラーモード、エラストグラフィーを用いて病変の特徴を観察することができる。 ビデオ形式でEBUSデータを処理し、複数のイメージングモードの特徴を適切に統合するために、時系列3次元畳み込みニューラルネットワーク(3D CNN)を用いて時空間の特徴を学習し、各イメージングモードを融合させる様々なアーキテクチャを設計した。 本モデル(res3d_ude)は, トレーニングデータとしてグレースケールモード, ドップラーモード, エラストグラフィを用い, 精度82.00%, 曲線下領域(auc)0.83。 従来との比較では,術中記録した映像を直接トレーニング・検証データとして用いたが,手作業による選択は行わず,臨床応用は容易であった。 さらに、3D CNNで設計されたモデルは、時空間の特徴を効果的に学習し、精度を向上させることができる。 将来的には,検査期間中にスライス採取対象病変を迅速かつ正確に発見し,良性病変のスライス数を減少させ,検査時間を短縮するモデルが用いられるかもしれない。

The purpose of this study is to differentiate malignant and benign mediastinal lesions by using the three-dimensional convolutional neural network through the endobronchial ultrasound (EBUS) image. Compared with previous study, our proposed model is robust to noise and able to fuse various imaging features and spatiotemporal features of EBUS videos. Endobronchial ultrasound-guided transbronchial needle aspiration (EBUS-TBNA) is a diagnostic tool for intrathoracic lymph nodes. Physician can observe the characteristics of the lesion using grayscale mode, doppler mode, and elastography during the procedure. To process the EBUS data in the form of a video and appropriately integrate the features of multiple imaging modes, we used a time-series three-dimensional convolutional neural network (3D CNN) to learn the spatiotemporal features and design a variety of architectures to fuse each imaging mode. Our model (Res3D_UDE) took grayscale mode, Doppler mode, and elastography as training data and achieved an accuracy of 82.00% and area under the curve (AUC) of 0.83 on the validation set. Compared with previous study, we directly used videos recorded during procedure as training and validation data, without additional manual selection, which might be easier for clinical application. In addition, model designed with 3D CNN can also effectively learn spatiotemporal features and improve accuracy. In the future, our model may be used to guide physicians to quickly and correctly find the target lesions for slice sampling during the inspection process, reduce the number of slices of benign lesions, and shorten the inspection time.
翻訳日:2021-08-03 10:45:16 公開日:2021-08-02