このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210630となっている論文です。

PDF登録状況(公開日: 20210630)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 低ピークサイドローブ値2相列の2相最適化 [全文訳有]

Two-phase Optimization of Binary Sequences with Low Peak Sidelobe Level Value ( http://arxiv.org/abs/2107.09801v1 )

ライセンス: CC BY 4.0
Borko Bo\v{s}kovi\'c, Janez Brest(参考訳) 低ピークサイドローブレベル値のバイナリシーケンスの探索は、計算上の重大な問題である。 そこで我々は,2つの適合関数を用いた確率的アルゴリズムを設計した。 これらの適合関数において、自己相関関数の値は最終適合値に異なる影響を及ぼす。 これは自己相関関数値に対する指数の値で定義される。 各関数は対応する最適化フェーズで使用され、最適化プロセスは停止条件が満たされるまでこれら2つのフェーズの間を切り替える。 提案アルゴリズムは,計算統一デバイスアーキテクチャを用いて実装され,グラフィックス処理ユニットの計算能力を利用することができた。 このアルゴリズムは長さが$L = 2^m - 1$,$14 \le m \le 20$で試験された。 その結果, 2つの適合関数の利用によりアルゴリズムの効率が著しく向上し, 新たな最良解が得られ, 得られたPSL値は$\sqrt{L}$よりも有意に低かった。

The search for binary sequences with low peak sidelobe level value represents a formidable computational problem. To locate better sequences for this problem, we designed a stochastic algorithm that uses two fitness functions. In these fitness functions, the value of the autocorrelation function has a different impact on the final fitness value. It is defined with the value of the exponent over the autocorrelation function values. Each function is used in the corresponding optimization phase, and the optimization process switches between these two phases until the stopping condition is satisfied. The proposed algorithm was implemented using the compute unified device architecture and therefore allowed us to exploit the computational power of graphics processing units. This algorithm was tested on sequences with lengths $L = 2^m - 1$, for $14 \le m \le 20$. From the obtained results it is evident that the usage of two fitness functions improved the efficiency of the algorithm significantly, new-best known solutions were achieved, and the achieved PSL values were significantly less than $\sqrt{L}$.
翻訳日:2021-07-25 14:21:52 公開日:2021-06-30
# 非同型モード間グラフアライメントとホロスティック脳マッピングのための合成

Non-isomorphic Inter-modality Graph Alignment and Synthesis for Holistic Brain Mapping ( http://arxiv.org/abs/2107.06281v1 )

ライセンス: Link先を確認
Islem Mhiri and Ahmed Nebli and Mohamed Ali Mahjoub and Islem Rekik(参考訳) 脳グラフ合成は、脳画像データの高い獲得コストと処理時間を伴うことなく、ソースからターゲットの脳グラフを予測する新しい時代を告げた。 しかし、既存のマルチモーダルグラフ合成フレームワークにはいくつかの制限がある。 第一に、彼らは主に同じドメイン(イントラモダリティ)からグラフを生成することに焦点を当て、脳の接続性(インターモダリティ)の豊富なマルチモーダル表現を見渡す。 第二に、それらは同型グラフ生成タスクのみを処理でき、対象グラフを異なるノードサイズとトポロジ構造で合成する一般化性を制限することができる。 さらに重要なことに、ターゲットドメインとソースドメインの両方が異なる分布を持ち、それらの間にドメイン破壊を引き起こす可能性がある。 このような課題に対処するために、与えられたモダリティに基づいて対象グラフのモダリティを推測する非同型グラフ(IMANGraphNet)フレームワークのモード間整合器を提案する。 我々の3つの中心的貢献は、(i) 新たなグラフ生成逆数ネットワーク(gGAN)に基づいて、ソースグラフ(例えば、形態学)からターゲットグラフ(例えば、機能)を予測すること、(ii) ノード数、エッジ、構造が異なるソースドメインとターゲットドメインの両方に対して非同型グラフを使用すること、(iii) 予測対象分布を、グラフオートエンコーダを用いて基底真理グラフと一致するように強制することにある。 gGANの不安定な挙動に対処するため,グラウンド・トゥルース保存(GT-P)ロス関数を設計し,グラウンド・真理脳グラフのトポロジ的構造を学習するためのジェネレータを誘導する。 形態素グラフからの関数予測に関する包括的実験により,IMANGraphNetの変形特性と比較した性能を示す。 これは健康と疾患における統合的および総合的な脳マッピングにさらに活用することができる。

Brain graph synthesis marked a new era for predicting a target brain graph from a source one without incurring the high acquisition cost and processing time of neuroimaging data. However, existing multi-modal graph synthesis frameworks have several limitations. First, they mainly focus on generating graphs from the same domain (intra-modality), overlooking the rich multimodal representations of brain connectivity (inter-modality). Second, they can only handle isomorphic graph generation tasks, limiting their generalizability to synthesizing target graphs with a different node size and topological structure from those of the source one. More importantly, both target and source domains might have different distributions, which causes a domain fracture between them (i.e., distribution misalignment). To address such challenges, we propose an inter-modality aligner of non-isomorphic graphs (IMANGraphNet) framework to infer a target graph modality based on a given modality. Our three core contributions lie in (i) predicting a target graph (e.g., functional) from a source graph (e.g., morphological) based on a novel graph generative adversarial network (gGAN); (ii) using non-isomorphic graphs for both source and target domains with a different number of nodes, edges and structure; and (iii) enforcing the predicted target distribution to match that of the ground truth graphs using a graph autoencoder to relax the designed loss oprimization. To handle the unstable behavior of gGAN, we design a new Ground Truth-Preserving (GT-P) loss function to guide the generator in learning the topological structure of ground truth brain graphs. Our comprehensive experiments on predicting functional from morphological graphs demonstrate the outperformance of IMANGraphNet in comparison with its variants. This can be further leveraged for integrative and holistic brain mapping in health and disease.
翻訳日:2021-07-18 12:24:38 公開日:2021-06-30
# グラフ学習における時空間特徴正規化を用いた爆発スパイキングダイナミクス

Exploiting Spiking Dynamics with Spatial-temporal Feature Normalization in Graph Learning ( http://arxiv.org/abs/2107.06865v1 )

ライセンス: Link先を確認
Mingkun Xu, Yujie Wu, Lei Deng, Faqiang Liu, Guoqi Li, Jing Pei(参考訳) 内在的なダイナミクスを持つ生物学的スパイキングニューロンは、複雑な環境でマルチモーダル情報を処理するための脳の強力な表現と学習能力を持つ。 ユークリッド空間タスクを扱うためのスパイクニューラルネットワーク(SNN)の最近の進歩にもかかわらず、グラフデータで表される非ユークリッド空間データの処理において、SNNを活用することは依然として困難である。 本稿では,グラフ学習のためのsnsの直接トレーニングを可能にする汎用スパイクベースモデリングフレームワークを提案する。 ノード特徴のスパイクデータフローの時空間展開を通じて、グラフ畳み込みフィルタをスパイクダイナミクスに組み込み、シナジスティック学習パラダイムを定式化する。 スパイク表現とスパイキングダイナミクスのユニークな特徴を考慮して,snnに適した空間-時間的特徴正規化(stfn)手法を提案する。 提案手法をグラフ畳み込みSNNやグラフアテンションSNNを含む2つのスパイキンググラフモデルにインスタンス化し,Cora,Citeseer,Pubme dなどのノード分類ベンチマークでそれらの性能を検証する。 我々のモデルは、計算コストがはるかに低い最先端グラフニューラルネットワーク(GNN)モデルと同等の性能を達成でき、ニューロモルフィックハードウェア上での実行とグラフィカルシナリオにおけるニューロモルフィックな応用の促進に大きなメリットを示す。

Biological spiking neurons with intrinsic dynamics underlie the powerful representation and learning capabilities of the brain for processing multimodal information in complex environments. Despite recent tremendous progress in spiking neural networks (SNNs) for handling Euclidean-space tasks, it still remains challenging to exploit SNNs in processing non-Euclidean-space data represented by graph data, mainly due to the lack of effective modeling framework and useful training techniques. Here we present a general spike-based modeling framework that enables the direct training of SNNs for graph learning. Through spatial-temporal unfolding for spiking data flows of node features, we incorporate graph convolution filters into spiking dynamics and formalize a synergistic learning paradigm. Considering the unique features of spike representation and spiking dynamics, we propose a spatial-temporal feature normalization (STFN) technique suitable for SNN to accelerate convergence. We instantiate our methods into two spiking graph models, including graph convolution SNNs and graph attention SNNs, and validate their performance on three node-classification benchmarks, including Cora, Citeseer, and Pubmed. Our model can achieve comparable performance with the state-of-the-art graph neural network (GNN) models with much lower computation costs, demonstrating great benefits for the execution on neuromorphic hardware and prompting neuromorphic applications in graphical scenarios.
翻訳日:2021-07-18 12:23:12 公開日:2021-06-30
# 全国規模の電力ピーク負荷予測:伝統的な、機械学習、ハイブリッドモデル?

National-scale electricity peak load forecasting: Traditional, machine learning, or hybrid model? ( http://arxiv.org/abs/2107.06174v1 )

ライセンス: Link先を確認
Juyong Lee and Youngsang Cho(参考訳) 気候変動や電化による電力需要の変動性の増加に伴い、正確なピーク負荷予測の重要性が高まっている。 従来のピーク負荷予測は時系列モデルによって行われているが、近年では機械学習やディープラーニングに基づく新しいモデルが導入されている。 本研究は,時系列,機械学習,ハイブリッドモデルの性能を比較することで,韓国における最も正確なピーク負荷予測モデルを決定するための比較分析を行う。 時系列モデルでは,季節的自己回帰統合移動平均と外因性変数(SARIMAX)を用いる。 機械学習モデルには、ニューラルネットワーク(ANN)、サポートベクター回帰(SVR)、長期短期記憶(LSTM)が使用される。 ハイブリッドモデルでは、SARIMAX-ANN、SARIMAX-SVR、SARIMAX-LSTMが使用される。 その結果,ハイブリッドモデルはSARIMAXモデルよりも大幅に改善されていることがわかった。 LSTMベースのモデルは他のモデルよりも優れており、シングルとハイブリッドのLSTMモデルは大きな性能差を示さなかった。 2019年の韓国最高負荷の場合、LSTMモデルの予測能力は、SARIMAX-LSTMモデルよりも大きいことが判明した。 LSTM、SARIMAX-SVR、SARIMAX-LSTMモデルは、韓国で使用されている現在の時系列予測モデルよりも優れていた。 したがって、機械学習やハイブリッドモデルを含めることで、韓国のピーク負荷予測性能を向上させることができる。

As the volatility of electricity demand increases owing to climate change and electrification, the importance of accurate peak load forecasting is increasing. Traditional peak load forecasting has been conducted through time series-based models; however, recently, new models based on machine or deep learning are being introduced. This study performs a comparative analysis to determine the most accurate peak load-forecasting model for Korea, by comparing the performance of time series, machine learning, and hybrid models. Seasonal autoregressive integrated moving average with exogenous variables (SARIMAX) is used for the time series model. Artificial neural network (ANN), support vector regression (SVR), and long short-term memory (LSTM) are used for the machine learning models. SARIMAX-ANN, SARIMAX-SVR, and SARIMAX-LSTM are used for the hybrid models. The results indicate that the hybrid models exhibit significant improvement over the SARIMAX model. The LSTM-based models outperformed the others; the single and hybrid LSTM models did not exhibit a significant performance difference. In the case of Korea's highest peak load in 2019, the predictive power of the LSTM model proved to be greater than that of the SARIMAX-LSTM model. The LSTM, SARIMAX-SVR, and SARIMAX-LSTM models outperformed the current time series-based forecasting model used in Korea. Thus, Korea's peak load-forecasting performance can be improved by including machine learning or hybrid models.
翻訳日:2021-07-18 12:22:06 公開日:2021-06-30
# (参考訳) 特徴選択と決定木によるボットネットトラフィックの効率的な検出 [全文訳有]

Efficient Detection of Botnet Traffic by features selection and Decision Trees ( http://arxiv.org/abs/2107.02896v1 )

ライセンス: CC0 1.0
Javier Velasco-Mata, V\'ictor Gonz\'alez-Castro, Eduardo Fidalgo, Enrique Alegre(参考訳) ボットネットは最大の存在感を持つオンラインの脅威の一つであり、世界経済に億万長者の損失をもたらしている。 近年,インターネットに接続されるデバイスが増えているため,大量のネットワークトラフィックデータを解析する必要がある。 本研究では,ボットネットのトラフィック分類における性能向上に着目し,検出率をさらに向上させる特徴を選択する。 この目的のために、情報ゲインとgini重要度という2つの機能選択技術を使い、5つ、6つ、7つの機能を事前に選択した3つのサブセットに導いた。 次に,3つの特徴部分集合と,決定木,ランダムフォレスト,k-Nearest Neighborsの3つのモデルを評価する。 3つの特徴ベクトルと3つのモデルの性能をテストするために、CTU-13データセット、すなわちQB-CTU13とEQB-CTU13に基づいて2つのデータセットを生成する。 サンプルの分類に必要な計算時間に対してマクロ平均f1スコアとして性能を測定する。 その結果, 平均F1スコアが85%, 平均0.78マイクロ秒, 平均F1スコアが得られた5つの特徴集合を用いて, 決定木が最も高い性能を示した。

Botnets are one of the online threats with the biggest presence, causing billionaire losses to global economies. Nowadays, the increasing number of devices connected to the Internet makes it necessary to analyze large amounts of network traffic data. In this work, we focus on increasing the performance on botnet traffic classification by selecting those features that further increase the detection rate. For this purpose we use two feature selection techniques, Information Gain and Gini Importance, which led to three pre-selected subsets of five, six and seven features. Then, we evaluate the three feature subsets along with three models, Decision Tree, Random Forest and k-Nearest Neighbors. To test the performance of the three feature vectors and the three models we generate two datasets based on the CTU-13 dataset, namely QB-CTU13 and EQB-CTU13. We measure the performance as the macro averaged F1 score over the computational time required to classify a sample. The results show that the highest performance is achieved by Decision Trees using a five feature set which obtained a mean F1 score of 85% classifying each sample in an average time of 0.78 microseconds.
翻訳日:2021-07-11 12:17:16 公開日:2021-06-30
# Gamma Belief NetworkをガイドしたSawtooth Factorial Topic Embeddings

Sawtooth Factorial Topic Embeddings Guided Gamma Belief Network ( http://arxiv.org/abs/2107.02757v1 )

ライセンス: Link先を確認
Zhibin Duan, Dongsheng Wang, Bo Chen, Chaojie Wang, Wenchao Chen, Yewen Li, Jie Ren, Mingyuan Zhou(参考訳) ガンマ信念ネットワーク(GBN)のような階層的トピックモデルは、多層文書表現のマイニングや解釈可能なトピック分類の発見において有望な結果をもたらした。 しかしながら、各レイヤのトピックがディリクレ分布から独立して引き出され、同一レイヤと異なるレイヤ間のトピック間の依存関係を無視していると、前もって仮定することが多い。 この仮定を緩和するために,埋込み空間におけるトピック間の依存関係と意味的類似性を捉える,ドキュメントの深い生成モデルであるsawtooth factorial topic embedded guided gbnを提案する。 具体的には、単語とトピックの両方が同じ次元の埋め込みベクトルとして表現される。 レイヤ内のトピックマトリックスは、ファクタローディングマトリックスとトピック埋め込みマトリックスの積に分解され、その変換は、上記のレイヤのファクタローディングマトリックスとして設定される。 隣接する層間の成分を共有するこの特定の因子化を繰り返すと、ソートゥース因子化と呼ばれる構造に繋がる。 確率的勾配降下によってモデルパラメータを最適化するために、自動エンコーディング変分推論ネットワークを構築する。 大きなコーパスの実験では、より深い解釈可能なトピックの抽出とより良いドキュメント表現の導出において、私たちのモデルは他の神経話題モデルよりも優れています。

Hierarchical topic models such as the gamma belief network (GBN) have delivered promising results in mining multi-layer document representations and discovering interpretable topic taxonomies. However, they often assume in the prior that the topics at each layer are independently drawn from the Dirichlet distribution, ignoring the dependencies between the topics both at the same layer and across different layers. To relax this assumption, we propose sawtooth factorial topic embedding guided GBN, a deep generative model of documents that captures the dependencies and semantic similarities between the topics in the embedding space. Specifically, both the words and topics are represented as embedding vectors of the same dimension. The topic matrix at a layer is factorized into the product of a factor loading matrix and a topic embedding matrix, the transpose of which is set as the factor loading matrix of the layer above. Repeating this particular type of factorization, which shares components between adjacent layers, leads to a structure referred to as sawtooth factorization. An auto-encoding variational inference network is constructed to optimize the model parameter via stochastic gradient descent. Experiments on big corpora show that our models outperform other neural topic models on extracting deeper interpretable topics and deriving better document representations.
翻訳日:2021-07-11 11:37:35 公開日:2021-06-30
# サイバーセキュリティとコンピュータビジョンのためのadversarial machine learningの現状と課題

Adversarial Machine Learning for Cybersecurity and Computer Vision: Current Developments and Challenges ( http://arxiv.org/abs/2107.02894v1 )

ライセンス: Link先を確認
Bowei Xi(参考訳) 本稿では,2つのアプリケーションドメイン,すなわちサイバーセキュリティとコンピュータビジョンに焦点を当てた敵機械学習の概要を紹介する。 敵意のある機械学習の研究は、機械学習技術の幅広い応用に対する大きな脅威に対処している。 例えば、深層ニューラルネットワークは、クリーンな画像に知覚不能な摂動を追加して生成される敵画像を正確に分類できない。まず、機械学習技術に対する攻撃の3つの主要なカテゴリ(毒殺攻撃、回避攻撃、プライバシ攻撃)について論じる。 次に、既存の防御アプローチの弱点と限界とともに対応する防御アプローチを導入する。 サイバーセキュリティとコンピュータビジョンにおける敵のサンプルは、根本的に異なる。 サイバーセキュリティにおける敵対的サンプルは、トレーニングデータと異なる特性/分布を持つことが多いが、コンピュータビジョンにおける敵対的イメージは、小さな入力摂動によって生成される。 これは、ロバストな学習テクニックが異なるタイプの攻撃に耐えなければならないため、ロバストな学習テクニックの開発をさらに複雑にする。

We provide a comprehensive overview of adversarial machine learning focusing on two application domains, i.e., cybersecurity and computer vision. Research in adversarial machine learning addresses a significant threat to the wide application of machine learning techniques -- they are vulnerable to carefully crafted attacks from malicious adversaries. For example, deep neural networks fail to correctly classify adversarial images, which are generated by adding imperceptible perturbations to clean images.We first discuss three main categories of attacks against machine learning techniques -- poisoning attacks, evasion attacks, and privacy attacks. Then the corresponding defense approaches are introduced along with the weakness and limitations of the existing defense approaches. We notice adversarial samples in cybersecurity and computer vision are fundamentally different. While adversarial samples in cybersecurity often have different properties/distribut ions compared with training data, adversarial images in computer vision are created with minor input perturbations. This further complicates the development of robust learning techniques, because a robust learning technique must withstand different types of attacks.
翻訳日:2021-07-11 11:36:11 公開日:2021-06-30
# バイオインスパイアされたディープニューラルネットワーク攻撃

Bio-Inspired Adversarial Attack Against Deep Neural Networks ( http://arxiv.org/abs/2107.02895v1 )

ライセンス: Link先を確認
Bowei Xi and Yujie Chen and Fan Fei and Zhan Tu and Xinyan Deng(参考訳) そこで本研究では,生体にインスパイアされた設計を応用した,深層ニューラルネットワーク(DNN)に対する新たな敵攻撃法を提案する。 我々の知る限りでは、これは動く物体で物理的な攻撃を導入する最初の試みである。 本稿では,デジタル入力や静止物体に小さな摂動を導入するために,既存の文献で支配的な攻撃戦略に従う代わりに,新たな攻撃戦略を2つ紹介する。 1つの物理オブジェクトに複数のパターンを重ね合わせることで、DNNは混乱し、クラスラベルを割り当てるためにパターンの1つを選択する。 3羽の羽ばたきロボットによる実験は、DNNによる標的ミスの原因となる敵のカモフラージュの開発の可能性を示している。 また、動画中の連続するフレーム間の依存を減少させ、物体検出装置を「盲点」、すなわち、映像に存在する物体を検出できないようにする。 したがって、DNNに対する物理的攻撃が成功すれば、システムに対する標的運動も考慮すべきである。

The paper develops a new adversarial attack against deep neural networks (DNN), based on applying bio-inspired design to moving physical objects. To the best of our knowledge, this is the first work to introduce physical attacks with a moving object. Instead of following the dominating attack strategy in the existing literature, i.e., to introduce minor perturbations to a digital input or a stationary physical object, we show two new successful attack strategies in this paper. We show by superimposing several patterns onto one physical object, a DNN becomes confused and picks one of the patterns to assign a class label. Our experiment with three flapping wing robots demonstrates the possibility of developing an adversarial camouflage to cause a targeted mistake by DNN. We also show certain motion can reduce the dependency among consecutive frames in a video and make an object detector "blind", i.e., not able to detect an object exists in the video. Hence in a successful physical attack against DNN, targeted motion against the system should also be considered.
翻訳日:2021-07-11 11:35:54 公開日:2021-06-30
# 確率的到達可能性によるレコメンダシステムの可用性と発見の定量化

Quantifying Availability and Discovery in Recommender Systems via Stochastic Reachability ( http://arxiv.org/abs/2107.00833v1 )

ライセンス: Link先を確認
Mihaela Curmei, Sarah Dean, Benjamin Recht(参考訳) 本研究では,対話型レコメンデーションシステムにおける選好モデルがコンテンツの可利用性や発見機会を決定する方法について検討する。 そこで本研究では,ユーザに対して対象コンテンツが推奨される最大確率を定量化するための確率的到達可能性に基づく評価手法を提案する。 このフレームワークにより、ユーザの振る舞いについて最小限の仮定で推奨される可能性の上限を計算することができます。 確率的到達性は、コンテンツの可用性のバイアスを検出し、ユーザーに与えられる発見の機会の限界を診断するために使用することができる。 我々は,この指標を様々な実践的設定のための凸プログラムとして効率的に計算できることを示し,また,到達性は本質的に精度に反するものではないことを主張する。 明示的および暗黙的な評価の大規模なデータセットに基づいてトレーニングされた推薦アルゴリズムの評価を示す。 その結果,選好モデル,選択規則,およびユーザの介入が到達可能性にどのように影響し,これらの効果が不均一に分配されるかを示す。

In this work, we consider how preference models in interactive recommendation systems determine the availability of content and users' opportunities for discovery. We propose an evaluation procedure based on stochastic reachability to quantify the maximum probability of recommending a target piece of content to an user for a set of allowable strategic modifications. This framework allows us to compute an upper bound on the likelihood of recommendation with minimal assumptions about user behavior. Stochastic reachability can be used to detect biases in the availability of content and diagnose limitations in the opportunities for discovery granted to users. We show that this metric can be computed efficiently as a convex program for a variety of practical settings, and further argue that reachability is not inherently at odds with accuracy. We demonstrate evaluations of recommendation algorithms trained on large datasets of explicit and implicit ratings. Our results illustrate how preference models, selection rules, and user interventions impact reachability and how these effects can be distributed unevenly.
翻訳日:2021-07-05 12:56:38 公開日:2021-06-30
# 画像分類タスクにおける深層アクティブラーニングの効果的評価

Effective Evaluation of Deep Active Learning on Image Classification Tasks ( http://arxiv.org/abs/2106.15324v2 )

ライセンス: Link先を確認
Nathan Beck, Durga Sivasubramanian, Apurva Dani, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) ディープラーニングをよりラベル効率にすることを目的として、深層モデルのためのアクティブラーニング(al)の研究が増えている。 しかし、広く普及している実験的な設定には、主に統一された実装とベンチマークの欠如に起因する多くの問題がある。 現在の文献における問題には、異なるalアルゴリズムの性能に関する矛盾した観察、最適化のためのデータ拡張やsgdのような重要な一般化アプローチの意図しない排除、alのラベル付け効率のような評価面の研究の欠如、alがランダムサンプリング(rs)を上回るシナリオの明確さの欠如などが含まれる。 本稿では,最先端のalアルゴリズムを画像分類の文脈で統一的に実装し,それらの問題を効果的評価の面として慎重に検討する。 ポジティブな側面として,データ拡張を用いたrsに比べてal手法の方がラベル効率が2倍から4倍高いことを示す。 驚いたことに、データ拡張が含まれている場合、単純な不確実性サンプリングよりも最先端のアプローチであるBADGEを使用することで、一貫した利得はもはや存在しない。 次に、クラス毎に様々な冗長性とサンプル数で既存のアプローチがどのように機能するかを慎重に分析する。 最後に,alバッチサイズの影響,初期化の影響,ラウンド毎に新たなモデルを再トレーニングすることの重要性,その他の洞察など,al実践者が今後の作業で考慮すべき点をいくつか紹介する。

With the goal of making deep learning more label-efficient, a growing number of papers have been studying active learning (AL) for deep models. However, there are a number of issues in the prevalent experimental settings, mainly stemming from a lack of unified implementation and benchmarking. Issues in the current literature include sometimes contradictory observations on the performance of different AL algorithms, unintended exclusion of important generalization approaches such as data augmentation and SGD for optimization, a lack of study of evaluation facets like the labeling efficiency of AL, and little or no clarity on the scenarios in which AL outperforms random sampling (RS). In this work, we present a unified re-implementation of state-of-the-art AL algorithms in the context of image classification, and we carefully study these issues as facets of effective evaluation. On the positive side, we show that AL techniques are 2x to 4x more label-efficient compared to RS with the use of data augmentation. Surprisingly, when data augmentation is included, there is no longer a consistent gain in using BADGE, a state-of-the-art approach, over simple uncertainty sampling. We then do a careful analysis of how existing approaches perform with varying amounts of redundancy and number of examples per class. Finally, we provide several insights for AL practitioners to consider in future work, such as the effect of the AL batch size, the effect of initialization, the importance of retraining a new model at every round, and other insights.
翻訳日:2021-07-04 19:44:01 公開日:2021-06-30
# (参考訳) 汎用ロボットマニピュレーションのための単一RGB-Dカメラ遠隔操作 [全文訳有]

Single RGB-D Camera Teleoperation for General Robotic Manipulation ( http://arxiv.org/abs/2106.14396v2 )

ライセンス: CC BY 4.0
Quan Vuong, Yuzhe Qin, Runlin Guo, Xiaolong Wang, Hao Su, Henrik Christensen(参考訳) 人間のモーションキャプチャー装置として1台のRGB-Dカメラを用いた遠隔操作システムを提案する。 本システムでは, 布の折り畳み, ハンマー加工, 3mmクリアランスペグなどの汎用的な操作を行うことができる。 遠隔操作システムの柔軟性を高めるために,非カルテ的斜め座標フレーム,動的運動スケーリング,演算子フレームの再配置を提案する。 遠隔操作への参入障壁を下げることで、監視された自律システムのより広い展開が可能になり、ロボット操作のための機械学習の可能性を解き放つ現実的なデータセットが生成されると仮定する。

We propose a teleoperation system that uses a single RGB-D camera as the human motion capture device. Our system can perform general manipulation tasks such as cloth folding, hammering and 3mm clearance peg in hole. We propose the use of non-Cartesian oblique coordinate frame, dynamic motion scaling and reposition of operator frames to increase the flexibility of our teleoperation system. We hypothesize that lowering the barrier of entry to teleoperation will allow for wider deployment of supervised autonomy system, which will in turn generates realistic datasets that unlock the potential of machine learning for robotic manipulation.
翻訳日:2021-07-03 06:35:26 公開日:2021-06-30
# (参考訳) Deep Learning-based Human Digitizationを活用した効率的な実データ生成フレームワーク [全文訳有]

Efficient Realistic Data Generation Framework leveraging Deep Learning-based Human Digitization ( http://arxiv.org/abs/2106.15409v2 )

ライセンス: CC BY 4.0
C. Symeonidis, P. Nousi, P. Tosidis, K. Tsampazis, N. Passalis, A. Tefas, N. Nikolaidis(参考訳) 教師付きディープラーニングアルゴリズムの性能は、トレーニングに使用されるデータのスケール、品質、多様性に大きく依存する。 大量のデータの収集と手作業によるアノテートは、実行に要する時間とコストのかかる作業である。 視覚人間中心の知覚に関連するタスクでは、プライバシーに関する法律によって、データの収集と配布が制限される場合がある。 さらに、例えば、深層学習に基づく知覚モデルを用いるロボットのような複雑なシステムの設計とテストは、実際のデータセットと大規模データセットで訓練された最先端の手法でさえ、仮想データと実世界のデータの視覚的差異に適応していないため、常に適切に実行できないため、深刻な困難に直面している。 そこで本研究では,a)人物検出,b)顔認識,c)人格推定のためのアノテーションを用いて,リアルな合成データを自動的に生成する手法を提案する。 提案手法では,実際の背景画像を入力し,さまざまなポーズで人物像を投入する。 本研究では,手作りの3dモデルではなく,ディープラーニングによるモデルの利用を提案し,高レベルのリアリズムを維持しつつ,データセット作成コストをさらに削減する。 さらに、提案するパイプラインを実装するオープンソースで使いやすいツールを提供し、さまざまなタスクに対して、高度に現実的な合成データセットを生成することができます。 対応するタスクのベンチマークと評価は、実データの補足として合成データが効果的に使用できることを示している。

The performance of supervised deep learning algorithms depends significantly on the scale, quality and diversity of the data used for their training. Collecting and manually annotating large amount of data can be both time-consuming and costly tasks to perform. In the case of tasks related to visual human-centric perception, the collection and distribution of such data may also face restrictions due to legislation regarding privacy. In addition, the design and testing of complex systems, e.g., robots, which often employ deep learning-based perception models, may face severe difficulties as even state-of-the-art methods trained on real and large-scale datasets cannot always perform adequately due to not having been adapted to the visual differences between the virtual and the real world data. As an attempt to tackle and mitigate the effect of these issues, we present a method that automatically generates realistic synthetic data with annotations for a) person detection, b) face recognition, and c) human pose estimation. The proposed method takes as input real background images and populates them with human figures in various poses. Instead of using hand-made 3D human models, we propose the use of models generated through deep learning methods, further reducing the dataset creation costs, while maintaining a high level of realism. In addition, we provide open-source and easy to use tools that implement the proposed pipeline, allowing for generating highly-realistic synthetic datasets for a variety of tasks. A benchmarking and evaluation in the corresponding tasks shows that synthetic data can be effectively used as a supplement to real data.
翻訳日:2021-07-03 06:17:54 公開日:2021-06-30
# (参考訳) アニメ化可能な全身アバターの服飾モデル [全文訳有]

Explicit Clothing Modeling for an Animatable Full-Body Avatar ( http://arxiv.org/abs/2106.14879v2 )

ライセンス: CC BY 4.0
Donglai Xiang, Fabian Andres Prada, Timur Bagautdinov, Weipeng Xu, Yuan Dong, He Wen, Jessica Hodgins, Chenglei Wu(参考訳) 最近の研究は、フォトリアリスティック・アニマタブルフルボディ・コーデック・アバターの構築に大きな進歩を見せているが、これらのアバターは服の高忠実なアニメーションを作成するのに依然として困難に直面している。 そこで本研究では,多視点映像から,上半身の衣服を明示的に表現した想像可能な身体アバターを構築する手法を提案する。 2層メッシュ表現を用いてテンプレートで3Dスキャンを別々に登録する。 異なるフレーム間での光度対応を改善するために、変分オートエンコーダによって予測される衣服形状とテクスチャの逆レンダリングによりテクスチャアライメントを行う。 次に,上着と内装層を別々にモデル化した新しい2層コーデックアバターを訓練する。 身体の動態と衣服状態の相互作用を学習するために, 時系列畳み込みネットワークを用いて, 入力骨格ポーズのシーケンスに基づいて, 衣服潜伏コードの予測を行う。 3つの異なるアクターに対してフォトリアリスティックなアニメーションを出力し、前作の単層アバターよりも布体アバターの利点を実演する。 また、アニメーション出力で衣服のテクスチャを編集できる明示的な衣料モデルの有用性を示す。

Recent work has shown great progress in building photorealistic animatable full-body codec avatars, but these avatars still face difficulties in generating high-fidelity animation of clothing. To address the difficulties, we propose a method to build an animatable clothed body avatar with an explicit representation of the clothing on the upper body from multi-view captured videos. We use a two-layer mesh representation to separately register the 3D scans with templates. In order to improve the photometric correspondence across different frames, texture alignment is then performed through inverse rendering of the clothing geometry and texture predicted by a variational autoencoder. We then train a new two-layer codec avatar with separate modeling of the upper clothing and the inner body layer. To learn the interaction between the body dynamics and clothing states, we use a temporal convolution network to predict the clothing latent code based on a sequence of input skeletal poses. We show photorealistic animation output for three different actors, and demonstrate the advantage of our clothed-body avatars over single-layer avatars in the previous work. We also show the benefit of an explicit clothing model which allows the clothing texture to be edited in the animation output.
翻訳日:2021-07-03 05:53:36 公開日:2021-06-30
# (参考訳) 深度情報を用いた内視鏡映像のキーフレーム抽出 [全文訳有]

Extraction of Key-frames of Endoscopic Videos by using Depth Information ( http://arxiv.org/abs/2107.00005v1 )

ライセンス: CC BY 4.0
Pradipta Sasmal, Avinash Paul, M.K. Bhuyan, and Yuji Iwahori(参考訳) 深層学習に基づく単眼深度推定法 (MDE) は, 内視鏡映像の最も情報性の高いフレーム (キーフレーム) を選択するために提案される。 多くの場合,ポリプの基底真理深度マップは容易には利用できないため,本手法では移動学習アプローチが採用されている。 内視鏡的形態は一般に数千のフレームをキャプチャする。 このシナリオでは、内視鏡的ビデオの低品質で臨床的に無関係なフレームを破棄することが極めて重要であるが、最も有益なフレームは臨床診断のために保持すべきである。 この観点から,ポリプの深さ情報を利用してキーフレーム選択戦略を提案する。 提案手法では,キーフレームを適応的に選択するために,画像モーメント,エッジサイズ,キーポイントが考慮される。 提案手法の1つの重要な応用は,抽出されたキーフレームを用いてポリプの3次元再構成である。 また、ポリプは抽出した深度マップの助けを借りて局在する。

A deep learning-based monocular depth estimation (MDE) technique is proposed for selection of most informative frames (key frames) of an endoscopic video. In most of the cases, ground truth depth maps of polyps are not readily available and that is why the transfer learning approach is adopted in our method. An endoscopic modalities generally capture thousands of frames. In this scenario, it is quite important to discard low-quality and clinically irrelevant frames of an endoscopic video while the most informative frames should be retained for clinical diagnosis. In this view, a key-frame selection strategy is proposed by utilizing the depth information of polyps. In our method, image moment, edge magnitude, and key-points are considered for adaptively selecting the key frames. One important application of our proposed method could be the 3D reconstruction of polyps with the help of extracted key frames. Also, polyps are localized with the help of extracted depth maps.
翻訳日:2021-07-03 05:18:15 公開日:2021-06-30
# (参考訳) オブジェクト検出のためのシンプルなトレーニング戦略とモデルスケーリング [全文訳有]

Simple Training Strategies and Model Scaling for Object Detection ( http://arxiv.org/abs/2107.00057v1 )

ライセンス: CC BY 4.0
Xianzhi Du, Barret Zoph, Wei-Chih Hung, Tsung-Yi Lin(参考訳) オブジェクト検出システムの速度-精度のPareto曲線は、より良いモデルアーキテクチャ、トレーニングおよび推論手法の組み合わせによって進歩している。 本稿では,これらの手法を体系的に評価し,現代の検出システムにおける改善のほとんどがどこから来ているのかを理解する。 我々は、RetinaNetとRCNN検出器を用いたバニラResNet-FPNバックボーン上でこれらの改善をベンチマークした。 バニラ検出器は精度が7.7%向上し、速度は30%速くなった。 さらに、RetinaNet-RS と Cascade RCNN-RS という2つのパレート曲線を形成するモデル群を生成するための単純なスケーリング戦略も提供する。 これらの単純な再スケール検出器は、1段のRetinaNet検出器と2段のRCNN検出器の間の速度精度のトレードオフを探索する。 我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。 最後に、ResNetアーキテクチャを3つの小さなアーキテクチャ変更で示し、オブジェクト検出とインスタンスセグメンテーションシステムのバックボーンとしてEfficientNetより優れています。

The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.
翻訳日:2021-07-03 04:28:25 公開日:2021-06-30
# (参考訳) その「人間」は金ではない: 生成されたテキストの人間評価 [全文訳有]

All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text ( http://arxiv.org/abs/2107.00061v1 )

ライセンス: CC BY 4.0
Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, Noah A. Smith(参考訳) 自然言語生成において、人間の評価は一般的に金本位と見なされるが、モデルの流動性が向上するにつれて、エバリュエータはマシン生成テキストをどの程度検出し判断できるか? 我々は,3つのドメイン(文献,ニュース記事,レシピ)において,人間と機械によるテキスト(GPT2,GPT3)を区別する非専門家の能力を評価する。 トレーニングなしでは、GPT3と人間によるテキストをランダムな確率レベルで区別できる。 我々は,GPT3によるテキスト(詳細な説明,注釈例,ペア例)の同定を迅速に行うための3つのアプローチを探索し,評価者の精度が55%向上する一方,3つの領域間では顕著な改善は得られなかった。 テキスト領域間での矛盾する結果と、評価者が判断した矛盾する理由を考慮し、NLG評価における非トレーニングヒト評価の役割を検証し、最先端のモデルから生成されたテキストの人間評価を改善するために、NLG研究者に推奨する。

Human evaluations are typically considered the gold standard in natural language generation, but as models' fluency improves, how well can evaluators detect and judge machine-generated text? We run a study assessing non-experts' ability to distinguish between human- and machine-authored text (GPT2 and GPT3) in three domains (stories, news articles, and recipes). We find that, without training, evaluators distinguished between GPT3- and human-authored text at random chance level. We explore three approaches for quickly training evaluators to better identify GPT3-authored text (detailed instructions, annotated examples, and paired examples) and find that while evaluators' accuracy improved up to 55%, it did not significantly improve across the three domains. Given the inconsistent results across text domains and the often contradictory reasons evaluators gave for their judgments, we examine the role untrained human evaluations play in NLG evaluation and provide recommendations to NLG researchers for improving human evaluations of text generated from state-of-the-art models.
翻訳日:2021-07-03 04:15:09 公開日:2021-06-30
# (参考訳) AntiPatternsを使ってMLOpsのミスを避ける [全文訳有]

Using AntiPatterns to avoid MLOps Mistakes ( http://arxiv.org/abs/2107.00079v1 )

ライセンス: CC BY 4.0
Nikhil Muralidhar, Sathappah Muthiah, Patrick Butler, Manish Jain, Yu Yu, Katy Burne, Weipeng Li, David Jones, Prakash Arunachalam, Hays 'Skip' McCormick, Naren Ramakrishnan(参考訳) さまざまな財務分析アプリケーションにおいて、企業全体で機械学習モデルの開発とデプロイから学んだ教訓について説明する。 これらの教訓はアンチパターンの形で示される。 設計パターンがソフトウェアエンジニアリングのベストプラクティスを体系化するのと同じように、アンチパターンは欠陥のあるプラクティスや方法論を記述するための語彙を提供する。 ここでは、金融MLオペレーション(MLOps)における多数のアンチパターンをカタログ化し、文書化します。 いくつかのアンチパターンは技術的なエラーによるものだが、ml結果が使用される周囲のコンテキストに関する十分な知識が不足しているものもある。 これらの状況について議論するための共通の語彙を提供することで、アンチパターンは問題に関するより良いドキュメンテーション、ステークホルダ間の迅速なコミュニケーション、問題の迅速な解決をサポートすることを意図しています。 アンチパターンのカタログ化に加えて、ソリューションやベストプラクティス、mlops成熟への今後の方向性についても述べています。

We describe lessons learned from developing and deploying machine learning models at scale across the enterprise in a range of financial analytics applications. These lessons are presented in the form of antipatterns. Just as design patterns codify best software engineering practices, antipatterns provide a vocabulary to describe defective practices and methodologies. Here we catalog and document numerous antipatterns in financial ML operations (MLOps). Some antipatterns are due to technical errors, while others are due to not having sufficient knowledge of the surrounding context in which ML results are used. By providing a common vocabulary to discuss these situations, our intent is that antipatterns will support better documentation of issues, rapid communication between stakeholders, and faster resolution of problems. In addition to cataloging antipatterns, we describe solutions, best practices, and future directions toward MLOps maturity.
翻訳日:2021-07-03 03:53:53 公開日:2021-06-30
# (参考訳) 科学出版のための検索エンジン:サイバーセキュリティケーススタディ [全文訳有]

A Search Engine for Scientific Publications: a Cybersecurity Case Study ( http://arxiv.org/abs/2107.00082v1 )

ライセンス: CC BY 4.0
Nuno Oliveira, Norberto Sousa, Isabel Pra\c{c}a(参考訳) サイバーセキュリティは、デジタル化によってインターネット上の人々、ソフトウェア、サービスのインタラクションが、インターネットに接続された技術機器とネットワークによって増大する現在、非常に困難な研究テーマである。 この分野は広く、管理、心理学、データサイエンスなど多くの分野において、多くの未調査領域がある。 その大きな学際スペクトルと多くの重要な研究トピックは、かなりの量の情報を生み出します。 本研究は,情報検索と読解アルゴリズムを組み合わせて,ドメイン固有の文書の集合から回答を抽出する科学出版用検索エンジンを提案する。 提案手法は,サイバーセキュリティの文脈に適用されているものの,高い一般化能力を示し,他の異なる知識領域でも容易に実行可能である。

Cybersecurity is a very challenging topic of research nowadays, as digitalization increases the interaction of people, software and services on the Internet by means of technology devices and networks connected to it. The field is broad and has a lot of unexplored ground under numerous disciplines such as management, psychology, and data science. Its large disciplinary spectrum and many significant research topics generate a considerable amount of information, making it hard for us to find what we are looking for when researching a particular subject. This work proposes a new search engine for scientific publications which combines both information retrieval and reading comprehension algorithms to extract answers from a collection of domain-specific documents. The proposed solution although being applied to the context of cybersecurity exhibited great generalization capabilities and can be easily adapted to perform under other distinct knowledge domains.
翻訳日:2021-07-03 03:41:11 公開日:2021-06-30
# (参考訳) デコーダの不確かさを用いたvae潜時空間におけるブラックボックス最適化の改善 [全文訳有]

Improving black-box optimization in VAE latent space using decoder uncertainty ( http://arxiv.org/abs/2107.00096v1 )

ライセンス: CC BY 4.0
Pascal Notin, Jos\'e Miguel Hern\'andez-Lobato, Yarin Gal(参考訳) 変分オートエンコーダの潜在空間における最適化は、高価なブラックボックス特性(例えば分子生成における薬物類似性、算術式による関数近似)を最大化する高次元離散オブジェクトを生成するための有望なアプローチである。 しかし、既存のメソッドは、トレーニング中にデータが入手できず、デコーダが信頼できない領域を探索することに決め、非現実的または無効なオブジェクトの生成につながるため、堅牢性に欠ける。 本稿では,デコーダのエピステミック不確実性を利用して最適化プロセスを導くことを提案する。 しかし、これは自明なものではなく、高次元および構造化された設定の不確かさの素直な推定は、高い推定値の分散をもたらす。 この問題を解決するために,より頑健なてんかん不確実性評価を行う重要サンプリングベース推定器を提案する。 我々の不確実性誘導最適化アプローチは、モデルアーキテクチャの変更やトレーニングプロセスを必要としない。 ブラックボックスの目的と生成されたサンプルの妥当性のトレードオフが良くなり、時には両者を同時に改善する。 本稿では, 数値生成, 算術式近似, 分子生成のいくつかの実験的設定において, これらの利点について述べる。

Optimization in the latent space of variational autoencoders is a promising approach to generate high-dimensional discrete objects that maximize an expensive black-box property (e.g., drug-likeness in molecular generation, function approximation with arithmetic expressions). However, existing methods lack robustness as they may decide to explore areas of the latent space for which no data was available during training and where the decoder can be unreliable, leading to the generation of unrealistic or invalid objects. We propose to leverage the epistemic uncertainty of the decoder to guide the optimization process. This is not trivial though, as a naive estimation of uncertainty in the high-dimensional and structured settings we consider would result in high estimator variance. To solve this problem, we introduce an importance sampling-based estimator that provides more robust estimates of epistemic uncertainty. Our uncertainty-guided optimization approach does not require modifications of the model architecture nor the training process. It produces samples with a better trade-off between black-box objective and validity of the generated samples, sometimes improving both simultaneously. We illustrate these advantages across several experimental settings in digit generation, arithmetic expression approximation and molecule generation for drug design.
翻訳日:2021-07-03 03:31:17 公開日:2021-06-30
# (参考訳) 糖尿病網膜症の自動検出と診断 : 包括的調査

Automated Detection and Diagnosis of Diabetic Retinopathy: A Comprehensive Survey ( http://arxiv.org/abs/2107.00115v1 )

ライセンス: CC BY 4.0
Vasudevan Lakshminarayanan, Hoda Kherdfallah, Arya Sarkar, J. Jothi Balaji(参考訳) 糖尿病網膜症(DR)は、世界の視覚障害の主要な原因である。 過去数回の糖尿病網膜症(DR)は、世界の視覚障害の主要な原因である。 過去数年間、人工知能(AI)ベースのアプローチはDRの検出とグレードに使われてきた。 早期検出は適切な治療を可能にするため、眼底と光コヒーレンス断層撮影(OCT)の両方で網膜を画像化する。 深層学習/機械学習により、画像から特徴を抽出し、DRの存在を検出することができる。 分類、セグメンテーション、ハイブリッド技術を用いてDRの存在を検知し、評価するための複数の戦略が実装されている。 このレビューでは、5年間にわたって公開文献(2016-2021年)で発表されたdrへのaiアプローチを扱う文献を取り上げている。 さらに、利用可能なDRデータセットの包括的なリストが報告されている。 The PICO (P-patient, I-intervention, C-control O-outcome) and Preferred Reporting Items for Systematic Review and Meta-Analysis (PRISMA) 2009 search strategy was used。 レビューの範囲に準拠した合計114の論文をまとめる。 さらに43の主要なデータセットのリストが提示される。

Diabetic Retinopathy (DR) is a leading cause of vision loss in the world,. In the past few Diabetic Retinopathy (DR) is a leading cause of vision loss in the world. In the past few years, Artificial Intelligence (AI) based approaches have been used to detect and grade DR. Early detection enables appropriate treatment and thus prevents vision loss, Both fundus and optical coherence tomography (OCT) images are used to image the retina. With deep learning/machine learning apprroaches it is possible to extract features from the images and detect the presence of DR. Multiple strategies are implemented to detect and grade the presence of DR using classification, segmentation, and hybrid techniques. This review covers the literature dealing with AI approaches to DR that have been published in the open literature over a five year span (2016-2021). In addition a comprehensive list of available DR datasets is reported. Both the PICO (P-patient, I-intervention, C-control O-outcome) and Preferred Reporting Items for Systematic Review and Meta-Analysis (PRISMA)2009 search strategies were employed. We summarize a total of 114 published articles which conformed to the scope of the review. In addition a list of 43 major datasets is presented.
翻訳日:2021-07-03 03:05:01 公開日:2021-06-30
# 双方向マニフォールドアライメントを用いた可逆埋め込みマッピングの学習

Learning a Reversible Embedding Mapping using Bi-Directional Manifold Alignment ( http://arxiv.org/abs/2107.00124v1 )

ライセンス: Link先を確認
Ashwinkumar Ganesan, Francis Ferraro, Tim Oates(参考訳) 本研究では,2つの多様体間の非線形写像を学習する双方向多様体アライメント(bdma)を提案する。 bdmaを,個別,指向,対象の組み合わせではなく,一対の言語でモデルをトレーニングすることで実演し,モデル数を50%削減した。 我々は、BDMAで訓練されたモデルが、"forward"(ソースからターゲット)方向の単語を"reverse"(ターゲットからソース)方向にマッピングし、ソースとターゲット言語が反転する標準的な一方向翻訳モデルに等価な(あるいはより良い)性能をもたらすことを示す。 また、BDMAがモデル全体のサイズを減らす方法を示す。

We propose a Bi-Directional Manifold Alignment (BDMA) that learns a non-linear mapping between two manifolds by explicitly training it to be bijective. We demonstrate BDMA by training a model for a pair of languages rather than individual, directed source and target combinations, reducing the number of models by 50%. We show that models trained with BDMA in the "forward" (source to target) direction can successfully map words in the "reverse" (target to source) direction, yielding equivalent (or better) performance to standard unidirectional translation models where the source and target language is flipped. We also show how BDMA reduces the overall size of the model.
翻訳日:2021-07-02 14:03:43 公開日:2021-06-30
# 確率的ジオコーディングのためのテキスト上のレグレッシブロケーション

Regressing Location on Text for Probabilistic Geocoding ( http://arxiv.org/abs/2107.00080v1 )

ライセンス: Link先を確認
Benjamin J. Radford(参考訳) テキストデータは、社会的および政治的出来事に関する詳細な情報の重要な情報源である。 自動システムは大量のテキストデータを解析し、アクター、アクション、日付、時間、場所などを記述する構造化された情報を推測または抽出する。 これらのサブタスクの1つはジオコーディングであり、与えられたテキストによって記述されたイベントや場所に関連する地理的座標を予測する。 テキストデータのジオコーディングのためのエンドツーエンド確率モデルを提案する。 さらに、ジオコーディングシステムの性能を評価するための新しいデータセットを収集する。 ELECTRo-mapと呼ばれるモデルベースのソリューションと,イベントデータのテキストをジオコーディングする最先端のオープンソースシステムを比較した。 最後に,エンド・ツー・エンドのモデルに基づくジオコーディングの利点について論じる。

Text data are an important source of detailed information about social and political events. Automated systems parse large volumes of text data to infer or extract structured information that describes actors, actions, dates, times, and locations. One of these sub-tasks is geocoding: predicting the geographic coordinates associated with events or locations described by a given text. We present an end-to-end probabilistic model for geocoding text data. Additionally, we collect a novel data set for evaluating the performance of geocoding systems. We compare the model-based solution, called ELECTRo-map, to the current state-of-the-art open source system for geocoding texts for event data. Finally, we discuss the benefits of end-to-end model-based geocoding, including principled uncertainty estimation and the ability of these models to leverage contextual information.
翻訳日:2021-07-02 14:00:09 公開日:2021-06-30
# 深層潜在空間における古典計画

Classical Planning in Deep Latent Space ( http://arxiv.org/abs/2107.00110v1 )

ライセンス: Link先を確認
Masataro Asai, Hiroshi Kajino, Alex Fukunaga, Christian Muise(参考訳) 現在のドメインに依存しない、古典的なプランナーは問題領域とインスタンスのシンボリックモデルを必要とするため、知識獲得のボトルネックとなる。 一方、深層学習は多くの分野で大きな成功を収めてきたが、その知識は、プランナーのような記号体系と相容れない記号表現に符号化されている。 ディープラーニングと古典計画を組み合わせた教師なしアーキテクチャであるLatplanを提案する。 環境(入力を訓練する)で許容される遷移のサブセットを示すラベルのないイメージペアのセットのみを与えられたlatplanは、環境の完全な命題pddlアクションモデルを学ぶ。 その後、初期状態と目標状態(計画入力)を表す一対の画像が与えられると、latplanはシンボル的潜在空間における目標状態への計画を見つけ、視覚化された計画実行を返す。 8-puzzle, 15-puzzle, blockworld, sokoban, and two variations of lightsoutの6つのプランニングドメインのイメージベースバージョンを用いてlatplanを評価した。

Current domain-independent, classical planners require symbolic models of the problem domain and instance as input, resulting in a knowledge acquisition bottleneck. Meanwhile, although deep learning has achieved significant success in many fields, the knowledge is encoded in a subsymbolic representation which is incompatible with symbolic systems such as planners. We propose Latplan, an unsupervised architecture combining deep learning and classical planning. Given only an unlabeled set of image pairs showing a subset of transitions allowed in the environment (training inputs), Latplan learns a complete propositional PDDL action model of the environment. Later, when a pair of images representing the initial and the goal states (planning inputs) is given, Latplan finds a plan to the goal state in a symbolic latent space and returns a visualized plan execution. We evaluate Latplan using image-based versions of 6 planning domains: 8-puzzle, 15-Puzzle, Blocksworld, Sokoban and Two variations of LightsOut.
翻訳日:2021-07-02 13:59:38 公開日:2021-06-30
# dep-$l_0$:依存性モデリングによる$l_0$ベースのネットワークスパーシフィケーションの改善

Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency Modeling ( http://arxiv.org/abs/2107.00070v1 )

ライセンス: Link先を確認
Yang Li and Shihao Ji(参考訳) L_0$正規化によるディープニューラルネットワークのトレーニングは、ネットワークプルーニングやスパシフィケーションの顕著なアプローチのひとつだ。 この方法はトレーニング中に重みを全くゼロにすることでネットワークを損なう。 しかし、gale et alの最近の作品。 この方法は小さなデータセットで高い圧縮率をもたらすが、imagenet上のresnet50のような大規模学習タスクでは一貫性がない。 本稿では,この現象を変分推論のレンズを用いて解析し,粗近似による性能の低下からベイズ統計において知られている平均場近似であるバイナリゲートの独立なモデリングによるものと考えられる。 この欠損を緩和するために,多層パーセプトロン (MLP) として効果的にモデル化できるバイナリゲートの依存性モデリングを提案する。 我々は、依存可能な$L_0$正規化によってネットワークを創り出すアルゴリズムをDep-$L_0$と呼ぶ。 CIFAR10, CIFAR100, ImageNet with VGG16, ResNet50, ResNet56の大規模な実験によると、当社のDep-$L_0$は、Louizosらのオリジナルの$L_0$-HCアルゴリズムより優れている。 特にImageNetでは、かなりの差がある。 最先端のネットワークスペーシフィケーションアルゴリズムと比較して、我々の依存性モデリングは、大規模学習タスクにおいて再び、$L_0$ベースのスペーシフィケーションを実現する。 ソースコードはhttps://github.com/l eo-yangli/dep-l0で入手できます。

Training deep neural networks with an $L_0$ regularization is one of the prominent approaches for network pruning or sparsification. The method prunes the network during training by encouraging weights to become exactly zero. However, recent work of Gale et al. reveals that although this method yields high compression rates on smaller datasets, it performs inconsistently on large-scale learning tasks, such as ResNet50 on ImageNet. We analyze this phenomenon through the lens of variational inference and find that it is likely due to the independent modeling of binary gates, the mean-field approximation, which is known in Bayesian statistics for its poor performance due to the crude approximation. To mitigate this deficiency, we propose a dependency modeling of binary gates, which can be modeled effectively as a multi-layer perceptron (MLP). We term our algorithm Dep-$L_0$ as it prunes networks via a dependency-enabled $L_0$ regularization. Extensive experiments on CIFAR10, CIFAR100 and ImageNet with VGG16, ResNet50, ResNet56 show that our Dep-$L_0$ outperforms the original $L_0$-HC algorithm of Louizos et al. by a significant margin, especially on ImageNet. Compared with the state-of-the-arts network sparsification algorithms, our dependency modeling makes the $L_0$-based sparsification once again very competitive on large-scale learning tasks. Our source code is available at https://github.com/l eo-yangli/dep-l0.
翻訳日:2021-07-02 13:57:41 公開日:2021-06-30
# 連合学習におけるグローバル知識蒸留

Global Knowledge Distillation in Federated Learning ( http://arxiv.org/abs/2107.00051v1 )

ライセンス: Link先を確認
Wanning Pan, Lichao Sun(参考訳) 近年,連合学習(fl)において,知識蒸留が注目されている。 FLがデータサイズとデータ構造が異なる異種クライアントでトレーニングできるという利点があります。 しかしながら、すべてのデバイスにまたがるデータサンプルは通常独立ではなく、同一に分散している(非i.d)ため、連合学習の収束と速度にさらなる課題が生じる。 FLがランダムにクライアントにトレーニングプロセスに参加するように要求すると、各クライアントはローカルな非i.dデータからのみ学習し、学習処理はさらに遅くなる。 この問題を解決するために、直感的なアイデアは、グローバルモデルを使ってローカルトレーニングを導くことである。 本稿では,従来のグローバルモデルから知識を学習し,局所バイアス学習問題に対処する,新たなグローバル知識蒸留法であるFedGKDを提案する。 グローバル知識から学び、現在のローカルモデルと整合することで、fedgkdはflでグローバル知識モデルを学ぶ。 提案手法の有効性を示すため,各種CVデータセット(CIFAR-10/100)と設定(非i.dデータ)について広範な実験を行った。 評価の結果,FedGKDは従来の最先端手法よりも優れていた。

Knowledge distillation has caught a lot of attention in Federated Learning (FL) recently. It has the advantage for FL to train on heterogeneous clients which have different data size and data structure. However, data samples across all devices are usually not independent and identically distributed (non-i.i.d), posing additional challenges to the convergence and speed of federated learning. As FL randomly asks the clients to join the training process and each client only learns from local non-i.i.d data, which makes learning processing even slower. In order to solve this problem, an intuitive idea is using the global model to guide local training. In this paper, we propose a novel global knowledge distillation method, named FedGKD, which learns the knowledge from past global models to tackle down the local bias training problem. By learning from global knowledge and consistent with current local models, FedGKD learns a global knowledge model in FL. To demonstrate the effectiveness of the proposed method, we conduct extensive experiments on various CV datasets (CIFAR-10/100) and settings (non-i.i.d data). The evaluation results show that FedGKD outperforms previous state-of-the-art methods.
翻訳日:2021-07-02 13:54:55 公開日:2021-06-30
# スムースゲームにおける確率的勾配のDescent-Ascent and Consensus Optimization:予測共保力による収束解析

Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity ( http://arxiv.org/abs/2107.00052v1 )

ライセンス: Link先を確認
Nicolas Loizou, Hugo Berard, Gauthier Gidel, Ioannis Mitliagkas, Simon Lacoste-Julien(参考訳) 制約のない滑らかなゲームを解くための最も顕著なアルゴリズムは、古典的確率勾配降下度(SGDA)と最近導入された確率収束最適化(SCO)である(Mescheder et al., 2017)。 SGDAは特定のゲームのクラスに対して定常点に収束することが知られているが、現在の収束解析は有界な分散仮定を必要とする。 SCOは大規模対数問題の解決に成功しているが、収束保証は決定論的変種に限られている。 本稿では,この条件下でのsgda と sco の確率的変分不等式問題の解法として,期待共保条件を導入し,その利点を説明するとともに,sgda と sco における最初のラストイテレート収束保証を提供する。 我々は,両手法が一定のステップサイズを使用する場合,解近傍への線形収束を証明し,完全解への収束を保証するための洞察に富むステップズスイッチングルールを提案する。 加えて、我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに対する洞察を与えます。

Two of the most prominent algorithms for solving unconstrained smooth games are the classical stochastic gradient descent-ascent (SGDA) and the recently introduced stochastic consensus optimization (SCO) (Mescheder et al., 2017). SGDA is known to converge to a stationary point for specific classes of games, but current convergence analyses require a bounded variance assumption. SCO is used successfully for solving large-scale adversarial problems, but its convergence guarantees are limited to its deterministic variant. In this work, we introduce the expected co-coercivity condition, explain its benefits, and provide the first last-iterate convergence guarantees of SGDA and SCO under this condition for solving a class of stochastic variational inequality problems that are potentially non-monotone. We prove linear convergence of both methods to a neighborhood of the solution when they use constant step-size, and we propose insightful stepsize-switching rules to guarantee convergence to the exact solution. In addition, our convergence guarantees hold under the arbitrary sampling paradigm, and as such, we give insights into the complexity of minibatching.
翻訳日:2021-07-02 13:53:35 公開日:2021-06-30
# どのエコーチェンバー? 決定依存分布をもつ学習におけるアトラクション領域

Which Echo Chamber? Regions of Attraction in Learning with Decision-Dependent Distributions ( http://arxiv.org/abs/2107.00055v1 )

ライセンス: Link先を確認
Roy Dong and Lillian J. Ratliff(参考訳) データ駆動型メソッドが現実の環境にデプロイされると、観察されたデータを生成するプロセスが学習者の決定に反応することが多い。 例えば、データソースは特定のラベル(例えば、)を提供するアルゴリズムに何らかのインセンティブを与えるかもしれない。 銀行ローンを承認し、それに従って機能を操作する。 戦略的分類と意思決定依存分布の研究は,分類器が基礎となるデータ分布に与える影響を明示的に考慮し,学習アルゴリズムのクローズドループ動作を特徴付けようとしている。 より最近では、性能予測の研究は、明示的な形式ではなく、分類器からデータ分布へのマッピングの一般的な性質を考慮し、閉ループの挙動を分類しようとする。 そこで本研究では, この概念に基づき, 繰り返し発生するリスク最小化を, リスク最小化の勾配流の摂動軌跡として分析する。 システムの長期的挙動に初期条件が大きな影響を与える可能性がある現実の状況に動機づけられて,実行リスクの局所的最小化が複数存在する場合を考察する。 モチベーションの例として、現在の従業員人口が面接対象のプールに影響を与える企業を考える。会社の初期の人口統計は、会社の長期雇用政策に影響を与える可能性がある。 この設定で種々の平衡のアトラクション領域を特徴付けるのに十分な条件を提供する。 さらに, 反復的リスク最小化の収束に関する幾何学的条件を, 実行的リスク最小化器に与えた実行的アライメントの概念を導入する。

As data-driven methods are deployed in real-world settings, the processes that generate the observed data will often react to the decisions of the learner. For example, a data source may have some incentive for the algorithm to provide a particular label (e.g. approve a bank loan), and manipulate their features accordingly. Work in strategic classification and decision-dependent distributions seeks to characterize the closed-loop behavior of deploying learning algorithms by explicitly considering the effect of the classifier on the underlying data distribution. More recently, works in performative prediction seek to classify the closed-loop behavior by considering general properties of the mapping from classifier to data distribution, rather than an explicit form. Building on this notion, we analyze repeated risk minimization as the perturbed trajectories of the gradient flows of performative risk minimization. We consider the case where there may be multiple local minimizers of performative risk, motivated by real world situations where the initial conditions may have significant impact on the long-term behavior of the system. As a motivating example, we consider a company whose current employee demographics affect the applicant pool they interview: the initial demographics of the company can affect the long-term hiring policies of the company. We provide sufficient conditions to characterize the region of attraction for the various equilibria in this settings. Additionally, we introduce the notion of performative alignment, which provides a geometric condition on the convergence of repeated risk minimization to performative risk minimizers.
翻訳日:2021-07-02 13:53:13 公開日:2021-06-30
# 連続・境界学習のためのロバストコアセット

Robust Coreset for Continuous-and-Bound ed Learning (with Outliers) ( http://arxiv.org/abs/2107.00068v1 )

ライセンス: Link先を確認
Zixiu Wang, Yiwen Guo and Hu Ding(参考訳) このビッグデータの時代では、多くの機械学習タスクで大規模なデータに直面します。 大規模データを扱う一般的なアプローチは、元の入力を効率的に表現できる小さなサマリ(例えば、コアセット)を構築することである。 しかしながら、実世界のデータセットは通常、外れ値を含み、既存のコアセット構築メソッドのほとんどは、外れ値に対して回復力がない(特に、外れ値は敵の攻撃者によって空間に任意に配置できる)。 本稿では,ロジスティック回帰や$k$-meansクラスタリングなど,機械学習において広く普及している最適化目標を含む,"em continuous-and-bound ed learning}問題に対する新しいロバストなコアセット法を提案する。 さらに、我々の堅牢なコアセットは、完全に動的環境下で効率よく維持できる。 我々の知る限り、これはこれらの最適化問題に対する最初の堅牢でフルダイナミックなコアセット構築方法である。 また,実運用におけるロバストコアセットの有効性を評価する実験を行った。

In this big data era, we often confront large-scale data in many machine learning tasks. A common approach for dealing with large-scale data is to build a small summary, {\em e.g.,} coreset, that can efficiently represent the original input. However, real-world datasets usually contain outliers and most existing coreset construction methods are not resilient against outliers (in particular, the outliers can be located arbitrarily in the space by an adversarial attacker). In this paper, we propose a novel robust coreset method for the {\em continuous-and-bound ed learning} problem (with outliers) which includes a broad range of popular optimization objectives in machine learning, like logistic regression and $ k $-means clustering. Moreover, our robust coreset can be efficiently maintained in fully-dynamic environment. To the best of our knowledge, this is the first robust and fully-dynamic coreset construction method for these optimization problems. We also conduct the experiments to evaluate the effectiveness of our robust coreset in practice.
翻訳日:2021-07-02 13:52:48 公開日:2021-06-30
# 反復平均化を再開した双線型ゲームにおける確率的超勾配の収束について

On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging ( http://arxiv.org/abs/2107.00464v1 )

ライセンス: Link先を確認
Chris Junchi Li, Yaodong Yu, Nicolas Loizou, Gauthier Gidel, Yi Ma, Nicolas Le Roux, Michael I. Jordan(参考訳) 確率的双線形極小最適化問題について検討し, ステップサイズが一定である確率的指数関数法 (SEG) の解析を行い, 好ましく収束する手法のバリエーションを示す。 まず,基本seg法の最後の反復は,ステップサイズとは無関係に,nash平衡の固定近傍にのみ一致することを指摘した。 これは、標準確率アルゴリズムが平方根(定数)のステップサイズに比例して消滅する近傍に収束する最小化の標準設定とは対照的である。 しかし,同じ条件下では,反復平均化によってsegがnash平衡に収束し,スケジュールされた再起動手順を組み込むことにより,その速度が確実に促進されることを示す。 補間設定では、最適収束率をタイトな定数まで達成する。 提案手法の有効性を検証し, 繰り返し平均化と再起動を行う場合のSEG法の有効性を示す数値実験を行った。

We study the stochastic bilinear minimax optimization problem, presenting an analysis of the Stochastic ExtraGradient (SEG) method with constant step size, and presenting variations of the method that yield favorable convergence. We first note that the last iterate of the basic SEG method only contracts to a fixed neighborhood of the Nash equilibrium, independent of the step size. This contrasts sharply with the standard setting of minimization where standard stochastic algorithms converge to a neighborhood that vanishes in proportion to the square-root (constant) step size. Under the same setting, however, we prove that when augmented with iteration averaging, SEG provably converges to the Nash equilibrium, and such a rate is provably accelerated by incorporating a scheduled restarting procedure. In the interpolation setting, we achieve an optimal convergence rate up to tight constants. We present numerical experiments that validate our theoretical findings and demonstrate the effectiveness of the SEG method when equipped with iteration averaging and restarting.
翻訳日:2021-07-02 13:52:08 公開日:2021-06-30
# カタルーニャ語におけるzipfの意味の法則

Zipf's laws of meaning in Catalan ( http://arxiv.org/abs/2107.00042v1 )

ライセンス: Link先を確認
Neus Catal\`a, Jaume Baixeries, Ramon Ferrer-Cancho, Llu\'is Padr\'o and Antoni Hern\'andez-Fern\'andez(参考訳) 彼の先駆的な研究で、g.k. zipfは、単語の頻度とその意味の数の関係に関するいくつかの統計法則を定式化した: 単語の頻度とその頻度のランクに関する意味分布の法則と、単語の頻度とその意味の数に関する意味周波数の法則である。 これらの法律は半世紀以上前に制定されたが、いくつかの言語でしか研究されていない。 ここでは,この法則をカタルーニャ語で初めて研究する。 カタルーニャにおけるこれらの法律は、その指数とランク周波数法との関係を通して検証する。 我々は、これらのジップフィアン法則を解析するための新しいプロトコルを提示し、他の言語に拡張できる。 我々は,2000年代前半に発見された大規模多著者コーポラにおけるzipfのランク周波数法と並行して,これらの法則に対する2つのマーク付きレジームの最初の証拠を報告する。 最後に、これら2つの体制の意味について論じる。

In his pioneering research, G. K. Zipf formulated a couple of statistical laws on the relationship between the frequency of a word with its number of meanings: the law of meaning distribution, relating the frequency of a word and its frequency rank, and the meaning-frequency law, relating the frequency of a word with its number of meanings. Although these laws were formulated more than half a century ago, they have been only investigated in a few languages. Here we present the first study of these laws in Catalan. We verify these laws in Catalan via the relationship among their exponents and that of the rank-frequency law. We present a new protocol for the analysis of these Zipfian laws that can be extended to other languages. We report the first evidence of two marked regimes for these laws in written language and speech, paralleling the two regimes in Zipf's rank-frequency law in large multi-author corpora discovered in early 2000s. Finally, the implications of these two regimes will be discussed.
翻訳日:2021-07-02 13:49:41 公開日:2021-06-30
# 共有手続きの抽象化に関するコミュニケーションを学ぶ

Learning to communicate about shared procedural abstractions ( http://arxiv.org/abs/2107.00077v1 )

ライセンス: Link先を確認
William P. McCarthy, Robert D. Hawkins, Haoliang Wang, Cameron Holdaway, Judith E. Fan(参考訳) 多くの現実世界のタスクでは、エージェントは共通の目標を達成するために行動を調整する必要がある。 コラボレーションを成功させるには、同じコミュニケーション規約を採用するだけでなく、これらの規約を同じタスクに適合する概念的抽象化で基礎付ける必要がある。 本研究では,人間が自然言語を用いて物理的組立問題をより効果的に解決する方法を検討する。 人間の参加者はオンライン環境でペアになって、2つのブロックタワーを含むシーンを再現しました。 ある参加者は目標の塔を視認し、他の参加者に組み立て命令を送った。 参加者は、各シーンの階層構造を捉えた高いレベルの参照表現を使用して、各タワーの繰り返しの試みに対して、より簡潔な指示を提供した。 これらの知見を説明するため,近年のアドホックコンベンション形成の確率モデルを,明示的な知覚学習機構を用いて拡張した。 これらの結果は、知的エージェントが共通の手続き的抽象化に基づいて協調できる誘導バイアスに光を当てた。

Many real-world tasks require agents to coordinate their behavior to achieve shared goals. Successful collaboration requires not only adopting the same communicative conventions, but also grounding these conventions in the same task-appropriate conceptual abstractions. We investigate how humans use natural language to collaboratively solve physical assembly problems more effectively over time. Human participants were paired up in an online environment to reconstruct scenes containing two block towers. One participant could see the target towers, and sent assembly instructions for the other participant to reconstruct. Participants provided increasingly concise instructions across repeated attempts on each pair of towers, using higher-level referring expressions that captured each scene's hierarchical structure. To explain these findings, we extend recent probabilistic models of ad-hoc convention formation with an explicit perceptual learning mechanism. These results shed light on the inductive biases that enable intelligent agents to coordinate upon shared procedural abstractions.
翻訳日:2021-07-02 13:49:22 公開日:2021-06-30
# 自由エネルギー原理の機械学習と神経科学への応用

Applications of the Free Energy Principle to Machine Learning and Neuroscience ( http://arxiv.org/abs/2107.00140v1 )

ライセンス: Link先を確認
Beren Millidge(参考訳) 本稿では,自由エネルギー原理から着想を得た手法を,機械学習と神経科学の2つの重要な分野に適用する。 自由エネルギー原理 (Free Energy principle) は、環境からの分離を維持するシステムに必要な情報理論的振る舞いに関する一般的な数学的理論である。 この理論の核となる仮定は、複雑な系は変分ベイズ推論を実行し、変分自由エネルギーと呼ばれる情報理論量の最小化とみなすことができるということである。 論文は3つの独立したセクションに分けられる。 まず,脳の一次機能は予測エラーを最小限に抑えることであり,予測符号化がより生物学的に妥当に拡張され,カルマン・フィルタリングなどの他の手法との密接な関係を解明することである,という自由エネルギー原理から導かれる神経生物学的にもっともらしいプロセス理論である予測符号化に注目した。 第2に, 能動推論, 変動的メッセージパッシングによる行動の神経生物学的解析, およびこれらの手法を, 深層強化学習法の性能に適合させる方法について検討した。 さらに,探索行動の根底にある情報理論的目的の性質と起源を数学的に詳細に理解する。 最後に, 生物学的に有効な脳内クレジット代入法について検討した。 まず,予測符号化と誤差アルゴリズムのバックプロパゲーションとの密接な関係を示す。 我々は、バックプロップを純粋に局所的で生物学的に妥当な計算に実装できる、新しくてシンプルなアルゴリズムを提案している。

In this PhD thesis, we explore and apply methods inspired by the free energy principle to two important areas in machine learning and neuroscience. The free energy principle is a general mathematical theory of the necessary information-theoreti c behaviours of systems that maintain a separation from their environment. A core postulate of the theory is that complex systems can be seen as performing variational Bayesian inference and minimizing an information-theoreti c quantity called the variational free energy. The thesis is structured into three independent sections. Firstly, we focus on predictive coding, a neurobiologically plausible process theory derived from the free energy principle which argues that the primary function of the brain is to minimize prediction errors, showing how predictive coding can be scaled up and extended to be more biologically plausible, and elucidating its close links with other methods such as Kalman Filtering. Secondly, we study active inference, a neurobiologically grounded account of action through variational message passing, and investigate how these methods can be scaled up to match the performance of deep reinforcement learning methods. We additionally provide a detailed mathematical understanding of the nature and origin of the information-theoreti c objectives that underlie exploratory behaviour. Finally, we investigate biologically plausible methods of credit assignment in the brain. We first demonstrate a close link between predictive coding and the backpropagation of error algorithm. We go on to propose novel and simpler algorithms which allow for backprop to be implemented in purely local, biologically plausible computations.
翻訳日:2021-07-02 13:48:39 公開日:2021-06-30
# 自己スーパービジョンと自己蒸留を用いたデータレジームの公正な視覚認識

Fair Visual Recognition in Limited Data Regime using Self-Supervision and Self-Distillation ( http://arxiv.org/abs/2107.00067v1 )

ライセンス: Link先を確認
Pratik Mazumder, Pravendra Singh, Vinay P. Namboodiri(参考訳) ディープラーニングモデルは一般的に、トレーニングデータに存在するバイアスを学ぶ。 研究者はそのようなバイアスを緩和し、モデルを公平にするためのいくつかのアプローチを提案している。 バイアス緩和技術は、十分な数のトレーニング例が存在すると仮定する。 しかし, トレーニングデータに制限がある場合, バイアス緩和法の有効性は著しく低下する。 本稿では,この問題に対処するための新しいアプローチを提案する。 具体的には、この設定におけるモデルに対するバイアスの影響を減らすために、自己スーパービジョンと自己蒸留を適応させる。 自己超越と自己蒸留はバイアス緩和には使われない。 しかし,本研究を通じて,これらの手法がバイアス軽減に非常に有効であることを初めて実証する。 実験によって、我々のアプローチはモデルから学んだバイアスを大幅に削減できることを示した。 さらに,本手法が他のバイアス緩和戦略と相補的であることを示す。 提案手法は, 性能を著しく向上させ, 限られたデータ構造におけるモデルバイアスを低減させる。 具体的には, L-CIFAR-10Sスキュードデータセットにおいて, ベースラインモデルのバイアススコアを78.22%削減し, 8.89%の絶対マージンで精度を向上する。 また、最先端のドメイン独立バイアス緩和法におけるバイアススコアを59.26%大幅に削減し、絶対マージン7.08%で性能を向上させる。

Deep learning models generally learn the biases present in the training data. Researchers have proposed several approaches to mitigate such biases and make the model fair. Bias mitigation techniques assume that a sufficiently large number of training examples are present. However, we observe that if the training data is limited, then the effectiveness of bias mitigation methods is severely degraded. In this paper, we propose a novel approach to address this problem. Specifically, we adapt self-supervision and self-distillation to reduce the impact of biases on the model in this setting. Self-supervision and self-distillation are not used for bias mitigation. However, through this work, we demonstrate for the first time that these techniques are very effective in bias mitigation. We empirically show that our approach can significantly reduce the biases learned by the model. Further, we experimentally demonstrate that our approach is complementary to other bias mitigation strategies. Our approach significantly improves their performance and further reduces the model biases in the limited data regime. Specifically, on the L-CIFAR-10S skewed dataset, our approach significantly reduces the bias score of the baseline model by 78.22% and outperforms it in terms of accuracy by a significant absolute margin of 8.89%. It also significantly reduces the bias score for the state-of-the-art domain independent bias mitigation method by 59.26% and improves its performance by a significant absolute margin of 7.08%.
翻訳日:2021-07-02 13:47:54 公開日:2021-06-30
# CLDA:半監督ドメイン適応のためのコントラスト学習

CLDA: Contrastive Learning for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2107.00085v1 )

ライセンス: Link先を確認
Ankit Singh(参考訳) Unsupervised Domain Adaptation (UDA) は、ラベル付きソース分布とラベル付きターゲット分布を一致させて、ドメイン不変の予測モデルを得る。 しかし、よく知られたUDAアプローチの応用は、ターゲットドメインからのラベル付きサンプルがほとんどないセミスーパーバイズドドメイン適応(SSDA)のシナリオではうまく一般化しない。 本稿では,半教師付きドメイン適応(CLDA)のための単純なコントラスト学習フレームワークを提案する。これは,ラベル付きとラベルなしのターゲット分布間の領域内ギャップと,SSDAのソースとラベルなしのターゲット分布間の領域間ギャップを橋渡ししようとするものである。 本稿では,ドメイン間ギャップとインスタンスレベルのコントラストアライメントを,ドメイン内不一致を最小限に抑えるために,クラスワイドコントラスト学習を用いることを提案する。 両モジュールが互いに補完し,優れた性能を実現することを実証的に証明した。 DomainNet、Office-Home、Office31という3つの有名なドメイン適応ベンチマークデータセットの実験は、我々のアプローチの有効性を実証している。 CLDAは上記のすべてのデータセットに対して最先端の結果を達成する。

Unsupervised Domain Adaptation (UDA) aims to align the labeled source distribution with the unlabeled target distribution to obtain domain invariant predictive models. However, the application of well-known UDA approaches does not generalize well in Semi-Supervised Domain Adaptation (SSDA) scenarios where few labeled samples from the target domain are available. In this paper, we propose a simple Contrastive Learning framework for semi-supervised Domain Adaptation (CLDA) that attempts to bridge the intra-domain gap between the labeled and unlabeled target distributions and inter-domain gap between source and unlabeled target distribution in SSDA. We suggest employing class-wise contrastive learning to reduce the inter-domain gap and instance-level contrastive alignment between the original (input image) and strongly augmented unlabeled target images to minimize the intra-domain discrepancy. We have shown empirically that both of these modules complement each other to achieve superior performance. Experiments on three well-known domain adaptation benchmark datasets namely DomainNet, Office-Home, and Office31 demonstrate the effectiveness of our approach. CLDA achieves state-of-the-art results on all the above datasets.
翻訳日:2021-07-02 13:47:35 公開日:2021-06-30
# マルチモーダル融合のための注意ボトルネック

Attention Bottlenecks for Multimodal Fusion ( http://arxiv.org/abs/2107.00135v1 )

ライセンス: Link先を確認
Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid and Chen Sun(参考訳) 人間は視覚や音声などの複数のモードからの高次元入力を同時に処理し、融合することで世界を認識する。 機械知覚モデルは、対照的にユニモーダルなベンチマークにおいてモダリティに特有で最適化されており、したがって各モダリティからの最終表現や予測の後期段階の融合(「レイト・フュージョン」)は、依然としてマルチモーダルビデオ分類の主要なパラダイムである。 代わりに,複数の層でのモーダリティ融合に ‘fusion bottlenecks’ を用いる,新しいトランスフォーマティブベースのアーキテクチャを導入する。 従来のペアワイズ・セルフ・アテンションと比較して,我々のモデルは,異なるモダリティ間の情報を少数のボトルネック・ラテントを通過するように強制し,モデルが各モダリティにおいて最も関連性の高い情報を照合し,集約し,必要な情報のみを共有するように要求する。 このような戦略により核融合性能が向上し,計算コストの低減が図られる。 我々は,Audioset,Epic-Kitch ens,VGGSoundなどの複数の視覚的分類ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端の結果を得る。 すべてのコードとモデルがリリースされる。

Humans perceive the world by concurrently processing and fusing high-dimensional inputs from multiple modalities such as vision and audio. Machine perception models, in stark contrast, are typically modality-specific and optimised for unimodal benchmarks, and hence late-stage fusion of final representations or predictions from each modality (`late-fusion') is still a dominant paradigm for multimodal video classification. Instead, we introduce a novel transformer based architecture that uses `fusion bottlenecks' for modality fusion at multiple layers. Compared to traditional pairwise self-attention, our model forces information between different modalities to pass through a small number of bottleneck latents, requiring the model to collate and condense the most relevant information in each modality and only share what is necessary. We find that such a strategy improves fusion performance, at the same time reducing computational cost. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple audio-visual classification benchmarks including Audioset, Epic-Kitchens and VGGSound. All code and models will be released.
翻訳日:2021-07-02 13:47:12 公開日:2021-06-30
# ディープニューラルネットワークの応答面と不確かさ領域による逆例の理解

Understanding Adversarial Examples Through Deep Neural Network's Response Surface and Uncertainty Regions ( http://arxiv.org/abs/2107.00003v1 )

ライセンス: Link先を確認
Juan Shu and Bowei Xi and Charles Kamhoua(参考訳) deep neural network(dnn)は、画像分類、オブジェクト認識、自然言語処理などの複雑なタスクを処理するために、多くのシステムで実装されている一般的なモデルである。 そのため、DNN構造上の脆弱性はこれらのシステムのセキュリティ上の脆弱性の一部となる。 本稿では,DNN対逆例の根本原因について検討する。 分類境界を理解するためにDNN応答面について検討する。 本研究は, DNN分類境界の構造的問題点を明らかにする。 既存の攻撃アルゴリズムは、1つのクリーンな画像から、ほんの数百から数百の敵の例を生成することができる。 クリーンサンプルが1つ与えられた場合, クリーンサンプルの小さな近傍に, 無限に多くの逆画像が存在することを示す。 次に、DNNの不確実領域を定義し、逆例の転送可能性を示す。 また,dnnで確立された大規模サンプル理論的保証である一般化誤差は,逆例の現象を十分に捉えることができない。 DNNの堅牢性を測定する新しい理論が必要です。

Deep neural network (DNN) is a popular model implemented in many systems to handle complex tasks such as image classification, object recognition, natural language processing etc. Consequently DNN structural vulnerabilities become part of the security vulnerabilities in those systems. In this paper we study the root cause of DNN adversarial examples. We examine the DNN response surface to understand its classification boundary. Our study reveals the structural problem of DNN classification boundary that leads to the adversarial examples. Existing attack algorithms can generate from a handful to a few hundred adversarial examples given one clean image. We show there are infinitely many adversarial images given one clean sample, all within a small neighborhood of the clean sample. We then define DNN uncertainty regions and show transferability of adversarial examples is not universal. We also argue that generalization error, the large sample theoretical guarantee established for DNN, cannot adequately capture the phenomenon of adversarial examples. We need new theory to measure DNN robustness.
翻訳日:2021-07-02 13:41:57 公開日:2021-06-30
# 局所リップシッツネスによるロバストな対向的模倣学習

Robust Generative Adversarial Imitation Learning via Local Lipschitzness ( http://arxiv.org/abs/2107.00116v1 )

ライセンス: Link先を確認
Farzan Memarian, Abolfazl Hashemi, Scott Niekum, Ufuk Topcu(参考訳) 本稿では,gailアルゴリズム(generative adversarial imitation learning)のロバスト性を改善する手法について検討する。 本研究の目的は,判別器とジェネレータの局所リプシッツ性がGAILが学習したポリシーの堅牢性に及ぼす影響を検討することである。 多くのロボティクス応用において、GAILによる学習方針は一般的に、環境からの観測がノイズによって損なわれる可能性があるため、テスト時に劣化した性能に悩まされる。 したがって,観測騒音に対する学習方針の強固化が重要である。 そこで本研究では,局所リプシッツネスを生成器に誘導する正規化法と,逆模倣学習法を判別する手法を提案する。 修正された目的が、より堅牢なポリシーを学ぶことにつながることを示す。 さらに,局所的なリプシッツ判別器の訓練は局所的なリプシッツ生成器につながり,結果として得られるポリシの堅牢性が向上することを示す。 本研究では,MuJoCo スイートを用いたロボットの移動環境のシミュレーション実験を行い,騒音の破損した観測シナリオに適用した場合に,現状の逆方向の擬似学習アルゴリズムを著しく上回った手法を実証した。

We explore methodologies to improve the robustness of generative adversarial imitation learning (GAIL) algorithms to observation noise. Towards this objective, we study the effect of local Lipschitzness of the discriminator and the generator on the robustness of policies learned by GAIL. In many robotics applications, the learned policies by GAIL typically suffer from a degraded performance at test time since the observations from the environment might be corrupted by noise. Hence, robustifying the learned policies against the observation noise is of critical importance. To this end, we propose a regularization method to induce local Lipschitzness in the generator and the discriminator of adversarial imitation learning methods. We show that the modified objective leads to learning significantly more robust policies. Moreover, we demonstrate -- both theoretically and experimentally -- that training a locally Lipschitz discriminator leads to a locally Lipschitz generator, thereby improving the robustness of the resultant policy. We perform extensive experiments on simulated robot locomotion environments from the MuJoCo suite that demonstrate the proposed method learns policies that significantly outperform the state-of-the-art generative adversarial imitation learning algorithm when applied to test scenarios with noise-corrupted observations.
翻訳日:2021-07-02 13:41:42 公開日:2021-06-30
# カナダ・フランス・ハワイ望遠鏡の画質向上のための不確かさ認識学習

Uncertainty-Aware Learning for Improvements in Image Quality of the Canada-France-Hawaii Telescope ( http://arxiv.org/abs/2107.00048v1 )

ライセンス: Link先を確認
Sankalp Gilda and Stark C. Draper and Sebastien Fabbro and William Mahoney and Simon Prunet and Kanoa Withington and Matthew Wilson and Yuan-Sen Ting and Andrew Sheinis(参考訳) カナダ・フランス・ハワイ望遠鏡(CFHT)の最先端の機械学習手法と10年分のアーカイブデータを利用して、環境条件や観測操作パラメータから観測画像の品質(IQ)を予測する。 具体的には,CFHT の広視野カメラ MegaCam において,データ特徴と観測された IQ 間の複素依存の高精度かつ解釈可能なモデルを構築した。 私たちの貢献は数倍です。 まず、CFHT科学者が収集した様々なデータセットを収集、照合、再処理する。 次に、IQの確率分布関数(PDF)を予測し、予測中央値に対して平均絶対誤差を$\sim0.07'$とする。 第3に,2013-14年に設置された12個のドーム ‘`vents'' のデータ駆動動作について検討した。 分布内分布(id)の候補ベント調整を同定するために,確率的生成モデルと連動して認識論的・随伴的不確かさを活用し,各idサンプルの最適配置について,所要観測時間の短縮を予測し,固定snrを実現する。 平均して、この削減は$\sim15\%$である。 最後に,センサデータの特徴をshapley値でランク付けし,各観測値の予測変数を同定した。 我々の長期目標は、IQの最適化のために最適な観測操作パラメータを予測できる信頼性とリアルタイムのモデルを構築することである。 このような予測は、スケジューリングプロトコルと予測メンテナンスルーチンに反映される。 我々は,CFHTの後継であるMaunakea Spectroscopic Explorer (MSE) が今後10年以内に設置されるまでに,観測操作の自動化とメンテナンスの自動化において,このようなアプローチが標準となることを期待している。

We leverage state-of-the-art machine learning methods and a decade's worth of archival data from the Canada-France-Hawaii Telescope (CFHT) to predict observatory image quality (IQ) from environmental conditions and observatory operating parameters. Specifically, we develop accurate and interpretable models of the complex dependence between data features and observed IQ for CFHT's wide field camera, MegaCam. Our contributions are several-fold. First, we collect, collate and reprocess several disparate data sets gathered by CFHT scientists. Second, we predict probability distribution functions (PDFs) of IQ, and achieve a mean absolute error of $\sim0.07''$ for the predicted medians. Third, we explore data-driven actuation of the 12 dome ``vents'', installed in 2013-14 to accelerate the flushing of hot air from the dome. We leverage epistemic and aleatoric uncertainties in conjunction with probabilistic generative modeling to identify candidate vent adjustments that are in-distribution (ID) and, for the optimal configuration for each ID sample, we predict the reduction in required observing time to achieve a fixed SNR. On average, the reduction is $\sim15\%$. Finally, we rank sensor data features by Shapley values to identify the most predictive variables for each observation. Our long-term goal is to construct reliable and real-time models that can forecast optimal observatory operating parameters for optimization of IQ. Such forecasts can then be fed into scheduling protocols and predictive maintenance routines. We anticipate that such approaches will become standard in automating observatory operations and maintenance by the time CFHT's successor, the Maunakea Spectroscopic Explorer (MSE), is installed in the next decade.
翻訳日:2021-07-02 13:40:24 公開日:2021-06-30
# パッチGAN識別器を用いた異常特徴マップの可視化

One-class Steel Detector Using Patch GAN Discriminator for Visualising Anomalous Feature Map ( http://arxiv.org/abs/2107.00143v1 )

ライセンス: Link先を確認
Takato Yasuno, Junichiro Fujii, Sakura Fukami(参考訳) 室内工場における鉄鋼製品製造において,品質管理には鋼の欠陥検出が重要である。 例えば、鋼板は非常に繊細であり、正確に検査する必要がある。 しかし, 屋外環境の厳しい環境下において, 塗装鋼板の耐食性を維持するためには, 腐食検出が重要となる。 本稿では,以下の4成分からなる鋼管異常検出のための汎用応用を提案する。 学習者は、元の大きな画像を256平方の単位画像に分割した後、関心領域や背景領域が認識されたかどうかを判定する単位画像分類ネットワークである。 第2の抽出器は、パッチ生成対向ネットワーク判別器(GAN)を備えた事前学習鋼板発生器に基づく識別器特徴エンコーダである。 第3の異常検出器は、識別器の特徴を用いて異常スコアを予測する一級支援ベクトルマシン(SVM)である。 第4の指標は異常な特徴を視覚的に説明するために用いられる異常確率写像である。 さらに, 高速カメラを用いた13,774ユニット画像を用いた鋼板の欠陥検査と, 19,766ユニット画像を用いた塗装鋼板の腐食検査を行った。 最後に, 鋼板の異常特徴マップを, 塗装鋼板検査データセットを用いて可視化する。

For steel product manufacturing in indoor factories, steel defect detection is important for quality control. For example, a steel sheet is extremely delicate, and must be accurately inspected. However, to maintain the painted steel parts of the infrastructure around a severe outdoor environment, corrosion detection is critical for predictive maintenance. In this paper, we propose a general-purpose application for steel anomaly detection that consists of the following four components. The first, a learner, is a unit image classification network to determine whether the region of interest or background has been recognised, after dividing the original large sized image into 256 square unit images. The second, an extractor, is a discriminator feature encoder based on a pre-trained steel generator with a patch generative adversarial network discriminator(GAN). The third, an anomaly detector, is a one-class support vector machine(SVM) to predict the anomaly score using the discriminator feature. The fourth, an indicator, is an anomalous probability map used to visually explain the anomalous features. Furthermore, we demonstrated our method through the inspection of steel sheet defects with 13,774 unit images using high-speed cameras, and painted steel corrosion with 19,766 unit images based on an eye inspection of the photographs. Finally, we visualise anomalous feature maps of steel using a strip and painted steel inspection dataset
翻訳日:2021-07-02 13:36:55 公開日:2021-06-30
# MDPにおけるパラメータ合成のための凸最適化

Convex Optimization for Parameter Synthesis in MDPs ( http://arxiv.org/abs/2107.00108v1 )

ライセンス: Link先を確認
Murat Cubuktepe, Nils Jansen, Sebastian Junges, Joost-Pieter Katoen, and Ufuk Topcu(参考訳) 確率論的モデル検査は、マルコフ決定プロセス(MDP)が時間論理仕様を満たすかどうかを証明することを目的としている。 基礎となる手法は、MDPが正確に知られているというしばしば非現実的な仮定に依存している。 その結果、パラメトリックMDP(pMDP)は、不特定パラメータ上の関数である遷移確率でMDPを拡張する。 パラメータ合成問題は、その結果のMDPが時間論理仕様を満たすように、これらの未特定パラメータのインスタンス化を計算することである。 パラメータ合成問題を2次制約付き二次プログラム(QCQP)として定式化する。 局所最適解を反復的に得る2つのアプローチを開発する。 第一のアプローチは、いわゆる凸凹法(CCP)を利用し、第二のアプローチはシーケンシャル凸計画法(SCP)を用いる。 この技術は、凸最適化と確率モデルチェックのアイデアを融合させることにより、ブラックボックスCCPやSCPと比較して、ランタイムとスケーラビリティを桁違いに改善する。 我々は,数十万の状態と数万のパラメータを持つ衛星衝突回避問題に対するアプローチと,その拡張性について,広く使用されるベンチマークで実証する。

Probabilistic model checking aims to prove whether a Markov decision process (MDP) satisfies a temporal logic specification. The underlying methods rely on an often unrealistic assumption that the MDP is precisely known. Consequently, parametric MDPs (pMDPs) extend MDPs with transition probabilities that are functions over unspecified parameters. The parameter synthesis problem is to compute an instantiation of these unspecified parameters such that the resulting MDP satisfies the temporal logic specification. We formulate the parameter synthesis problem as a quadratically constrained quadratic program (QCQP), which is nonconvex and is NP-hard to solve in general. We develop two approaches that iteratively obtain locally optimal solutions. The first approach exploits the so-called convex-concave procedure (CCP), and the second approach utilizes a sequential convex programming (SCP) method. The techniques improve the runtime and scalability by multiple orders of magnitude compared to black-box CCP and SCP by merging ideas from convex optimization and probabilistic model checking. We demonstrate the approaches on a satellite collision avoidance problem with hundreds of thousands of states and tens of thousands of parameters and their scalability on a wide range of commonly used benchmarks.
翻訳日:2021-07-02 13:34:33 公開日:2021-06-30
# 強化学習によるポリシー勾配法によるグレーティングカプラの逆設計

Inverse Design of Grating Couplers Using the Policy Gradient Method from Reinforcement Learning ( http://arxiv.org/abs/2107.00088v1 )

ライセンス: Link先を確認
Sean Hooten, Thomas Van Vaerenbergh, Raymond G. Beausoleil(参考訳) 本稿では、PHORCED(ReINFORCE Criteria for Enhanced Design)と呼ばれる強化学習におけるポリシー勾配法によって動機付けられた電磁装置の逆設計に関する概念実証手法を提案する。 この技術は、電磁分解器と接続された確率論的生成ニューラルネットワークを使用して、グラディングカプラのようなフォトニックデバイスの設計を支援する。 我々は,PHORCEDが局所勾配に基づく逆設計よりも優れたグラディングカプラ設計を実現するとともに,競合する最先端生成手法よりも高速な収束を実現する可能性を示した。 さらに、PHORCEDを用いてトランスファーラーニングを実装し、8$^\circ$グレーティングカプラを最適化するよう訓練されたニューラルネットワークが、制御ケースよりも10ドル以上のシミュレーションを必要としながら、交互に散乱角を持つグレーティングカプラで再トレーニングできることを実証した。

We present a proof-of-concept technique for the inverse design of electromagnetic devices motivated by the policy gradient method in reinforcement learning, named PHORCED (PHotonic Optimization using REINFORCE Criteria for Enhanced Design). This technique uses a probabilistic generative neural network interfaced with an electromagnetic solver to assist in the design of photonic devices, such as grating couplers. We show that PHORCED obtains better performing grating coupler designs than local gradient-based inverse design via the adjoint method, while potentially providing faster convergence over competing state-of-the-art generative methods. Furthermore, we implement transfer learning with PHORCED, demonstrating that a neural network trained to optimize 8$^\circ$ grating couplers can then be re-trained on grating couplers with alternate scattering angles while requiring >$10\times$ fewer simulations than control cases.
翻訳日:2021-07-02 13:30:19 公開日:2021-06-30
# エッジ産業用IoTにおける分散強化学習のための適応確率ADMM

Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT ( http://arxiv.org/abs/2107.00481v1 )

ライセンス: Link先を確認
Wanlu Lei, Yu Ye, Ming Xiao, Mikael Skoglund, Zhu Han(参考訳) エッジコンピューティングは、タスクを近くのエッジノードにオフロードすることで、産業用IoT(Industrial Internet of Things)の実装をサポートする、有望なパラダイムを提供する。 一方、ネットワークサイズの増加は帯域幅の制限による集中型データ処理では実用的でないため、分散学習方式が好まれる。 強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。 分散化されたセットアップでは、エッジノード(エージェント)が通信ネットワークを介して接続され、ローカルな報酬の合計としてグローバルな報酬を最適化するポリシーを見つけることを目的としている。 しかし、異種エージェントによる複雑な環境における通信コスト、スケーラビリティ、適応は、分散RLの性能を著しく制限する可能性がある。 乗算器の交互方向法(ADMM)は、分散化実装が可能な構造を持ち、勾配降下法よりも高速な収束を示した。 そこで我々は,Adaptive stochastic incremental ADMM (asI-ADMM) アルゴリズムを提案し,エッジ計算型IIoTネットワークを用いた分散RLにasI-ADMMを適用した。 lyapunov関数を設計し,asi-admmが$o(\frac{1}{k}) +o(\frac{1}{m})$収束率を持つことを示すことにより,提案アルゴリズムの収束特性を提供する。 次に,2つの教師付き学習問題を用いてアルゴリズムをテストする。 性能評価のために,均質および異種エージェントを用いた分散rl設定における2つのアプリケーションをシミュレートした。 実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境によく適応できることがわかった。

Edge computing provides a promising paradigm to support the implementation of Industrial Internet of Things (IIoT) by offloading tasks to nearby edge nodes. Meanwhile, the increasing network size makes it impractical for centralized data processing due to limited bandwidth, and consequently a decentralized learning scheme is preferable. Reinforcement learning (RL) has been widely investigated and shown to be a promising solution for decision-making and optimal control processes. For RL in a decentralized setup, edge nodes (agents) connected through a communication network aim to work collaboratively to find a policy to optimize the global reward as the sum of local rewards. However, communication costs, scalability and adaptation in complex environments with heterogeneous agents may significantly limit the performance of decentralized RL. Alternating direction method of multipliers (ADMM) has a structure that allows for decentralized implementation, and has shown faster convergence than gradient descent based methods. Therefore, we propose an adaptive stochastic incremental ADMM (asI-ADMM) algorithm and apply the asI-ADMM to decentralized RL with edge-computing-empow ered IIoT networks. We provide convergence properties for proposed algorithms by designing a Lyapunov function and prove that the asI-ADMM has $O(\frac{1}{k}) +O(\frac{1}{M})$ convergence rate where $k$ and $ M$ are the number of iterations and batch samples, respectively. Then, we test our algorithm with two supervised learning problems. For performance evaluation, we simulate two applications in decentralized RL settings with homogeneous and heterogeneous agents. The experiment results show that our proposed algorithms outperform the state of the art in terms of communication costs and scalability, and can well adapt to complex IoT environments.
翻訳日:2021-07-02 13:28:20 公開日:2021-06-30
# (参考訳) 非IIDデータからの最適フェデレーション学習のための重み付きダイバージェンス・ディバイド・アンド・コンカレントアプローチ [全文訳有]

Weight Divergence Driven Divide-and-Conquer Approach for Optimal Federated Learning from non-IID Data ( http://arxiv.org/abs/2106.14503v2 )

ライセンス: CC BY 4.0
Pravin Chandran, Raghavendra Bhat, Avinash Chakravarthi, Srikanth Chandar(参考訳) Federated Learningは、トレーニングデータを集中化することなく、分散デバイスに格納されたデータのトレーニングを可能にする。 データの不均一性(非識別および独立分布または非iid)を扱う能力に対処することは、連合学習を広く展開するための鍵となる。 本稿では,非IID環境におけるFedAvg制限を克服し,一般的なFedAvgアグリゲーションアルゴリズムの利用を可能にする新しいDivide-and-Conquerトレーニング手法を提案する。 そこで本研究では,深層学習ネットワークをクラス非依存な初期層とクラス特異的深層に分けて分割・克服訓練を行うための,コサイン距離に基づく重み分岐量測定法を提案する。 この手法は,feedprox,feedmaなどの最先端集約アルゴリズムによって達成された数値と同等(場合によっては超過)に訓練されたモデル精度を達成していることを示す。 また,本手法が特定の文書化条件下での計算と帯域幅の最適化につながることを示す。

Federated Learning allows training of data stored in distributed devices without the need for centralizing training data, thereby maintaining data privacy. Addressing the ability to handle data heterogeneity (non-identical and independent distribution or non-IID) is a key enabler for the wider deployment of Federated Learning. In this paper, we propose a novel Divide-and-Conquer training methodology that enables the use of the popular FedAvg aggregation algorithm by overcoming the acknowledged FedAvg limitations in non-IID environments. We propose a novel use of Cosine-distance based Weight Divergence metric to determine the exact point where a Deep Learning network can be divided into class agnostic initial layers and class-specific deep layers for performing a Divide and Conquer training. We show that the methodology achieves trained model accuracy at par (and in certain cases exceeding) with numbers achieved by state-of-the-art Aggregation algorithms like FedProx, FedMA, etc. Also, we show that this methodology leads to compute and bandwidth optimizations under certain documented conditions.
翻訳日:2021-07-02 02:53:09 公開日:2021-06-30
# (参考訳) 食品認識ベンチマーク:DeepLearningによる画像上の食品の認識 [全文訳有]

The Food Recognition Benchmark: Using DeepLearning to Recognize Food on Images ( http://arxiv.org/abs/2106.14977v2 )

ライセンス: CC BY 4.0
Sharada Prasanna Mohanty, Gaurav Singhal, Eric Antoine Scuccimarra, Djilani Kebaili, Harris H\'eritier, Victor Boulanger, Marcel Salath\'e(参考訳) 画像上の食品の自動認識には、医療コホートにおける栄養追跡など、多くの興味深い応用がある。 この問題は研究の注目を集めているが、オープンで再現可能なアルゴリズムを開発するための公開ベンチマークが欠落している。 ここでは,モバイル myfoodrepo アプリ から提供された食品画像を用いて,このようなベンチマークのセットアップについて報告する。 4回のラウンドを通じて、ベンチマークは24,119の画像からなるMyFoodRepo-273データセットをリリースし、合計39,325個の分割ポリゴンを273のクラスに分類した。 モデルは、最終ラウンドで5,000のイメージと7,865のアノテーションを持つ同じプラットフォームからプライベートテストセットで評価された。 273食品カテゴリーのトップパフォーマンスモデルの平均精度は0.568(約4回)、平均リコール率は0.885(約3回)に達した。 本報告では, ラウンド4の結果を実験的に検証し, 今後のラウンドにおけるデータセットのサイズと多様性の向上を目的としたベンチマーク設定の有効性について考察する。

The automatic recognition of food on images has numerous interesting applications, including nutritional tracking in medical cohorts. The problem has received significant research attention, but an ongoing public benchmark to develop open and reproducible algorithms has been missing. Here, we report on the setup of such a benchmark using publicly available food images sourced through the mobile MyFoodRepo app. Through four rounds, the benchmark released the MyFoodRepo-273 dataset constituting 24,119 images and a total of 39,325 segmented polygons categorized in 273 different classes. Models were evaluated on private tests sets from the same platform with 5,000 images and 7,865 annotations in the final round. Top-performing models on the 273 food categories reached a mean average precision of 0.568 (round 4) and a mean average recall of 0.885 (round 3). We present experimental validation of round 4 results, and discuss implications of the benchmark setup designed to increase the size and diversity of the dataset for future rounds.
翻訳日:2021-07-02 02:41:42 公開日:2021-06-30
# (参考訳) 自己教師型学習によるfMRIスキャンからの認知疲労の理解 [全文訳有]

Understanding Cognitive Fatigue from fMRI Scans with Self-supervised Learning ( http://arxiv.org/abs/2106.15009v2 )

ライセンス: CC BY 4.0
Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Fillia Makedon, Glenn Wylie(参考訳) 機能的磁気共鳴イメージング(fmri)は、被験者が行う課題に基づいて、異なる領域の血中酸素レベルを捉えて脳内の神経活動を記録する神経イメージング技術である。 fMRIデータから、認知疲労の状態を予測する問題は、その全範囲において研究されていない。 本稿では, 認知疲労の状態を, 不快感から極度の疲労状態まで, 6つのレベルに分けて, マルチクラス分類問題として扱うことを提案する。 空間的特徴抽出に畳み込みニューラルネットワーク(CNN)と4次元fMRIスキャンの時間的モデリングに長寿命メモリ(LSTM)を用いた時空間モデルを構築した。 また、MoCoと呼ばれる自己教師型手法を用いて、公開データセットBOLD5000でモデルを事前訓練し、ラベル付きデータセットで微調整して認知疲労を分類した。 新たなデータセットには,外傷性脳損傷(TBI)患者のfMRIスキャンと,一連の認知タスクを実施中の健康管理(HC)が含まれている。 本手法は,fMRIデータから認知疲労を解析するための最先端技術を確立し,従来の手法に勝ってこの問題を解決する。

Functional magnetic resonance imaging (fMRI) is a neuroimaging technique that records neural activations in the brain by capturing the blood oxygen level in different regions based on the task performed by a subject. Given fMRI data, the problem of predicting the state of cognitive fatigue in a person has not been investigated to its full extent. This paper proposes tackling this issue as a multi-class classification problem by dividing the state of cognitive fatigue into six different levels, ranging from no-fatigue to extreme fatigue conditions. We built a spatio-temporal model that uses convolutional neural networks (CNN) for spatial feature extraction and a long short-term memory (LSTM) network for temporal modeling of 4D fMRI scans. We also applied a self-supervised method called MoCo to pre-train our model on a public dataset BOLD5000 and fine-tuned it on our labeled dataset to classify cognitive fatigue. Our novel dataset contains fMRI scans from Traumatic Brain Injury (TBI) patients and healthy controls (HCs) while performing a series of cognitive tasks. This method establishes a state-of-the-art technique to analyze cognitive fatigue from fMRI data and beats previous approaches to solve this problem.
翻訳日:2021-07-02 02:25:54 公開日:2021-06-30
# (参考訳) Fact Check:多言語ニュースソースからの財務事象の分析 [全文訳有]

Fact Check: Analyzing Financial Events from Multilingual News Sources ( http://arxiv.org/abs/2106.15221v2 )

ライセンス: CC BY 4.0
Linyi Yang, Tin Lok James Ng, Barry Smyth, Ruihai Dong(参考訳) 近年の金融ニュースデータの爆発的増加と複雑化により、投資アナリストが貴重な洞察を抽出し分析を行うことがますます困難になっている。 深層学習モデルを用いたWebベースのニュースアグリゲータであるFactCheck in Financeを提案し、多言語ニュースソースから重要な金融イベントの全体像をアナリストに提供し、教師なしクラスタリング手法を用いてイベントを抽出する。 トランスフォーマーベースのファクトチェッカーを用いてニュース記事の信頼性を調べるためのウェブインターフェースを提供する。 ファクトチェッカーの性能は、合併・買収(M\&A)イベントに関するデータセットを用いて評価され、いくつかの強いベースラインを上回ります。

The explosion in the sheer magnitude and complexity of financial news data in recent years makes it increasingly challenging for investment analysts to extract valuable insights and perform analysis. We propose FactCheck in finance, a web-based news aggregator with deep learning models, to provide analysts with a holistic view of important financial events from multilingual news sources and extract events using an unsupervised clustering method. A web interface is provided to examine the credibility of news articles using a transformer-based fact-checker. The performance of the fact checker is evaluated using a dataset related to merger and acquisition (M\&A) events and is shown to outperform several strong baselines.
翻訳日:2021-07-02 02:17:00 公開日:2021-06-30
# (参考訳) 疾患分類のための新しいアラビア医療データセット [全文訳有]

New Arabic Medical Dataset for Diseases Classification ( http://arxiv.org/abs/2106.15236v2 )

ライセンス: CC BY 4.0
Jaafar Hammoud, Aleksandra Vatian, Natalia Dobrenko, Nikolai Vedernikov, Anatoly Shalyto, Natalia Gusarova(参考訳) アラビア語はディープラーニングモデルのトレーニングに適したデータセットが大幅に不足しており、既存の言語には一般的な非特殊分類が含まれている。 本研究では,アラブ医学百科事典に加え,複数のアラビア語医学ウェブサイトから収集された2千の医学文書を含む,新しいアラブ医学データセットを紹介する。 データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)が含まれている。 データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。

The Arabic language suffers from a great shortage of datasets suitable for training deep learning models, and the existing ones include general non-specialized classifications. In this work, we introduce a new Arab medical dataset, which includes two thousand medical documents collected from several Arabic medical websites, in addition to the Arab Medical Encyclopedia. The dataset was built for the task of classifying texts and includes 10 classes (Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver and Nephrological) diseases. Experiments on the dataset were performed by fine-tuning three pre-trained models: BERT from Google, Arabert that based on BERT with large Arabic corpus, and AraBioNER that based on Arabert with Arabic medical corpus.
翻訳日:2021-07-02 02:13:09 公開日:2021-06-30
# (参考訳) 英単語問題解法の評価・開発のための多言語コーパス [全文訳有]

A Diverse Corpus for Evaluating and Developing English Math Word Problem Solvers ( http://arxiv.org/abs/2106.15772v1 )

ライセンス: CC BY 4.0
Shen-Yun Miao, Chao-Chun Liang, Keh-Yih Su(参考訳) ASDiv(Academia Sinica Diverse MWP Dataset)は、様々なMWP解法の性能を評価するために、多種多様な(言語パターンと問題型の両方の観点から)英語の数学語問題(MWP)コーパスを提供する。 AIの進歩を研究するための既存のMWPコーパスは、言語の使用パターンや問題タイプに制限されている。 そこで,本研究では,小学校で教えられたテキストパターンと問題型を多く含む2,305個のmwpを用いた新しい英語mwpコーパスを提案する。 各MWPには、その問題タイプとグレードレベル(難易度を示すため)が注釈付けされている。 さらに, 与えられたMWPコーパスのレキシコン使用量の多様性を測定する指標を提案し, ASDivが既存のコーパスよりも多様であることを実証した。 実験の結果,提案コーパスはMWPソルバの真の性能をより忠実に反映していることがわかった。

We present ASDiv (Academia Sinica Diverse MWP Dataset), a diverse (in terms of both language patterns and problem types) English math word problem (MWP) corpus for evaluating the capability of various MWP solvers. Existing MWP corpora for studying AI progress remain limited either in language usage patterns or in problem types. We thus present a new English MWP corpus with 2,305 MWPs that cover more text patterns and most problem types taught in elementary school. Each MWP is annotated with its problem type and grade level (for indicating the level of difficulty). Furthermore, we propose a metric to measure the lexicon usage diversity of a given MWP corpus, and demonstrate that ASDiv is more diverse than existing corpora. Experiments show that our proposed corpus reflects the true capability of MWP solvers more faithfully.
翻訳日:2021-07-02 01:14:00 公開日:2021-06-30
# (参考訳) 3次元物体分割分類のための3次元メッシュ上の高密度グラフ畳み込みニューラルネットワーク

Dense Graph Convolutional Neural Networks on 3D Meshes for 3D Object Segmentation and Classification ( http://arxiv.org/abs/2106.15778v1 )

ライセンス: CC BY 4.0
Wenming Tang Guoping Qiu(参考訳) 本稿では,3次元物体分割と分類のための3次元メッシュ上でのグラフ畳み込みニューラルネットワーク(GCN)の設計について述べる。 メッシュの顔を基本処理ユニットとして使用し、各ノードが顔に対応するグラフとして3dメッシュを表現します。 グラフの記述力を高めるために,グラフノードを表す新しい多次元空間的特徴と構造的特徴を導出する1リング面近傍構造を導入する。 このグラフ表現に基づいて、局所的特徴と局所的特徴を集約した密結合グラフ畳み込みブロックを設計し、3次元オブジェクトの分類とセグメンテーションのための効率的な実用的なGCNモデルを構築する。 提案手法は,我々のモデルが最小のパラメータを持つことが示され,多数のベンチマークデータセットにまたがる最高精度を連続的に達成する,最先端の技術に勝ることを示す実験結果を示す。 また、設計原則の健全性と実用モデルの有効性を示すためのアブレーション研究も提示する。

This paper presents new designs of graph convolutional neural networks (GCNs) on 3D meshes for 3D object segmentation and classification. We use the faces of the mesh as basic processing units and represent a 3D mesh as a graph where each node corresponds to a face. To enhance the descriptive power of the graph, we introduce a 1-ring face neighbourhood structure to derive novel multi-dimensional spatial and structure features to represent the graph nodes. Based on this new graph representation, we then design a densely connected graph convolutional block which aggregates local and regional features as the key construction component to build effective and efficient practical GCN models for 3D object classification and segmentation. We will present experimental results to show that our new technique outperforms state of the art where our models are shown to have the smallest number of parameters and consietently achieve the highest accuracies across a number of benchmark datasets. We will also present ablation studies to demonstrate the soundness of our design principles and the effectiveness of our practical models.
翻訳日:2021-07-02 00:56:36 公開日:2021-06-30
# (参考訳) CityNet: スマートシティアプリケーションのためのマルチシティマルチモーダルデータセット [全文訳有]

CityNet: A Multi-city Multi-modal Dataset for Smart City Applications ( http://arxiv.org/abs/2106.15802v1 )

ライセンス: CC BY 4.0
Xu Geng, Yilun Jin, Zhengfei Zheng, Yu Yang, Yexin Li, Han Tian, Peibo Duan, Leye Wang, Jiannong Cao, Hai Yang, Qiang Yang, Kai Chen(参考訳) データ駆動アプローチは、都市コンピューティングの多くの問題に適用されてきた。 しかし,研究コミュニティでは,そのような手法は限られた資料から得られたデータに基づいて一般的に研究されており,複数のエンティティから得られる都市データの複雑さやそれらの相関を特徴付けることはできない。 したがって、都市コンピューティングのより広範な研究を促進するためには、包括的で多面的なデータセットが必要である。 本稿では,3つのデータソースから得られる7つの都市からのデータを含むマルチモーダル都市データセットであるCityNetを提案する。 まず,CityNetの生成プロセスと基本特性について述べる。 また,CityNetの利用を容易にするため,時空間予測や伝達学習,強化学習など,幅広い機械学習実験を実施している。 実験結果は、幅広いタスクとメソッドのベンチマークを提供するだけでなく、CityNet内の都市とタスク間の内部相関を明らかにすることで、様々なタスクのパフォーマンスを向上させることができる。 ベンチマーク結果と相関関係が明らかになったことから,CityNetは多くの先進的なトピックの研究を支援することで,都市コンピューティングの分野に貢献できると考えている。

Data-driven approaches have been applied to many problems in urban computing. However, in the research community, such approaches are commonly studied under data from limited sources, and are thus unable to characterize the complexity of urban data coming from multiple entities and the correlations among them. Consequently, an inclusive and multifaceted dataset is necessary to facilitate more extensive studies on urban computing. In this paper, we present CityNet, a multi-modal urban dataset containing data from 7 cities, each of which coming from 3 data sources. We first present the generation process of CityNet as well as its basic properties. In addition, to facilitate the use of CityNet, we carry out extensive machine learning experiments, including spatio-temporal predictions, transfer learning, and reinforcement learning. The experimental results not only provide benchmarks for a wide range of tasks and methods, but also uncover internal correlations among cities and tasks within CityNet that, with adequate leverage, can improve performances on various tasks. With the benchmarking results and the correlations uncovered, we believe that CityNet can contribute to the field of urban computing by supporting research on many advanced topics.
翻訳日:2021-07-02 00:55:34 公開日:2021-06-30
# (参考訳) o2d2: オーサシップ検証における決定不能な試行をキャプチャする分散検出装置 [全文訳有]

O2D2: Out-Of-Distribution Detector to Capture Undecidable Trials in Authorship Verification ( http://arxiv.org/abs/2106.15825v1 )

ライセンス: CC BY 4.0
Benedikt Boenninghoff, Robert M. Nickel, Dorothea Kolossa(参考訳) pan 2021 authorship verification (av) challengeは、クロストピック/クローズドセットからクロストピック/オープンセットavタスクへの移行という、3年間の戦略の一部である。 本研究では,ハイブリッド型ニューラル確率フレームワークを提案する。 これは、我々の2020年の受賞申請に基づいており、更新により、トピックの変化に対する感受性が大幅に低下し、不確実性対応層によってシステムのキャリブレーションがさらに改善される。 また, PAN 2021 AVタスクに参加した他のシステムよりも優れた非応答を定義するためのOut-Of-Distribution Detector (O2D2) も備えている。

The PAN 2021 authorship verification (AV) challenge is part of a three-year strategy, moving from a cross-topic/closed-s et to a cross-topic/open-set AV task over a collection of fanfiction texts. In this work, we present our modified hybrid neural-probabilistic framework. It is based on our 2020 winning submission, with updates to significantly reduce sensitivities to topical variations and to further improve the system's calibration by means of an uncertainty-adaptati on layer. Our framework additionally includes an Out-Of-Distribution Detector (O2D2) for defining non-responses, outperforming all other systems that participated in the PAN 2021 AV task.
翻訳日:2021-07-02 00:36:55 公開日:2021-06-30
# (参考訳) 微調整による分布外ロバストネスの進化 [全文訳有]

The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning ( http://arxiv.org/abs/2106.15831v1 )

ライセンス: CC BY 4.0
Anders Andreassen, Yasaman Bahri, Behnam Neyshabur, Rebecca Roelofs(参考訳) 機械学習モデルは通常、分散外データのパフォーマンス低下を経験するが、モデルのテストベッドで評価した場合、分散内データと分散外データの精度は単一の線形傾向に従うことが広く観察される。 このベースラインに対するアウト・オブ・ディストリビューションデータでより正確であるモデルは「有効な堅牢性」を示し、極めて稀である。 このようなモデルを特定し、その特性を理解することは、分散性能を改善するための鍵となる。 我々は、微調整中に有効なロバスト性を徹底的に調査し、より大規模なデータセットで事前訓練されたモデルは、収束時に消滅するトレーニング中に効果的なロバスト性を示すことを驚くべきことに発見する。 データの特性が効果的なロバスト性にどのように影響するかを考察し,データセットの大きさ,多様性,データ例の難易度によって拡張することを示す。 また,有効なロバスト性を示すモデルでは,他のテストベッドモデルが正しく動作しない例の10%を正しく分類できることがわかった。 最後に,最先端モデルの分散精度を向上させるために,精度の高いシステムに対して効果的なロバスト性を高めるためのいくつかの戦略について論じる。

Although machine learning models typically experience a drop in performance on out-of-distribution data, accuracies on in- versus out-of-distribution data are widely observed to follow a single linear trend when evaluated across a testbed of models. Models that are more accurate on the out-of-distribution data relative to this baseline exhibit "effective robustness" and are exceedingly rare. Identifying such models, and understanding their properties, is key to improving out-of-distribution performance. We conduct a thorough empirical investigation of effective robustness during fine-tuning and surprisingly find that models pre-trained on larger datasets exhibit effective robustness during training that vanishes at convergence. We study how properties of the data influence effective robustness, and we show that it increases with the larger size, more diversity, and higher example difficulty of the dataset. We also find that models that display effective robustness are able to correctly classify 10% of the examples that no other current testbed model gets correct. Finally, we discuss several strategies for scaling effective robustness to the high-accuracy regime to improve the out-of-distribution accuracy of state-of-the-art models.
翻訳日:2021-07-02 00:25:50 公開日:2021-06-30
# (参考訳) HySPA: スケーラブルテキスト-グラフ抽出のためのハイブリッドスパン生成 [全文訳有]

HySPA: Hybrid Span Generation for Scalable Text-to-Graph Extraction ( http://arxiv.org/abs/2106.15838v1 )

ライセンス: CC BY 4.0
Liliang Ren, Chenkai Sun, Heng Ji, Julia Hockenmaier(参考訳) Text-to-Graph extractは、自然言語テキストから参照と型からなる情報グラフを自動的に抽出することを目的としている。 テーブルフィリングやペアワイズスコアリングといった既存のアプローチは、様々な情報抽出タスクにおいて顕著なパフォーマンスを示しているが、入力長に関する2階空間/時間複雑さのため、長い入力テキストを持つデータセットにスケールすることは困難である。 本研究では,情報グラフをノードとエッジの交互列に可逆的にマッピングするハイブリッドスパン生成器(hyspa)を提案し,スパンとタイプを線形時間と空間の複雑度で再帰的にデコードできるハイブリッドスパンデコーダを用いて,それらのシーケンスを直接生成する。 ACE05データセットの広範囲な実験により、我々のアプローチは共同エンティティと関係抽出タスクの最先端性にも優れていた。

Text-to-Graph extraction aims to automatically extract information graphs consisting of mentions and types from natural language texts. Existing approaches, such as table filling and pairwise scoring, have shown impressive performance on various information extraction tasks, but they are difficult to scale to datasets with longer input texts because of their second-order space/time complexities with respect to the input length. In this work, we propose a Hybrid Span Generator (HySPA) that invertibly maps the information graph to an alternating sequence of nodes and edge types, and directly generates such sequences via a hybrid span decoder which can decode both the spans and the types recurrently in linear time and space complexities. Extensive experiments on the ACE05 dataset show that our approach also significantly outperforms state-of-the-art on the joint entity and relation extraction task.
翻訳日:2021-07-01 23:53:23 公開日:2021-06-30
# (参考訳) 雑音ラベル学習における早期停止の理解と改善 [全文訳有]

Understanding and Improving Early Stopping for Learning with Noisy Labels ( http://arxiv.org/abs/2106.15853v1 )

ライセンス: CC0 1.0
Yingbin Bai, Erkun Yang, Bo Han, Yanhua Yang, Jiatong Li, Yinian Mao, Gang Niu, Tongliang Liu(参考訳) ディープニューラルネットワーク(DNN)の記憶効果は、多くの最先端のラベルノイズ学習法において重要な役割を果たす。 この特性を利用するために、トレーニングの初期段階で最適化を停止する早期停止トリックが一般的に採用されている。 現在の手法は一般的にDNN全体を考慮して早期停止点を決定する。 しかし、DNNは一連のレイヤの合成と見なすことができ、DNNの後者のレイヤはラベルノイズに対してはるかに敏感であり、以前のレイヤは極めて堅牢である。 したがって、ネットワーク全体の停止点を選択すると、異なるDNN層が敵対的に影響を受け、最終的な性能が低下する可能性がある。 本稿では,DNNを異なる部分に分割し,それを段階的に訓練してこの問題に対処することを提案する。 最初は、DNN全体を一度に訓練する早期停止ではなく、比較的多くのエポックでDNNを最適化することで、元のDNN層を訓練します。 トレーニング中、我々は、ノイズラベルの影響に対処するために前層を固定した少ないエポックを用いて、後者のDNN層を段階的に訓練する。 提案手法をプログレッシブ早期停止(PES)と呼ぶ。 その単純さにもかかわらず、初期の停止と比べて、peはより有望で安定した結果を得るのに役立つ。 さらに,PESとノイズラベル学習の既存手法を組み合わせることで,画像分類ベンチマークの最先端性能を実現する。

The memorization effect of deep neural network (DNN) plays a pivotal role in many state-of-the-art label-noise learning methods. To exploit this property, the early stopping trick, which stops the optimization at the early stage of training, is usually adopted. Current methods generally decide the early stopping point by considering a DNN as a whole. However, a DNN can be considered as a composition of a series of layers, and we find that the latter layers in a DNN are much more sensitive to label noise, while their former counterparts are quite robust. Therefore, selecting a stopping point for the whole network may make different DNN layers antagonistically affected each other, thus degrading the final performance. In this paper, we propose to separate a DNN into different parts and progressively train them to address this problem. Instead of the early stopping, which trains a whole DNN all at once, we initially train former DNN layers by optimizing the DNN with a relatively large number of epochs. During training, we progressively train the latter DNN layers by using a smaller number of epochs with the preceding layers fixed to counteract the impact of noisy labels. We term the proposed method as progressive early stopping (PES). Despite its simplicity, compared with the early stopping, PES can help to obtain more promising and stable results. Furthermore, by combining PES with existing approaches on noisy label training, we achieve state-of-the-art performance on image classification benchmarks.
翻訳日:2021-07-01 23:34:51 公開日:2021-06-30
# (参考訳) ジャンル決定予測:サッカー言語における非標準tamマーキング [全文訳有]

Genre determining prediction: Non-standard TAM marking in football language ( http://arxiv.org/abs/2106.15872v1 )

ライセンス: CC BY 4.0
Jakob Egetenmeyer(参考訳) ドイツ語とフランス語のフットボール言語は、他のジャンルのTAMと異なるテンペ・アスペクト・ムード(TAM)形式を示す。 ドイツ・フットボール・トークでは、現在の指標はpluperfect subjunctiveに取って代わることができる。 フランスにおけるフットボールの試合の報告では、完全な過去の時制ではなく、不完全な過去が生じる可能性がある。 2つの現象は機能的なコアを共有しており、同じ方法でライセンスされていると我々は主張する。 より正確には、フットボールの試合報告は正確なスクリプトに準拠し、特定の出来事は客観的な時間で時間的に決定される。 これにより、話者はtam形式の二次関数、すなわち時間的視点をシフトすることができる。 我々は、解釈者が逸脱した形式を予測し、それらをデコードできるジャンルの基盤にあると論じている。 本稿では,これらの現象の分布,文法化,会話における機能に関する知見を得るために,これらの現象の機能を探るコーパス研究を行う。 関連する要因は、アクオンサートの性質、修辞的関係、および他のTAM形式との相互作用である。 これにより、comprehenderの処理メカニズムについて議論することができます。 我々はこの現象の理解を広げ、それはフランス語でしかカバーされておらず、これまではドイツ語では無視されていたようである。

German and French football language display tense-aspect-mood (TAM) forms which differ from the TAM use in other genres. In German football talk, the present indicative may replace the pluperfect subjunctive. In French reports of football matches, the imperfective past may occur instead of a perfective past tense-aspect form. We argue that the two phenomena share a functional core and are licensed in the same way, which is a direct result of the genre they occur in. More precisely, football match reports adhere to a precise script and specific events are temporally determined in terms of objective time. This allows speakers to exploit a secondary function of TAM forms, namely, they shift the temporal perspective. We argue that it is on the grounds of the genre that comprehenders predict the deviating forms and are also able to decode them. We present various corpus studies where we explore the functioning of these phenomena in order to gain insights into their distribution, grammaticalization and their functioning in discourse. Relevant factors are Aktionsart properties, rhetorical relations and their interaction with other TAM forms. This allows us to discuss coping mechanisms on the part of the comprehender. We broaden our understanding of the phenomena, which have only been partly covered for French and up to now seem to have been ignored in German.
翻訳日:2021-07-01 23:15:44 公開日:2021-06-30
# (参考訳) 訴訟書類の抽出要約のためのドメイン知識の統合 [全文訳有]

Incorporating Domain Knowledge for Extractive Summarization of Legal Case Documents ( http://arxiv.org/abs/2106.15876v1 )

ライセンス: CC BY 4.0
Paheli Bhattacharya and Soham Poddar and Koustav Rudra and Kripabandhu Ghosh and Saptarshi Ghosh(参考訳) 訴訟書類の自動要約は重要かつ実用的な課題である。 この目的のために使用できる多くのドメインに依存しないテキスト要約アルゴリズムとは別に、訴訟文書を要約するためのいくつかのアルゴリズムが開発されている。 しかし、既存のアルゴリズムのほとんどは、法的ケース文書の要約に理想的に存在するべき情報を特定するドメイン知識を体系的に組み込んでいない。 このギャップに対処するために,法専門家のガイドラインを最適化設定に体系的に組み込んだ教師なし要約アルゴリズムDELSummを提案する。 インド最高裁判所の事件文書に関する詳細な実験を行う。 提案手法は, 一般的な要約アルゴリズムと法則的手法の両方を含む, ROUGEスコアにおいて, 高いベースラインを達成できることを示す。 実際、提案アルゴリズムは教師なしであるが、数千対の文書-要約ペアで訓練された教師付き要約モデルよりも優れている。

Automatic summarization of legal case documents is an important and practical challenge. Apart from many domain-independent text summarization algorithms that can be used for this purpose, several algorithms have been developed specifically for summarizing legal case documents. However, most of the existing algorithms do not systematically incorporate domain knowledge that specifies what information should ideally be present in a legal case document summary. To address this gap, we propose an unsupervised summarization algorithm DELSumm which is designed to systematically incorporate guidelines from legal experts into an optimization setup. We conduct detailed experiments over case documents from the Indian Supreme Court. The experiments show that our proposed unsupervised method outperforms several strong baselines in terms of ROUGE scores, including both general summarization algorithms and legal-specific ones. In fact, though our proposed algorithm is unsupervised, it outperforms several supervised summarization models that are trained over thousands of document-summary pairs.
翻訳日:2021-07-01 22:45:54 公開日:2021-06-30
# (参考訳) 機械学習対応歩行者検知器の性能に及ぼす映像劣化の影響に関する構造化解析 [全文訳有]

A Structured Analysis of the Video Degradation Effects on the Performance of a Machine Learning-enabled Pedestrian Detector ( http://arxiv.org/abs/2106.15889v1 )

ライセンス: CC BY 4.0
Christian Berger(参考訳) ML対応ソフトウェアシステムは、自動運転(AD)システムのための多くの公開デモンストレーションに組み込まれている。 このようなソリューションはSAEレベル5システムに向けた重要なアプローチと考えられており、そのような車両の乗客はシステムと全く対話する必要がなくなった。 2016年すでにNvidiaは、認識、計画、意思決定、および実際の車両制御を含む完全なソフトウェアスタックをトレーニングするための完全なエンドツーエンドアプローチを実演した。 このようなアプローチは、このようなML対応システムの大きな可能性を示しているが、ビデオフレーム内の1つのピクセルに既に変更されている場合、危険な結果を伴う決定がまったく異なる可能性があるという実証もある。 本稿では,ML対応歩行者検出器の性能に及ぼす映像劣化の影響について,構造化解析を行った。 まず,KITTI Vision Benchmark Suite の歩行者用アノテーションを用いた 1,026 フレームにYOLOを適用した。 次に、各フレームの映像劣化候補を、カラーおよびグレースケールの様々な圧縮プリセットの映像コーデックlibx264、libx265、nvidia hevc、av1:52フレームを用いて生成し、元のkittiフレームあたり104個の劣化候補と合計426,816枚の画像を生成する。 YOLO を各画像に適用し,IoU メトリックを計算し,その性能を元のベースラインと比較した。 圧縮設定を積極的に損なうと、期待通りパフォーマンスが大幅に低下するが、いくつかの構成では、ベースラインよりもわずかに優れたIoU結果が得られることも観察された。 その結果、慎重に選択された損失のあるビデオ構成は、特定のML対応システムの適切な性能を維持しつつ、データの保存や送信時にかなりの節約を可能にすることがわかった。

ML-enabled software systems have been incorporated in many public demonstrations for automated driving (AD) systems. Such solutions have also been considered as a crucial approach to aim at SAE Level 5 systems, where the passengers in such vehicles do not have to interact with the system at all anymore. Already in 2016, Nvidia demonstrated a complete end-to-end approach for training the complete software stack covering perception, planning and decision making, and the actual vehicle control. While such approaches show the great potential of such ML-enabled systems, there have also been demonstrations where already changes to single pixels in a video frame can potentially lead to completely different decisions with dangerous consequences. In this paper, a structured analysis has been conducted to explore video degradation effects on the performance of an ML-enabled pedestrian detector. Firstly, a baseline of applying YOLO to 1,026 frames with pedestrian annotations in the KITTI Vision Benchmark Suite has been established. Next, video degradation candidates for each of these frames were generated using the leading video codecs libx264, libx265, Nvidia HEVC, and AV1: 52 frames for the various compression presets for color and gray-scale frames resulting in 104 degradation candidates per original KITTI frame and 426,816 images in total. YOLO was applied to each image to compute the intersection-over-un ion (IoU) metric to compare the performance with the original baseline. While aggressively lossy compression settings result in significant performance drops as expected, it was also observed that some configurations actually result in slightly better IoU results compared to the baseline. The findings show that carefully chosen lossy video configurations preserve a decent performance of particular ML-enabled systems while allowing for substantial savings when storing or transmitting data.
翻訳日:2021-07-01 22:28:34 公開日:2021-06-30
# (参考訳) 忠実なエッジフェデレーション学習: スケーラビリティとプライバシ

Faithful Edge Federated Learning: Scalability and Privacy ( http://arxiv.org/abs/2106.15905v1 )

ライセンス: CC BY 4.0
Meng Zhang, Ermin Wei, and Randall Berry(参考訳) フェデレーション学習は、ローカルデータセットの交換を必要とせずに、複数の分散エッジデバイスのネットワーク上で機械学習アルゴリズムをトレーニング可能にする。 連合学習をうまく展開するには、エージェント(例えばモバイルデバイス)が意図したアルゴリズムを忠実に実行する必要がある。 本研究では,まずリスク境界を用いて,連帯学習,不均衡学習,非i.i.dの鍵となる特徴を分析する。 データ エージェントのインセンティブ 自発的に参加し 従順に伝統的な 学習アルゴリズムに従う より具体的には、より一般的なデータ分布や比較的多くのサンプルを持つエージェントが、連合学習アルゴリズムをオプトアウトまたはオプトアウトする可能性が高いことを分析によって明らかにしています。 この目的のために,フェデレーション学習の最初の忠実な実装問題を定式化し,経済特性,スケーラビリティ,プライバシを満足する2つの忠実なフェデレーション学習機構を設計する。 さらに、すべてのエージェントの支払いをエージェント数で計算する時間の複雑さは、$\mathcal{o}(1)$である。 まず,Vickrey-Clarke-Grov es (VCG) の支払いをインクリメンタルな計算によって近似するFFL(Fithful Federated Learning) 機構を設計する。 我々は、(おそらく)最適性、忠実な実施、自発的な参加、その他の経済的特性(予算収支など)を達成することを示す。 次に,エージェントを複数のサブセットに分割することで,スケーラブルなVCG機構を近似する。 さらに、経済性を維持する最初の微分プライベート忠実なメカニズムである、スケーラブルで微分プライベートなFFL(DP-FFL)機構を設計する。 当社のメカニズムは,プライバシ,必要なイテレーション,支払精度損失の3方向のパフォーマンストレードオフを可能にする。

Federated learning enables machine learning algorithms to be trained over a network of multiple decentralized edge devices without requiring the exchange of local datasets. Successfully deploying federated learning requires ensuring that agents (e.g., mobile devices) faithfully execute the intended algorithm, which has been largely overlooked in the literature. In this study, we first use risk bounds to analyze how the key feature of federated learning, unbalanced and non-i.i.d. data, affects agents' incentives to voluntarily participate and obediently follow traditional federated learning algorithms. To be more specific, our analysis reveals that agents with less typical data distributions and relatively more samples are more likely to opt out of or tamper with federated learning algorithms. To this end, we formulate the first faithful implementation problem of federated learning and design two faithful federated learning mechanisms which satisfy economic properties, scalability, and privacy. Further, the time complexity of computing all agents' payments in the number of agents is $\mathcal{O}(1)$. First, we design a Faithful Federated Learning (FFL) mechanism which approximates the Vickrey-Clarke-Grove s (VCG) payments via an incremental computation. We show that it achieves (probably approximate) optimality, faithful implementation, voluntary participation, and some other economic properties (such as budget balance). Second, by partitioning agents into several subsets, we present a scalable VCG mechanism approximation. We further design a scalable and Differentially Private FFL (DP-FFL) mechanism, the first differentially private faithful mechanism, that maintains the economic properties. Our mechanism enables one to make three-way performance tradeoffs among privacy, the iterations needed, and payment accuracy loss.
翻訳日:2021-07-01 22:18:54 公開日:2021-06-30
# (参考訳) モンテカルロ変分オートエンコーダ [全文訳有]

Monte Carlo Variational Auto-Encoders ( http://arxiv.org/abs/2106.15921v1 )

ライセンス: CC0 1.0
Achille Thin, Nikita Kotelevskii, Arnaud Doucet, Alain Durmus, Eric Moulines, Maxim Panov(参考訳) 変分オートエンコーダ(VAE)は、エビデンス・ロウアー・バウンド(ELBO)の最大化によって訓練された、一般的な潜伏変数モデルである。 より厳密なELBOとより優れた変動近似を得るために, 重要サンプリングを用いて証拠の分散度を低くする手法が提案されている。 しかしながら、重要サンプリングは高次元では性能が悪いことが知られている。 文学において、Annealed Importance Smpling (AIS) やSequential Importance Smpling (SIS) 拡張のようなより洗練されたアルゴリズムを使用するように何度も提案されてきたが、これらの高度な技術によってもたらされる潜在的な利点はVAEには実現されていない:AIS推定は容易に区別できないが、SISは慎重に選択された後方マルコフカーネルの仕様を必要とする。 本稿では,様々なアプリケーションにおけるモンテカルロvaesの性能について述べるとともに,その性能について述べる。

Variational auto-encoders (VAE) are popular deep latent variable models which are trained by maximizing an Evidence Lower Bound (ELBO). To obtain tighter ELBO and hence better variational approximations, it has been proposed to use importance sampling to get a lower variance estimate of the evidence. However, importance sampling is known to perform poorly in high dimensions. While it has been suggested many times in the literature to use more sophisticated algorithms such as Annealed Importance Sampling (AIS) and its Sequential Importance Sampling (SIS) extensions, the potential benefits brought by these advanced techniques have never been realized for VAE: the AIS estimate cannot be easily differentiated, while SIS requires the specification of carefully chosen backward Markov kernels. In this paper, we address both issues and demonstrate the performance of the resulting Monte Carlo VAEs on a variety of applications.
翻訳日:2021-07-01 22:17:37 公開日:2021-06-30
# (参考訳) アウトレーヤとアドバイザを守るロバスト分類オートコーダ [全文訳有]

A Robust Classification-autoe ncoder to Defend Outliers and Adversaries ( http://arxiv.org/abs/2106.15927v1 )

ライセンス: CC BY 4.0
Lijia Yu and Xiao-Shan Gao(参考訳) 本稿では,外乱を認識でき,敵を防御できる頑健な分類オートエンコーダ(CAE)を提案する。 基本的な考え方は、オートエンコーダを教師なしの学習方法から分類器に変えることである。 CAEは修正されたオートエンコーダであり、エンコーダは異なるラベルのサンプルを非結合圧縮空間に圧縮するために使用され、デコーダは対応する圧縮空間から与えられたラベルのサンプルを復元するために使用される。 エンコーダは分類器として使用され、デコーダは入力サンプルと出力を比較して、エンコーダが与えた分類が正しいかどうかを判定するために使用される。 現在のDNNフレームワークでは、敵のサンプルは避けられないように思われるため、敵の防衛のためにCAEに基づくリスト分類を導入し、CAEが回収した複数のラベルと対応するサンプルを出力する。 CAEはMNISTデータセットを用いて詳細に評価される。 CAEネットワークは, ほぼすべての外れ値を認識することができ, リスト分類には, ほぼ全ての敵に対する正しいラベルが含まれている。

In this paper, we present a robust classification-autoe ncoder (CAE) which has strong ability to recognize outliers and defend adversaries. The basic idea is to change the autoencoder from an unsupervised learning method into a classifier. The CAE is a modified autoencoder, where the encoder is used to compress samples with different labels into disjoint compression spaces and the decoder is used to recover a sample with a given label from the corresponding compression space. The encoder is used as a classifier and the decoder is used to decide whether the classification given by the encoder is correct by comparing the input sample with the output. Since adversary samples are seeming inevitable for the current DNN framework, we introduce the list classification based on CAE to defend adversaries, which outputs several labels and the corresponding samples recovered by the CAE. The CAE is evaluated using the MNIST dataset in great detail. It is shown that the CAE network can recognize almost all outliers and the list classification contains the correct label for almost all adversaries.
翻訳日:2021-07-01 21:50:59 公開日:2021-06-30
# (参考訳) プロセス指向ケースベース推論における類似性評価のためのインフォームド機械学習 [全文訳有]

Informed Machine Learning for Improved Similarity Assessment in Process-Oriented Case-Based Reasoning ( http://arxiv.org/abs/2106.15931v1 )

ライセンス: CC BY 4.0
Maximilian Hoffmann, Ralph Bergmann(参考訳) 現在、ケースベース推論(CBR)アプリケーション内のディープラーニング(DL)コンポーネントは、利用可能なドメイン知識の包括的な統合を欠いていることが多い。 いわゆるインフォームド機械学習への機械学習のトレンドは、この制限を克服するのに役立つ。 そこで本稿では,プロセス指向cbrアプリケーションにおける意味グラフ間の類似性評価に用いるグラフニューラルネットワーク(gnns)にドメイン知識を統合する可能性について検討する。 まず、各グラフノードとエッジのセマンティックアノテーションに関する構造的知識をエンコードする特殊なデータ表現および処理手法を用いる。 第2に、GNNのメッセージパッシングコンポーネントは、法的なノードマッピングに関する知識によって制約される。 評価では,拡張GNNの品質とトレーニング時間について,ストックモデルと比較した。 その結果,どちらのエクステンションも品質向上,トレーニング時間の短縮,あるいはコンフィグレーションによるメリットを一度に両立することが可能であることが判明した。

Currently, Deep Learning (DL) components within a Case-Based Reasoning (CBR) application often lack the comprehensive integration of available domain knowledge. The trend within machine learning towards so-called Informed machine learning can help to overcome this limitation. In this paper, we therefore investigate the potential of integrating domain knowledge into Graph Neural Networks (GNNs) that are used for similarity assessment between semantic graphs within process-oriented CBR applications. We integrate knowledge in two ways: First, a special data representation and processing method is used that encodes structural knowledge about the semantic annotations of each graph node and edge. Second, the message-passing component of the GNNs is constrained by knowledge on legal node mappings. The evaluation examines the quality and training time of the extended GNNs, compared to the stock models. The results show that both extensions are capable of providing better quality, shorter training times, or in some configurations both advantages at once.
翻訳日:2021-07-01 21:31:52 公開日:2021-06-30
# (参考訳) BLNet: ノイズ除去と色復元による低光画像強調のための高速ディープラーニングフレームワーク [全文訳有]

BLNet: A Fast Deep Learning Framework for Low-Light Image Enhancement with Noise Removal and Color Restoration ( http://arxiv.org/abs/2106.15953v1 )

ライセンス: CC BY 4.0
Xinxu Wei, Xianshi Zhang, Shisen Wang, Cheng Cheng, Yanlin Huang, Kaifu Yang, and Yongjie Li(参考訳) 実世界の低照度条件で得られた画像は明るさが低いだけでなく、色バイアス、未知のノイズ、ディテールロス、haloアーティファクトなど、他の多くの種類の劣化も抱えている。 本稿では,2つのu-netからなる光度(blnet)を持ち,これらすべての劣化に対処するために設計が整った損失関数を持つ超高速深層学習フレームワークを提案する。 retinex理論に基づき、このモデルにおける分解ネットは、低光度画像を反射率と照明に分解し、分解相中の反射率のノイズを除去することができる。 畳み込みニューラルネットワークと2つの損失関数(ノイズ損失と色損失)を含むノイズ・カラーバイアス制御モジュール(NCBCモジュール)を提案する。 このモジュールは、トレーニングフェーズにおける損失関数の計算にのみ使用されるため、テストフェーズでは非常に高速である。 このモジュールは反射率を円滑にし、ディテールやエッジ情報を保存し、色バイアスを制御しながらノイズ除去の目的を達成することができる。 本研究では,低照度照明と正常光照明のマッピングを学習し,低照度照明で撮影された画像の輝度を高めるネットワークを提案する。 提案したモデルの性能を実世界のLow-Light(LOL)データセットでトレーニングし、評価し、また他のよく使われるデータセット(LIME、DICM、MEFデータセット)でテストする。 我々は,本手法が優れたルバスト性および一般化によって有望な効果を達成し,他の多くの最先端手法を質的かつ定量的に上回ることを示すための広範な実験を行った。 ノイズ除去や色補正のためのデノイザを新たに導入する代わりに,損失関数を用いることで,高速化を実現している。 コードとモデルはhttps://github.com/w eixinxu666/blnetで入手できる。

Images obtained in real-world low-light conditions are not only low in brightness, but they also suffer from many other types of degradation, such as color bias, unknown noise, detail loss and halo artifacts. In this paper, we propose a very fast deep learning framework called Bringing the Lightness (denoted as BLNet) that consists of two U-Nets with a series of well-designed loss functions to tackle all of the above degradations. Based on Retinex Theory, the decomposition net in our model can decompose low-light images into reflectance and illumination and remove noise in the reflectance during the decomposition phase. We propose a Noise and Color Bias Control module (NCBC Module) that contains a convolutional neural network and two loss functions (noise loss and color loss). This module is only used to calculate the loss functions during the training phase, so our method is very fast during the test phase. This module can smooth the reflectance to achieve the purpose of noise removal while preserving details and edge information and controlling color bias. We propose a network that can be trained to learn the mapping between low-light and normal-light illumination and enhance the brightness of images taken in low-light illumination. We train and evaluate the performance of our proposed model over the real-world Low-Light (LOL) dataset), and we also test our model over several other frequently used datasets (LIME, DICM and MEF datasets). We conduct extensive experiments to demonstrate that our approach achieves a promising effect with good rubustness and generalization and outperforms many other state-of-the-art methods qualitatively and quantitatively. Our method achieves high speed because we use loss functions instead of introducing additional denoisers for noise removal and color correction. The code and model are available at https://github.com/w eixinxu666/BLNet.
翻訳日:2021-07-01 21:16:35 公開日:2021-06-30
# (参考訳) ELMoコンテキスト埋め込みの言語間アライメント [全文訳有]

Cross-lingual alignments of ELMo contextual embeddings ( http://arxiv.org/abs/2106.15986v1 )

ライセンス: CC BY-SA 4.0
Matej Ul\v{c}ar and Marko Robnik-\v{S}ikonja(参考訳) 特定のNLPタスクのための機械学習予測モデルを構築するには十分なトレーニングデータが必要である。 言語間埋め込みは、低リソース言語から高リソース言語への単語埋め込みをマッピングし、高リソース言語からのデータに基づいてトレーニングされた予測モデルを低リソース言語でも使用できるようにする。 最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは同じ文脈で単語でなければならない。 本稿では,言語間コンテキストアライメントのためのデータセットの作成手法を提案する。 そこで本研究では,ELMo埋め込みのための新たな言語間マッピング手法を提案する。 線形写像法はコンテキストエルモ埋め込みに既存のvecmapとmuseアライメントを用いる。 我々の新しい非線形ELMoGANマッピング法はGANに基づいており、同型埋め込み空間を仮定していない。 NERと依存性解析という2つの下流タスクを用いて,9言語を対象に提案手法の評価を行った。 ELMoGAN法は,NERタスクにおいて,一部の言語での直接学習と比較して,言語間損失が低い。 依存性解析では、線形アライメントがより成功している。

Building machine learning prediction models for a specific NLP task requires sufficient training data, which can be difficult to obtain for low-resource languages. Cross-lingual embeddings map word embeddings from a low-resource language to a high-resource language so that a prediction model trained on data from the high-resource language can also be used in the low-resource language. To produce cross-lingual mappings of recent contextual embeddings, anchor points between the embedding spaces have to be words in the same context. We address this issue with a new method for creating datasets for cross-lingual contextual alignments. Based on that, we propose novel cross-lingual mapping methods for ELMo embeddings. Our linear mapping methods use existing vecmap and MUSE alignments on contextual ELMo embeddings. Our new nonlinear ELMoGAN mapping method is based on GANs and does not assume isomorphic embedding spaces. We evaluate the proposed mapping methods on nine languages, using two downstream tasks, NER and dependency parsing. The ELMoGAN method performs well on the NER task, with low cross-lingual loss compared to direct training on some languages. In the dependency parsing, linear alignment variants are more successful.
翻訳日:2021-07-01 20:55:05 公開日:2021-06-30
# (参考訳) スーパースプライシングダイナミクスによるグループテスト [全文訳有]

Group Testing under Superspreading Dynamics ( http://arxiv.org/abs/2106.15988v1 )

ライセンス: CC BY 4.0
Stratis Tsirtsis, Abir De, Lars Lorch, Manuel Gomez-Rodriguez(参考訳) 検査は、新型コロナウイルスの感染が確認された患者全員に推奨される。 しかし,既存のグループ検査手法は,接触追跡による感染状況によらない。 そこで本研究では,Dorfmanの手法を用いた半適応型プールテスト手法を構築し,接触追跡による情報の利用に特化して設計された動的プログラミングに基づく簡単なグループテスト手法を提案する。 新型ウイルス(covid-19)のパンデミックの状況で推定されるプールを含む、さまざまな再現数と分散レベルを用いた実験により、この方法を用いたプールは、特に感染した人の接触数が小さい場合には、標準のdorfman法で検出したプールよりもかなり少ないテスト数となることが示された。 さらに, 二次感染が過度に分散している場合には, 本法が有効である可能性が示唆された。

Testing is recommended for all close contacts of confirmed COVID-19 patients. However, existing group testing methods are oblivious to the circumstances of contagion provided by contact tracing. Here, we build upon a well-known semi-adaptive pool testing method, Dorfman's method with imperfect tests, and derive a simple group testing method based on dynamic programming that is specifically designed to use the information provided by contact tracing. Experiments using a variety of reproduction numbers and dispersion levels, including those estimated in the context of the COVID-19 pandemic, show that the pools found using our method result in a significantly lower number of tests than those found using standard Dorfman's method, especially when the number of contacts of an infected individual is small. Moreover, our results show that our method can be more beneficial when the secondary infections are highly overdispersed.
翻訳日:2021-07-01 20:34:54 公開日:2021-06-30
# (参考訳) ロバスト一般化のための機械読解システムにおけるベースモデルの重みのゼロショット推定 [全文訳有]

Zero-Shot Estimation of Base Models' Weights in Ensemble of Machine Reading Comprehension Systems for Robust Generalization ( http://arxiv.org/abs/2106.16013v1 )

ライセンス: CC BY 4.0
Razieh Baradaran and Hossein Amirkhani(参考訳) 機械読み取り理解モデル(MRC)の主な課題の1つは、その脆弱なドメイン外一般化であり、現実の汎用的な質問応答問題には適さない。 本稿では, ゼロショット重み付けアンサンブル法を用いて, MRCモデルにおける領域外一般化のロバスト性を改善する。 提案手法では,重み推定モジュールを用いてドメイン外の重みを推定し,アンサンブルモジュールはその重みに基づいて複数のベースモデルの予測を集約する。 実験の結果,提案手法は最終精度を向上するだけでなく,領域変更に対して堅牢であることがわかった。

One of the main challenges of the machine reading comprehension (MRC) models is their fragile out-of-domain generalization, which makes these models not properly applicable to real-world general-purpose question answering problems. In this paper, we leverage a zero-shot weighted ensemble method for improving the robustness of out-of-domain generalization in MRC models. In the proposed method, a weight estimation module is used to estimate out-of-domain weights, and an ensemble module aggregate several base models' predictions based on their weights. The experiments indicate that the proposed method not only improves the final accuracy, but also is robust against domain changes.
翻訳日:2021-07-01 20:02:47 公開日:2021-06-30
# (参考訳) 異常検出:バイアス評価プロトコルでF1スコアを人工的に向上する方法 [全文訳有]

Anomaly Detection: How to Artificially Increase your F1-Score with a Biased Evaluation Protocol ( http://arxiv.org/abs/2106.16020v1 )

ライセンス: CC BY 4.0
Damien Fourure, Muhammad Usama Javaid, Nicolas Posocco, Simon Tihon(参考訳) 異常検出は機械学習において広く研究されている領域である。 多くのモデルが文献で提案され、様々なデータセットで測定された異なるメトリクスで比較される。 パフォーマンス比較に使用される最も一般的なメトリクスは、f1-score、auc、apprである。 本稿では,F1スコアとAVPRが汚染率に非常に敏感であることを示す。 その結果、列車とテストの分割手順を変更することで、人工的に値を増やすことができる。 これにより、特に評価プロトコルがあまり詳しくない場合に、文学におけるアルゴリズム間の比較を誤解を招くことになる。 さらに,F1スコアとAVPRは,本質的なデータモデリングの難しさを反映しないため,異なるデータセットのパフォーマンスを比較するには使用できないことを示す。 これらの結果から,F1スコアとAVPRは異常検出の指標として使用すべきでないと主張している。 評価プロトコルの任意の選択に対してより堅牢なAUCなど,他のメトリクスの使用を含む,教師なし異常検出のための汎用的な評価手順を推奨する。

Anomaly detection is a widely explored domain in machine learning. Many models are proposed in the literature, and compared through different metrics measured on various datasets. The most popular metrics used to compare performances are F1-score, AUC and AVPR. In this paper, we show that F1-score and AVPR are highly sensitive to the contamination rate. One consequence is that it is possible to artificially increase their values by modifying the train-test split procedure. This leads to misleading comparisons between algorithms in the literature, especially when the evaluation protocol is not well detailed. Moreover, we show that the F1-score and the AVPR cannot be used to compare performances on different datasets as they do not reflect the intrinsic difficulty of modeling such data. Based on these observations, we claim that F1-score and AVPR should not be used as metrics for anomaly detection. We recommend a generic evaluation procedure for unsupervised anomaly detection, including the use of other metrics such as the AUC, which are more robust to arbitrary choices in the evaluation protocol.
翻訳日:2021-07-01 19:55:49 公開日:2021-06-30
# (参考訳) 変圧器アーキテクチャを用いた生音声生成モデル [全文訳有]

A Generative Model for Raw Audio Using Transformer Architectures ( http://arxiv.org/abs/2106.16036v1 )

ライセンス: CC BY 4.0
Prateek Verma, Chris Chafe(参考訳) 本稿ではトランスフォーマーアーキテクチャを用いて波形レベルで音声合成を行う新しい手法を提案する。 本稿ではウェーブネットのような波形を生成するディープニューラルネットワークを提案する。 これは完全に確率的、自己回帰的、因果関係である。 生成されたサンプルは 前回のサンプルにのみ依存する。 我々のアプローチは、次のステップを予測するために、同様のデータセット上で、広く使われているwavenetアーキテクチャを最大9\%上回る。 注意機構を用いることで,今後のサンプル予測において,どの音声サンプルが重要かを知ることができる。 生波形合成に因果変圧器生成モデルをどのように利用できるかを示す。 また,より広い文脈でサンプルをコンディショニングすることで,この性能を2\%向上できることを示した。 潜在表現から音声を合成する現在のモデルの柔軟性は、多くの潜在的な応用を示唆している。 しかし、生音声合成に生成トランスフォーマーアーキテクチャを用いるという新しいアプローチは、生成プロセスを支援するために潜在コードやメタデータを使うことなく、意味のある音楽を生成するには程遠い。

This paper proposes a novel way of doing audio synthesis at the waveform level using Transformer architectures. We propose a deep neural network for generating waveforms, similar to wavenet \cite{oord2016wavenet}. This is fully probabilistic, auto-regressive, and causal, i.e. each sample generated depends only on the previously observed samples. Our approach outperforms a widely used wavenet architecture by up to 9\% on a similar dataset for predicting the next step. Using the attention mechanism, we enable the architecture to learn which audio samples are important for the prediction of the future sample. We show how causal transformer generative models can be used for raw waveform synthesis. We also show that this performance can be improved by another 2\% by conditioning samples over a wider context. The flexibility of the current model to synthesize audio from latent representations suggests a large number of potential applications. The novel approach of using generative transformer architectures for raw audio synthesis is, however, still far away from generating any meaningful music, without using latent codes/meta-data to aid the generation process.
翻訳日:2021-07-01 19:38:45 公開日:2021-06-30
# (参考訳) エネルギーハーベスティングによる信頼できないチャネル上の情報の年齢を最小化する学習 [全文訳有]

Learning to Minimize Age of Information over an Unreliable Channel with Energy Harvesting ( http://arxiv.org/abs/2106.16037v1 )

ライセンス: CC BY 4.0
Elif Tugce Ceran, Deniz Gunduz, and Andras Gyorgy(参考訳) 有限容量バッテリ付き省エネ送信機からエラー発生チャネル経由で送信される状態更新について, 時間平均情報量(AoI)について検討した。 新しいステータス更新を検知するエネルギーコストと、実用的なシステムをよりよく捉えるための送信エネルギーコストを考慮する。 最適なスケジューリングポリシーは、チャネルとエネルギーの収穫統計が知られている場合に、harq(hybrid automatic repeat request)プロトコルに基づいて最初に検討され、閾値ベースの最適ポリシーの存在が示されている。 未知環境の場合、システムパラメータとステータス更新ポリシーをリアルタイムで学習する平均コストの強化学習アルゴリズムが提案されている。 提案手法の有効性を数値実験により実証した。

The time average expected age of information (AoI) is studied for status updates sent over an error-prone channel from an energy-harvesting transmitter with a finite-capacity battery. Energy cost of sensing new status updates is taken into account as well as the transmission energy cost better capturing practical systems. The optimal scheduling policy is first studied under the hybrid automatic repeat request (HARQ) protocol when the channel and energy harvesting statistics are known, and the existence of a threshold-based optimal policy is shown. For the case of unknown environments, average-cost reinforcement-learni ng algorithms are proposed that learn the system parameters and the status update policy in real-time. The effectiveness of the proposed methods is demonstrated through numerical results.
翻訳日:2021-07-01 19:19:36 公開日:2021-06-30
# (参考訳) ChineseBERT: グリフとピニインの情報で強化された中国の事前訓練 [全文訳有]

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information ( http://arxiv.org/abs/2106.16038v1 )

ライセンス: CC BY 4.0
Zijun Sun, Xiaoya Li, Xiaofei Sun, Yuxian Meng, Xiang Ao, Qing He, Fei Wu, Jiwei Li(参考訳) 最近の中国語における事前学習モデルは、中国語に特有の2つの重要な側面を無視している。 そこで本研究では,中国語の「グリフ」と「ピンイン」の情報を言語モデルの事前学習に組み込んだ「チャイナベルト」を提案する。 グリフ埋め込みは、漢字の異なるフォントに基づいて得られ、視覚特徴から文字の意味を捉えることができ、ピニイン埋め込みは、中国語の非常に一般的なヘテロニム現象を扱う漢字の発音を特徴付ける(同じ文字は、異なる意味の異なる発音を持つ)。 大規模なラベルなし中国語コーパスで事前トレーニングされたこのモデルでは、トレーニングステップの少ないベースラインモデルよりも大幅にパフォーマンスが向上する。 porpsoedモデルは、機械読解、自然言語推論、テキスト分類、文のペアマッチング、名前付きエンティティ認識における競合性能など、幅広い中国のnlpタスクで新たなsoma性能を実現する。 コードと事前トレーニングされたモデルはhttps://github.com/S hannonAI/ ChineseBert.comで公開されている。

Recent pretraining models in Chinese neglect two important aspects specific to the Chinese language: glyph and pinyin, which carry significant syntax and semantic information for language understanding. In this work, we propose ChineseBERT, which incorporates both the {\it glyph} and {\it pinyin} information of Chinese characters into language model pretraining. The glyph embedding is obtained based on different fonts of a Chinese character, being able to capture character semantics from the visual features, and the pinyin embedding characterizes the pronunciation of Chinese characters, which handles the highly prevalent heteronym phenomenon in Chinese (the same character has different pronunciations with different meanings). Pretrained on large-scale unlabeled Chinese corpus, the proposed ChineseBERT model yields significant performance boost over baseline models with fewer training steps. The porpsoed model achieves new SOTA performances on a wide range of Chinese NLP tasks, including machine reading comprehension, natural language inference, text classification, sentence pair matching, and competitive performances in named entity recognition. Code and pretrained models are publicly available at https://github.com/S hannonAI/ChineseBert .
翻訳日:2021-07-01 18:50:40 公開日:2021-06-30
# (参考訳) 高次ネットワークの潜在空間モデルと一般化テンソル分解

Latent Space Model for Higher-order Networks and Generalized Tensor Decomposition ( http://arxiv.org/abs/2106.16042v1 )

ライセンス: CC BY 4.0
Zhongyuan Lyu and Dong Xia and Yuan Zhang(参考訳) 一般潜在空間モデルとして定式化された統一フレームワークを導入し、複数のエンティティ間の複雑な高次ネットワーク相互作用を研究する。 本フレームワークは, 混合多層ラテント空間モデルやハイパーグラフラテント空間モデルなど, 近年のネットワーク解析におけるいくつかの人気モデルをカバーする。 リンク関数として一般化マルチリニアカーネルを用いて潜在位置と観測データとの関係を定式化する。 モデルには十分な一般性があるが、その最大パラメータ推定は一般化テンソル分解法によっても有用であり、グラスマン多様体の射影勾配勾配を用いた新しいアルゴリズムを提案する。 また,アルゴリズムに関する理論的な保証も開発した。 まず, 穏やかな条件下での線形収束を示す。 次に,信号強度,自由度,リンク関数の滑らかさによって決定される潜時位置推定の有限サンプル統計誤差率を,一般および特定潜時空間モデルの両方に対して確立する。 本手法が合成データに与える影響を実証する。 また,実世界の2つのデータセットに対して,有意義で解釈可能なパラメータ推定と正確なリンク予測を行う際に,従来異なるモデルによって記述されていた手法の有用性を示す。 本手法が合成データに与える影響を実証する。 また,実世界の2つのデータセットに対して,有意義で解釈可能なパラメータ推定と正確なリンク予測を行う際に,従来異なるモデルによって記述されていた手法の有用性を示す。

We introduce a unified framework, formulated as general latent space models, to study complex higher-order network interactions among multiple entities. Our framework covers several popular models in recent network analysis literature, including mixture multi-layer latent space model and hypergraph latent space model. We formulate the relationship between the latent positions and the observed data via a generalized multilinear kernel as the link function. While our model enjoys decent generality, its maximum likelihood parameter estimation is also convenient via a generalized tensor decomposition procedure.We propose a novel algorithm using projected gradient descent on Grassmannians. We also develop original theoretical guarantees for our algorithm. First, we show its linear convergence under mild conditions. Second, we establish finite-sample statistical error rates of latent position estimation, determined by the signal strength, degrees of freedom and the smoothness of link function, for both general and specific latent space models. We demonstrate the effectiveness of our method on synthetic data. We also showcase the merit of our method on two real-world datasets that are conventionally described by different specific models in producing meaningful and interpretable parameter estimations and accurate link prediction. We demonstrate the effectiveness of our method on synthetic data. We also showcase the merit of our method on two real-world datasets that are conventionally described by different specific models in producing meaningful and interpretable parameter estimations and accurate link prediction.
翻訳日:2021-07-01 18:27:48 公開日:2021-06-30
# (参考訳) 倫理的AIによる回帰テストの選択 [全文訳有]

Ethical AI-Powered Regression Test Selection ( http://arxiv.org/abs/2106.16050v1 )

ライセンス: CC BY 4.0
Per Erik Strandberg, Mirgita Frasheri, Eduard Paul Enoiu(参考訳) テストの自動化はソフトウェア開発では一般的です。 テストケースの数が大きければ、サブセットを選択して、最も重要なテストケースだけを使用することができる。 回帰テスト選択(RTS)は人工知能(AI-RTS)によって自動化され、強化される。 しかし、これは倫理的な問題をもたらす可能性がある。 AIにおけるこのような課題は一般的によく研究されているが、倫理的AI-RTSに関してはギャップがある。 産業用ai-rtsツールの開発経験から文学や学習を探求することで、3つの課題(責任の割り当て、意思決定のバイアス、参加の欠如)と3つのアプローチ(適用性、監督、多様性)を識別することで、文学に貢献する。 さらに、私たちは倫理的AI-RTSのチェックリストを提供し、プロセスに関わるステークホルダの意思決定をガイドします。

Test automation is common in software development; often one tests repeatedly to identify regressions. If the amount of test cases is large, one may select a subset and only use the most important test cases. The regression test selection (RTS) could be automated and enhanced with Artificial Intelligence (AI-RTS). This however could introduce ethical challenges. While such challenges in AI are in general well studied, there is a gap with respect to ethical AI-RTS. By exploring the literature and learning from our experiences of developing an industry AI-RTS tool, we contribute to the literature by identifying three challenges (assigning responsibility, bias in decision-making and lack of participation) and three approaches (explicability, supervision and diversity). Additionally, we provide a checklist for ethical AI-RTS to help guide the decision-making of the stakeholders involved in the process.
翻訳日:2021-07-01 18:26:14 公開日:2021-06-30
# (参考訳) IWSLT 2021低リソース音声翻訳タスクのためのIMS'システム [全文訳有]

IMS' Systems for the IWSLT 2021 Low-Resource Speech Translation Task ( http://arxiv.org/abs/2106.16055v1 )

ライセンス: CC0 1.0
Pavel Denisov, Manuel Mager, Ngoc Thang Vu(参考訳) 本稿では,IMS チームによる低リソース音声翻訳共有タスク IWSLT 2021 への提出について述べる。 本研究では,複数のデータ拡張とマルチタスク・トランスファー学習を併用した最先端モデルを用いて,カスケードシステムの自動音声認識(asr)と機械翻訳(mt)ステップを実現する。 さらに,高度に制約された真理ラベル付きデータに対して,完全エンドツーエンド音声翻訳(st)モデルの実現可能性についても検討する。 我々のベストシステムは、コンゴ・スワヒリ語を英語、フランス語にそれぞれ7.7点、フランス語に13.7点、コースタル・スワヒリ語を英語に14.9点、それぞれベストパフォーマンスを達成した。

This paper describes the submission to the IWSLT 2021 Low-Resource Speech Translation Shared Task by IMS team. We utilize state-of-the-art models combined with several data augmentation, multi-task and transfer learning approaches for the automatic speech recognition (ASR) and machine translation (MT) steps of our cascaded system. Moreover, we also explore the feasibility of a full end-to-end speech translation (ST) model in the case of very constrained amount of ground truth labeled data. Our best system achieves the best performance among all submitted systems for Congolese Swahili to English and French with BLEU scores 7.7 and 13.7 respectively, and the second best result for Coastal Swahili to English with BLEU score 14.9.
翻訳日:2021-07-01 18:22:28 公開日:2021-06-30
# (参考訳) 逆画像合成に関する調査研究 [全文訳有]

A Survey on Adversarial Image Synthesis ( http://arxiv.org/abs/2106.16056v1 )

ライセンス: CC BY 4.0
William Roy, Glen Kelly, Robert Leer, Frederick Ricardo(参考訳) GAN(Generative Adversarial Networks)は、様々なアプリケーションドメインで非常に成功した。 近年,多くのコンピュータビジョンや画像処理問題に幅広く応用されているため,周辺画像合成が注目され,飛躍的な進歩を遂げている。 GANの多くの応用の中で、画像合成が最もよく研究されており、この分野の研究は画像合成にGANを用いる大きな可能性をすでに示している。 本稿では,画像合成における手法の分類法を提案し,テキストから画像への合成と画像から画像への変換の異なるモデルについて検討し,ganを用いた画像合成の今後の研究動向について考察する。

Generative Adversarial Networks (GANs) have been extremely successful in various application domains. Adversarial image synthesis has drawn increasing attention and made tremendous progress in recent years because of its wide range of applications in many computer vision and image processing problems. Among the many applications of GAN, image synthesis is the most well-studied one, and research in this area has already demonstrated the great potential of using GAN in image synthesis. In this paper, we provide a taxonomy of methods used in image synthesis, review different models for text-to-image synthesis and image-to-image translation, and discuss some evaluation metrics as well as possible future research directions in image synthesis with GAN.
翻訳日:2021-07-01 18:11:56 公開日:2021-06-30
# (参考訳) DAEMA: マスクを意識したオートエンコーダ [全文訳有]

DAEMA: Denoising Autoencoder with Mask Attention ( http://arxiv.org/abs/2106.16057v1 )

ライセンス: CC BY 4.0
Simon Tihon, Muhammad Usama Javaid, Damien Fourure, Nicolas Posocco, Thomas Peel(参考訳) データの欠落は、特に現実世界のアプリケーションで機械学習アルゴリズムを使用する場合、繰り返しかつ困難な問題である。 このため、データインプテーションの欠如が活発な研究領域となり、最近のディープラーニングアプローチが最先端の成果を達成している。 daema (denoising autoencoder with mask attention) は,注意機構を持つデノージングオートエンコーダアーキテクチャに基づくアルゴリズムである。 ほとんどの計算アルゴリズムは不完全な入力を使用するが、基本的な前処理(例えば)に完全なデータアップを使用する。 平均計算) - DAEMAはマスクベースの注意機構を利用して、その入力の観測値にフォーカスする。 DAEMAは再構築能力と下流予測の両面で評価し,様々な不足条件下で公開されている実世界のデータセットに対して,最先端のアルゴリズムよりも優れた性能を示す。

Missing data is a recurrent and challenging problem, especially when using machine learning algorithms for real-world applications. For this reason, missing data imputation has become an active research area, in which recent deep learning approaches have achieved state-of-the-art results. We propose DAEMA (Denoising Autoencoder with Mask Attention), an algorithm based on a denoising autoencoder architecture with an attention mechanism. While most imputation algorithms use incomplete inputs as they would use complete data - up to basic preprocessing (e.g. mean imputation) - DAEMA leverages a mask-based attention mechanism to focus on the observed values of its inputs. We evaluate DAEMA both in terms of reconstruction capabilities and downstream prediction and show that it achieves superior performance to state-of-the-art algorithms on several publicly available real-world datasets under various missingness settings.
翻訳日:2021-07-01 17:51:14 公開日:2021-06-30
# (参考訳) クラス記述規則化によるゼロショット学習 [全文訳有]

Zero-shot Learning with Class Description Regularization ( http://arxiv.org/abs/2106.16108v1 )

ライセンス: CC BY 4.0
Shayan Kousha, Marcus A. Brubaker(参考訳) ゼロショット学習(ZSL)の目的は、目に見えないクラスから学習し、学習した知識を伝達し、これらの見えないカテゴリの記述から目に見えないクラスのサンプルを作成することである。 ZSLの精度を改善するために、モデルは目に見えないクラスの記述をよりよく理解する必要がある。 生成型zslモデルが各カテゴリの記述にもっと注意を払うように促す新しい正規化方式を導入する。 CUBやNABirdsのようなテキスト記述ベースのデータセットやAWA2、aPY、SUNといった属性ベースのデータセットでトレーニングした場合には、一般化されたゼロショット認識と分類のタスクにおいて、複数の最先端モデルの性能よりも向上することを示す。

The purpose of generative Zero-shot learning (ZSL) is to learning from seen classes, transfer the learned knowledge, and create samples of unseen classes from the description of these unseen categories. To achieve better ZSL accuracies, models need to better understand the descriptions of unseen classes. We introduce a novel form of regularization that encourages generative ZSL models to pay more attention to the description of each category. Our empirical results demonstrate improvements over the performance of multiple state-of-the-art models on the task of generalized zero-shot recognition and classification when trained on textual description-based datasets like CUB and NABirds and attribute-based datasets like AWA2, aPY and SUN.
翻訳日:2021-07-01 17:41:06 公開日:2021-06-30
# (参考訳) リンパ系腫瘍における空間構造の階層的表現とグラフモデリング [全文訳有]

Hierarchical Phenotyping and Graph Modeling of Spatial Architecture in Lymphoid Neoplasms ( http://arxiv.org/abs/2106.16174v1 )

ライセンス: CC BY 4.0
Pingjun Chen, Muhammad Aminu, Siba El Hussein, Joseph Khoury, Jia Wu(参考訳) 腫瘍微小環境(TME)における細胞とその空間パターンは、腫瘍の進化において重要な役割を担っているが、計算病理学では未研究のトピックである。 この研究は、我々の知る限り、細胞成分のオーケストレーションと相互作用をプロファイルする局所グラフ法とグローバルグラフ法を併用する最初の試みの一つである。 TMEの細胞クラスが不明な造血器癌では, まず, 細胞レベルでの教師なし学習を行い, 2種類の新しい細胞サブタイプを同定した。 局所的なセルグラフやスーパーセルは、個々のセルの地理空間的位置とクラスを考慮して構築された。 そこで,スーパーセルレベルのクラスタリングを行い,新たな2つの細胞群を同定した。 最後に、空間的相互作用パターンを抽象化し、疾患診断のための特徴を抽出するグローバルグラフを構築した。 造血器腫瘍60例のh\&eスライドにおける提案アルゴリズムを評価し,グローバルセルグラフ,クラスタセルグラフ,flockという3つの細胞レベルグラフベースアルゴリズムと比較した。 提案手法は5倍のクロスバリデーションを繰り返すことで平均診断精度を0.703とする。 結論として,本アルゴリズムは既存手法よりも優れた性能を示し,他のがん種にも適用できる可能性が示唆された。

The cells and their spatial patterns in the tumor microenvironment (TME) play a key role in tumor evolution, and yet remains an understudied topic in computational pathology. This study, to the best of our knowledge, is among the first to hybrid local and global graph methods to profile orchestration and interaction of cellular components. To address the challenge in hematolymphoid cancers where the cell classes in TME are unclear, we first implemented cell level unsupervised learning and identified two new cell subtypes. Local cell graphs or supercells were built for each image by considering the individual cell's geospatial location and classes. Then, we applied supercell level clustering and identified two new cell communities. In the end, we built global graphs to abstract spatial interaction patterns and extract features for disease diagnosis. We evaluate the proposed algorithm on H\&E slides of 60 hematolymphoid neoplasm patients and further compared it with three cell level graph-based algorithms, including the global cell graph, cluster cell graph, and FLocK. The proposed algorithm achieves a mean diagnosis accuracy of 0.703 with the repeated 5-fold cross-validation scheme. In conclusion, our algorithm shows superior performance over the existing methods and can be potentially applied to other cancer types.
翻訳日:2021-07-01 17:35:28 公開日:2021-06-30
# (参考訳) BERTを用いた病的ギャンブル, セルフハーム, 抑うつの早期検出 [全文訳有]

Early Risk Detection of Pathological Gambling, Self-Harm and Depression Using BERT ( http://arxiv.org/abs/2106.16175v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma and Liviu P. Dinu(参考訳) 精神疾患の早期発見は、人々の幸福に大きなプラスの影響を与える。 eriskワークショップは、抑うつ、自傷、食欲不振、病的ギャンブルなどの精神疾患の早期危険因子を自動的に推定する計算手法の開発における、学際的な研究の最前線にある。 本稿では,2021年版のワークショップにおけるBLUEチームの貢献について述べる。このワークショップでは,ギャンブル中毒の早期発見,セルフハーム,ソーシャルメディア投稿からのうつ病の重症度推定といった課題に対処する。 我々は、トレーニング済みのBERTトランスフォーマーと、メンタルヘルスのサブレディットから自動的にクロールされたデータを採用し、3つのタスクすべてに対して合理的な結果を得る。

Early risk detection of mental illnesses has a massive positive impact upon the well-being of people. The eRisk workshop has been at the forefront of enabling interdisciplinary research in developing computational methods to automatically estimate early risk factors for mental issues such as depression, self-harm, anorexia and pathological gambling. In this paper, we present the contributions of the BLUE team in the 2021 edition of the workshop, in which we tackle the problems of early detection of gambling addiction, self-harm and estimating depression severity from social media posts. We employ pre-trained BERT transformers and data crawled automatically from mental health subreddits and obtain reasonable results on all three tasks.
翻訳日:2021-07-01 17:24:15 公開日:2021-06-30
# (参考訳) ホームサービスアサインメント, ルーティング, スケジューリング問題に対する統合車両ルーティングとモンテカルロスケジューリングアプローチ [全文訳有]

Integrated Vehicle Routing and Monte Carlo Scheduling Approach for the Home Service Assignment, Routing, and Scheduling Problem ( http://arxiv.org/abs/2106.16176v1 )

ライセンス: CC BY 4.0
Shamay G. Samuel, Enrique Areyan Viqueira, Serdar Kadioglu(参考訳) 本研究では,ホームサービス管理を動機とする車両ルーティング・アポポインメントスケジューリング問題であるH-SARA問題を定式化し,解決する。 旅行時間、サービス継続時間、顧客キャンセルが確率的であると仮定します。 まず、オプション拡張付きのVRP Solverを使用してチームとルートを生成し、次にMC Schedulerを使用して、顧客のチームによる期待到着時間を決定する。 さらに、キャンセルの2つの異なるモデルと、ルーティングとスケジューリングへの影響についても紹介する。 最後に,最もパフォーマンスの悪いチームを置き換えることで,H-SARAソリューションを反復的に改善する経路破壊メタヒューリスティックを導入する。 そこで本研究では, 最適経路, スケジューリング, および経路破壊のメタヒューリスティックが両モデルに与えた影響について, 問題と数値実験について考察する。

We formulate and solve the H-SARA Problem, a Vehicle Routing and Appointment Scheduling Problem motivated by home services management. We assume that travel times, service durations, and customer cancellations are stochastic. We use a two-stage process that first generates teams and routes using a VRP Solver with optional extensions and then uses an MC Scheduler that determines expected arrival times by teams at customers. We further introduce two different models of cancellation and their associated impacts on routing and scheduling. Finally, we introduce the Route Fracture Metaheuristic that iteratively improves an H-SARA solution by replacing the worst-performing teams. We present insights into the problem and a series of numerical experiments that illustrate properties of the optimal routing, scheduling, and the impact of the Route Fracture Metaheuristic for both models of cancellation.
翻訳日:2021-07-01 17:10:41 公開日:2021-06-30
# (参考訳) 強化学習に基づくアルツハイマー病の疾患進行モデル [全文訳有]

Reinforcement Learning based Disease Progression Model for Alzheimer's Disease ( http://arxiv.org/abs/2106.16187v1 )

ライセンス: CC BY 4.0
Krishnakant V. Saboo, Anirudh Choudhary, Yurui Cao, Gregory A. Worrell, David T. Jones and Ravishankar K. Iyer(参考訳) 我々は、微分方程式(DE)と強化学習(RL)をドメイン知識と組み合わせて、アルツハイマー病(AD)の進行をモデル化する。 DEはADに関連するいくつかの要素の間の関係を提供するが、全てではない。 欠落した関係は、例えば認知の最大化や認知を支援するコストの最小化など、脳の働きに関する一般的な基準を満たす必要があると仮定する。 これにより、RLを用いて、上記の基準を捉えた目的(逆)関数を最適化することで、欠落した関係を抽出することができる。 我々は、DES(シミュレーター)と訓練されたRLエージェントからなるモデルを用いて、合成および実データに基づくベースライン(年0)特徴を用いた個人化された10年間のAD進行を予測する。 このモデルは、最先端の学習モデルよりも、10年間の認知軌道を予測するのに優れている。 我々の解釈可能なモデルは、これらのプロセスがモデルに明示的にエンコードされていないにもかかわらず、ADの効果を緩和する「回復/補償」プロセスを示し、洞察を与えました。 我々のフレームワークは、AD進行をモデル化するためのDESとRLを組み合わせており、他の神経疾患の理解に広く適用可能である。

We model Alzheimer's disease (AD) progression by combining differential equations (DEs) and reinforcement learning (RL) with domain knowledge. DEs provide relationships between some, but not all, factors relevant to AD. We assume that the missing relationships must satisfy general criteria about the working of the brain, for e.g., maximizing cognition while minimizing the cost of supporting cognition. This allows us to extract the missing relationships by using RL to optimize an objective (reward) function that captures the above criteria. We use our model consisting of DEs (as a simulator) and the trained RL agent to predict individualized 10-year AD progression using baseline (year 0) features on synthetic and real data. The model was comparable or better at predicting 10-year cognition trajectories than state-of-the-art learning-based models. Our interpretable model demonstrated, and provided insights into, "recovery/compensator y" processes that mitigate the effect of AD, even though those processes were not explicitly encoded in the model. Our framework combines DEs with RL for modelling AD progression and has broad applicability for understanding other neurological disorders.
翻訳日:2021-07-01 16:47:44 公開日:2021-06-30
# (参考訳) sigdial conferenceの最近の可視性に関する分析 [全文訳有]

An Analysis of the Recent Visibility of the SigDial Conference ( http://arxiv.org/abs/2106.16196v1 )

ライセンス: CC BY 4.0
Casey Kennington and McKenzie Steenson(参考訳) 音声とテキストの自動インタフェースは改善され続けており、対話システム分野の研究が増加している。 さらに,様々な分野のカンファレンスやワークショップでは,検索インタフェースやロボットなどのアプリケーションとのインタラクションの候補として,音声やテキストメディアによる言語に注目が集まっている。 本稿では,2015年以降のNatural Langauge Processing カンファレンスの論文を分析し,SigDial カンファレンスが外部カンファレンスにどのように見えるかを検討するとともに,SigDial 関連トピックの人気を判断し,SigDial の外部で SigDial の論文が引用されているものについて分析する。 対話研究の劇的な増加にもかかわらず,sigdialの可視性は向上していない。 私たちはいくつかの提案をすることで締めくくる。

Automated speech and text interfaces are continuing to improve, resulting in increased research in the area of dialogue systems. Moreover, conferences and workshops from various fields are focusing more on language through speech and text mediums as candidates for interaction with applications such as search interfaces and robots. In this paper, we explore how visible the SigDial conference is to outside conferences by analysing papers from top Natural Langauge Processing conferences since 2015 to determine the popularity of certain SigDial-related topics, as well as analysing what SigDial papers are being cited by others outside of SigDial. We find that despite a dramatic increase in dialogue-related research, SigDial visibility has not increased. We conclude by offering some suggestions.
翻訳日:2021-07-01 16:23:18 公開日:2021-06-30
# (参考訳) 確率ハミルトンサンプリングの統一的視点

A Unified View of Stochastic Hamiltonian Sampling ( http://arxiv.org/abs/2106.16200v1 )

ライセンス: CC BY 4.0
Giulio Franzese, Dimitrios Milios, Maurizio Filippone, Pietro Michiardi(参考訳) 本研究では,ベイズ後方サンプリングにおけるハミルトン確率微分方程式(SDE)の理論的性質を再検討し,数値SDEシミュレーションから生じる2種類の誤差について検討する。 数値積分スキームのエルゴード収束率を概観した結果について考察し,微分作用素分割のレンズによるミニバッチの効果の新たな解析を行った。 解析において、提案するハミルトンSDEの確率成分は勾配雑音から分離され、正規性仮定は成立しない。 これにより、ハミルトニアンモンテカルロ (hmc) アルゴリズムを含む様々なサンプリングスキーム間の興味深い接続を導出し、それらの性能を説明することができる。 数値積分器を慎重に選択すると、両者の誤差は$\mathcal{o}(\eta^2)$で消滅し、ここで$\eta$は積分器のステップサイズである。 我々の理論結果はベイズニューラルネットワークの様々な回帰および分類タスクに関する経験的研究によって支持されている。

In this work, we revisit the theoretical properties of Hamiltonian stochastic differential equations (SDEs) for Bayesian posterior sampling, and we study the two types of errors that arise from numerical SDE simulation: the discretization error and the error due to noisy gradient estimates in the context of data subsampling. We consider overlooked results describing the ergodic convergence rates of numerical integration schemes, and we produce a novel analysis for the effect of mini-batches through the lens of differential operator splitting. In our analysis, the stochastic component of the proposed Hamiltonian SDE is decoupled from the gradient noise, for which we make no normality assumptions. This allows us to derive interesting connections among different sampling schemes, including the original Hamiltonian Monte Carlo (HMC) algorithm, and explain their performance. We show that for a careful selection of numerical integrators, both errors vanish at a rate $\mathcal{O}(\eta^2)$, where $\eta$ is the integrator step size. Our theoretical results are supported by an empirical study on a variety of regression and classification tasks for Bayesian neural networks.
翻訳日:2021-07-01 16:15:25 公開日:2021-06-30
# (参考訳) ニューラルネットワークヘシアンマップの構造とランクに関する分析的考察

Analytic Insights into Structure and Rank of Neural Network Hessian Maps ( http://arxiv.org/abs/2106.16225v1 )

ライセンス: CC BY 4.0
Sidak Pal Singh, Gregor Bachmann, Thomas Hofmann(参考訳) ニューラルネットワークのヘシアンは、損失の2階微分を通じてパラメータ相互作用をキャプチャする。 これは、モデル設計、最適化、一般化など、ディープラーニングの様々な問題と密接に結びついている研究の基本的な対象である。 ほとんどの先行研究は経験的であり、典型的にはネットワーク構造に盲目な低位近似やヒューリスティックに焦点が当てられている。 対照的に、我々はヘッセン写像の範囲を分析するための理論的ツールを開発し、その階数不足とその背後にある構造的理由の正確な理解を提供する。 これにより、深い線形ネットワークのヘッセン階の正確な公式と厳密な上界が得られ、階数不足という観点からエレガントな解釈が可能となる。 さらに,直交ネットワークや双曲的接ネットワークのようなより大きなモデルのクラスに対して,数値ヘッシアン階数の推定として,我々の境界が忠実であることを示す。 さらに, ランク不足に対するモデルアーキテクチャ(例えば, 幅, 深さ, バイアス)の影響についても検討した。 全体として、我々の研究は過パラメータネットワークのソースと冗長性に関する新たな洞察を提供する。

The Hessian of a neural network captures parameter interactions through second-order derivatives of the loss. It is a fundamental object of study, closely tied to various problems in deep learning, including model design, optimization, and generalization. Most prior work has been empirical, typically focusing on low-rank approximations and heuristics that are blind to the network structure. In contrast, we develop theoretical tools to analyze the range of the Hessian map, providing us with a precise understanding of its rank deficiency as well as the structural reasons behind it. This yields exact formulas and tight upper bounds for the Hessian rank of deep linear networks, allowing for an elegant interpretation in terms of rank deficiency. Moreover, we demonstrate that our bounds remain faithful as an estimate of the numerical Hessian rank, for a larger class of models such as rectified and hyperbolic tangent networks. Further, we also investigate the implications of model architecture (e.g.~width, depth, bias) on the rank deficiency. Overall, our work provides novel insights into the source and extent of redundancy in overparameterized networks.
翻訳日:2021-07-01 16:14:12 公開日:2021-06-30
# (参考訳) IMLEによる形状仕上げ [全文訳有]

Shape Completion via IMLE ( http://arxiv.org/abs/2106.16237v1 )

ライセンス: CC BY 4.0
Himanshu Arora, Saurabh Mishra, Shichong Peng, Ke Li, Ali Mahdavi-Amiri(参考訳) 形状補完は部分スキャンのような部分入力形状を完備する問題である。 この問題は、現実世界のデータにおける隠蔽や疎結合といった問題により、コンピュータビジョンやロボット工学において重要な応用を見出す。 しかし, 形状完成に関する既存の研究の多くは, 結果の多様性と創造性を制限した1対1のマッピングを学習することで, 形状完成に重点を置いている。 本稿では,一対多のマッピングを効果的に学習し,多様な完全形状を生成する,新しいマルチモーダル形状補完手法を提案する。 提案手法は,部分的な3次元点雲に入力を条件付けする条件付きImplicit MaximumLikelihood Estimation (IMLE)技術に基づいている。 定量的にも定性的にも,様々なベースラインと比較することで,我々のアプローチを広く評価する。 形状の完全性と多様性の観点から,本手法が代替手法よりも優れていることを示す。

Shape completion is the problem of completing partial input shapes such as partial scans. This problem finds important applications in computer vision and robotics due to issues such as occlusion or sparsity in real-world data. However, most of the existing research related to shape completion has been focused on completing shapes by learning a one-to-one mapping which limits the diversity and creativity of the produced results. We propose a novel multimodal shape completion technique that is effectively able to learn a one-to-many mapping and generates diverse complete shapes. Our approach is based on the conditional Implicit MaximumLikelihood Estimation (IMLE) technique wherein we condition our inputs on partial 3D point clouds. We extensively evaluate our approach by comparing it to various baselines both quantitatively and qualitatively. We show that our method is superior to alternatives in terms of completeness and diversity of shapes
翻訳日:2021-07-01 16:12:55 公開日:2021-06-30
# (参考訳) SimNet: ステレオによる純粋な合成データから未知のオブジェクト操作を実現する [全文訳有]

SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic Data via Stereo ( http://arxiv.org/abs/2106.16118v1 )

ライセンス: CC BY 4.0
Thomas Kollar, Michael Laskey, Kevin Stone, Brijen Thananjeyan, Mark Tjersland(参考訳) 非構造環境における未知物体のロボット操作は、形状、材料、配置、照明条件の多様性のために難しい問題である。 大規模な実世界のデータ収集であっても、様々な照明条件における透明で反射的な物体の堅牢な認識と操作は依然として困難である。 これらの課題に対処するために,ロボット知覚のシミュレートから現実への移行を行うアプローチを提案する。 基礎となるモデルであるsimnetは、シミュレーションされたステレオデータを入力として使用し、オブジェクトセグメンテーションマスク、obb(3d oriented bounding box)、オブジェクトキーポイント、出力の格差をシミュレートした、単一のマルチヘッドニューラルネットワークとしてトレーニングされる。 simnetの重要なコンポーネントは、不一致を予測する学習ステレオサブネットワークの組み込みである。 simnetは2dカー検出、未知のオブジェクト検出、変形可能なオブジェクトキーポイント検出で評価され、構造化されたライトrgb-dセンサーを使用するベースラインを大きく上回る。 OBBとキーポイント予測を用いて把握位置を推定することにより、SimNetは4つのホーム環境におけるトヨタHSRロボット群を用いて、容易かつ困難なシナリオの両方において未知物体のエンドツーエンド操作を行うことができる。 未知のオブジェクト把握実験において、ベースラインRGB-DネットワークとSimNetからの予測は、ほとんどの簡単なオブジェクトの把握を成功させる。 しかし、RGB-Dベースラインはハードな(例えば透明な)オブジェクトの35%しか把握していないが、SimNetは95%を把握しており、SimNetは未知の環境において透明なオブジェクトを含む未知のオブジェクトの堅牢な操作を可能にすることを示唆している。

Robot manipulation of unknown objects in unstructured environments is a challenging problem due to the variety of shapes, materials, arrangements and lighting conditions. Even with large-scale real-world data collection, robust perception and manipulation of transparent and reflective objects across various lighting conditions remain challenging. To address these challenges we propose an approach to performing sim-to-real transfer of robotic perception. The underlying model, SimNet, is trained as a single multi-headed neural network using simulated stereo data as input and simulated object segmentation masks, 3D oriented bounding boxes (OBBs), object keypoints, and disparity as output. A key component of SimNet is the incorporation of a learned stereo sub-network that predicts disparity. SimNet is evaluated on 2D car detection, unknown object detection, and deformable object keypoint detection and significantly outperforms a baseline that uses a structured light RGB-D sensor. By inferring grasp positions using the OBB and keypoint predictions, SimNet can be used to perform end-to-end manipulation of unknown objects in both easy and hard scenarios using our fleet of Toyota HSR robots in four home environments. In unknown object grasping experiments, the predictions from the baseline RGB-D network and SimNet enable successful grasps of most of the easy objects. However, the RGB-D baseline only grasps 35% of the hard (e.g., transparent) objects, while SimNet grasps 95%, suggesting that SimNet can enable robust manipulation of unknown objects, including transparent objects, in unknown environments.
翻訳日:2021-07-01 15:59:10 公開日:2021-06-30
# セマンティックセグメンテーションのための単段階逆行訓練

Single-Step Adversarial Training for Semantic Segmentation ( http://arxiv.org/abs/2106.15998v1 )

ライセンス: Link先を確認
Daniel Wiens and Barbara Hammer(参考訳) ディープニューラルネットワークはセマンティクスセグメンテーションを含む多くの異なるタスクで成功するが、敵の例に対する堅牢性に欠ける。 このエクスプロイトに対抗するために、しばしば敵対的なトレーニングが使用される。 しかし、弱い敵の攻撃を伴う敵の訓練(例)が知られている。 Fast Gradient Methodを使用することで、より強力な攻撃に対する堅牢性は向上しない。 近年の研究では、トレーニング中に適切なステップサイズを選択することで、そのような単一ステップ法の堅牢性を高めることが可能であることが示されている。 このようなステップサイズを見つけることは、単段階の逆行訓練の計算労力を増大させることなく、依然としてオープンな課題である。 本研究では, セマンティックセグメンテーションの計算に特に要求される課題に対処し, 単段階対角訓練の堅牢性を高める新しいステップサイズ制御アルゴリズムを提案する。 提案アルゴリズムは,メタパラメータを含まないため,単段階逆行訓練の計算労力を大幅に増加させず,訓練を簡素化する。 提案手法のロバスト性は,セマンティックセグメンテーションのための2つの一般的なベンチマークにおいて,多段階の対戦訓練と競合することを示す。

Even though deep neural networks succeed on many different tasks including semantic segmentation, they lack on robustness against adversarial examples. To counteract this exploit, often adversarial training is used. However, it is known that adversarial training with weak adversarial attacks (e.g. using the Fast Gradient Method) does not improve the robustness against stronger attacks. Recent research shows that it is possible to increase the robustness of such single-step methods by choosing an appropriate step size during the training. Finding such a step size, without increasing the computational effort of single-step adversarial training, is still an open challenge. In this work we address the computationally particularly demanding task of semantic segmentation and propose a new step size control algorithm that increases the robustness of single-step adversarial training. The proposed algorithm does not increase the computational effort of single-step adversarial training considerably and also simplifies training, because it is free of meta-parameter. We show that the robustness of our approach can compete with multi-step adversarial training on two popular benchmarks for semantic segmentation.
翻訳日:2021-07-01 15:38:08 公開日:2021-06-30
# 教師なし機械翻訳はハイソース言語に何をもたらすのか?

What Can Unsupervised Machine Translation Contribute to High-Resource Language Pairs? ( http://arxiv.org/abs/2106.15818v1 )

ライセンス: Link先を確認
Kelly Marchisio, Markus Freitag, David Grangier(参考訳) 非教師付き機械翻訳(unsupervised machine translation, mt)に関する既存の文献では,バイリンガルなトレーニングデータが怖かったり,利用できない低リソース言語ペアに対する教師なし技術の利用が重視されているが,教師なしmtは十分なバイテキストが存在する高リソース言語ペアの翻訳品質を向上させることができるかを検討する。 教師なしまたは教師なしのmtで生成された正しい翻訳のスタイルを比較し、教師なしの出力が教師なしの出力よりも単調で自然であることを示す。 我々は,教師なしのmtと教師なしのmtの利点を一つのシステムに統合する方法を実証し,品質と流動性を評価する。 本研究の結果は,教師なしMTの高リソース環境における潜在的貢献と,教師なしシステムと教師なしシステムの相互便益性に関する議論の扉を開くものである。

Whereas existing literature on unsupervised machine translation (MT) focuses on exploiting unsupervised techniques for low-resource language pairs where bilingual training data is scare or unavailable, we investigate whether unsupervised MT can also improve translation quality of high-resource language pairs where sufficient bitext does exist. We compare the style of correct translations generated by either supervised or unsupervised MT and find that the unsupervised output is less monotonic and more natural than supervised output. We demonstrate a way to combine the benefits of unsupervised and supervised MT into a single system, resulting in better human evaluation of quality and fluency. Our results open the door to discussions about the potential contributions of unsupervised MT in high-resource settings, and how supervised and unsupervised systems might be mutually-beneficial.
翻訳日:2021-07-01 15:37:51 公開日:2021-06-30
# ニューラルネットワーク翻訳のための混合クロスエントロピー損失

Mixed Cross Entropy Loss for Neural Machine Translation ( http://arxiv.org/abs/2106.15880v1 )

ライセンス: Link先を確認
Haoran Li, Wei Lu(参考訳) 神経機械翻訳において、クロスエントロピー(cross entropy、ce)は、教師の強制と定期的なサンプリングという2つの自動回帰モデルの訓練方法における標準的損失関数である。 本稿では,両訓練におけるceの代替として混合交叉エントロピー損失 (mixed ce) を提案する。 教師の強制では、CEで訓練されたモデルは翻訳問題を1対1のマッピングプロセスとみなし、CEの混合ではこのプロセスを1対1に緩和することができる。 スケジュールサンプリングでは,混合ceはトレーニングとテストの動作を互いに類似させる可能性を示し,より効果的に露出バイアス問題を緩和する。 本研究では,複数の機械翻訳データセットである wmt'16 ro-en, wmt'16 ru-en, wmt'14 en-de において,教師の強制と定期的なサンプリング設定の両方において,ce over ce が優れていることを示す。 さらに、WMT'14 En-Deでは、混合CEは複数の参照セット上でCEを一貫して上回り、また挑戦的なパラフレーズ参照セットも見出す。 また,混合ceで学習したモデルでは,翻訳出力空間上で定義された確率分布がより良くなることがわかった。 私たちのコードはhttps://github.com/h aorannlp/mixで利用可能です。

In neural machine translation, cross entropy (CE) is the standard loss function in two training methods of auto-regressive models, i.e., teacher forcing and scheduled sampling. In this paper, we propose mixed cross entropy loss (mixed CE) as a substitute for CE in both training approaches. In teacher forcing, the model trained with CE regards the translation problem as a one-to-one mapping process, while in mixed CE this process can be relaxed to one-to-many. In scheduled sampling, we show that mixed CE has the potential to encourage the training and testing behaviours to be similar to each other, more effectively mitigating the exposure bias problem. We demonstrate the superiority of mixed CE over CE on several machine translation datasets, WMT'16 Ro-En, WMT'16 Ru-En, and WMT'14 En-De in both teacher forcing and scheduled sampling setups. Furthermore, in WMT'14 En-De, we also find mixed CE consistently outperforms CE on a multi-reference set as well as a challenging paraphrased reference set. We also found the model trained with mixed CE is able to provide a better probability distribution defined over the translation output space. Our code is available at https://github.com/h aorannlp/mix.
翻訳日:2021-07-01 15:37:33 公開日:2021-06-30
# マイクロブロッグにおけるテーマコヒーレンスの評価

Evaluation of Thematic Coherence in Microblogs ( http://arxiv.org/abs/2106.15971v1 )

ライセンス: Link先を確認
Iman Munire Bilal, Bo Wang, Maria Liakata, Rob Procter, Adam Tsakalidis(参考訳) 同じ時間枠内で同じトピックについて意見を表すマイクロブログをまとめるのは、さまざまなタスクや実践者にとって有用です。 大きな疑問は、このようなテーマクラスタの品質を評価する方法である。 ここでは、3つの異なるドメインと時間ウィンドウからマイクロブログクラスタのコーパスを作成し、テーマコヒーレンスを評価するタスクを定義する。 専門家は,アノテーションガイドラインと主題コヒーレンスに関する人間的注釈を提示する。 その後、タスクの異なる自動評価指標の有効性について検討する。 我々は、表面レベルメトリクス、トピックモデルコヒーレンスのためのメトリクス、テキスト生成メトリクス(TGM)など、さまざまな指標を検討する。 表面レベルのメトリクスは、トピックコヒーレンスメトリクスよりもパフォーマンスが良いが、tgmほど一貫性がない。 TGMは、時間窓の影響に敏感でないため、マイクロブログクラスタのテーマコヒーレンスを捉えるために考慮された他の指標よりも信頼性が高い。

Collecting together microblogs representing opinions about the same topics within the same timeframe is useful to a number of different tasks and practitioners. A major question is how to evaluate the quality of such thematic clusters. Here we create a corpus of microblog clusters from three different domains and time windows and define the task of evaluating thematic coherence. We provide annotation guidelines and human annotations of thematic coherence by journalist experts. We subsequently investigate the efficacy of different automated evaluation metrics for the task. We consider a range of metrics including surface level metrics, ones for topic model coherence and text generation metrics (TGMs). While surface level metrics perform well, outperforming topic coherence metrics, they are not as consistent as TGMs. TGMs are more reliable than all other metrics considered for capturing thematic coherence in microblog clusters due to being less sensitive to the effect of time windows.
翻訳日:2021-07-01 15:37:09 公開日:2021-06-30
# autolaw: 法的前例予測による法的推論の拡張

AutoLAW: Augmented Legal Reasoning through Legal Precedent Prediction ( http://arxiv.org/abs/2106.16034v1 )

ライセンス: Link先を確認
Robert Zev Mahari(参考訳) 本稿は,NLPが法的コミュニティの未解決ニーズに対処し,正義へのアクセスを高めるためにどのように使用できるかを示す。 本稿では,判例的な議論の文脈を考慮に入れた判例的判決から,関連事項の予測を行う法定先行予測(LPP)について紹介する。 この目的のために、この論文は、米国連邦判事によってなされた530,000の法的議論の例に基づいて訓練されたBERTモデルを示し、法的議論の文脈が与えられた先例裁判所の決定から関連する通過を予測する。 96%の未確認試験では、正しいターゲットパスは予測される上位10のパスのうちの1つである。 同じモデルは、複雑な法的なブリーフの短い要約から関連する前例を予測でき、前者の共著者である元アメリカ合衆国によって実際に引用された前例を予測できる。 司法長官で 連邦最高裁判所判事のエレナ・ケイガン

This paper demonstrate how NLP can be used to address an unmet need of the legal community and increase access to justice. The paper introduces Legal Precedent Prediction (LPP), the task of predicting relevant passages from precedential court decisions given the context of a legal argument. To this end, the paper showcases a BERT model, trained on 530,000 examples of legal arguments made by U.S. federal judges, to predict relevant passages from precedential court decisions given the context of a legal argument. In 96% of unseen test examples the correct target passage is among the top-10 predicted passages. The same model is able to predict relevant precedent given a short summary of a complex and unseen legal brief, predicting the precedent that was actually cited by the brief's co-author, former U.S. Solicitor General and current U.S. Supreme Court Justice Elena Kagan.
翻訳日:2021-07-01 15:36:56 公開日:2021-06-30
# xlm-e:electraで事前学習する言語横断モデル

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA ( http://arxiv.org/abs/2106.16138v1 )

ライセンス: Link先を確認
Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Saksham Singhal, Payal Bajaj, Xia Song, Furu Wei(参考訳) 本稿では,言語間言語モデルの事前学習にELECTRAスタイルのタスクを導入する。 具体的には,多言語交替トークン検出と翻訳交替トークン検出という2つの事前学習タスクを提案する。 また,マルチ言語コーパスと並列コーパスの両方で,XLM-Eと命名されたモデルを事前学習する。 本モデルは,様々な言語間理解タスクにおけるベースラインモデルよりもはるかに少ない計算コストで優れている。 さらに,xlm-eは言語間伝達性が向上する傾向を示した。

In this paper, we introduce ELECTRA-style tasks to cross-lingual language model pre-training. Specifically, we present two pre-training tasks, namely multilingual replaced token detection, and translation replaced token detection. Besides, we pretrain the model, named as XLM-E, on both multilingual and parallel corpora. Our model outperforms the baseline models on various cross-lingual understanding tasks with much less computation cost. Moreover, analysis shows that XLM-E tends to obtain better cross-lingual transferability.
翻訳日:2021-07-01 15:36:41 公開日:2021-06-30
# MultiBERTs:ロバストネス分析のためのBERT再現

The MultiBERTs: BERT Reproductions for Robustness Analysis ( http://arxiv.org/abs/2106.16163v1 )

ライセンス: Link先を確認
Thibault Sellam, Steve Yadlowsky, Jason Wei, Naomi Saphra, Alexander D'Amour, Tal Linzen, Jasmijn Bastings, Iulia Turc, Jacob Eisenstein, Dipanjan Das, Ian Tenney, Ellie Pavlick(参考訳) BERTのような事前訓練されたモデルを用いた実験は、しばしば単一のチェックポイントに基づいている。 作成された結論はアーティファクト(すなわち、モデルの特定のインスタンス)に適用されるが、より一般的な手順(モデルアーキテクチャ、トレーニングデータ、初期化スキーム、損失関数を含む)に当てはまるかどうかは、必ずしも明確ではない。 最近の研究は、再実行前トレーニングは、パフォーマンスに関する実質的な異なる結論につながることを示しており、手順に関する原則に基づいた記述を行うために代替的な評価が必要であることを示唆している。 この問題に対処するために、25個のBERTベースのチェックポイントからなるMultiBERTを導入し、元のBERTモデルと同様のハイパーパラメータでトレーニングするが、ランダム初期化やデータシャッフルでは異なる。 その目的は、研究者が事前訓練の手順についてロバストで統計的に正当化された結論を導き出すことである。 完全なリリースには25の完全にトレーニングされたチェックポイント、統計ガイドライン、推奨仮説テストメソッドを実装するコードライブラリが含まれている。 最後に,これら5つのモデルに対して,28の中間チェックポイントをリリースして,学習ダイナミクスの研究を支援します。

Experiments with pretrained models such as BERT are often based on a single checkpoint. While the conclusions drawn apply to the artifact (i.e., the particular instance of the model), it is not always clear whether they hold for the more general procedure (which includes the model architecture, training data, initialization scheme, and loss function). Recent work has shown that re-running pretraining can lead to substantially different conclusions about performance, suggesting that alternative evaluations are needed to make principled statements about procedures. To address this question, we introduce MultiBERTs: a set of 25 BERT-base checkpoints, trained with similar hyper-parameters as the original BERT model but differing in random initialization and data shuffling. The aim is to enable researchers to draw robust and statistically justified conclusions about pretraining procedures. The full release includes 25 fully trained checkpoints, as well as statistical guidelines and a code library implementing our recommended hypothesis testing methods. Finally, for five of these models we release a set of 28 intermediate checkpoints in order to support research on learning dynamics.
翻訳日:2021-07-01 15:36:34 公開日:2021-06-30
# ゼロショット言語移行における英語の優位性の再考

Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer ( http://arxiv.org/abs/2106.16171v1 )

ライセンス: Link先を確認
Iulia Turc, Kenton Lee, Jacob Eisenstein, Ming-Wei Chang, Kristina Toutanova(参考訳) その成功にもかかわらず、大規模な事前訓練された多言語モデルはラベル付きデータの必要性を完全に緩和していない。 1つのトランスファー言語で微調整された事前訓練されたモデルは、多くのターゲット言語でテストされた時、驚くべきパフォーマンスを示す。 人気のあるゼロショットベンチマークによって強化された、トランスファーのための主要なソース言語は英語である。 しかし、このデフォルトの選択は体系的に決定されていない。 本研究では,2つの事前学習型多言語モデル (mBERT と mT5) と複数分類および質問応答タスクについて,英語と他の翻訳言語を比較した。 ドイツ語やロシア語のような他の高資源言語は、特に対象言語の集合が多様であるか未知である場合において、より効果的に移行することが多い。 必然的に、トレーニングセットが英語から自動的に翻訳された場合でも、これは真実である。 この発見は、多言語ゼロショットシステムにすぐに影響し、将来のベンチマーク設計を通知する。

Despite their success, large pre-trained multilingual models have not completely alleviated the need for labeled data, which is cumbersome to collect for all target languages. Zero-shot cross-lingual transfer is emerging as a practical solution: pre-trained models later fine-tuned on one transfer language exhibit surprising performance when tested on many target languages. English is the dominant source language for transfer, as reinforced by popular zero-shot benchmarks. However, this default choice has not been systematically vetted. In our study, we compare English against other transfer languages for fine-tuning, on two pre-trained multilingual models (mBERT and mT5) and multiple classification and question answering tasks. We find that other high-resource languages such as German and Russian often transfer more effectively, especially when the set of target languages is diverse or unknown a priori. Unexpectedly, this can be true even when the training sets were automatically translated from English. This finding can have immediate impact on multilingual zero-shot systems, and should inform future benchmark designs.
翻訳日:2021-07-01 15:36:16 公開日:2021-06-30
# 強化学習による体験駆動型pcg:スーパーマリオブラザースによる研究

Experience-Driven PCG via Reinforcement Learning: A Super Mario Bros Study ( http://arxiv.org/abs/2106.15877v1 )

ライセンス: Link先を確認
Tianye Shu, Jialin Liu, Georgios N. Yannakakis(参考訳) 本稿では,経験駆動型PCGとPCGの交差点に,ED(PCG)RL,略してEDRLという手続き型コンテンツ生成(PCG)フレームワークを導入する。 EDRLはRLデザイナーに、報酬関数の形で設計されたプレイヤーの特定の経験を尊重しながら、オンライン的に無限のプレイ可能なレベルを生成するように教えることができる。 このフレームワークは、当初スーパーマリオブラザーズゲームでテストされている。 特にスーパーマリオブラザーズのrl設計者は、セグメント間の多様性を考慮してレベルセグメントを生成し、結合する。 生成の正確性は、ニューラルネットワーク支援進化レベル修復器によって保証され、AIベースのテストにより、全体のプレイ性を決定する。 このEDRL実装のエージェントは、レベルセグメント間の多様性の度合いを調節することで、コスターの楽しさの原理を最大化することを学ぶ。 さらに、時間とともに多様でプレイ可能な楽しいレベルを設計する能力をテストする。 提案するフレームワークは,エンドレスでプレイ可能なスーパーマリオブラザースレベルを,さまざまな楽しみ度,先行セグメントからの逸脱,プレイ性で生成することができる。 edrlはセグメントベースのシーケンシャルプロセスとして構築され、ゲームコンテンツの圧縮表現を内蔵した任意のゲームに一般化することができる。

We introduce a procedural content generation (PCG) framework at the intersections of experience-driven PCG and PCG via reinforcement learning, named ED(PCG)RL, EDRL in short. EDRL is able to teach RL designers to generate endless playable levels in an online manner while respecting particular experiences for the player as designed in the form of reward functions. The framework is tested initially in the Super Mario Bros game. In particular, the RL designers of Super Mario Bros generate and concatenate level segments while considering the diversity among the segments. The correctness of the generation is ensured by a neural net-assisted evolutionary level repairer and the playability of the whole level is determined through AI-based testing. Our agents in this EDRL implementation learn to maximise a quantification of Koster's principle of fun by moderating the degree of diversity across level segments. Moreover, we test their ability to design fun levels that are diverse over time and playable. Our proposed framework is capable of generating endless, playable Super Mario Bros levels with varying degrees of fun, deviation from earlier segments, and playability. EDRL can be generalised to any game that is built as a segment-based sequential process and features a built-in compressed representation of its game content.
翻訳日:2021-07-01 15:36:01 公開日:2021-06-30
# 効率的な行動認識のための長短時間モデル

Long-Short Temporal Modeling for Efficient Action Recognition ( http://arxiv.org/abs/2106.15787v1 )

ライセンス: Link先を確認
Liyu Wu, Yuexian Zou, Can Zhang(参考訳) アクション認識タスクの性能向上には,効率的な長短時間モデリングが重要である。 本稿では,menet (motion enhancement (me) モジュールとビデオレベルアグリゲーション (vla) モジュールからなる,長短時間モデルを実現する新しい2ストリーム動作認識ネットワークを提案する。 特に、運動表現は短期的および高頻度の作用を捉えるのに有効であることが証明されている。 しかし、現在の動き表現は隣接するフレームから計算され、解釈が不十分で、無駄な情報(ノイズや空白)をもたらす可能性がある。 そこで, 短期動作に対して, 近接するセグメント間の運動塩分濃度を混合することにより, 短期動作を向上させるための効率的なMEモジュールを設計する。 長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。 MENetの2つのコンポーネントは、時間モデリングにおいて補完的である。 提案したMENetの有効性と効率を検証するために,UCF101 と HMDB51 ベンチマークを用いて実験を行った。

Efficient long-short temporal modeling is key for enhancing the performance of action recognition task. In this paper, we propose a new two-stream action recognition network, termed as MENet, consisting of a Motion Enhancement (ME) module and a Video-level Aggregation (VLA) module to achieve long-short temporal modeling. Specifically, motion representations have been proved effective in capturing short-term and high-frequency action. However, current motion representations are calculated from adjacent frames, which may have poor interpretation and bring useless information (noisy or blank). Thus, for short-term motions, we design an efficient ME module to enhance the short-term motions by mingling the motion saliency among neighboring segments. As for long-term aggregations, VLA is adopted at the top of the appearance branch to integrate the long-term dependencies across all segments. The two components of MENet are complementary in temporal modeling. Extensive experiments are conducted on UCF101 and HMDB51 benchmarks, which verify the effectiveness and efficiency of our proposed MENet.
翻訳日:2021-07-01 15:34:22 公開日:2021-06-30
# 相性アライメントによるきめ細かい認識のための自己指導型事前学習

Align Yourself: Self-supervised Pre-training for Fine-grained Recognition via Saliency Alignment ( http://arxiv.org/abs/2106.15788v1 )

ライセンス: Link先を確認
Di Wu, Siyuan Li, Zelin Zang, Kai Wang, Lei Shang, Baigui Sun, Hao Li, Stan Z. Li(参考訳) 自己指導型コントラスト学習は視覚表現の学習に大きな可能性を示した。 画像分類やオブジェクト検出などのダウンストリームタスクでの成功にもかかわらず、きめ細かいシナリオに対する自己教師あり事前トレーニングは十分に検討されていない。 本稿では,まず,現在のコントラスト法が背景/フォアグラウンドテクスチャを記憶し易いため,フォアグラウンドオブジェクトのローカライズに限界があることを指摘する。 分析により,細粒度シナリオにおける自己教師付き事前学習において,識別的テクスチャ情報抽出と局所化の学習が等しく重要であることが示唆された。 そこで本研究では,新しい視点生成法として,まず画像の塩分領域を収穫し,交換し,その後,クロスビューアライメント損失により前景オブジェクトにローカライズするようにモデルを誘導する,コントラスト型学習フレームワークであるcross-view saliency alignment (cvsa)を提案する。 CVSAが学習表現を著しく改善することを示す4つの一般的な微粒化分類ベンチマークの大規模な実験を行った。

Self-supervised contrastive learning has demonstrated great potential in learning visual representations. Despite their success on various downstream tasks such as image classification and object detection, self-supervised pre-training for fine-grained scenarios is not fully explored. In this paper, we first point out that current contrastive methods are prone to memorizing background/foregroun d texture and therefore have a limitation in localizing the foreground object. Analysis suggests that learning to extract discriminative texture information and localization are equally crucial for self-supervised pre-training under fine-grained scenarios. Based on our findings, we introduce Cross-view Saliency Alignment (CVSA), a contrastive learning framework that first crops and swaps saliency regions of images as a novel view generation and then guides the model to localize on the foreground object via a cross-view alignment loss. Extensive experiments on four popular fine-grained classification benchmarks show that CVSA significantly improves the learned representation.
翻訳日:2021-07-01 15:34:04 公開日:2021-06-30
# 特異な3次元物体検出:外因性パラメータフリーアプローチ

Monocular 3D Object Detection: An Extrinsic Parameter Free Approach ( http://arxiv.org/abs/2106.15796v1 )

ライセンス: Link先を確認
Yunsong Zhou, Yuan He, Hongzi Zhu, Cheng Wang, Hongyang Li, Qinhong Jiang(参考訳) モノクロ3D物体検出は自動運転において重要な課題である。 ego-car pose change w.r.t が存在する場合、容易に難解である。 地上機。 これは、道路の滑らかさと斜面がわずかに変動することによる。 産業応用における洞察の欠如により、既存のオープンデータセットの手法ではカメラのポーズ情報を無視しており、カメラの外部パラメータに影響を受けやすい。 オブジェクトの摂動は、工業製品のほとんどの自動運転ケースで非常に人気がある。 そこで本研究では,カメラのポーズを捉え,外乱のない検出器を定式化する手法を提案する。 具体的には, 消失点と地平線変化を検知することで, カメラの異常パラメータを予測する。 変換器は潜在空間における摂動特性を正すように設計されている。 これにより、我々の3D検出器は、外在パラメータのばらつきとは独立して動作し、例えばポットホルドや不均一な道路などの現実的なケースで正確な結果をもたらす。 KITTI 3D と nuScenes の両方のデータセットにおいて,本手法が他の最先端技術と比較して高い性能を示すことを示す実験を行った。

Monocular 3D object detection is an important task in autonomous driving. It can be easily intractable where there exists ego-car pose change w.r.t. ground plane. This is common due to the slight fluctuation of road smoothness and slope. Due to the lack of insight in industrial application, existing methods on open datasets neglect the camera pose information, which inevitably results in the detector being susceptible to camera extrinsic parameters. The perturbation of objects is very popular in most autonomous driving cases for industrial products. To this end, we propose a novel method to capture camera pose to formulate the detector free from extrinsic perturbation. Specifically, the proposed framework predicts camera extrinsic parameters by detecting vanishing point and horizon change. A converter is designed to rectify perturbative features in the latent space. By doing so, our 3D detector works independent of the extrinsic parameter variations and produces accurate results in realistic cases, e.g., potholed and uneven roads, where almost all existing monocular detectors fail to handle. Experiments demonstrate our method yields the best performance compared with the other state-of-the-arts by a large margin on both KITTI 3D and nuScenes datasets.
翻訳日:2021-07-01 15:33:45 公開日:2021-06-30
# コンテンツ対応畳み込みニューラルネットワーク

Content-Aware Convolutional Neural Networks ( http://arxiv.org/abs/2106.15797v1 )

ライセンス: Link先を確認
Yong Guo, Yaofo Chen, Mingkui Tan, Kui Jia, Jian Chen, Jingdong Wang(参考訳) 畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。 具体的には、標準畳み込みは、スライディングウィンドウスキームを用いて入力画像/特徴をトラバースして特徴を抽出する。 しかし、全てのウィンドウがCNNの予測結果に等しく寄与するわけではない。 実際には、いくつかのウィンドウ(例えば、非常に類似したピクセルを含む滑らかなウィンドウ)の畳み込み操作は非常に冗長であり、計算にノイズをもたらす可能性がある。 このような冗長性は性能を悪化させるだけでなく、不要な計算コストを引き起こす可能性がある。 したがって、コンボリューションの計算冗長性を低減し、性能を向上させることが重要である。 そこで本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用したContent-aware Convolution (CAC)を提案する。 この意味では、同様の画素上での冗長な計算を効果的に回避することができる。 cnnの標準畳み込みをcacに置き換えることで、結果モデルの性能と計算コストが標準畳み込みモデルよりも大幅に向上します。 より批判的に、異なる画像のデータ平滑性に応じて、適切な計算リソースを動的に割り当てることができ、コンテンツ対応計算が可能となる。 様々なコンピュータビジョンタスクに対する大規模な実験は,既存の手法よりも本手法の方が優れていることを示す。

Convolutional Neural Networks (CNNs) have achieved great success due to the powerful feature learning ability of convolution layers. Specifically, the standard convolution traverses the input images/features using a sliding window scheme to extract features. However, not all the windows contribute equally to the prediction results of CNNs. In practice, the convolutional operation on some of the windows (e.g., smooth windows that contain very similar pixels) can be very redundant and may introduce noises into the computation. Such redundancy may not only deteriorate the performance but also incur the unnecessary computational cost. Thus, it is important to reduce the computational redundancy of convolution to improve the performance. To this end, we propose a Content-aware Convolution (CAC) that automatically detects the smooth windows and applies a 1x1 convolutional kernel to replace the original large kernel. In this sense, we are able to effectively avoid the redundant computation on similar pixels. By replacing the standard convolution in CNNs with our CAC, the resultant models yield significantly better performance and lower computational cost than the baseline models with the standard convolution. More critically, we are able to dynamically allocate suitable computation resources according to the data smoothness of different images, making it possible for content-aware computation. Extensive experiments on various computer vision tasks demonstrate the superiority of our method over existing methods.
翻訳日:2021-07-01 15:33:27 公開日:2021-06-30
# ビデオ分類がインクリメンタルなクラスを満たすと

When Video Classification Meets Incremental Classes ( http://arxiv.org/abs/2106.15827v1 )

ライセンス: Link先を確認
Hanbin Zhao, Xin Qin, Shihao Su, Zibo Lin, Xi Li(参考訳) ソーシャルメディアの急速な発展に伴い、新しいクラスを持つ膨大なビデオが毎日生成され、ストレージとコンピューティングリソースに制限のある古いビデオの知識を維持しながら、新しいクラスを継続的に更新するビデオ分類方法に対する緊急の需要が高まる。 本稿では,この課題をCIVC(textit{Class-Incremental Video Classification)として要約し,それに対応する新しいフレームワークを提案する。 漸進的な学習タスクのサブ領域として、CIVCでは、‘textit{catastrophic forgetting’の課題は避けられない。 より緩和するために、ビデオの特徴を利用する。 まず, 蒸留前の時空間的知識を, 知識伝達過程の全体として扱うのではなく, 蒸留前の時空間的知識を分解する。 第2に,古いクラスやキーフレームの代表的ビデオインスタンスを厳密なストレージ予算内で選択し,保存するための2つの粒度exemplar選択手法を提案する。 提案手法とsomaクラスインクリメンタルラーニング手法を,v2およびkineticsデータセット上でベンチマークし,従来の手法を大きく上回る評価を行った。

With the rapid development of social media, tremendous videos with new classes are generated daily, which raise an urgent demand for video classification methods that can continuously update new classes while maintaining the knowledge of old videos with limited storage and computing resources. In this paper, we summarize this task as \textit{Class-Incremental Video Classification (CIVC)} and propose a novel framework to address it. As a subarea of incremental learning tasks, the challenge of \textit{catastrophic forgetting} is unavoidable in CIVC. To better alleviate it, we utilize some characteristics of videos. First, we decompose the spatio-temporal knowledge before distillation rather than treating it as a whole in the knowledge transfer process; trajectory is also used to refine the decomposition. Second, we propose a dual granularity exemplar selection method to select and store representative video instances of old classes and key-frames inside videos under a tight storage budget. We benchmark our method and previous SOTA class-incremental learning methods on Something-Something V2 and Kinetics datasets, and our method outperforms previous methods significantly.
翻訳日:2021-07-01 15:33:05 公開日:2021-06-30
# アルコール投与による近赤外眼のセマンティックセグメンテーション

Semantic Segmentation of Periocular Near-Infra-Red Eye Images Under Alcohol Effects ( http://arxiv.org/abs/2106.15828v1 )

ライセンス: Link先を確認
Juan Tapia, Enrique Lopez Droguett, Andres Valenzuela, Daniel Benalcazar, Leonardo Causa, Christoph Busch(参考訳) 本稿では, アルコール摂取下での近赤外虹彩画像から眼の局在を検出, セグメンテーション, 推定するための新しい枠組みを提案する。 システムの目的は、職務に対する適合度を測定することである。 フィットネスシステムは、人が身体的または心理的にタスクを遂行できるかどうかを判断できる。 我々のフレームワークは、一枚の画像から両目を検出するために、ゼロから訓練された物体検出器に基づいている。 セマンティクスセグメンテーションには,それぞれ122,514パラメータのcriss-cross attention networkと210,732パラメータの densenet10の2つの効率的なネットワークを用いた。 これらのネットワークは瞳孔、虹彩、強膜を見つけることができる。 最後に、瞳孔と虹彩径を高精度に推定するためにバイナリ出力アイマスクを用いる。 この目的のために5つの最先端アルゴリズムが使われた。 混合提案が最良の結果に達した。 第2のコントリビューションは、アイリスインスタンスから取得した画像のストリームを利用してアルコールの存在を検出するアルコール挙動曲線を確立することである。 また、20万枚以上の画像を手動でラベル付けしたデータベースも作成された。 提案手法では,210,732パラメータで平均94.54%の交点オーバー結合と平均1ピクセルの誤差が得られた。

This paper proposes a new framework to detect, segment, and estimate the localization of the eyes from a periocular Near-Infra-Red iris image under alcohol consumption. The purpose of the system is to measure the fitness for duty. Fitness systems allow us to determine whether a person is physically or psychologically able to perform their tasks. Our framework is based on an object detector trained from scratch to detect both eyes from a single image. Then, two efficient networks were used for semantic segmentation; a Criss-Cross attention network and DenseNet10, with only 122,514 and 210,732 parameters, respectively. These networks can find the pupil, iris, and sclera. In the end, the binary output eye mask is used for pupil and iris diameter estimation with high precision. Five state-of-the-art algorithms were used for this purpose. A mixed proposal reached the best results. A second contribution is establishing an alcohol behavior curve to detect the alcohol presence utilizing a stream of images captured from an iris instance. Also, a manually labeled database with more than 20k images was created. Our best method obtains a mean Intersection-over-Un ion of 94.54% with DenseNet10 with only 210,732 parameters and an error of only 1-pixel on average.
翻訳日:2021-07-01 15:32:44 公開日:2021-06-30
# 不完全アノテーションを用いた病理組織像における細胞検出のための正ラベル学習

Positive-unlabeled Learning for Cell Detection in Histopathology Images with Incomplete Annotations ( http://arxiv.org/abs/2106.15918v1 )

ライセンス: Link先を確認
Zipei Zhao, Fengqian Pang, Zhiwen Liu, Chuyang Ye(参考訳) 病理組織像における細胞検出は臨床において非常に有用である。 textit{convolutional neural networks} (cnns) は、ネットワークトレーニングにセルアノテーションが必要となる検出精度を向上させるために、セル検出に適用されている。 しかしながら、多種多様で多数のセルがあるため、トレーニングイメージに関心のあるすべてのセルを含む完全なアノテーションは困難である。 通常、不完全なアノテーションは、信頼性を確保するためにポジティブなラベリング結果が慎重に検討されるが、他のポジティブな例(例えば、興味のある細胞など)はアノテーションに含まれない。 このアノテーション戦略は真の負のサンプルに関する知識の欠如につながる。 既存のほとんどのメソッドは、ネットワークトレーニング中に正の負のラベルが付けられていないインスタンスを単純に扱い、ネットワークのパフォーマンスに悪影響を及ぼす可能性がある。 本研究では,不完全アノテーションの問題に対処するために,検出ネットワークのトレーニングを正の未ラベル学習問題として定式化する。 具体的には、負のサンプルに対応する用語を正の正のサンプルとラベルが未知の他のサンプルと近似する不完全アノテーションを考慮して、ネットワークトレーニングにおける分類損失を補正する。 提案法を評価するために, 乳癌細胞におけるmitosis検出のための公開データセットを用いて実験を行い, 不完全アノテーションによる細胞検出性能の向上を実証した。

Cell detection in histopathology images is of great value in clinical practice. \textit{Convolutional neural networks} (CNNs) have been applied to cell detection to improve the detection accuracy, where cell annotations are required for network training. However, due to the variety and large number of cells, complete annotations that include every cell of interest in the training images can be challenging. Usually, incomplete annotations can be achieved, where positive labeling results are carefully examined to ensure their reliability but there can be other positive instances, i.e., cells of interest, that are not included in the annotations. This annotation strategy leads to a lack of knowledge about true negative samples. Most existing methods simply treat instances that are not labeled as positive as truly negative during network training, which can adversely affect the network performance. In this work, to address the problem of incomplete annotations, we formulate the training of detection networks as a positive-unlabeled learning problem. Specifically, the classification loss in network training is revised to take into account incomplete annotations, where the terms corresponding to negative samples are approximated with the true positive samples and the other samples of which the labels are unknown. To evaluate the proposed method, experiments were performed on a publicly available dataset for mitosis detection in breast cancer cells, and the experimental results show that our method improves the performance of cell detection given incomplete annotations for training.
翻訳日:2021-07-01 15:32:23 公開日:2021-06-30
# SOLO: インスタンスセグメンテーションのためのシンプルなフレームワーク

SOLO: A Simple Framework for Instance Segmentation ( http://arxiv.org/abs/2106.15947v1 )

ライセンス: Link先を確認
Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li(参考訳) セマンティクスセグメンテーションのような他の多くの密集した予測タスクと比較すると、インスタンスセグメンテーションをより困難にしたインスタンスの任意の数である。 各インスタンスのマスクを予測するために、メインストリームのアプローチは「検出-then-segment」戦略(例えばマスクr-cnn)に従うか、埋め込みベクターを予測し、まずピクセルを個々のインスタンスにクラスタする。 本稿では、インスタンスの場所に応じてインスタンス内の各ピクセルにカテゴリを割り当てる「インスタンスカテゴリ」の概念を導入することにより、インスタンスのセグメンテーションのタスクを全く新しい視点から考える。 この概念を応用して,高パフォーマンスのインスタンス分割のためのシンプルで直接的かつ高速なフレームワークである位置別セグメンテーションオブジェクト(SOLO)を提案する。 基本原理に従って、いくつかのSOLO変種(例えば、Vanilla SOLO、Decoupled SOLO、Dynamic SOLO)を導出する。 提案手法では,生の入力画像を対象のカテゴリやインスタンスマスクに直接マップし,グループ化後処理や境界ボックス検出の必要性を解消する。 提案手法は,従来の手法よりもはるかにシンプルでありながら,速度と精度の両面で,実例分割の最先端結果を実現する。 ケースセグメンテーションの他に,本手法はオブジェクト検出(マスク副生成物から)とパノプティクスセグメンテーションの最先端結果をもたらす。 さらに、一段階のインスタンスレベルの画像マッチングを行うように拡張することで、SOLOの柔軟性と高品質なセグメンテーションを示す。 コードは、https://git.io/Adela iDet.comで入手できる。

Compared to many other dense prediction tasks, e.g., semantic segmentation, it is the arbitrary number of instances that has made instance segmentation much more challenging. In order to predict a mask for each instance, mainstream approaches either follow the 'detect-then-segment& #x27; strategy (e.g., Mask R-CNN), or predict embedding vectors first then cluster pixels into individual instances. In this paper, we view the task of instance segmentation from a completely new perspective by introducing the notion of "instance categories", which assigns categories to each pixel within an instance according to the instance's location. With this notion, we propose segmenting objects by locations (SOLO), a simple, direct, and fast framework for instance segmentation with strong performance. We derive a few SOLO variants (e.g., Vanilla SOLO, Decoupled SOLO, Dynamic SOLO) following the basic principle. Our method directly maps a raw input image to the desired object categories and instance masks, eliminating the need for the grouping post-processing or the bounding box detection. Our approach achieves state-of-the-art results for instance segmentation in terms of both speed and accuracy, while being considerably simpler than the existing methods. Besides instance segmentation, our method yields state-of-the-art results in object detection (from our mask byproduct) and panoptic segmentation. We further demonstrate the flexibility and high-quality segmentation of SOLO by extending it to perform one-stage instance-level image matting. Code is available at: https://git.io/Adela iDet
翻訳日:2021-07-01 15:32:00 公開日:2021-06-30
# missformer: (in-)attention-based handling of missing observations for track filter and prediction

MissFormer: (In-)attention-based handling of missing observations for trajectory filtering and prediction ( http://arxiv.org/abs/2106.16009v1 )

ライセンス: Link先を確認
Stefan Becker and Ronny Hug and Wolfgang H\"ubner and Michael Arens and Brendan T. Morris(参考訳) オブジェクト追跡のようなアプリケーションでは、時系列データは必然的に観測を欠く。 様々なシーケンス学習タスクのためのディープラーニングベースのモデルの成功に続いて、これらのモデルは、オブジェクトの動きを推測するためのオブジェクト追跡アプリケーションにおける古典的なアプローチを置き換える傾向にある。 従来の追跡手法では観察の欠如に対処できるが、そのディープなアプローチのほとんどはデフォルトでは、これには適していない。 そこで本稿では,可変入力長軌跡データにおける欠測観測を処理するトランスベース手法を提案する。 モデルは、要求された推論タスクの複雑さを順次増加させることで間接的に形成される。 ノイズのない軌跡の再生から始めて、モデルはノイズのある入力から軌跡を推測する。 欠落トークンとバイナリエンコードされた欠落イベントを提供することで、モデルは欠落したデータへのアタッチを学び、残りの入力で条件付けられた完全な軌道を推測する。 連続した欠落イベントのシーケンスの場合、モデルは純粋な予測モデルとして振る舞う。 このモデルの能力は、プロトタイプのオブジェクト追跡シナリオを反映した合成データと実世界のデータで実証される。

In applications such as object tracking, time-series data inevitably carry missing observations. Following the success of deep learning-based models for various sequence learning tasks, these models increasingly replace classic approaches in object tracking applications for inferring the object motions state. While traditional tracking approaches can deal with missing observations, most of their deep counterparts are, by default, not suited for this. Towards this end, this paper introduces a transformer-based approach for handling missing observations in variable input length trajectory data. The model is formed indirectly by successively increasing the complexity of the demanded inference tasks. Starting from reproducing noise-free trajectories, the model then learns to infer trajectories from noisy inputs. By providing missing tokens, binary-encoded missing events, the model learns to in-attend to missing data and infers a complete trajectory conditioned on the remaining inputs. In the case of a sequence of successive missing events, the model then acts as a pure prediction model. The model's abilities are demonstrated on synthetic data and real-world data reflecting prototypical object tracking scenarios.
翻訳日:2021-07-01 15:31:30 公開日:2021-06-30
# ビデオデブロアリングのための高効率時空間リカレントニューラルネットワーク

Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring ( http://arxiv.org/abs/2106.16028v1 )

ライセンス: Link先を確認
Zhihang Zhong, Ye Gao, Yinqiang Zheng, Bo Zheng, and Imari Sato(参考訳) リアルタイムビデオの劣化は、空間的および時間的に異なるぼかし自体の複雑さと計算コストの低い要求のため、依然として困難な課題である。 ネットワーク効率を向上させるため,RNNセルに高密度ブロックを適用し,現在のフレームの空間的特徴を効率的に抽出する。 さらに,過去のフレームと将来のフレームから効果的な階層的特徴を融合させて,現在のフレームを損なうのに役立つグローバル時空間アテンションモジュールを提案する。 もう1つの緊急に対処する必要がある問題は、実世界のベンチマークデータセットの欠如である。 そこで我々は,コ軸ビームスプリッタ取得システムを用いて,一対のぼやけたビデオクリップを収集し,新しいデータセット(BSD)をコミュニティに提供する。 実験の結果, 提案手法(estrnn)は, 計算コストが低く, 定量的, 質的にも良好な脱毛性能が得られることがわかった。 さらに、データセット間のクロスバリデーション実験は、合成データセットに対するBSDの高一般性を示している。 コードとデータセットはhttps://github.com/z zh-tech/ESTRNNで公開されている。

Real-time video deblurring still remains a challenging task due to the complexity of spatially and temporally varying blur itself and the requirement of low computational cost. To improve the network efficiency, we adopt residual dense blocks into RNN cells, so as to efficiently extract the spatial features of the current frame. Furthermore, a global spatio-temporal attention module is proposed to fuse the effective hierarchical features from past and future frames to help better deblur the current frame. Another issue needs to be addressed urgently is the lack of a real-world benchmark dataset. Thus, we contribute a novel dataset (BSD) to the community, by collecting paired blurry/sharp video clips using a co-axis beam splitter acquisition system. Experimental results show that the proposed method (ESTRNN) can achieve better deblurring performance both quantitatively and qualitatively with less computational cost against state-of-the-art video deblurring methods. In addition, cross-validation experiments between datasets illustrate the high generality of BSD over the synthetic datasets. The code and dataset are released at https://github.com/z zh-tech/ESTRNN.
翻訳日:2021-07-01 15:31:11 公開日:2021-06-30
# 教師付きコントラスト学習と信頼度整合正則化によるマルチソースドメイン適応

Multi-Source domain adaptation via supervised contrastive learning and confident consistency regularization ( http://arxiv.org/abs/2106.16093v1 )

ライセンス: Link先を確認
Marin Scalbert, Maria Vakalopoulou, Florent Couzini\'e-Devy(参考訳) Multi-Source Unsupervised Domain Adaptation (multi-source UDA)は、ラベル付きソースドメインからモデルを学習し、ラベルなしデータがトレーニング時にのみ利用できる異なるターゲットドメインでうまく動作させることを目的としている。 ソースとターゲットの特徴分布を調整するために、いくつかの最近の研究では、特徴モーメントやクラスセントロイドなどの明示的な統計マッチングをソースとターゲットに使用している。 しかし、これらのアプローチはドメイン間のクラス条件分布のアライメントを保証するものではない。 本稿では、この制限に対処するマルチソースUDAのためのContrastive Multi-Source Domain Adaptation(CMSDA)という新しいフレームワークを提案する。 識別的特徴は、クロスエントロピー最小化による補間されたソース例と、整合正則化とハード擬似ラベルによるターゲット例から学習される。 同時に、補間されたソースサンプルを利用して、教師付きコントラスト損失の補間バージョンを通じてソースクラスの条件分布を調整する。 このアライメントはより一般的で転送可能な特徴をもたらし、ターゲット領域の一般化をさらに改善する。 提案手法は,3つの標準マルチソース UDA データセットを用いて実験を行い,その結果を報告する。

Multi-Source Unsupervised Domain Adaptation (multi-source UDA) aims to learn a model from several labeled source domains while performing well on a different target domain where only unlabeled data are available at training time. To align source and target features distributions, several recent works use source and target explicit statistics matching such as features moments or class centroids. Yet, these approaches do not guarantee class conditional distributions alignment across domains. In this work, we propose a new framework called Contrastive Multi-Source Domain Adaptation (CMSDA) for multi-source UDA that addresses this limitation. Discriminative features are learned from interpolated source examples via cross entropy minimization and from target examples via consistency regularization and hard pseudo-labeling. Simultaneously, interpolated source examples are leveraged to align source class conditional distributions through an interpolated version of the supervised contrastive loss. This alignment leads to more general and transferable features which further improve the generalization on the target domain. Extensive experiments have been carried out on three standard multi-source UDA datasets where our method reports state-of-the-art results.
翻訳日:2021-07-01 15:30:51 公開日:2021-06-30
# 合成データは多目的追跡における関連知識学習の現実に匹敵する

Synthetic Data Are as Good as the Real for Association Knowledge Learning in Multi-object Tracking ( http://arxiv.org/abs/2106.16100v1 )

ライセンス: Link先を確認
Yuchi Liu, Zhongdao Wang, Xiangxin Zhou and Liang Zheng(参考訳) 同じアイデンティティのバウンディングボックスをビデオシーケンスでリンクすることを目的としたアソシエーションは、マルチオブジェクトトラッキング(mot)の中心的なコンポーネントである。 パラメトリックネットワークなどのアソシエーションモジュールをトレーニングするために、実際のビデオデータが通常使用される。 しかし、連続するビデオフレームで人物のトラックをアノテートすることは高価であり、そのような実際のデータは柔軟性がないため、追跡シナリオを変更するシステム性能w.r.tを評価する機会が限られている。 本稿では,3次元合成データが実世界の映像を連想訓練に置き換えられるかどうかについて検討する。 具体的には,MOTXと呼ばれる大規模合成データエンジンを導入し,カメラや物体の運動特性を実世界のデータセットに類似するように手動で設定する。 実データと比較すると,合成データから得られる連想知識は,ドメイン適応手法を使わずに実世界のテストセットで非常によく似た性能が得られることを示す。 私たちの興味深い観察には2つの要因がある。 第一に、3Dエンジンは、カメラの動き、カメラの視界、物体の動きなどの動きをうまくシミュレートすることができ、シミュレートされたビデオは、効果的なモーション特徴を持つアソシエーションモジュールを提供することができる。 第2に, 出現領域のギャップが連想知識の学習にほとんど影響を与えないことを示す実験結果が得られた。 さらに、MOTXの強力なカスタマイズ能力により、MOTに対する運動要因の影響を定量的に評価することが可能となり、コミュニティに新たな洞察がもたらされる。

Association, aiming to link bounding boxes of the same identity in a video sequence, is a central component in multi-object tracking (MOT). To train association modules, e.g., parametric networks, real video data are usually used. However, annotating person tracks in consecutive video frames is expensive, and such real data, due to its inflexibility, offer us limited opportunities to evaluate the system performance w.r.t changing tracking scenarios. In this paper, we study whether 3D synthetic data can replace real-world videos for association training. Specifically, we introduce a large-scale synthetic data engine named MOTX, where the motion characteristics of cameras and objects are manually configured to be similar to those in real-world datasets. We show that compared with real data, association knowledge obtained from synthetic data can achieve very similar performance on real-world test sets without domain adaption techniques. Our intriguing observation is credited to two factors. First and foremost, 3D engines can well simulate motion factors such as camera movement, camera view and object movement, so that the simulated videos can provide association modules with effective motion features. Second, experimental results show that the appearance domain gap hardly harms the learning of association knowledge. In addition, the strong customization ability of MOTX allows us to quantitatively assess the impact of motion factors on MOT, which brings new insights to the community.
翻訳日:2021-07-01 15:30:32 公開日:2021-06-30
# マルチアーキテクチャ表現を用いた蒸留を用いたアンサンブル学習による野生の表情認識

Recognizing Facial Expressions in the Wild using Multi-Architectural Representations based Ensemble Learning with Distillation ( http://arxiv.org/abs/2106.16126v1 )

ライセンス: Link先を確認
Rauf Momin, Ali Shan Momin, Khalid Rasheed(参考訳) 表情は最も普遍的なボディランゲージであり、表情の自動認識は不確実性の違いによる課題の1つである。 しかし、長年にわたって活発な研究分野であった。 それでもなお、効率性とパフォーマンスは堅牢なシステムを構築する上で不可欠な側面です。 そこで本研究では,畳み込み顔の表現を学習するためのアンサンブル学習手法であるemoxnetと,このアンサンブルモデルからの知識を,リアルタイムに表現を効果的に検出できるラベル・スムーテンソフトラベルを用いた効率的な深層ニューラルネットワークに移すのに有用な蒸留技術であるemoxnetliteの2つのモデルを提案した。 どちらの手法もよく機能し、EmoXNetはFER2013で85.07%のテスト精度、FER+アノテーション、RAF-DBで86.25%のテスト精度を達成した。 さらに、蒸留モデル(EmoXNetLite)は、FER+アノテーションによるFER2013の82.07%のテスト精度とRAF-DBの81.78%のテスト精度を示した。

Facial expressions are the most universal forms of body language and automatic facial expression recognition is one of the challenging tasks due to different uncertainties. However, it has been an active field of research for many years. Nevertheless, efficiency and performance are yet essential aspects for building robust systems. We proposed two models, EmoXNet which is an ensemble learning technique for learning convoluted facial representations, and EmoXNetLite which is a distillation technique that is useful for transferring the knowledge from our ensemble model to an efficient deep neural network using label-smoothen soft labels for able to effectively detect expressions in real-time. Both of the techniques performed quite well, where the ensemble model (EmoXNet) helped to achieve 85.07% test accuracy on FER2013 with FER+ annotations and 86.25% test accuracy on RAF-DB. Moreover, the distilled model (EmoXNetLite) showed 82.07% test accuracy on FER2013 with FER+ annotations and 81.78% test accuracy on RAF-DB.
翻訳日:2021-07-01 15:30:07 公開日:2021-06-30
# 顔提示攻撃検出のための二重重み付け領域一般化

Dual Reweighting Domain Generalization for Face Presentation Attack Detection ( http://arxiv.org/abs/2106.16128v1 )

ライセンス: Link先を確認
Shubao Liu, Ke-Yue Zhang, Taiping Yao, Kekai Sheng, Shouhong Ding, Ying Tai, Jilin Li, Yuan Xie, Lizhuang Ma(参考訳) ドメイン一般化(DG)に基づく反偽造防止アプローチは、目に見えないシナリオに対する堅牢性から注目されている。 従来の手法では,複数の領域から各サンプルを無差別に処理し,共通特徴空間を抽出して一般化を改善する。 しかし、データ分布が複雑で偏りがあるため、直接的に扱うことは一般化能力を損なう。 この問題を解決するために,サンプル間の相対的重要性を反復的に重み付けして一般化をさらに改善する,新しいDual Reweighting Domain Generalization(DRDG) フレームワークを提案する。 具体的には、サンプル再重み付けモジュールが最初に提案され、比較的大きなドメインバイアスを持つサンプルを特定し、全体的な最適化への影響を減らす。 その後、これらのサンプルに焦点をあて、自己蒸留機構を通じて、よりドメインに依存しない特徴を抽出するために、Feature Reweighting Moduleが導入される。 ドメイン判別器と組み合わせることで、2つのモジュールの反復は一般化された特徴の抽出を促進する。 本手法の有効性と解釈性を示すため,幅広い実験と可視化を行った。

Face anti-spoofing approaches based on domain generalization (DG) have drawn growing attention due to their robustness for unseen scenarios. Previous methods treat each sample from multiple domains indiscriminately during the training process, and endeavor to extract a common feature space to improve the generalization. However, due to complex and biased data distribution, directly treating them equally will corrupt the generalization ability. To settle the issue, we propose a novel Dual Reweighting Domain Generalization (DRDG) framework which iteratively reweights the relative importance between samples to further improve the generalization. Concretely, Sample Reweighting Module is first proposed to identify samples with relatively large domain bias, and reduce their impact on the overall optimization. Afterwards, Feature Reweighting Module is introduced to focus on these samples and extract more domain-irrelevant features via a self-distilling mechanism. Combined with the domain discriminator, the iteration of the two modules promotes the extraction of generalized features. Extensive experiments and visualizations are presented to demonstrate the effectiveness and interpretability of our method against the state-of-the-art competitors.
翻訳日:2021-07-01 15:29:45 公開日:2021-06-30
# 部分点雲からの反射対称性平面の繰り返し推定

Recurrently Estimating Reflective Symmetry Planes from Partial Pointclouds ( http://arxiv.org/abs/2106.16129v1 )

ライセンス: Link先を確認
Mihaela C\u{a}t\u{a}lina Stoian, Tommaso Cavallari(参考訳) 多くの人工物は、1つ以上の平面方向に沿って対称な形状で特徴づけられる。 そのような対称性平面の位置と向きを推定することは、対象の全体配向を推定したり、より詳細な形状を得るために対象の部分走査が推定対称性平面にわたって反射されるような形状完備化を行うといった多くのタスクに役立つ。 3dデータを処理する多くの方法は高価な3d畳み込みに依存する。 本稿では,その代わりにデータを高さ次元に沿ってスライスし,2次元畳み込み回帰スキームに順次渡す,新たな符号化手法を提案する。 また、この方法は微分可能な最小二乗ステップを含み、対称オブジェクトの完全および部分スキャンの両方をエンドツーエンドで高精度かつ高速に処理することができる。 この手法を用いて3次元入力を効率的に処理し,平面反射対称性を推定する手法を設計する。 提案手法は,全合成対象の平面反射対称性推定作業における最先端技術に匹敵する精度を有することを示す。 さらに,3次元物体検出器の出力を改善するために,実世界のパイプライン内の物体の部分的スキャンに展開可能であることを示す。

Many man-made objects are characterised by a shape that is symmetric along one or more planar directions. Estimating the location and orientation of such symmetry planes can aid many tasks such as estimating the overall orientation of an object of interest or performing shape completion, where a partial scan of an object is reflected across the estimated symmetry plane in order to obtain a more detailed shape. Many methods processing 3D data rely on expensive 3D convolutions. In this paper we present an alternative novel encoding that instead slices the data along the height dimension and passes it sequentially to a 2D convolutional recurrent regression scheme. The method also comprises a differentiable least squares step, allowing for end-to-end accurate and fast processing of both full and partial scans of symmetric objects. We use this approach to efficiently handle 3D inputs to design a method to estimate planar reflective symmetries. We show that our approach has an accuracy comparable to state-of-the-art techniques on the task of planar reflective symmetry estimation on full synthetic objects. Additionally, we show that it can be deployed on partial scans of objects in a real-world pipeline to improve the outputs of a 3D object detector.
翻訳日:2021-07-01 15:29:27 公開日:2021-06-30
# 言語接地のための弱教師付き時間隣接ネットワーク

Weakly Supervised Temporal Adjacent Network for Language Grounding ( http://arxiv.org/abs/2106.16136v1 )

ライセンス: Link先を確認
Yuechen Wang, Jiajun Deng, Wengang Zhou, and Houqiang Li(参考訳) 時間的言語基盤(TLG)は、視覚と言語理解の基本的な問題である。 既存の手法は主にトレーニングのための時間境界ラベル付き完全教師付き設定に重点を置いているが、アノテーションのコストは高くつく。 本研究では,時間境界ラベルのないビデオに複数の記述文を付与する,弱い教師付きTLGに焦点をあてる。 この課題では、文の意味論と視覚的内容との強い相互意味的アライメントを学習することが重要である。 この目的のために、時間的言語接地のための弱教師付き時間的隣接ネットワーク(WSTAN)を導入する。 具体的には、WSTANは、複数のインスタンス学習(MIL)パラダイムにおける時間的隣接ネットワークを利用して、全記述節を入力として、モーダル間セマンティックアライメントを学習する。 さらに,このフレームワークに補完的分岐を組み込むことにより,MIL段階からの疑似監督による予測を明確化する。 milブランチと補完ブランチの両方で追加の自己識別損失が考案され、自己監視による意味的識別を強化する。 大規模な実験は、広く使われている3つのベンチマークデータセットである \emph{i.e。 この結果,ActivityNet-Caption s,Charades-STA,DiDeM oが有効性を示した。

Temporal language grounding (TLG) is a fundamental and challenging problem for vision and language understanding. Existing methods mainly focus on fully supervised setting with temporal boundary labels for training, which, however, suffers expensive cost of annotation. In this work, we are dedicated to weakly supervised TLG, where multiple description sentences are given to an untrimmed video without temporal boundary labels. In this task, it is critical to learn a strong cross-modal semantic alignment between sentence semantics and visual content. To this end, we introduce a novel weakly supervised temporal adjacent network (WSTAN) for temporal language grounding. Specifically, WSTAN learns cross-modal semantic alignment by exploiting temporal adjacent network in a multiple instance learning (MIL) paradigm, with a whole description paragraph as input. Moreover, we integrate a complementary branch into the framework, which explicitly refines the predictions with pseudo supervision from the MIL stage. An additional self-discriminating loss is devised on both the MIL branch and the complementary branch, aiming to enhance semantic discrimination by self-supervising. Extensive experiments are conducted on three widely used benchmark datasets, \emph{i.e.}, ActivityNet-Captions , Charades-STA, and DiDeMo, and the results demonstrate the effectiveness of our approach.
翻訳日:2021-07-01 15:29:09 公開日:2021-06-30
# 深層ニューラルネットワークを用いたオニコマイコシスの自動検出

Automated Onychomycosis Detection Using Deep Neural Networks ( http://arxiv.org/abs/2106.16139v1 )

ライセンス: Link先を確認
Abdurrahim Yilmaz, Rahmetullah Varol, Fatih Goktay, Gulsum Gencoglan, Ali Anil Demircali, Berk Dilsizoglu, Huseyin Uvet(参考訳) 臨床皮膚学は依然として、蛍光顕微鏡を用いた水酸化カリウム(KOH)溶液中の真菌の手動検査に大きく依存している。 しかし, この手法は, 臨床医の経験に基づいて長い時間を要するため, 精度が低い。 臨床顕微鏡の分野でのニューラルネットワーク応用の増加により、そのような手動プロセスの自動化が効率と正確性の両方を向上させることができる。 本研究では,これらの問題を高速に解き,着色料を使わずにグレースケール画像の自動菌類検出を行うディープニューラルネットワーク構造を提案する。 81菌と235ケラチンの顕微鏡画像が得られた。 そして2062菌と2142ケラチンを含む小さなパッチを抽出した。 真菌とセラチンを検出するために、2つのモデルが作られ、そのうちの1つはカスタムニューラルネットワークであり、もう1つはVGG16アーキテクチャに基づいている。 開発されたカスタムモデルは99.84%の精度で曲線(AUC)の値が1.00であり、VGG16の精度は98.89%、AUCの値が0.99である。 しかし、臨床医の平均精度は72.8%、AUC値は0.87である。 このディープラーニングモデルは、顕微鏡画像内の菌類を検出する自動システムの開発を可能にする。

Clinical dermatology, still relies heavily on manual introspection of fungi within a Potassium Hydroxide (KOH) solution using a brightfield microscope. However, this method takes a long time, is based on the experience of the clinician, and has a low accuracy. With the increase of neural network applications in the field of clinical microscopy it is now possible to automate such manual processes increasing both efficiency and accuracy. This study presents a deep neural network structure that enables the rapid solutions for these problems and can perform automatic fungi detection in grayscale images without colorants. Microscopic images of 81 fungi and 235 ceratine were collected. Then, smaller patches were extracted containing 2062 fungi and 2142 ceratine. In order to detect fungus and ceratine, two models were created one of which was a custom neural network and the other was based on the VGG16 architecture. The developed custom model had 99.84% accuracy, and an area under the curve (AUC) value of 1.00, while the VGG16 model had 98.89% accuracy and an AUC value of 0.99. However, average accuracy and AUC value of clinicians is 72.8% and 0.87 respectively. This deep learning model allows the development of an automated system that can detect fungi within microscopic images.
翻訳日:2021-07-01 15:28:50 公開日:2021-06-30
# カプセル内視鏡における病理分類の改善のための多タスク学習手法

Learning More for Free - A Multi Task Learning Approach for Improved Pathology Classification in Capsule Endoscopy ( http://arxiv.org/abs/2106.16162v1 )

ライセンス: Link先を確認
Anuja Vats, Marius Pedersen, Ahmed Mohammed,{\O}istein Hovde(参考訳) 無線カプセル内視鏡(WCE)のコンピュータ支援診断(CADx)の進歩は、データ不足によって妨げられている。 豊かな健康状態と異常状態の欠如は、現実的な多病理シナリオを扱えない病因の分離分析をもたらす。 本研究では,WCE多中心型多病理分類問題を解くことによって,限られたデータから,より自由な学習方法を探求する。 より多くを学ぶことは、同じデータで完全な監視以上のことを学ぶことを意味する。 これは、マルチタスク学習の下で、自己監督と完全な監督を組み合わせることで実現される。 さらに,人間の視覚システム(hvs)から着想を得て,自己監督タスクの設計や,データ自体内の一見無効果な信号が,その信号が他の信号よりも優れている場合のパフォーマンス向上に悪用されるかどうかの検証を行う。 さらに,WCE におけるより堅牢な多病理学CADx へのステップストーンとして,高次特徴の分析を行った。

The progress in Computer Aided Diagnosis (CADx) of Wireless Capsule Endoscopy (WCE) is thwarted by the lack of data. The inadequacy in richly representative healthy and abnormal conditions results in isolated analyses of pathologies, that can not handle realistic multi-pathology scenarios. In this work, we explore how to learn more for free, from limited data through solving a WCE multicentric, multi-pathology classification problem. Learning more implies to learning more than full supervision would allow with the same data. This is done by combining self supervision with full supervision, under multi task learning. Additionally, we draw inspiration from the Human Visual System (HVS) in designing self supervision tasks and investigate if seemingly ineffectual signals within the data itself can be exploited to gain performance, if so, which signals would be better than others. Further, we present our analysis of the high level features as a stepping stone towards more robust multi-pathology CADx in WCE.
翻訳日:2021-07-01 15:28:31 公開日:2021-06-30
# S2C2 - ファジィラベルを用いた半教師付き学習の直交法

S2C2 - An orthogonal method for Semi-Supervised Learning on fuzzy labels ( http://arxiv.org/abs/2106.16209v1 )

ライセンス: Link先を確認
Lars Schmarje and Monty Santarossa and Simon-Martin Schr\"oder and Claudius Zelenka and Rainer Kiko and Jenny Stracke and Nina Volkmann and Reinhard Koch(参考訳) SSL(Semi-Supervised Learning)は、必要なラベル付き画像データの量を削減し、ディープラーニングのコストを削減できる。 ほとんどのSSLメソッドは、クラス間の明確な区別しか考慮していないが、多くの実世界のデータセットでは、この明確な区別は、内部変数またはオブザーバ変数のために与えられない。 この可変性は、画像ごとに異なるアノテーションをもたらす可能性がある。 したがって、多くの画像には曖昧な注釈があり、そのラベルは「曖昧」と見なされる必要がある。 ラベルのこの曖昧さは、セミスーパーバイズドラーニング(SSL)とディープラーニング全般のパフォーマンスを制限しているため対処する必要がある。 本稿では,多くの深いSSLアルゴリズムを拡張可能なセミスーパービジョン分類・クラスタリング(S2C2)を提案する。 S2C2はラベルの曖昧さを推定し、SSLを確実にラベル付けされたデータに分類し、類似しているがファジィなラベルを持つ画像に対して異なるクラスタを作成する。 その結果、S2C2は、分類におけるF1スコアの中央値が7.4%向上し、複数のSSLアルゴリズムやデータセットにまたがるクラスタ内距離が5.4%低かった。 全体として、半教師付き学習とs2c2法の組み合わせは、ラベルと実際のデータセットの融合性をより良く処理する。

Semi-Supervised Learning (SSL) can decrease the amount of required labeled image data and thus the cost for deep learning. Most SSL methods only consider a clear distinction between classes but in many real-world datasets, this clear distinction is not given due to intra- or interobserver variability. This variability can lead to different annotations per image. Thus many images have ambiguous annotations and their label needs to be considered "fuzzy". This fuzziness of labels must be addressed as it will limit the performance of Semi-Supervised Learning (SSL) and deep learning in general. We propose Semi-Supervised Classification & Clustering (S2C2) which can extend many deep SSL algorithms. S2C2 can estimate the fuzziness of a label and applies SSL as a classification to certainly labeled data while creating distinct clusters for images with similar but fuzzy labels. We show that S2C2 results in median 7.4% better F1-score for classifications and 5.4% lower inner distance of clusters across multiple SSL algorithms and datasets while being more interpretable due to the fuzziness estimation of our method. Overall, a combination of Semi-Supervised Learning with our method S2C2 leads to better handling of the fuzziness of labels and thus real-world datasets.
翻訳日:2021-07-01 15:28:15 公開日:2021-06-30
# レベンシュテイン距離の最適化による会話質問の学習

Learning to Ask Conversational Questions by Optimizing Levenshtein Distance ( http://arxiv.org/abs/2106.15903v1 )

ライセンス: Link先を確認
Zhongkun Liu, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Maarten de Rijke, Ming Zhou(参考訳) conversational question simplification (cqs) は,anaphora や ellipsis といった会話的特徴を取り入れることで,自己完結型質問を会話型質問に簡略化することを目的としている。 既存のmleベースメソッドは、トレーニング中にすべてのトークンが等しく扱われるため、簡単に学習できるトークンに閉じ込められることが多い。 本稿では,明示的な編集動作を通じて最小レベンシュテイン距離(MLD)を最適化するReinforcement Iterative Sequence Editing (RISE)フレームワークを提案する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 RISEをトレーニングするために、動的プログラミングベースのサンプリング(DPS)プロセスによるIRT(Iterative Reinforce Training)アルゴリズムを考案し、探索を改善する。 2つのベンチマークデータセットの実験的結果は、riseが最先端のメソッドを著しく上回り、目に見えないデータでよく一般化していることを示している。

Conversational Question Simplification (CQS) aims to simplify self-contained questions into conversational ones by incorporating some conversational characteristics, e.g., anaphora and ellipsis. Existing maximum likelihood estimation (MLE) based methods often get trapped in easily learned tokens as all tokens are treated equally during training. In this work, we introduce a Reinforcement Iterative Sequence Editing (RISE) framework that optimizes the minimum Levenshtein distance (MLD) through explicit editing actions. RISE is able to pay attention to tokens that are related to conversational characteristics. To train RISE, we devise an Iterative Reinforce Training (IRT) algorithm with a Dynamic Programming based Sampling (DPS) process to improve exploration. Experimental results on two benchmark datasets show that RISE significantly outperforms state-of-the-art methods and generalizes well on unseen data.
翻訳日:2021-07-01 15:27:52 公開日:2021-06-30
# イベント中心物語作成の文脈におけるニュース記事検索

News Article Retrieval in Context for Event-centric Narrative Creation ( http://arxiv.org/abs/2106.16053v1 )

ライセンス: Link先を確認
Nikos Voskarides, Edgar Meij, Sabrina Sauer, Maarten de Rijke(参考訳) ジャーナリストのような作家は、物語に含める関連コンテンツを見つけるために自動ツールを使うことが多い。 本稿では,ニュース領域の執筆者を支援し,イベント中心の物語を展開することに焦点を当てる。 メインイベントとコンテキストを規定する不完全な物語を前提として,物語の継続を可能にする関連事象を議論するニュース記事の検索を目指す。 我々は,この課題を形式的に定義し,既存のニュース記事と関連する記事をシミュレートする検索データセット構築手順を提案する。 この手順から導かれた2つのデータセットの実験は、このタスクには最先端の語彙と意味的なランク付けが不十分であることを示している。 記事のランク付けを逆時系列順で行うことで、これらのランク付けを単独で上回ることを示す。 また,本課題の特徴に光を当てる結果について,詳細な定量的,定性的な分析を行った。

Writers such as journalists often use automatic tools to find relevant content to include in their narratives. In this paper, we focus on supporting writers in the news domain to develop event-centric narratives. Given an incomplete narrative that specifies a main event and a context, we aim to retrieve news articles that discuss relevant events that would enable the continuation of the narrative. We formally define this task and propose a retrieval dataset construction procedure that relies on existing news articles to simulate incomplete narratives and relevant articles. Experiments on two datasets derived from this procedure show that state-of-the-art lexical and semantic rankers are not sufficient for this task. We show that combining those with a ranker that ranks articles by reverse chronological order outperforms those rankers alone. We also perform an in-depth quantitative and qualitative analysis of the results that sheds light on the characteristics of this task.
翻訳日:2021-07-01 15:27:36 公開日:2021-06-30
# 対向訓練における局所的重み付け

Local Reweighting for Adversarial Training ( http://arxiv.org/abs/2106.15776v1 )

ライセンス: Link先を確認
Ruize Gao, Feng Liu, Kaiwen Zhou, Gang Niu, Bo Han, James Cheng(参考訳) インスタンス再重み付き敵訓練(IRAT)は、トレーニング中により小さい/より弱いデータが割り当てられる訓練モデルの堅牢性を大幅に向上させる。 しかし、訓練でシミュレートされた攻撃とは異なる攻撃でテストすると、ロバスト性は著しく低下する(例えば、再重み付けをしないよりもさらに悪い)。 本稿では,この問題を考察し,解法-局所再重み付き逆行訓練(LRAT)を提案する。 IRATの背後にある理論的根拠は、攻撃下ですでに安全であるインスタンスに注意を払わなくてもよいということです。 安全性は攻撃依存であるべきだと我々は主張するので、同じ場合、その重みは同じモデルに基づいて異なる攻撃を与えることができる。 したがって、訓練でシミュレーションされた攻撃が誤って特定された場合、IRATの重みは誤解を招く。 この目的のために、LRATは各インスタンスを敵の変種と組み合わせ、各インスタンス内で局所的な再重み付けを行うが、グローバルな再重み付けは行わない。 実験の結果、LRATはIRAT(世界再重み付け)と標準AT(再重み付けなし)の両方よりも、攻撃で訓練し、異なる攻撃でテストした場合に優れていることが示された。

Instances-reweighted adversarial training (IRAT) can significantly boost the robustness of trained models, where data being less/more vulnerable to the given attack are assigned smaller/larger weights during training. However, when tested on attacks different from the given attack simulated in training, the robustness may drop significantly (e.g., even worse than no reweighting). In this paper, we study this problem and propose our solution--locally reweighted adversarial training (LRAT). The rationale behind IRAT is that we do not need to pay much attention to an instance that is already safe under the attack. We argue that the safeness should be attack-dependent, so that for the same instance, its weight can change given different attacks based on the same model. Thus, if the attack simulated in training is mis-specified, the weights of IRAT are misleading. To this end, LRAT pairs each instance with its adversarial variants and performs local reweighting inside each pair, while performing no global reweighting--the rationale is to fit the instance itself if it is immune to the attack, but not to skip the pair, in order to passively defend different attacks in future. Experiments show that LRAT works better than both IRAT (i.e., global reweighting) and the standard AT (i.e., no reweighting) when trained with an attack and tested on different attacks.
翻訳日:2021-07-01 15:26:46 公開日:2021-06-30
# 安定学習によるロバスト分布学習

Distributionally Robust Learning with Stable Adversarial Training ( http://arxiv.org/abs/2106.15791v1 )

ライセンス: Link先を確認
Jiashuo Liu, Zheyan Shen, Peng Cui, Linjun Zhou, Kun Kuang, Bo Li(参考訳) 経験的リスク最小化を伴う機械学習アルゴリズムは、トレーニングデータに現れるすべての相関関係が厳格に採用されているため、分散シフトの下で脆弱である。 不確実性に対する最悪のリスクを最小限に抑えることで、この問題に対処する文献が浮上している。 しかし、既存の手法では、目標との相関の安定性に関係なく全ての変数を等しく扱うことによって曖昧性集合を構築しており、その結果、圧倒的に大きな不確実性セットと学習者の信頼度が低い。 本稿では,より実用的な不確実性集合を構築するために不均一なデータ源を活用し,目標との相関の安定性に応じて共変数を区別する,新しい安定逆学習(sal)アルゴリズムを提案する。 理論上,本手法は確率的勾配に基づく最適化が可能であり,提案手法の性能保証を提供する。 シミュレーションと実データセットの両方に関する実証的研究は、未知の分布シフトにおける均一な性能の観点から、我々の手法の有効性を検証する。

Machine learning algorithms with empirical risk minimization are vulnerable under distributional shifts due to the greedy adoption of all the correlations found in training data. There is an emerging literature on tackling this problem by minimizing the worst-case risk over an uncertainty set. However, existing methods mostly construct ambiguity sets by treating all variables equally regardless of the stability of their correlations with the target, resulting in the overwhelmingly-large uncertainty set and low confidence of the learner. In this paper, we propose a novel Stable Adversarial Learning (SAL) algorithm that leverages heterogeneous data sources to construct a more practical uncertainty set and conduct differentiated robustness optimization, where covariates are differentiated according to the stability of their correlations with the target. We theoretically show that our method is tractable for stochastic gradient-based optimization and provide the performance guarantees for our method. Empirical studies on both simulation and real datasets validate the effectiveness of our method in terms of uniformly good performance across unknown distributional shifts.
翻訳日:2021-07-01 15:26:21 公開日:2021-06-30
# ハイパーグラフを用いたエッジ表現学習

Edge Representation Learning with Hypergraphs ( http://arxiv.org/abs/2106.15845v1 )

ライセンス: Link先を確認
Jaehyeong Jo, Jinheon Baek, Seul Lee, Dongki Kim, Minki Kang, Sung Ju Hwang(参考訳) グラフニューラルネットワークは最近、グラフ構造化データの表現において顕著な成功を収めており、ノード埋め込みとグラフプーリングの両方で急速に進歩している。 それでも、接続性を考慮したノードからの情報取得に重点を置いており、グラフの重要なコンポーネントであるエッジを表現する作業はあまり行われていません。 しかし、グラフ再構成や生成といったタスクや、エッジが識別に重要であるグラフ分類タスクでは、グラフ表現学習の成功には、与えられたグラフのエッジを正確に表現することが不可欠である。 そこで本稿では,グラフのエッジをハイパーグラフのノードに変換するDHT(Dual Hypergraph Transformation)に基づく新しいエッジ表現学習フレームワークを提案する。 この双対ハイパーグラフ構成により、エッジにノード表現にメッセージパッシング技術を適用することができる。 ハイパーグラフからエッジ表現を得た後、グラフレベルのエッジ表現を得るためにエッジをクラスタ化またはドロップする。 本手法は,既存のグラフ表現学習手法を圧倒的に上回っているグラフ表現と生成性能のために,グラフデータセット上のハイパーグラフを用いてエッジ表現学習手法を検証する。 さらに,エッジ表現学習およびプーリング手法は,精度の高いエッジ表現学習のみならず,ノードのロスレス圧縮や有効なメッセージパッシングのための無関係エッジの除去などにより,グラフ分類における最先端グラフプーリング手法を大きく上回っている。

Graph neural networks have recently achieved remarkable success in representing graph-structured data, with rapid progress in both the node embedding and graph pooling methods. Yet, they mostly focus on capturing information from the nodes considering their connectivity, and not much work has been done in representing the edges, which are essential components of a graph. However, for tasks such as graph reconstruction and generation, as well as graph classification tasks for which the edges are important for discrimination, accurately representing edges of a given graph is crucial to the success of the graph representation learning. To this end, we propose a novel edge representation learning framework based on Dual Hypergraph Transformation (DHT), which transforms the edges of a graph into the nodes of a hypergraph. This dual hypergraph construction allows us to apply message passing techniques for node representations to edges. After obtaining edge representations from the hypergraphs, we then cluster or drop edges to obtain holistic graph-level edge representations. We validate our edge representation learning method with hypergraphs on diverse graph datasets for graph representation and generation performance, on which our method largely outperforms existing graph representation learning methods. Moreover, our edge representation learning and pooling method also largely outperforms state-of-the-art graph pooling methods on graph classification, not only because of its accurate edge representation learning, but also due to its lossless compression of the nodes and removal of irrelevant edges for effective message passing.
翻訳日:2021-07-01 15:26:05 公開日:2021-06-30
# 深層強化学習における観察に対する敵対的攻撃の理解

Understanding Adversarial Attacks on Observations in Deep Reinforcement Learning ( http://arxiv.org/abs/2106.15860v1 )

ライセンス: Link先を確認
You Qiaoben, Chengyang Ying, Xinning Zhou, Hang Su, Jun Zhu, Bo Zhang(参考訳) 近年の研究では、深層強化学習(DRL)モデルが敵の攻撃に弱いことが示されており、観測操作によって被害者の総報酬を減少させる可能性がある。 教師付き学習における敵意攻撃と比較すると,敵は環境力学を推測しなければならないため,drlモデルを欺くことがはるかに困難である。 この問題に対処するため、関数空間における敵攻撃の問題を修正し、以前の勾配に基づく攻撃を複数の部分空間に分割する。 関数空間の解析に続いて、敵がエージェントをターゲットの軌道や騙しのポリシーに誘惑する部分空間において、汎用的な二段階フレームワークを設計する。 第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングする一連の軌道を発見する。 敵は被害者を誤解させ、観察をゆるめることによって欺きの政策を模倣する。 本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。 AtariとMuJoCoの両環境において,本手法の優位性を実証し,最先端の性能を実現する。

Recent works demonstrate that deep reinforcement learning (DRL) models are vulnerable to adversarial attacks which can decrease the victim's total reward by manipulating the observations. Compared with adversarial attacks in supervised learning, it is much more challenging to deceive a DRL model since the adversary has to infer the environmental dynamics. To address this issue, we reformulate the problem of adversarial attacks in function space and separate the previous gradient based attacks into several subspace. Following the analysis of the function space, we design a generic two-stage framework in the subspace where the adversary lures the agent to a target trajectory or a deceptive policy. In the first stage, we train a deceptive policy by hacking the environment, and discover a set of trajectories routing to the lowest reward. The adversary then misleads the victim to imitate the deceptive policy by perturbing the observations. Our method provides a tighter theoretical upper bound for the attacked agent's performance than the existing approaches. Extensive experiments demonstrate the superiority of our method and we achieve the state-of-the-art performance on both Atari and MuJoCo environments.
翻訳日:2021-07-01 15:25:40 公開日:2021-06-30
# 効率的な人口ベースオートrlのためのフライ型混合入力ハイパーパラメータのチューニング

Tuning Mixed Input Hyperparameters on the Fly for Efficient Population Based AutoRL ( http://arxiv.org/abs/2106.15883v1 )

ライセンス: Link先を確認
Jack Parker-Holder and Vu Nguyen and Shaan Desai and Stephen Roberts(参考訳) 近年の強化学習(RL)の成功にもかかわらず、多くのRLアルゴリズムはハイパーパラメータに敏感である。 そのため、より一般的なアルゴリズムを作成するために設計判断を自動化しようとするautorlの分野に最近関心が寄せられている。 近年の研究では,高パラメータのスケジュールをオンザフライで学習することで,人口ベースアプローチがAutoRLアルゴリズムの有効性を示すことが示唆されている。 特に、PB2アルゴリズムは、時間変化GP帯域問題としてオンラインハイパーパラメータ最適化を定式化し、理論的保証を提供することにより、RLタスクにおいて高い性能を達成することができる。 しかし、pb2は継続的なハイパーパラメータのみで動作するように設計されているため、実用性が著しく制限される。 本稿では,人口ベース学習体制に特化して設計された時間変化バンディットアルゴリズムを用いて,連続変数とカテゴリー変数の両方を最適化する,より効率的な階層的手法を提案する。 本稿では,データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで,一般化が向上することを示す。

Despite a series of recent successes in reinforcement learning (RL), many RL algorithms remain sensitive to hyperparameters. As such, there has recently been interest in the field of AutoRL, which seeks to automate design decisions to create more general algorithms. Recent work suggests that population based approaches may be effective AutoRL algorithms, by learning hyperparameter schedules on the fly. In particular, the PB2 algorithm is able to achieve strong performance in RL tasks by formulating online hyperparameter optimization as time varying GP-bandit problem, while also providing theoretical guarantees. However, PB2 is only designed to work for continuous hyperparameters, which severely limits its utility in practice. In this paper we introduce a new (provably) efficient hierarchical approach for optimizing both continuous and categorical variables, using a new time-varying bandit algorithm specifically designed for the population based training regime. We evaluate our approach on the challenging Procgen benchmark, where we show that explicitly modelling dependence between data augmentation and other hyperparameters improves generalization.
翻訳日:2021-07-01 15:25:21 公開日:2021-06-30
# 予測問題の分解;neorlエージェントによる自律ナビゲーション

Decomposing the Prediction Problem; Autonomous Navigation by neoRL Agents ( http://arxiv.org/abs/2106.15868v1 )

ライセンス: Link先を確認
Per R. Leikanger(参考訳) 世界を旅することはあらゆる生物にとって基本的な能力である。 同じ自由度を技術に適合させるのは難しいことが証明されている。 脳は自発的なナビゲーションが可能な唯一のメカニズムであり、神経科学を自律性へのインスピレーションの源としています。 その状態表現が重要であると仮定すると、脳と機械がどのようにナビゲーション状態を表すかの差を探索する。 Reinforcement Learning (RL) はマルコフの性質に応じてモノリシックな状態表現を必要とするが、ニューラル表現(Neural Representation of Euclidean Space)は、分散アクティベーションパターンを介してナビゲーション状態を反映する。 nres指向のrl (neorl) エージェントが実験により理論的知見を検証できることを示す。 最終的に、neorlエージェントは状態空間をまたいだ動作合成が可能であり、問題のより小さな空間への分解を可能にし、次元の呪いを緩和する。

Navigating the world is a fundamental ability for any living entity. Accomplishing the same degree of freedom in technology has proven to be difficult. The brain is the only known mechanism capable of voluntary navigation, making neuroscience our best source of inspiration toward autonomy. Assuming that state representation is key, we explore the difference in how the brain and the machine represent the navigational state. Where Reinforcement Learning (RL) requires a monolithic state representation in accordance with the Markov property, Neural Representation of Euclidean Space (NRES) reflects navigational state via distributed activation patterns. We show how NRES-Oriented RL (neoRL) agents are possible before verifying our theoretical findings by experiments. Ultimately, neoRL agents are capable of behavior synthesis across state spaces -- allowing for decomposition of the problem into smaller spaces, alleviating the curse of dimensionality.
翻訳日:2021-07-01 15:25:03 公開日:2021-06-30
# 仮説上の期待効用

Hypothetical Expected Utility ( http://arxiv.org/abs/2106.15979v1 )

ライセンス: Link先を確認
Evan Piermont(参考訳) 本稿では,意思決定者(DM)の仮説推論の分析と同定を行うモデルを提案する。 このモデルを用いて、仮説思考に従事するDMの正当性は、意味を認識する能力(つまり、仮説が別の意味を識別する能力)によって正確に捉えられ、その後の関係はDMの観察可能な行動によって捉えられることを示す。 したがって、この特徴はどちらも(違法な)仮説的推論の具体的定義を提供し、重要なことに、これらの判断を標準的な経済データから識別する方法論を提供する。

This paper provides a model to analyze and identify a decision maker's (DM's) hypothetical reasoning. Using this model, I show that a DM's propensity to engage in hypothetical thinking is captured exactly by her ability to recognize implications (i.e., to identify that one hypothesis implies another) and that this later relation is captured by a DM's observable behavior. Thus, this characterization both provides a concrete definition of (flawed) hypothetical reasoning and, importantly, yields a methodology to identify these judgments from standard economic data.
翻訳日:2021-07-01 15:24:46 公開日:2021-06-30
# 公理・グラフィカル数学における意識経験に関する考察

Reasoning about conscious experience with axiomatic and graphical mathematics ( http://arxiv.org/abs/2106.16061v1 )

ライセンス: Link先を確認
Camilo Miguel Signorelli, Quanlong Wang, Bob Coecke(参考訳) 我々は一般過程論(対称モノイド圏とフロベニウス代数)のグラフ計算を用いて、意識の側面を公理的な数学的用語で表現した。 この計算はプロセス理論のオントロジ中立性を利用する。 公理計算を用いたおもちゃの例は、このアプローチの力を示すために与えられ、外部および内部の主観的な区別、個人の主観的な経験のプライバシーまたは不可読性、および、意識の科学的研究における主要な問題である現象的統一など、意識的な経験の他の側面を回復する。 実際、これらの特徴は公理計算の組成的性質から自然に生じる。

We cast aspects of consciousness in axiomatic mathematical terms, using the graphical calculus of general process theories (a.k.a symmetric monoidal categories and Frobenius algebras therein). This calculus exploits the ontological neutrality of process theories. A toy example using the axiomatic calculus is given to show the power of this approach, recovering other aspects of conscious experience, such as external and internal subjective distinction, privacy or unreadability of personal subjective experience, and phenomenal unity, one of the main issues for scientific studies of consciousness. In fact, these features naturally arise from the compositional nature of axiomatic calculus.
翻訳日:2021-07-01 15:24:36 公開日:2021-06-30
# RNN-Transducer ASRを用いたエンドツーエンド音声言語理解

End-to-End Spoken Language Understanding using RNN-Transducer ASR ( http://arxiv.org/abs/2106.15919v1 )

ライセンス: Link先を確認
Anirudh Raju, Gautam Tiwari, Milind Rao, Pranav Dheram, Bryan Anderson, Zhe Zhang, Bach Bui, Ariya Rastrow(参考訳) 本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。 ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。 このインタフェースはマルチタスクRNNTとNLU損失を用いたエンドツーエンドのトレーニングを可能にする。 さらに,非微分可能SLUメトリクスの直接最適化を可能にする共同RNNT-NLUシステムのセマンティックシーケンス損失トレーニングを導入する。 このエンドツーエンドのSLUモデルパラダイムは、ASRとNLUの研究コミュニティの最先端と事前訓練されたモデルを活用することができ、最近提案された直接音声合成モデルや従来のパイプライン化されたASRとNLUシステムよりも優れている。 本手法は,パブリックなSLUデータセットと大規模プロプライエタリなデータセットの両方において,ASRとNLUのメトリクスを改善する。

We propose an end-to-end trained spoken language understanding (SLU) system that extracts transcripts, intents and slots from an input speech utterance. It consists of a streaming recurrent neural network transducer (RNNT) based automatic speech recognition (ASR) model connected to a neural natural language understanding (NLU) model through a neural interface. This interface allows for end-to-end training using multi-task RNNT and NLU losses. Additionally, we introduce semantic sequence loss training for the joint RNNT-NLU system that allows direct optimization of non-differentiable SLU metrics. This end-to-end SLU model paradigm can leverage state-of-the-art advancements and pretrained models in both ASR and NLU research communities, outperforming recently proposed direct speech-to-semantics models, and conventional pipelined ASR and NLU systems. We show that this method improves both ASR and NLU metrics on both public SLU datasets and large proprietary datasets.
翻訳日:2021-07-01 15:24:24 公開日:2021-06-30
# ハイブリッド符号化開口を用いた10メガピクセルスナップショット圧縮イメージング

10-mega pixel snapshot compressive imaging with a hybrid coded aperture ( http://arxiv.org/abs/2106.15765v1 )

ライセンス: Link先を確認
Zhihong Zhang, Chao Deng, Yang Liu, Xin Yuan, Jinli Suo, Qionghai Dai(参考訳) 高精細度画像は日常的に広く使われているが,高精細度モードで動作するカメラのフレームレートが低いため,高速ビデオ撮影は困難である。 深く掘り下げると、主なボトルネックは既存の撮像システムのスループット低下にある。 この目的に向けて, 圧縮サンプリングと計算再構成による画像システムのスループット向上のための有望なソリューションとしてスナップショット圧縮イメージング(sci)が提案されている。 取得中、複数の高速画像が符号化され、単一の測定値に崩壊する。 その後、符号化されたスナップショットからビデオフレームを検索するためにアルゴリズムが使用される。 最近開発されたPlug-and-Play(PnP)アルゴリズムは,大規模問題におけるSCI再構成を可能にする。 しかし、高解像度符号化システムの欠如は、SCIの幅広い応用を妨げる。 本稿では,シリコン上に動的液晶と高分解能リソグラフィーマスクを組み込むことで,ハイブリット符号化開口スナップショット圧縮イメージング(HCA-SCI)システムを構築する。 さらに,高品位復元のためのカスケードデノイザを用いたpnp再構成アルゴリズムを実装した。 提案したHCA-SCIシステムとアルゴリズムに基づいて,高速シーンをキャプチャする10メガピクセルのSCIシステムを実現し,毎秒4.6Gのボクセルのスループットを実現する。 シミュレーションと実データ実験の両方で提案したHCA-SCI方式の有効性と性能を検証する。

High resolution images are widely used in our daily life, whereas high-speed video capture is challenging due to the low frame rate of cameras working at the high resolution mode. Digging deeper, the main bottleneck lies in the low throughput of existing imaging systems. Towards this end, snapshot compressive imaging (SCI) was proposed as a promising solution to improve the throughput of imaging systems by compressive sampling and computational reconstruction. During acquisition, multiple high-speed images are encoded and collapsed to a single measurement. After this, algorithms are employed to retrieve the video frames from the coded snapshot. Recently developed Plug-and-Play (PnP) algorithms make it possible for SCI reconstruction in large-scale problems. However, the lack of high-resolution encoding systems still precludes SCI's wide application. In this paper, we build a novel hybrid coded aperture snapshot compressive imaging (HCA-SCI) system by incorporating a dynamic liquid crystal on silicon and a high-resolution lithography mask. We further implement a PnP reconstruction algorithm with cascaded denoisers for high quality reconstruction. Based on the proposed HCA-SCI system and algorithm, we achieve a 10-mega pixel SCI system to capture high-speed scenes, leading to a high throughput of 4.6G voxels per second. Both simulation and real data experiments verify the feasibility and performance of our proposed HCA-SCI scheme.
翻訳日:2021-07-01 15:22:58 公開日:2021-06-30
# スーパーピクセルとCNN分類を用いた大腸癌組織学における高速全スライディングカルトグラフィー

Fast whole-slide cartography in colon cancer histology using superpixels and CNN classification ( http://arxiv.org/abs/2106.15893v1 )

ライセンス: Link先を確認
Frauke Wilm, Michaela Benz, Volker Bruns, Serop Baghdadlian, Jakob Dexl, David Hartmann, Petr Kuritcyn, Martin Weidenfeller, Thomas Wittenberg, Susanne Merkel, Arndt Hartmann, Markus Eckstein, Carol I. Geppert(参考訳) 全スライディング・イメージ・カルトグラフィー(Whole-Slide-image cartography)は、デジタル組織標本において、異なる組織タイプを自動的に検出し、アウトライン化する過程である。 このセマンティクスセグメンテーションは多くのフォローアップ分析の基礎を提供し、後続の医学的決定を導く可能性がある。 サイズが大きいため、全体スライド画像は通常、より小さなパッチに分割される必要があり、機械学習ベースのアプローチで個別に分析される。 これにより、画像領域の局所的な依存関係が失われ、数千のパッチを含む全スライダー画像の処理は本質的に遅い。 本研究では,視覚的に類似した隣接画像画素をより大きなセグメントにグループ化し,分類前にコヒーレント領域に分割する手法を提案する。 スーパーピクセル。 その後、スーパーピクセル毎のパッチのランダムなサブセットのみが分類され、パッチラベルが単一のスーパーピクセルラベルにまとめられる。 このアルゴリズムは手書きの大腸切除画像159枚のデータセットを用いて開発・検証され,その性能は標準的なパッチベースアプローチと比較されている。 このアルゴリズムはテストデータで平均41%のスピードアップを示し、全体的な精度は93.8%から95.7%に向上した。 また,より詳細な分析から除外できるように,不確実な分類でスーパーピクセルを識別する指標を提案する。 最後に,腫瘍浸潤率の生成を含む腫瘍面積推定と腫瘍組成分析の2つの医療応用について検討した。

Whole-slide-image cartography is the process of automatically detecting and outlining different tissue types in digitized histological specimen. This semantic segmentation provides a basis for many follow-up analyses and can potentially guide subsequent medical decisions. Due to their large size, whole-slide-images typically have to be divided into smaller patches which are then analyzed individually using machine learning-based approaches. Thereby, local dependencies of image regions get lost and since a whole-slide-image comprises many thousands of such patches this process is inherently slow. We propose to subdivide the image into coherent regions prior to classification by grouping visually similar adjacent image pixels into larger segments, i.e. superpixels. Afterwards, only a random subset of patches per superpixel is classified and patch labels are combined into a single superpixel label. The algorithm has been developed and validated on a dataset of 159 hand-annotated whole-slide-images of colon resections and its performance has been compared to a standard patch-based approach. The algorithm shows an average speed-up of 41% on the test data and the overall accuracy is increased from 93.8% to 95.7%. We additionally propose a metric for identifying superpixels with an uncertain classification so they can be excluded from further analysis. Finally, we evaluate two potential medical applications, namely tumor area estimation including tumor invasive margin generation and tumor composition analysis.
翻訳日:2021-07-01 15:22:40 公開日:2021-06-30
# RGB画像からハイパースペクトル画像への学習可能な再構成法:サーベイ

Learnable Reconstruction Methods from RGB Images to Hyperspectral Imaging: A Survey ( http://arxiv.org/abs/2106.15944v1 )

ライセンス: Link先を確認
Jingang Zhang and Runmu Su and Wenqi Ren and Qiang Fu and Yunfeng Nie(参考訳) ハイパースペクトルイメージング(hyperspectral imaging)は、豊富な空間的およびスペクトル的情報を捉える能力があるため、多目的な応用を可能にする。 しかし、ハイパースペクトル画像を取得する装置は高価で複雑である。 そのため、より安価なRGB画像から高スペクトル情報を直接再構成することで、多くのスペクトルイメージング手法が提案されている。 本稿では,RGB画像から最新のスペクトル再構成手法について詳細に検討する。 25以上の手法の体系的な研究と比較により、データ駆動深層学習法のほとんどは、低速にもかかわらず復元精度と品質の点で、従来の手法よりも優れていることが明らかになった。 この包括的なレビューは、ピア研究者にとって実りある参考資料となり、関連する分野における今後の開発方向性をさらに刺激することができる。

Hyperspectral imaging enables versatile applications due to its competence in capturing abundant spatial and spectral information, which are crucial for identifying substances. However, the devices for acquiring hyperspectral images are expensive and complicated. Therefore, many alternative spectral imaging methods have been proposed by directly reconstructing the hyperspectral information from lower-cost, more available RGB images. We present a thorough investigation of these state-of-the-art spectral reconstruction methods from the widespread RGB images. A systematic study and comparison of more than 25 methods has revealed that most of the data-driven deep learning methods are superior to prior-based methods in terms of reconstruction accuracy and quality despite lower speeds. This comprehensive review can serve as a fruitful reference source for peer researchers, thus further inspiring future development directions in related domains.
翻訳日:2021-07-01 15:22:17 公開日:2021-06-30
# 局所領域に着目したマルチストリームニューラルネットワークによる単語レベル手話認識

Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions ( http://arxiv.org/abs/2106.15989v1 )

ライセンス: Link先を確認
Mizuki Maruyama, Shuvozit Ghose, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka(参考訳) 近年,コンピュータビジョンコミュニティにおいて,単語レベル手話認識(WSLR)の研究が盛んになり,様々なアプローチが提案されている。 I3Dネットワークを用いた手法は,WSLRの大規模公開データセットに対して高い認識精度を実現する。 しかし、i3dを用いた方法は、シグナーの上半身の出現情報のみを利用して手話単語を認識する。 一方,wslrでは,手の形状や表情などの局所的な情報や,身体と両手の位置関係が重要である。 そこで本研究では,両手と顔の局所的画像と骨格情報を用いて,身体に対する局所的情報と両手の位置をそれぞれ捉えた。 言い換えれば,WSLRの認識精度を向上させるために,局所領域画像と骨格情報を含むストリームをI3Dネットワークを拡張して導入する,新しいマルチストリームWSLRフレームワークを提案する。 WLASLデータセットの実験結果から,提案手法は従来の手法に比べてTop-1精度が約15%向上していることが明らかとなった。

In recent years, Word-level Sign Language Recognition (WSLR) research has gained popularity in the computer vision community, and thus various approaches have been proposed. Among these approaches, the method using I3D network achieves the highest recognition accuracy on large public datasets for WSLR. However, the method with I3D only utilizes appearance information of the upper body of the signers to recognize sign language words. On the other hand, in WSLR, the information of local regions, such as the hand shape and facial expression, and the positional relationship among the body and both hands are important. Thus in this work, we utilized local region images of both hands and face, along with skeletal information to capture local information and the positions of both hands relative to the body, respectively. In other words, we propose a novel multi-stream WSLR framework, in which a stream with local region images and a stream with skeletal information are introduced by extending I3D network to improve the recognition accuracy of WSLR. From the experimental results on WLASL dataset, it is evident that the proposed method has achieved about 15% improvement in the Top-1 accuracy than the existing conventional methods.
翻訳日:2021-07-01 15:22:05 公開日:2021-06-30
# ResViT:マルチモーダル医用画像合成のための残像変換器

ResViT: Residual vision transformers for multi-modal medical image synthesis ( http://arxiv.org/abs/2106.16031v1 )

ライセンス: Link先を確認
Onat Dalmaz, Mahmut Yurt, Tolga \c{C}ukur(参考訳) マルチモーダルイメージングは、疾患の診断と管理において重要な医療技術であるが、複数の個別のスキャンに伴うコストのため、しばしば利用されていない。 この制限は、未獲得のモダリティを利用可能なモダリティのサブセットから合成する必要性をもたらす。 近年,多くの医用画像合成タスクにおいて,構造的詳細の描写に優れるGANモデルが最先端技術として確立されている。 しかし、GANは、コンパクトなフィルタで局所処理を行う畳み込みニューラルネットワーク(CNN)のバックボーンを特徴としている。 この帰納的バイアスは、逆に、長距離空間依存の学習を損なう。 ganに組み込まれたアテンションマップはcnnの特徴を乗法的に変調して重要な画像領域を強調することができるが、そのグローバルコンテキストの捉え方は暗黙的である。 本稿では、畳み込み演算子の局所的精度と視覚変換器の文脈的感度を組み合わせ、医用画像合成のための新しい生成逆変換手法ResViTを提案する。 エンコーダ・デコーダアーキテクチャに基づいて、ResViTは、畳み込みモジュールと変圧器モジュールを相乗的に結合する新しい集合的残留トランス (ART) ブロックからなる中心的ボトルネックを使用する。 マルチコントラストMRIおよびCT画像の欠失配列をMRIから合成するための総合的なデモンストレーションを行う。 この結果から,ResViTと競合する手法の質的観察と定量化の点で優位性が示唆された。

Multi-modal imaging is a key healthcare technology in the diagnosis and management of disease, but it is often underutilized due to costs associated with multiple separate scans. This limitation yields the need for synthesis of unacquired modalities from the subset of available modalities. In recent years, generative adversarial network (GAN) models with superior depiction of structural details have been established as state-of-the-art in numerous medical image synthesis tasks. However, GANs are characteristically based on convolutional neural network (CNN) backbones that perform local processing with compact filters. This inductive bias, in turn, compromises learning of long-range spatial dependencies. While attention maps incorporated in GANs can multiplicatively modulate CNN features to emphasize critical image regions, their capture of global context is mostly implicit. Here, we propose a novel generative adversarial approach for medical image synthesis, ResViT, to combine local precision of convolution operators with contextual sensitivity of vision transformers. Based on an encoder-decoder architecture, ResViT employs a central bottleneck comprising novel aggregated residual transformer (ART) blocks that synergistically combine convolutional and transformer modules. Comprehensive demonstrations are performed for synthesizing missing sequences in multi-contrast MRI and CT images from MRI. Our results indicate the superiority of ResViT against competing methods in terms of qualitative observations and quantitative metrics.
翻訳日:2021-07-01 15:21:48 公開日:2021-06-30
# AdaPT-GMM:強力でロバストな共変量支援多重試験

AdaPT-GMM: Powerful and robust covariate-assisted multiple testing ( http://arxiv.org/abs/2106.15812v1 )

ライセンス: Link先を確認
Patrick Chao, William Fithian(参考訳) そこで我々は,共変量とp値の両方の関数として,各仮説の局所的偽発見率をモデル化する手法を提案する。 提案手法は, マスク方式を一般化し, 擬似発見率推定器の偏差と分散を低減し, 拒否集合が小さい場合や, ヌルp値が1付近に集中する場合のパワーを向上させることにより, 適応的p値閾値決定法(AdaPT)を改良する。 また、2層ニューラルネットワークを用いて実装した汎用ユーザ特定分類器を用いて混合比率をモデル化し、共変量によるテスト統計の条件分布に関するガウス混合モデルも導入する。 adaptと同様に、この手法は分類器やガウス混合モデルが誤った場合であっても有限サンプルでfdrを確実に制御する。 我々は、AdaPT-GMMと呼ばれる新しい手法が、競合する最先端の手法と比較して一貫して高い電力を供給できることを、広範囲にわたるシミュレーションおよび実データ例で示す。 特に、AdaPTがパワー不足のシナリオではよく機能し、特に効果サイズが実用上重要なしきい値を超えるかどうかといった複合ヌル仮説のテストに適している。

We propose a new empirical Bayes method for covariate-assisted multiple testing with false discovery rate (FDR) control, where we model the local false discovery rate for each hypothesis as a function of both its covariates and p-value. Our method refines the adaptive p-value thresholding (AdaPT) procedure by generalizing its masking scheme to reduce the bias and variance of its false discovery proportion estimator, improving the power when the rejection set is small or some null p-values concentrate near 1. We also introduce a Gaussian mixture model for the conditional distribution of the test statistics given covariates, modeling the mixing proportions with a generic user-specified classifier, which we implement using a two-layer neural network. Like AdaPT, our method provably controls the FDR in finite samples even if the classifier or the Gaussian mixture model is misspecified. We show in extensive simulations and real data examples that our new method, which we call AdaPT-GMM, consistently delivers high power relative to competing state-of-the-art methods. In particular, it performs well in scenarios where AdaPT is underpowered, and is especially well-suited for testing composite null hypothesis, such as whether the effect size exceeds a practical significance threshold.
翻訳日:2021-07-01 15:21:03 公開日:2021-06-30
# 複数のデータ型を用いたテキスト解析のための多層ネットワーク

Multilayer Networks for Text Analysis with Multiple Data Types ( http://arxiv.org/abs/2106.15821v1 )

ライセンス: Link先を確認
Charles C. Hyland, Yuanming Tao, Lamiae Azizi, Martin Gerlach, Tiago P. Peixoto, and Eduardo G. Altmann(参考訳) 我々は、メタデータやハイパーリンクの存在下で、ドキュメントをクラスタリングし、大量の文書のコレクションの中にトピックを見つけるという広範な問題に興味を持っている。 本稿では,これらの異なるタイプのデータセットを考慮に入れることの課題を解決するために,マルチレイヤネットワークと確率ブロックモデルに基づく新しいフレームワークを提案する。 他の手法に対するアプローチの主な革新は、異なるデータセットソースに同じ非パラメトリック確率的フレームワークを同時に適用することです。 他の多層ネットワークとの主な違いは、異なるノードタイプの平均レベルがシステムサイズによって異なるため、レイヤ間の強いアンバランスである。 後者の観察は,Hapsの法則のようなテキストの一般的な性質によるものであり,コミュニティの推測に強く影響を及ぼすことを示す。 提案手法は,さまざまなデータセット(ウィキペディア文書数百件,科学論文数千件,電子メール数千件)において,複数の種類の情報を考慮すると,トピックやドキュメントクラスタのより曖昧なビューが得られ,リンク不足の予測能力が向上することを示す。

We are interested in the widespread problem of clustering documents and finding topics in large collections of written documents in the presence of metadata and hyperlinks. To tackle the challenge of accounting for these different types of datasets, we propose a novel framework based on Multilayer Networks and Stochastic Block Models. The main innovation of our approach over other techniques is that it applies the same non-parametric probabilistic framework to the different sources of datasets simultaneously. The key difference to other multilayer complex networks is the strong unbalance between the layers, with the average degree of different node types scaling differently with system size. We show that the latter observation is due to generic properties of text, such as Heaps' law, and strongly affects the inference of communities. We present and discuss the performance of our method in different datasets (hundreds of Wikipedia documents, thousands of scientific papers, and thousands of E-mails) showing that taking into account multiple types of information provides a more nuanced view on topic- and document-clusters and increases the ability to predict missing links.
翻訳日:2021-07-01 15:20:37 公開日:2021-06-30
# リンク予測のためのエッジ提案セット

Edge Proposal Sets for Link Prediction ( http://arxiv.org/abs/2106.15810v1 )

ライセンス: Link先を確認
Abhay Singh, Qian Huang, Sijia Linda Huang, Omkar Bhalerao, Horace He, Ser-Nam Lim, Austin R. Benson(参考訳) グラフは、ソーシャルネットワークやタンパク質相互作用のような複雑な関係データの一般的なモデルであり、そのようなデータは時間とともに進化し(例えば、新しい友情)、騒がしい(例えば、測定されていない相互作用)。 Link Predictionは、将来のエッジを予測したり、グラフに欠けているエッジを推測することを目的としており、推奨システム、実験設計、複雑なシステムに様々な応用がある。 リンク予測アルゴリズムはグラフのエッジセットに強く依存するが、既存のアプローチではパフォーマンスを改善するためにグラフトポロジを変更しないことが多い。 ここで、前処理ステップとしてグラフに \emph{proposal set} と呼ばれる一連の辺を単純に追加すれば、いくつかのリンク予測アルゴリズムの性能が向上することを示す。 基礎となる考え方は、提案セットのエッジが一般的にグラフの構造と一致している場合、リンク予測アルゴリズムは正しいエッジを予測するためにさらに導かれることである。 本稿では,既存のリンク予測アルゴリズムを用いて効果的な提案集合を生成する方法を示し,このアプローチを様々な合成および経験的データセット上で評価する。 提案手法は近傍のヒューリスティックスとグラフニューラルネットワークの両方に基づくリンク予測アルゴリズムの精度を有意に向上させる。 コードは \url{https://github.com/C UAI/Edge-Proposal-Se ts} で公開されている。

Graphs are a common model for complex relational data such as social networks and protein interactions, and such data can evolve over time (e.g., new friendships) and be noisy (e.g., unmeasured interactions). Link prediction aims to predict future edges or infer missing edges in the graph, and has diverse applications in recommender systems, experimental design, and complex systems. Even though link prediction algorithms strongly depend on the set of edges in the graph, existing approaches typically do not modify the graph topology to improve performance. Here, we demonstrate how simply adding a set of edges, which we call a \emph{proposal set}, to the graph as a pre-processing step can improve the performance of several link prediction algorithms. The underlying idea is that if the edges in the proposal set generally align with the structure of the graph, link prediction algorithms are further guided towards predicting the right edges; in other words, adding a proposal set of edges is a signal-boosting pre-processing step. We show how to use existing link prediction algorithms to generate effective proposal sets and evaluate this approach on various synthetic and empirical datasets. We find that proposal sets meaningfully improve the accuracy of link prediction algorithms based on both neighborhood heuristics and graph neural networks. Code is available at \url{https://github.com/C UAI/Edge-Proposal-Se ts}.
翻訳日:2021-07-01 15:20:19 公開日:2021-06-30
# 機械学習の侵入攻撃の説明誘導診断

Explanation-Guided Diagnosis of Machine Learning Evasion Attacks ( http://arxiv.org/abs/2106.15820v1 )

ライセンス: Link先を確認
Abderrahmen Amich, Birhanu Eshete(参考訳) 機械学習(ML)モデルは、回避攻撃の影響を受けやすい。 侵入精度は, 集合的回避率を用いて評価されるのが一般的であり, 対向的摂動が回避予測に及ぼす影響について, 集合的回避率によって特徴レベルの診断が可能かどうかが疑問視される。 本稿では,ML回避攻撃の高忠実度評価を導くために,説明可能なML手法を利用する新しいフレームワークを提案する。 本フレームワークは,事前回避摂動と回避後説明の相関解析を可能にする。 ml回避攻撃の体系的評価に向けて,サンプルレベルおよびデータセットレベルの相関分析のためのモデル非依存メトリクススイートを提案し,評価する。 マルウェアと画像分類器を用いて,多様なモデルアーキテクチャと補完的特徴表現を包括的に評価する。 説明誘導相関解析により, 対向サンプルと対応する摂動の相関関係が明らかとなった。 説明誘導回避のケーススタディを用いて,MLモデルのロバスト性を評価するための方法論の幅広い利用方法を示す。

Machine Learning (ML) models are susceptible to evasion attacks. Evasion accuracy is typically assessed using aggregate evasion rate, and it is an open question whether aggregate evasion rate enables feature-level diagnosis on the effect of adversarial perturbations on evasive predictions. In this paper, we introduce a novel framework that harnesses explainable ML methods to guide high-fidelity assessment of ML evasion attacks. Our framework enables explanation-guided correlation analysis between pre-evasion perturbations and post-evasion explanations. Towards systematic assessment of ML evasion attacks, we propose and evaluate a novel suite of model-agnostic metrics for sample-level and dataset-level correlation analysis. Using malware and image classifiers, we conduct comprehensive evaluations across diverse model architectures and complementary feature representations. Our explanation-guided correlation analysis reveals correlation gaps between adversarial samples and the corresponding perturbations performed on them. Using a case study on explanation-guided evasion, we show the broader usage of our methodology for assessing robustness of ML models.
翻訳日:2021-07-01 15:19:56 公開日:2021-06-30
# nested deep algorithm unrolling を用いたグラフ信号復元

Graph Signal Restoration Using Nested Deep Algorithm Unrolling ( http://arxiv.org/abs/2106.15910v1 )

ライセンス: Link先を確認
Masatoshi Nagahama, Koki Yamada, Yuichi Tanaka, Stanley H. Chan, Yonina C. Eldar(参考訳) グラフ信号処理は、センサ、社会、輸送、脳ネットワーク、ポイントクラウド処理、グラフニューラルネットワークといった多くのアプリケーションにおいて、ユビキタスなタスクである。 グラフ信号はしばしばセンシングプロセスによって破壊され、上記のアプリケーションのために復元する必要がある。 本稿では,Deep Algorithm Unrolling (DAU) に基づく2つのグラフ信号復元手法を提案する。 まず,乗算器の交互方向法(ADMM)の繰り返しを解き放つグラフ信号デノイザを提案する。 次に,プラグアンドプレイADMM (PnP-ADMM) の繰り返しをアンロールすることで,線形劣化の一般的な復元法を提案する。 第2の方法は、アンロールされたADMMベースのデノイザをサブモジュールとして組み込む。 したがって,本手法はネストDAU構造を有する。 DAUのおかげで、提案手法のパラメータはエンドツーエンドで訓練できる。 提案手法は(凸)最適化アルゴリズムの反復に基づいており、グラフ独立正規化パラメータのみをチューニングする必要があるため、この手法は解釈可能でありパラメータ数を小さく維持できる。 1) 手動で決定される固定パラメータによる凸最適化アルゴリズムの性能の制限。 2) 学習が困難となるグラフニューラルネットワークのパラメータが多数存在する。 合成および実世界のデータに対して,グラフ信号の復調と補間に関する実験を行った。 提案手法は,両タスクにおけるルート平均二乗誤差の観点から,既存手法の性能改善を示す。

Graph signal processing is a ubiquitous task in many applications such as sensor, social, transportation and brain networks, point cloud processing, and graph neural networks. Graph signals are often corrupted through sensing processes, and need to be restored for the above applications. In this paper, we propose two graph signal restoration methods based on deep algorithm unrolling (DAU). First, we present a graph signal denoiser by unrolling iterations of the alternating direction method of multiplier (ADMM). We then propose a general restoration method for linear degradation by unrolling iterations of Plug-and-Play ADMM (PnP-ADMM). In the second method, the unrolled ADMM-based denoiser is incorporated as a submodule. Therefore, our restoration method has a nested DAU structure. Thanks to DAU, parameters in the proposed denoising/restoratio n methods are trainable in an end-to-end manner. Since the proposed restoration methods are based on iterations of a (convex) optimization algorithm, the method is interpretable and keeps the number of parameters small because we only need to tune graph-independent regularization parameters. We solve two main problems in existing graph signal restoration methods: 1) limited performance of convex optimization algorithms due to fixed parameters which are often determined manually. 2) large number of parameters of graph neural networks that result in difficulty of training. Several experiments for graph signal denoising and interpolation are performed on synthetic and real-world data. The proposed methods show performance improvements to several existing methods in terms of root mean squared error in both tasks.
翻訳日:2021-07-01 15:19:41 公開日:2021-06-30
# グラフ畳み込みニューラルネットワークを用いた弾力性uav群通信

Resilient UAV Swarm Communications with Graph Convolutional Neural Network ( http://arxiv.org/abs/2106.16048v1 )

ライセンス: Link先を確認
Zhiyu Mou, Feifei Gao, Jun Liu, and Qihui Wu(参考訳) 本稿では、予測不能な外乱(UED)の下で通信接続を迅速に再構築するために必要な無人航空機(UAV)群ネットワーク(USNET)の自己修復問題について検討する。 まず, 1 つの UED に対応するために, グラフ畳み込みニューラルネットワーク (GCN) を提案し, オンラインでUSNET の回復トポロジを求める。 次に,一般のuedsに対応するために,自己修復プロセス中にuavが通信接続を再構築できるgcnベースの軌道計画アルゴリズムを開発した。 また,GCNのオンライン実行を容易にするメタ学習方式を設計する。 数値計算により,提案アルゴリズムは1オフUEDと一般UEDの両方で既存のアルゴリズムよりも高速にUSNETの通信接続を再構築可能であることが示された。 また, シミュレーションの結果から, メタ学習方式はGCNの性能を高めるだけでなく, オンライン実行の時間的複雑さを低減できることがわかった。

In this paper, we study the self-healing problem of unmanned aerial vehicle (UAV) swarm network (USNET) that is required to quickly rebuild the communication connectivity under unpredictable external disruptions (UEDs). Firstly, to cope with the one-off UEDs, we propose a graph convolutional neural network (GCN) and find the recovery topology of the USNET in an on-line manner. Secondly, to cope with general UEDs, we develop a GCN based trajectory planning algorithm that can make UAVs rebuild the communication connectivity during the self-healing process. We also design a meta learning scheme to facilitate the on-line executions of the GCN. Numerical results show that the proposed algorithms can rebuild the communication connectivity of the USNET more quickly than the existing algorithms under both one-off UEDs and general UEDs. The simulation results also show that the meta learning scheme can not only enhance the performance of the GCN but also reduce the time complexity of the on-line executions.
翻訳日:2021-07-01 15:19:20 公開日:2021-06-30
# hybrid deeprx: 高evm信号用ディープラーニング受信機

HybridDeepRx: Deep Learning Receiver for High-EVM Signals ( http://arxiv.org/abs/2106.16079v1 )

ライセンス: Link先を確認
Jaakko Pihlajasalo, Dani Korpi, Mikko Honkala, Janne M.J. Huttunen, Taneli Riihonen, Jukka Talvitie, Alberto Brihuega, Mikko A. Uusitalo, Mikko Valkama(参考訳) 本稿では,高レベルの非線形歪みを受けるOFDM信号を復調するための機械学習(ML)ベースの物理層レシーバソリューションを提案する。 具体的には、伝送信号のエラーベクトル等級(EVM)が高いにもかかわらず、伝送されたビットを確実に復号し復号することができる、時間領域と周波数領域の両方の層を含む、新しいディープラーニングベースの畳み込みニューラルネットワーク受信機を考案する。 また、5G NRアップリンクの文脈において、測定された端末電力増幅器特性を取り入れた大規模な数値結果が提供される。 その結果,従来のリニアレシーバや既存のMLレシーバ,特にEVMが変調順序と比較して高い場合において,提案方式は従来型リニアレシーバよりも明らかに優れていることがわかった。 提案したML受信機は、端末電力増幅器(PA)システムをより深く飽和させ、端末電力効率、放射電力およびネットワークカバレッジを向上させる。

In this paper, we propose a machine learning (ML) based physical layer receiver solution for demodulating OFDM signals that are subject to a high level of nonlinear distortion. Specifically, a novel deep learning based convolutional neural network receiver is devised, containing layers in both time- and frequency domains, allowing to demodulate and decode the transmitted bits reliably despite the high error vector magnitude (EVM) in the transmit signal. Extensive set of numerical results is provided, in the context of 5G NR uplink incorporating also measured terminal power amplifier characteristics. The obtained results show that the proposed receiver system is able to clearly outperform classical linear receivers as well as existing ML receiver approaches, especially when the EVM is high in comparison with modulation order. The proposed ML receiver can thus facilitate pushing the terminal power amplifier (PA) systems deeper into saturation, and thereon improve the terminal power-efficiency, radiated power and network coverage.
翻訳日:2021-07-01 15:19:03 公開日:2021-06-30
# adagda: minimax最適化のための適応勾配降下昇降法

AdaGDA: Faster Adaptive Gradient Descent Ascent Methods for Minimax Optimization ( http://arxiv.org/abs/2106.16101v1 )

ライセンス: Link先を確認
Feihu Huang and Heng Huang(参考訳) 本稿では,超adam \citep{huang2021 super} で用いられる統一適応行列を用いて,非凸強凹ミニマックス問題を解くための適応勾配降下上昇の高速化法を提案する。 具体的には,基本運動量法に基づく高速適応勾配アセント法 (adagda) を提案し,大規模なバッチを使わずに $\epsilon$-stationar y point を求めるために,$o(\kappa^4\epsilon^{-4})$ というサンプルの複雑さを低め,$o(\sqrt{\kappa})$ で適応的ミニマックス最適化法の既存の結果を改善する。 さらに, AdaGDA (VR-AdaGDA) 法を運動量に基づく分散還元法により高速化し, 大規模なバッチを伴わずに$O(\kappa^3\epsilon^{-3})$を$\epsilon$-stationar yの値を求める場合に最もよく知られたサンプル複雑性を実現する。 さらに、対象関数の有界リプシッツパラメータを仮定し、我々のVR-AdaGDA法が、ミニバッチサイズ$O(\kappa^{2.5}\epsilon^{-3})$のより低いサンプル複雑性に達することを証明した。 特に,既存の適応学習率を含む統一適応行列に基づく適応手法に対して,効果的な収束解析フレームワークを提供する。

In the paper, we propose a class of faster adaptive gradient descent ascent methods for solving the nonconvex-strongly-c oncave minimax problems by using unified adaptive matrices used in the SUPER-ADAM \citep{huang2021super}. Specifically, we propose a fast adaptive gradient decent ascent (AdaGDA) method based on the basic momentum technique, which reaches a low sample complexity of $O(\kappa^4\epsilon^{-4})$ for finding an $\epsilon$-stationar y point without large batches, which improves the existing result of adaptive minimax optimization method by a factor of $O(\sqrt{\kappa})$. Moreover, we present an accelerated version of AdaGDA (VR-AdaGDA) method based on the momentum-based variance reduced technique, which achieves the best known sample complexity of $O(\kappa^3\epsilon^{-3})$ for finding an $\epsilon$-stationar y point without large batches. Further assume the bounded Lipschitz parameter of objective function, we prove that our VR-AdaGDA method reaches a lower sample complexity of $O(\kappa^{2.5}\epsilon^{-3})$ with the mini-batch size $O(\kappa)$. In particular, we provide an effective convergence analysis framework for our adaptive methods based on unified adaptive matrices, which include almost existing adaptive learning rates.
翻訳日:2021-07-01 15:18:46 公開日:2021-06-30
# 説明可能なクラスタリングのための近似的・難解なアルゴリズム

Nearly-Tight and Oblivious Algorithms for Explainable Clustering ( http://arxiv.org/abs/2106.16147v1 )

ライセンス: Link先を確認
Buddhima Gamlath, Xinrui Jia, Adam Polak, Ola Svensson(参考訳) まず,Moshkovitz,Dasgupta ,Rashtchian,Frost(IC ML 2020)によって定式化された設定における説明可能なクラスタリングの問題を検討した。 k$-クラスタ化は、各内部ノードが1つの次元でカットされたしきい値でデータポイントを分割し、各$k$の葉がクラスタに対応する決定木によって与えられる場合に説明できると言われている。 k$-mediansの目的に対して最適な(必ずしも説明できない)クラスタリングと比較して、最大で$o(\log^2 k)$を失う説明可能なクラスタリングを出力するアルゴリズムと、$k$-meansの目的に対して$o(k \log^2 k)$という係数を与える。 これは、以前の$O(k)$と$O(k^2)$よりも改善され、以前の$\Omega(\log k)$lowbound for $k$-mediansと、新しい$\Omega(k)$ lower bound for $k$-meansとほぼ一致する。 アルゴリズムは非常にシンプルです。 特に、$\mathbb{R}^d$ で必ずしも説明できない初期クラスタリングを考えると、データポイントに不利であり、時間$O(dk \log^2 k)$ で実行され、データポイントの数$n$ とは独立である。 我々の上界と下界は、より高い$\ell_p$-normsによって与えられる目的にも一般化される。

We study the problem of explainable clustering in the setting first formalized by Moshkovitz, Dasgupta, Rashtchian, and Frost (ICML 2020). A $k$-clustering is said to be explainable if it is given by a decision tree where each internal node splits data points with a threshold cut in a single dimension (feature), and each of the $k$ leaves corresponds to a cluster. We give an algorithm that outputs an explainable clustering that loses at most a factor of $O(\log^2 k)$ compared to an optimal (not necessarily explainable) clustering for the $k$-medians objective, and a factor of $O(k \log^2 k)$ for the $k$-means objective. This improves over the previous best upper bounds of $O(k)$ and $O(k^2)$, respectively, and nearly matches the previous $\Omega(\log k)$ lower bound for $k$-medians and our new $\Omega(k)$ lower bound for $k$-means. The algorithm is remarkably simple. In particular, given an initial not necessarily explainable clustering in $\mathbb{R}^d$, it is oblivious to the data points and runs in time $O(dk \log^2 k)$, independent of the number of data points $n$. Our upper and lower bounds also generalize to objectives given by higher $\ell_p$-norms.
翻訳日:2021-07-01 15:18:17 公開日:2021-06-30
# 分散ディープニューラルネットワークを用いた有限フロントホールセルフリーハイブリッドビームフォーミング

Limited-Fronthaul Cell-Free Hybrid Beamforming with Distributed Deep Neural Network ( http://arxiv.org/abs/2106.16194v1 )

ライセンス: Link先を確認
Hamed Hojatian, Jeremy Nadal, Jean-Francois Frigon, and Francois Leduc-Primeau(参考訳) セルフリーの大規模MIMO (CF-mMIMO) システムは,無線通信システムのスペクトル効率を高めるための有望なアプローチである。 しかし、ほぼ最適解法はアクセスポイント(AP)とネットワークコントローラ(NC)の間で大量の信号交換を必要とする。 さらに、ハイブリッドビームフォーミングを各APで使用すると、空腹のRF鎖の数が減少するが、ほぼ最適なプリコーダを見つけるには計算の複雑さが大きい。 本稿では,2つの非教師付きディープニューラルネットワーク(DNN)アーキテクチャを提案する。このアーキテクチャは,APとNC間の通信オーバーヘッドがゼロあるいは制限された協調ハイブリッドビームフォーミングを実現することができる。

Cell-free massive MIMO (CF-mMIMO) systems represent a promising approach to increase the spectral efficiency of wireless communication systems. However, near-optimal solutions require a large amount of signaling exchange between access points (APs) and the network controller (NC). In addition, the use of hybrid beamforming in each AP reduces the number of power hungry RF chains, but imposes a large computational complexity to find near-optimal precoders. In this letter, we propose two unsupervised deep neural networks (DNN) architectures, fully and partially distributed, that can perform coordinated hybrid beamforming with zero or limited communication overhead between APs and NC, while achieving near-optimal sum-rate with a reduced computational complexity compared to conventional near-optimal solutions.
翻訳日:2021-07-01 15:17:48 公開日:2021-06-30
# 最適応答と相互整合性を緩和するための有界合理性:部分的自己参照の情報理論モデル

Bounded rationality for relaxing best response and mutual consistency: An information-theoreti c model of partial self-reference ( http://arxiv.org/abs/2106.15844v1 )

ライセンス: Link先を確認
Benjamin Patrick Evans, Mikhail Prokopenko(参考訳) ゲーム理論は意思決定に変換的であるが、ある場合においては仮定は過度に制限的である。 本研究は,相互整合性や最良応答性などの理性性の仮定に焦点をあて,レベル=k$推論と量子応答平衡(QRE)の概念を用いて,これらの仮定を緩和する方法を検討する。 具体的には、相互整合性と最適応答性の両方を緩和できる情報理論2パラメータモデルを提供するが、制限ケースにおけるレベル-k$、QRE、あるいは典型的なナッシュ平衡挙動の近似を復元することができる。 提案手法は, 変分自由エネルギー原理の帰納的形式に基づき, 自己参照ゲーム(pseudo)を逐次決定として表現する。 プレイヤーの処理能力の限界は情報コストとして捉えられ、将来の推論チェーンは割引され、低レベルのプレイヤーが処理リソースが少ないプレイヤー階層を意味する。

While game theory has been transformative for decision-making, the assumptions made can be overly restrictive in certain instances. In this work, we focus on some of the assumptions underlying rationality such as mutual consistency and best-response, and consider ways to relax these assumptions using concepts from level-$k$ reasoning and quantal response equilibrium (QRE) respectively. Specifically, we provide an information-theoreti c two-parameter model that can relax both mutual consistency and best-response, but can recover approximations of level-$k$, QRE, or typical Nash equilibrium behaviour in the limiting cases. The proposed approach is based on a recursive form of the variational free energy principle, representing self-referential games as (pseudo) sequential decisions. Bounds in player processing abilities are captured as information costs, where future chains of reasoning are discounted, implying a hierarchy of players where lower-level players have fewer processing resources.
翻訳日:2021-07-01 15:17:16 公開日:2021-06-30
# ウナウェアフェアネス:保護クラスのための階層型ランダムフォレスト

Unaware Fairness: Hierarchical Random Forest for Protected Classes ( http://arxiv.org/abs/2106.15767v1 )

ライセンス: Link先を確認
Xian Li(参考訳) 手続き的公正性は公的な関心事であり、人種、社会的地位、障害などの保護された階級に関する決定を行う際に論争を引き起こしている。 いくつかの保護されたクラスは、人種の姓や位置といった安全なプロキシに基づいて推論することができる。 したがって、関連するプロキシに基づいて予測された保護クラスを暗黙的に活用することは、この問題を回避し、単に決定を求めるための効率的なアプローチである。 本稿では,保護クラスを明示的に含まない階層型ランダム森林モデルを提案する。 階層的ランダム森林モデルの性能を示すためのシミュレーション実験を行った。 例えば、ボストン警察のインタビュー記録から、提案モデルの有用性を説明するために分析される。

Procedural fairness has been a public concern, which leads to controversy when making decisions with respect to protected classes, such as race, social status, and disability. Some protected classes can be inferred according to some safe proxies like surname and geolocation for the race. Hence, implicitly utilizing the predicted protected classes based on the related proxies when making decisions is an efficient approach to circumvent this issue and seek just decisions. In this article, we propose a hierarchical random forest model for prediction without explicitly involving protected classes. Simulation experiments are conducted to show the performance of the hierarchical random forest model. An example is analyzed from Boston police interview records to illustrate the usefulness of the proposed model.
翻訳日:2021-07-01 15:16:15 公開日:2021-06-30
# クープマンスペクトル非線形レギュレータとオンライン学習

Koopman Spectrum Nonlinear Regulator and Provably Efficient Online Learning ( http://arxiv.org/abs/2106.15775v1 )

ライセンス: Link先を確認
Motoya Ohnishi, Isao Ishikawa, Kendall Lowrey, Masahiro Ikeda, Sham Kakade, Yoshinobu Kawahara(参考訳) 最近の強化学習アルゴリズムのほとんどは、軌道に沿って累積単段コストを最適化する。 最適化された動きはしばしば「不自然」であり、例えば、エネルギーを浪費し、予測可能性に欠ける突然の加速を伴う行動を表す。 本稿では,制御力学のクープマン作用素に対するコストとして,クープマンスペクトルコストの最小化を通した非線形システム制御の新しいパラダイムを提案する。 このことは、非線形発振器、閉ループ、滑らかな運動のような安定多様体上で進化するより広範な力学挙動のクラスを誘導する。 累積コストでは不可能であるいくつかのダイナミクス実現がこのパラダイムで実現可能であることを実証する。 さらに,いくつかの構造的前提の下でのサブ線形後悔を満足するオンライン学習アルゴリズムを提案する。

Most modern reinforcement learning algorithms optimize a cumulative single-step cost along a trajectory. The optimized motions are often 'unnatural', representing, for example, behaviors with sudden accelerations that waste energy and lack predictability. In this work, we present a novel paradigm of controlling nonlinear systems via the minimization of the Koopman spectrum cost: a cost over the Koopman operator of the controlled dynamics. This induces a broader class of dynamical behaviors that evolve over stable manifolds such as nonlinear oscillators, closed loops, and smooth movements. We demonstrate that some dynamics realizations that are not possible with a cumulative cost are feasible in this paradigm. Moreover, we present a provably efficient online learning algorithm for our problem that enjoys a sub-linear regret bound under some structural assumptions.
翻訳日:2021-07-01 15:16:05 公開日:2021-06-30
# 肺音響記録における事象検出のためのロバストかつ解釈可能な時間畳み込みネットワーク

Robust and Interpretable Temporal Convolution Network for Event Detection in Lung Sound Recordings ( http://arxiv.org/abs/2106.15835v1 )

ライセンス: Link先を確認
Tharindu Fernando, Sridha Sridharan, Simon Denman, Houman Ghaemmaghami, Clinton Fookes(参考訳) 本稿では, 連続的肺音記録を離散的イベントに分割し, 各イベントの認識を行う, 肺音イベント検出のための新しい枠組みを提案する。 時間的畳み込みネットワーク(tcns)の軽量な性質と,それよりも優れた結果を活用することで,肺音イベント検出のための軽量でロバストで完全に解釈可能な枠組みを提案する。 マルチブランチTCNアーキテクチャの利用を提案し、これらのブランチから得られる特徴を組み合わせるために、新しい融合戦略を利用する。 これにより、ネットワークは異なる時間的粒度の最も健全な情報を保持でき、無関係な情報を無視できるだけでなく、ネットワークが任意の長さの録音を処理できる。 結果: 本手法は, 吸入, 呼気, 呼気, ひび割れ, ホイーズ, ストリドール, ロンチなど, 多数の聴診イベントを同定するために, 呼吸聴診過程の不規則な記録とノイズ記録を, 公共および社内のベンチマークで評価した。 我々はあらゆる評価において最先端の結果を上回る。 さらに,提案するマルチブランチTCNアーキテクチャと機能融合戦略の効果を実証的に分析し,その効果を定量的かつ定性的に評価する。 さらに,提案フレームワークのすべてのコンポーネントの操作を解釈するエンドツーエンドモデル解釈パイプラインを提供する。 異なる特徴融合戦略を解析した結果,提案手法は非表現的特徴の抑制に寄与し,分類器のオーバーヘッドを大幅に削減し,堅牢な軽量ネットワークを実現することが示唆された。

This paper proposes a novel framework for lung sound event detection, segmenting continuous lung sound recordings into discrete events and performing recognition on each event. Exploiting the lightweight nature of Temporal Convolution Networks (TCNs) and their superior results compared to their recurrent counterparts, we propose a lightweight, yet robust, and completely interpretable framework for lung sound event detection. We propose the use of a multi-branch TCN architecture and exploit a novel fusion strategy to combine the resultant features from these branches. This not only allows the network to retain the most salient information across different temporal granularities and disregards irrelevant information, but also allows our network to process recordings of arbitrary length. Results: The proposed method is evaluated on multiple public and in-house benchmarks of irregular and noisy recordings of the respiratory auscultation process for the identification of numerous auscultation events including inhalation, exhalation, crackles, wheeze, stridor, and rhonchi. We exceed the state-of-the-art results in all evaluations. Furthermore, we empirically analyse the effect of the proposed multi-branch TCN architecture and the feature fusion strategy and provide quantitative and qualitative evaluations to illustrate their efficiency. Moreover, we provide an end-to-end model interpretation pipeline that interprets the operations of all the components of the proposed framework. Our analysis of different feature fusion strategies shows that the proposed feature concatenation method leads to better suppression of non-informative features, which drastically reduces the classifier overhead resulting in a robust lightweight network.The lightweight nature of our model allows it to be deployed in end-user devices such as smartphones, and it has the ability to generate predictions in real-time.
翻訳日:2021-07-01 15:15:53 公開日:2021-06-30
# PAPRおよびACLR制約を用いたOFDM波形のエンドツーエンド学習

End-to-End Learning of OFDM Waveforms with PAPR and ACLR Constraints ( http://arxiv.org/abs/2106.16039v1 )

ライセンス: Link先を確認
Mathieu Goutay, Fay\c{c}al Ait Aoudia, Jakob Hoydis, Jean-Marie Gorce(参考訳) 直交周波数分割多重化(OFDM)は、マルチパス環境の効率的な処理により、現代の無線ネットワークで広く利用されている。 しかし、パワーアンプ(PA)効率を低下させるため、大きな電源バックオフを必要とするピーク対平均パワー比(PAPR)の低下に悩まされる。 本研究では,送信機におけるニューラルネットワーク(NN)を用いて,PAPRと隣接チャネルリーク比(ACLR)を制御可能な高次元変調方式を学習することを提案する。 受信側では、送信されたビットのデマッピングを行うためにNNベースの受信機が実装される。 2つのNNはOFDM上で動作し、PAPRとACLRの制約を強制するトレーニングアルゴリズムを使用して、エンドツーエンドで共同最適化される。 シミュレーションの結果,学習波形は,事前定義されたPAPRとACLRの目標を満たすとともに,トーン予約ベースラインよりも高い情報レートを実現できることがわかった。

Orthogonal frequency-division multiplexing (OFDM) is widely used in modern wireless networks thanks to its efficient handling of multipath environment. However, it suffers from a poor peak-to-average power ratio (PAPR) which requires a large power backoff, degrading the power amplifier (PA) efficiency. In this work, we propose to use a neural network (NN) at the transmitter to learn a high-dimensional modulation scheme allowing to control the PAPR and adjacent channel leakage ratio (ACLR). On the receiver side, a NN-based receiver is implemented to carry out demapping of the transmitted bits. The two NNs operate on top of OFDM, and are jointly optimized in and end-to-end manner using a training algorithm that enforces constraints on the PAPR and ACLR. Simulation results show that the learned waveforms enable higher information rates than a tone reservation baseline, while satisfying predefined PAPR and ACLR targets.
翻訳日:2021-07-01 15:15:19 公開日:2021-06-30
# MU-MIMO OFDMシステムにおける機械学習による受信処理

Machine Learning-enhanced Receive Processing for MU-MIMO OFDM Systems ( http://arxiv.org/abs/2106.16074v1 )

ライセンス: Link先を確認
Mathieu Goutay, Fay\c{c}al Ait Aoudia, Jakob Hoydis, Jean-Marie Gorce(参考訳) 機械学習(ML)は、マルチユーザマルチインプットマルチアウトプット(MU-MIMO)の処理を改善するために様々な方法で使用することができる。 典型的なアプローチは、シンボル検出のような単一の処理ステップを強化するか、複数のステップを単一のニューラルネットワーク(nn)で置き換える。 これらの手法は有望な結果を示すが、しばしば完全なチャネル状態情報(csi)を仮定するか、実用システムによって課される解釈可能性とスケーラビリティの制約を満たさない。 本稿では,従来の受信機の利点を保ちつつ,MLコンポーネントによる特定部品の強化を図る新しい戦略を提案する。 鍵となるアイデアは、直交周波数分割多重化(ofdm)信号構造を利用して、デマッピングとチャネル推定誤差統計の計算を改善することである。 評価結果から,提案するML強化受信機は,すべてのシナリオにおいて実用的なベースラインを達成し,高速で顕著な利得を示した。

Machine learning (ML) can be used in various ways to improve multi-user multiple-input multiple-output (MU-MIMO) receive processing. Typical approaches either augment a single processing step, such as symbol detection, or replace multiple steps jointly by a single neural network (NN). These techniques demonstrate promising results but often assume perfect channel state information (CSI) or fail to satisfy the interpretability and scalability constraints imposed by practical systems. In this paper, we propose a new strategy which preserves the benefits of a conventional receiver, but enhances specific parts with ML components. The key idea is to exploit the orthogonal frequency-division multiplexing (OFDM) signal structure to improve both the demapping and the computation of the channel estimation error statistics. Evaluation results show that the proposed ML-enhanced receiver beats practical baselines on all considered scenarios, with significant gains at high speeds.
翻訳日:2021-07-01 15:15:04 公開日:2021-06-30
# (参考訳) forward kullback-leibler divergence を用いた重要サンプリングの変分補正 [全文訳有]

Variational Refinement for Importance Sampling Using the Forward Kullback-Leibler Divergence ( http://arxiv.org/abs/2106.15980v1 )

ライセンス: CC BY 4.0
Ghassen Jerfel, Serena Wang, Clara Fannjiang, Katherine A. Heller, Yian Ma, Michael I. Jordan(参考訳) 変分推論(VI)は、ベイズ推論における漸近的正確なサンプリングの代替として人気がある。 主なワークホースは、逆のクルバック・リーブラー分岐(RKL)に対する最適化であり、通常は後部の尾を過小評価して誤校正や潜在的な退化をもたらす。 一方、重要サンプリング(is)は、近似ベイズ推定法の推定を微調整し、バイアスを緩和するためにしばしば用いられる。 ISの質は、提案の配布の選択に大きく依存する。 理想的には、提案分布はターゲットよりも重く、RKLを最小化することで達成されることは滅多にない。 本研究では,前方kl(fkl)分岐の最小化によるis提案分布を構築し,近似ベイズ推定のための新しい最適化とサンプリング手法を提案する。 このアプローチは、最適IS推定器と最適変分近似の両方に対する漸近一貫性と高速収束を保証する。 実データから,本手法は変動促進とMCMCと競合することを示す。

Variational Inference (VI) is a popular alternative to asymptotically exact sampling in Bayesian inference. Its main workhorse is optimization over a reverse Kullback-Leibler divergence (RKL), which typically underestimates the tail of the posterior leading to miscalibration and potential degeneracy. Importance sampling (IS), on the other hand, is often used to fine-tune and de-bias the estimates of approximate Bayesian inference procedures. The quality of IS crucially depends on the choice of the proposal distribution. Ideally, the proposal distribution has heavier tails than the target, which is rarely achievable by minimizing the RKL. We thus propose a novel combination of optimization and sampling techniques for approximate Bayesian inference by constructing an IS proposal distribution through the minimization of a forward KL (FKL) divergence. This approach guarantees asymptotic consistency and a fast convergence towards both the optimal IS estimator and the optimal variational approximation. We empirically demonstrate on real data that our method is competitive with variational boosting and MCMC.
翻訳日:2021-07-01 15:13:30 公開日:2021-06-30
# (参考訳) マルチビュー映像情報の導入による自転車軌道予測 [全文訳有]

Cyclist Trajectory Forecasts by Incorporation of Multi-View Video Information ( http://arxiv.org/abs/2106.15991v1 )

ライセンス: CC BY-SA 4.0
Stefan Zernetsch and Oliver Trupp and Viktor Kress and Konrad Doll and Bernhard Sick(参考訳) 本稿では,都市交差点に設置した広角ステレオカメラシステムからの映像データからの視覚手がかりを,自転車の軌道予測に組み込む新しい手法を提案する。 我々は,3次元畳み込みニューラルネットワーク(3D-ConvNet)を用いて,画像および光フロー(OF)配列から特徴を抽出し,サイクリストの過去の軌道から抽出した特徴と組み合わせ,将来のサイクリストの位置を予測する。 追加情報を用いることで,過去のトラジェクタのみに基づく手法と比較して,テストデータセットで約7.5%,特定動作タイプで最大22%の位置精度を向上させることができる。 さらに,画像列の使用と追加情報としてのシーケンスの使用を比較し,単独で位置精度が大幅に向上することを示す。 頻繁な公開交差点で記録された実世界のデータセットを使用してメソッドのトレーニングとテストを行い、実際のトラフィックシナリオにおける適用性を示す。 私たちのコードとデータセットの一部が公開されています。

This article presents a novel approach to incorporate visual cues from video-data from a wide-angle stereo camera system mounted at an urban intersection into the forecast of cyclist trajectories. We extract features from image and optical flow (OF) sequences using 3D convolutional neural networks (3D-ConvNet) and combine them with features extracted from the cyclist's past trajectory to forecast future cyclist positions. By the use of additional information, we are able to improve positional accuracy by about 7.5 % for our test dataset and by up to 22 % for specific motion types compared to a method solely based on past trajectories. Furthermore, we compare the use of image sequences to the use of OF sequences as additional information, showing that OF alone leads to significant improvements in positional accuracy. By training and testing our methods using a real-world dataset recorded at a heavily frequented public intersection and evaluating the methods' runtimes, we demonstrate the applicability in real traffic scenarios. Our code and parts of our dataset are made publicly available.
翻訳日:2021-07-01 14:53:02 公開日:2021-06-30
# (参考訳) 資源制約型デバイス用変圧器の効率向上 [全文訳有]

Improving the Efficiency of Transformers for Resource-Constrained Devices ( http://arxiv.org/abs/2106.16006v1 )

ライセンス: CC BY 4.0
Hamid Tabani, Ajay Balasubramaniam, Shabbir Marzban, Elahe Arani, Bahram Zonooz(参考訳) トランスフォーマーは有望な精度を提供し、自然言語処理やコンピュータビジョンといった様々な領域で広く使われています。 しかし、膨大な数のモデルパラメータ、メモリおよび計算要求のため、リソース制約された低消費電力デバイスには適さない。 高性能で特殊なデバイスであっても、メモリ帯域幅はパフォーマンス制限ボトルネックとなる。 本稿では,複数のデバイスにおける最先端の視覚トランスフォーマの性能解析を行う。 モデルパラメータをクラスタリングすることにより、メモリフットプリントとメモリ転送全体の削減を提案する。 モデルパラメータを表現するために64クラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減し、最大22%の高速化と39%の省エネを実現し、精度の0.1%未満のモバイルデバイスで処理できることを示した。

Transformers provide promising accuracy and have become popular and used in various domains such as natural language processing and computer vision. However, due to their massive number of model parameters, memory and computation requirements, they are not suitable for resource-constrained low-power devices. Even with high-performance and specialized devices, the memory bandwidth can become a performance-limiting bottleneck. In this paper, we present a performance analysis of state-of-the-art vision transformers on several devices. We propose to reduce the overall memory footprint and memory transfers by clustering the model parameters. We show that by using only 64 clusters to represent model parameters, it is possible to reduce the data transfer from the main memory by more than 4x, achieve up to 22% speedup and 39% energy savings on mobile devices with less than 0.1% accuracy loss.
翻訳日:2021-07-01 14:40:10 公開日:2021-06-30
# (参考訳) relational vae: グラフ構造化データのための連続的潜在変数モデル [全文訳有]

Relational VAE: A Continuous Latent Variable Model for Graph Structured Data ( http://arxiv.org/abs/2106.16049v1 )

ライセンス: CC BY 4.0
Charilaos Mylonas, Imad Abdallah and Eleni Chatzi(参考訳) グラフネットワーク(GN)は、フレキシブル関数近似による事前知識と関係推論の融合を可能にする。 本研究では,GNのリレーショナルモデリング能力をフル活用し,変分ベイズ(VB)を用いた確率的モデリングに拡張した一般GNモデルを提案する。 そこで我々は,グラフデータに対するVBの相補的な既存アプローチを組み合わせるとともに,グラフ構造化潜在変数と条件変数に依存するアプローチを提案する。 また,提案モデルのレンズを通しての神経過程の観察も可能であることを実証した。 本論文は,シミュレーションおよび実風力発電モニタリングデータに対する構造的確率密度モデリングの問題と,シミュレーションガウス過程データのメタラーニングへの応用について述べる。 シミュレーションデータセットとともにソースコードをリリースします。

Graph Networks (GNs) enable the fusion of prior knowledge and relational reasoning with flexible function approximations. In this work, a general GN-based model is proposed which takes full advantage of the relational modeling capabilities of GNs and extends these to probabilistic modeling with Variational Bayes (VB). To that end, we combine complementary pre-existing approaches on VB for graph data and propose an approach that relies on graph-structured latent and conditioning variables. It is demonstrated that Neural Processes can also be viewed through the lens of the proposed model. We show applications on the problem of structured probability density modeling for simulated and real wind farm monitoring data, as well as on the meta-learning of simulated Gaussian Process data. We release the source code, along with the simulated datasets.
翻訳日:2021-07-01 14:26:25 公開日:2021-06-30
# (参考訳) 自己監督型学習における隠れ構造の導入 [全文訳有]

Leveraging Hidden Structure in Self-Supervised Learning ( http://arxiv.org/abs/2106.16060v1 )

ライセンス: CC BY 4.0
Emanuele Sansone(参考訳) 本研究は,自己教師付き学習を用いて生画像から構造化表現を学習する問題を考察する。 本稿では,自己指導と構造学習を統合した相互情報目的に基づく原則的枠組みを提案する。 さらに,学習した表現の意味を解釈するためのポストホックな手順を考案した。 CIFAR-10の予備実験により、提案フレームワークは下流の分類タスクにおいて高い一般化性能を達成し、従来の自己教師あり学習よりも解釈可能な表現を提供することを示した。

This work considers the problem of learning structured representations from raw images using self-supervised learning. We propose a principled framework based on a mutual information objective, which integrates self-supervised and structure learning. Furthermore, we devise a post-hoc procedure to interpret the meaning of the learnt representations. Preliminary experiments on CIFAR-10 show that the proposed framework achieves higher generalization performance in downstream classification tasks and provides more interpretable representations compared to the ones learnt through traditional self-supervised learning.
翻訳日:2021-07-01 14:06:47 公開日:2021-06-30
# (参考訳) オートエンコーダの潜在空間に対する介入アッセイ

Interventional Assays for the Latent Space of Autoencoders ( http://arxiv.org/abs/2106.16091v1 )

ライセンス: CC BY 4.0
Felix Leeb, Stefan Bauer, Bernhard Sch\"olkopf(参考訳) オートエンコーダのエンコーダとデコーダは、それぞれ潜在空間とデータ空間の学習多様体に入力を効果的に投影する。 我々は,潜時空間における介入を用いて学習データ多様体を探索する,潜時応答と呼ばれる枠組みを提案する。 この枠組みを用いて、訓練されたvaeの潜在空間が選択された事前値とどの程度一致しているかを定量的に確認するための表現における「ホール」について検討する。 さらに, 同定された構造を用いて, 潜在ベクトル間の補間を改善する。 各種ベンチマークデータセットのVAEを用いて,本分析によって生成したサンプルの品質が向上するかを評価する。

The encoders and decoders of autoencoders effectively project the input onto learned manifolds in the latent space and data space respectively. We propose a framework, called latent responses, for probing the learned data manifold using interventions in the latent space. Using this framework, we investigate "holes" in the representation to quantitatively ascertain to what extent the latent space of a trained VAE is consistent with the chosen prior. Furthermore, we use the identified structure to improve interpolation between latent vectors. We evaluate how our analyses improve the quality of the generated samples using the VAE on a variety of benchmark datasets.
翻訳日:2021-07-01 13:53:19 公開日:2021-06-30
# (参考訳) 3次元視界の小さな分布変化と照明はCNNとトランスフォーマーの両方を騙す [全文訳有]

Small in-distribution changes in 3D perspective and lighting fool both CNNs and Transformers ( http://arxiv.org/abs/2106.16198v1 )

ライセンス: CC BY 4.0
Spandan Madan, Tomotake Sasaki, Tzu-Mao Li, Xavier Boix, Hanspeter Pfister(参考訳) ニューラルネットワークは、2次元回転やシフト、画像作物、さらにはオブジェクトの色の変化など、小さな変換に影響を受けやすい。 これは、トレーニングデータセットのバイアスと、サンプリング定理を尊重しないため、2次元シフト不変性の欠如に起因することが多い。 本稿では,偏りのないデータセットをトレーニングし,テストすることで,ネットワークが小さな3次元視点の変化や,データセットのバイアスやシフト不変性の欠如で説明できない光の変動に対して脆弱であることを示す。 これらの分散エラーを見つけるために,我々はCMA-Searchと呼ぶ進化戦略(ES)ベースのアプローチを導入する。 大規模(0.5万枚の画像)でのトレーニング、カメラの偏りのないデータセットと光の変動にもかかわらず、71%以上のケースでCMA-Searchは、正しく分類された画像の近傍でカメラパラメータを見つけることができ、パラメータが3.6%変化した。 照明の変更により、CMA-Searchはパラメータが11.6%以下の33%のケースで誤分類を発見した。 最後に、この手法を拡張して、ResNetとOpenAIのCLIPモデルの両方に対して、ImageNet画像の近傍で誤分類を見つける。

Neural networks are susceptible to small transformations including 2D rotations and shifts, image crops, and even changes in object colors. This is often attributed to biases in the training dataset, and the lack of 2D shift-invariance due to not respecting the sampling theorem. In this paper, we challenge this hypothesis by training and testing on unbiased datasets, and showing that networks are brittle to both small 3D perspective changes and lighting variations which cannot be explained by dataset bias or lack of shift-invariance. To find these in-distribution errors, we introduce an evolution strategies (ES) based approach, which we call CMA-Search. Despite training with a large-scale (0.5 million images), unbiased dataset of camera and light variations, in over 71% cases CMA-Search can find camera parameters in the vicinity of a correctly classified image which lead to in-distribution misclassifications with < 3.6% change in parameters. With lighting changes, CMA-Search finds misclassifications in 33% cases with < 11.6% change in parameters. Finally, we extend this method to find misclassifications in the vicinity of ImageNet images for both ResNet and OpenAI's CLIP model.
翻訳日:2021-07-01 13:49:48 公開日:2021-06-30
# (参考訳) モノトニックで(弱く)スケーラブルなニューラルネットワークの固定点 [全文訳有]

Fixed points of monotonic and (weakly) scalable neural networks ( http://arxiv.org/abs/2106.16239v1 )

ライセンス: CC BY 4.0
Tomasz Piotrowski and Renato L. G. Cavalcante(参考訳) ニューラルネットワークの固定点の存在条件を導出し、オートエンコーダやループアンロール技術を含む現代のアプリケーションにおいて、その動作を理解するための重要な研究目的である。 特に、文献でよく見られるように、非負の入力と非負のネットワークパラメータを持つネットワークに焦点を当てる。 このようなネットワークは、非線形ペロン・フロベニウス理論の枠組みの中で単調かつ(弱く)スケーラブルな関数として認識できることを示す。 この事実により、ニューラルネットワークの空でない固定点集合の存在の条件を導出することができ、これらの条件は、一般に活性化関数の非指数性の仮定に基づく凸解析において最近得られた条件よりも弱い。 さらに,モノトニックかつ弱スケーラブルなニューラルネットワークの不動点集合の形状は,しばしば間隔であり,スケーラブルネットワークの場合の一点に縮退する。 本研究の主な結果は数値シミュレーションで検証され,大容量MIMOシステムにおいてまず角電力スペクトルを圧縮するオートエンコーダ型ネットワークと,圧縮信号から入力スペクトルを再構成する手法について考察する。

We derive conditions for the existence of fixed points of neural networks, an important research objective to understand their behavior in modern applications involving autoencoders and loop unrolling techniques, among others. In particular, we focus on networks with nonnegative inputs and nonnegative network parameters, as often considered in the literature. We show that such networks can be recognized as monotonic and (weakly) scalable functions within the framework of nonlinear Perron-Frobenius theory. This fact enables us to derive conditions for the existence of a nonempty fixed point set of the neural networks, and these conditions are weaker than those obtained recently using arguments in convex analysis, which are typically based on the assumption of nonexpansivity of the activation functions. Furthermore, we prove that the shape of the fixed point set of monotonic and weakly scalable neural networks is often an interval, which degenerates to a point for the case of scalable networks. The chief results of this paper are verified in numerical simulations, where we consider an autoencoder-type network that first compresses angular power spectra in massive MIMO systems, and, second, reconstruct the input spectra from the compressed signal.
翻訳日:2021-07-01 13:43:56 公開日:2021-06-30
# (参考訳) Few-Shot 分類における MAML と Excel のトレーニング方法 [全文訳有]

How to Train Your MAML to Excel in Few-Shot Classification ( http://arxiv.org/abs/2106.16245v1 )

ライセンス: CC BY 4.0
Han-Jia Ye, Wei-Lun Chao(参考訳) モデル非依存型メタラーニング(maml)は、様々なモデルアーキテクチャを取り入れ、様々な問題に適用できる柔軟性を考えると、現在最も人気のあるメタラーニングアルゴリズムである。 それでも、少数ショットの分類におけるその性能は、この問題に特化している最近の多くのアルゴリズムに及ばない。 本稿では,MAMLの訓練方法のいくつかの重要な側面を指摘する。 まず、インナーループ更新には多数の勾配ステップが必要であることが分かり、これは数ショット分類におけるMAMLの一般的な使用法とは矛盾する。 第二に、MAMLはメタテストにおけるクラス代入の置換に敏感である:数ショットの$N$クラスに対して、学習した$N$-wayクラスの初期化を$N$クラスに割り当てる方法は指数関数的に多く存在し、必然的に大きなばらつきをもたらす。 第3に、置換不変性のいくつかの方法を調査し、すべてのクラスに対する共有分類子の初期化の学習が最善であることを示す。 MiniImageNetやTieredImageNetといったベンチマークデータセットでは、UNICORN-MAMLと名づけた我々のアプローチは、最先端のアルゴリズムに匹敵するパフォーマンスを保ちながら、追加のサブネットワークを追加せずにMAMLの単純さを維持する。

Model-agnostic meta-learning (MAML) is arguably the most popular meta-learning algorithm nowadays, given its flexibility to incorporate various model architectures and to be applied to different problems. Nevertheless, its performance on few-shot classification is far behind many recent algorithms dedicated to the problem. In this paper, we point out several key facets of how to train MAML to excel in few-shot classification. First, we find that a large number of gradient steps are needed for the inner loop update, which contradicts the common usage of MAML for few-shot classification. Second, we find that MAML is sensitive to the permutation of class assignments in meta-testing: for a few-shot task of $N$ classes, there are exponentially many ways to assign the learned initialization of the $N$-way classifier to the $N$ classes, leading to an unavoidably huge variance. Third, we investigate several ways for permutation invariance and find that learning a shared classifier initialization for all the classes performs the best. On benchmark datasets such as MiniImageNet and TieredImageNet, our approach, which we name UNICORN-MAML, performs on a par with or even outperforms state-of-the-art algorithms, while keeping the simplicity of MAML without adding any extra sub-networks.
翻訳日:2021-07-01 13:09:44 公開日:2021-06-30
# 感性分析のための自動生成カウンタの有効性を探る

Exploring the Efficacy of Automatically Generated Counterfactuals for Sentiment Analysis ( http://arxiv.org/abs/2106.15231v2 )

ライセンス: Link先を確認
Linyi Yang, Jiazheng Li, P\'adraig Cunningham, Yue Zhang, Barry Smyth, Ruihai Dong(参考訳) 近年、最先端nlpモデルが幅広いタスクの優れた性能を達成している一方で、トレーニングやテストデータに存在するような体系的バイアスに対するロバスト性とその基盤となる感度について、重要な疑問が提起されている。 このような問題は、フィールドのアウト・オブ・ディストリビューションデータに直面すると、パフォーマンス問題に現れます。 最近のソリューションの1つは、元のデータに存在する可能性のあるスプリアスパターンへの依存を減らすために、逆さまに拡張されたデータセットを使用することだった。 人間のフィードバックやクラウドソーシングの努力を必要とするため、高品質なデータの生成にはコストと時間を要する。 本研究では,データ拡張と説明のための反実データの自動生成手法を記述し,評価する手法を提案する。 いくつかの異なるデータセットを包括的に評価し、さまざまな最先端ベンチマークを用いて、我々のアプローチが、原データでのモデルトレーニングや、人間の生成した拡張データの恩恵を受けたモデルと比較しても、モデルパフォーマンスの大幅な改善を実現する方法を示している。

While state-of-the-art NLP models have been achieving the excellent performance of a wide range of tasks in recent years, important questions are being raised about their robustness and their underlying sensitivity to systematic biases that may exist in their training and test data. Such issues come to be manifest in performance problems when faced with out-of-distribution data in the field. One recent solution has been to use counterfactually augmented datasets in order to reduce any reliance on spurious patterns that may exist in the original data. Producing high-quality augmented data can be costly and time-consuming as it usually needs to involve human feedback and crowdsourcing efforts. In this work, we propose an alternative by describing and evaluating an approach to automatically generating counterfactual data for data augmentation and explanation. A comprehensive evaluation on several different datasets and using a variety of state-of-the-art benchmarks demonstrate how our approach can achieve significant improvements in model performance when compared to models training on the original data and even when compared to models trained with the benefit of human-generated augmented data.
翻訳日:2021-07-01 12:44:58 公開日:2021-06-30
# 分類因子を持つビッグデータを用いたデータ駆動設計のためのスケーラブルガウスプロセス

Scalable Gaussian Processes for Data-Driven Design using Big Data with Categorical Factors ( http://arxiv.org/abs/2106.15356v2 )

ライセンス: Link先を確認
Liwei Wang, Suraj Yerramilli, Akshay Iyer, Daniel Apley, Ping Zhu, Wei Chen(参考訳) 科学と工学の問題は、しばしば理解と有望な設計の探索を支援するために人工知能を使用する必要がある。 ガウス過程(GP)は、使いやすく解釈可能な学習者として際立っているが、大きなデータセット、分類的な入力、複数の応答の調整が困難であり、多くのデータ駆動設計アプリケーションにとって共通の課題となっている。 本稿では,上記の課題を同時に解決するために,変動推論によって得られる潜在変数と関数を利用するgpモデルを提案する。 この手法は遅延変数ガウス過程(LVGP)モデルに基づいて構築され、分類因子を連続的な潜在空間にマッピングすることで、混合変数データセットのGPモデリングを可能にする。 変分推論をLVGPモデルに拡張することにより、大規模なトレーニングデータセットは、スケーラビリティ問題に対処するための小さなインジェクションポイントセットに置き換えられる。 出力応答ベクトルは独立した潜在関数の線形結合によって表現され、異なる振る舞いを持つ複数の応答を扱う柔軟なカーネル構造を形成する。 比較研究により,提案手法は10^4以上のデータポイントを持つ大規模データセットに対して,高パラメータチューニングを必要とせず,最先端の機械学習手法よりも優れていることが示された。 さらに, メタマテリアルや材料設計における建築ブロックの構成要素や要素選択など, カテゴリー的要因の影響を解明するために, 解釈可能な潜伏空間が得られた。 本手法は, 3元系酸化物材料の機械学習と, 周期的マイクロ構造と複数材料を有する多スケール適合機構のトポロジー最適化に有効である。

Scientific and engineering problems often require the use of artificial intelligence to aid understanding and the search for promising designs. While Gaussian processes (GP) stand out as easy-to-use and interpretable learners, they have difficulties in accommodating big datasets, categorical inputs, and multiple responses, which has become a common challenge for a growing number of data-driven design applications. In this paper, we propose a GP model that utilizes latent variables and functions obtained through variational inference to address the aforementioned challenges simultaneously. The method is built upon the latent variable Gaussian process (LVGP) model where categorical factors are mapped into a continuous latent space to enable GP modeling of mixed-variable datasets. By extending variational inference to LVGP models, the large training dataset is replaced by a small set of inducing points to address the scalability issue. Output response vectors are represented by a linear combination of independent latent functions, forming a flexible kernel structure to handle multiple responses that might have distinct behaviors. Comparative studies demonstrate that the proposed method scales well for large datasets with over 10^4 data points, while outperforming state-of-the-art machine learning methods without requiring much hyperparameter tuning. In addition, an interpretable latent space is obtained to draw insights into the effect of categorical factors, such as those associated with building blocks of architectures and element choices in metamaterial and materials design. Our approach is demonstrated for machine learning of ternary oxide materials and topology optimization of a multiscale compliant mechanism with aperiodic microstructures and multiple materials.
翻訳日:2021-07-01 12:44:39 公開日:2021-06-30
# ElephantBook:elephan t再同定のための半自動ロボットシステム

ElephantBook: A Semi-Automated Human-in-the-Loop System for Elephant Re-Identification ( http://arxiv.org/abs/2106.15083v2 )

ライセンス: Link先を確認
Peter Kulits and Jake Wall and Anka Bedetti and Michelle Henley and Sara Beery(参考訳) アフリカゾウは生態系にとって不可欠であるが、ヒトとエレファントとの紛争や密猟の高まりによって人口が脅かされている。 個体群動態のモニタリングは保全活動に不可欠であるが、ゾウの追跡は難しい作業であり、通常はgps首輪の侵入的かつ時には危険な配置に依存している。 コンピュータビジョン技術を用いて他の種の自動識別に成功してきたが、象の識別は非常に困難であり、一般的には個体群の象に精通するだけでなく専門知識も必要である。 我々は,手作業による属性ラベリングと最新のコンピュータビジョンアルゴリズムを組み合わせたエレファントの再識別のためのwebベースのプラットフォームとデータベースを構築し,デプロイした。 当システムは現在マラゾウプロジェクトで使用されており,マサイ・マラ生態系におけるゾウの保護および絶滅危惧種の監視を支援している。 ElephantBookは、非専門家が象を再識別し、複数の保護NGOで使用するためにスケーラブルにする。

African elephants are vital to their ecosystems, but their populations are threatened by a rise in human-elephant conflict and poaching. Monitoring population dynamics is essential in conservation efforts; however, tracking elephants is a difficult task, usually relying on the invasive and sometimes dangerous placement of GPS collars. Although there have been many recent successes in the use of computer vision techniques for automated identification of other species, identification of elephants is extremely difficult and typically requires expertise as well as familiarity with elephants in the population. We have built and deployed a web-based platform and database for human-in-the-loop re-identification of elephants combining manual attribute labeling and state-of-the-art computer vision algorithms, known as ElephantBook. Our system is currently in use at the Mara Elephant Project, helping monitor the protected and at-risk population of elephants in the Greater Maasai Mara ecosystem. ElephantBook makes elephant re-identification usable by non-experts and scalable for use by multiple conservation NGOs.
翻訳日:2021-07-01 12:44:15 公開日:2021-06-30
# タスクインフォームド抽象化の学習

Learning Task Informed Abstractions ( http://arxiv.org/abs/2106.15612v2 )

ライセンス: Link先を確認
Xiang Fu, Ge Yang, Pulkit Agrawal, Tommi Jaakkola(参考訳) 現在のモデルベース強化学習法は,タスク関連特徴の優先順位付けができないため,複雑な視覚シーンからの操作に苦慮している。 この問題を軽減するために,報酬関係の視覚的特徴を障害から明確に分離するタスク情報抽象化(TIA)の学習を提案する。 タスクインフォームドmdp (timdp) の形式化は,協調的再構築によって視覚特徴を学習する2つのモデルを訓練することで実現されるが,1つのモデルでは報酬信号から相反的に分離される。 経験的評価により、tiaは多くのビジュアルコントロールタスクにおいて最先端のメソッドよりも大きなパフォーマンス向上をもたらすことが示されている。

Current model-based reinforcement learning methods struggle when operating from complex visual scenes due to their inability to prioritize task-relevant features. To mitigate this problem, we propose learning Task Informed Abstractions (TIA) that explicitly separates reward-correlated visual features from distractors. For learning TIA, we introduce the formalism of Task Informed MDP (TiMDP) that is realized by training two models that learn visual features via cooperative reconstruction, but one model is adversarially dissociated from the reward signal. Empirical evaluation shows that TIA leads to significant performance gains over state-of-the-art methods on many visual control tasks where natural and unconstrained visual distractions pose a formidable challenge.
翻訳日:2021-07-01 12:43:56 公開日:2021-06-30
# ニューラル音声合成に関する調査研究

A Survey on Neural Speech Synthesis ( http://arxiv.org/abs/2106.15561v2 )

ライセンス: Link先を確認
Xu Tan, Tao Qin, Frank Soong, Tie-Yan Liu(参考訳) text to speech(tts)または speech synthesis(音声合成)は、言語、言語、機械学習のコミュニティにおいてホットな研究テーマであり、業界に広く応用されている。 ディープラーニングと人工知能の発展に伴い、ニューラルネットワークベースのTSは、近年、合成音声の品質を大幅に改善している。 本稿では,ニューラルTSに関する総合的な調査を行い,現在の研究状況と今後の動向をよく理解することを目的としている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネント、高速TS、低リソースTS、ロバストTS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。 さらに、ttsに関連するリソース(データセット、オープンソース実装など)を要約し、今後の研究の方向性について論じる。 この調査は、TSに携わる学術研究者と業界実践者の両方に役立てることができる。

Text to speech (TTS), or speech synthesis, which aims to synthesize intelligible and natural speech given text, is a hot research topic in speech, language, and machine learning communities and has broad applications in the industry. As the development of deep learning and artificial intelligence, neural network-based TTS has significantly improved the quality of synthesized speech in recent years. In this paper, we conduct a comprehensive survey on neural TTS, aiming to provide a good understanding of current research and future trends. We focus on the key components in neural TTS, including text analysis, acoustic models and vocoders, and several advanced topics, including fast TTS, low-resource TTS, robust TTS, expressive TTS, and adaptive TTS, etc. We further summarize resources related to TTS (e.g., datasets, opensource implementations) and discuss future research directions. This survey can serve both academic researchers and industry practitioners working on TTS.
翻訳日:2021-07-01 12:43:41 公開日:2021-06-30
# GuidedMix-Net:ラベル付き画像を参照して擬似マスクを改善する学習

GuidedMix-Net: Learning to Improve Pseudo Masks Using Labeled Images as Reference ( http://arxiv.org/abs/2106.15064v2 )

ライセンス: Link先を確認
Peng Tu, Yawen Huang, Rongrong Ji, Feng Zheng, Ling Shao(参考訳) 半教師付き学習は、限られた数のラベル付き例から学習することでモデルを構築することを目的とした課題である。 この問題に取り組むために多くの方法が提案されており、ほとんどがネットワークを正規化するためにラベルなしインスタンス一貫性の予測を活用することに重点を置いている。 しかし、ラベル付きとラベルなしのデータを別々に扱うと、ラベル付き例から学んだ大量の事前知識が破棄され、ラベル付きとラベルなしの画像ペア間の特徴的相互作用を掘り起こせなくなることが多い。 本稿では,ラベルなしインスタンスの学習を指導するためにラベル付き情報を活用することで,半教師付き意味セグメンテーションのための新しい手法であるguidedmix-netを提案する。 具体的には,ラベル付きデータとラベル付きデータとの間の特徴アライメント目標を導入し,類似する画像ペアをキャプチャし,それらから混合入力を生成する。 クラスタ仮定に基づく相互情報伝達 (MITrans) は, 混合データ空間におけるラベルなしデータのより高度な精細化のための強力な知識モジュールであることが示されている。 ラベル付きサンプルを利用してラベルなしデータ学習をガイドするために,ラベルなしデータに対して高品質な擬似マスクを生成するマスク生成モジュールを提案する。 ラベル付きデータの教師付き学習とともに、ラベルなしデータの予測を混合データから生成された擬似マスクと共同で学習する。 PASCAL VOC 2012において,PASCAL-ContextとCityscapesの広範な実験により,競争的セグメンテーション精度を実現し,mIoUを従来の最先端アプローチに比べて+7$\%大幅に改善した GuidedMix-Netの有効性が示された。

Semi-supervised learning is a challenging problem which aims to construct a model by learning from a limited number of labeled examples. Numerous methods have been proposed to tackle this problem, with most focusing on utilizing the predictions of unlabeled instances consistency alone to regularize networks. However, treating labeled and unlabeled data separately often leads to the discarding of mass prior knowledge learned from the labeled examples, and failure to mine the feature interaction between the labeled and unlabeled image pairs. In this paper, we propose a novel method for semi-supervised semantic segmentation named GuidedMix-Net, by leveraging labeled information to guide the learning of unlabeled instances. Specifically, we first introduce a feature alignment objective between labeled and unlabeled data to capture potentially similar image pairs and then generate mixed inputs from them. The proposed mutual information transfer (MITrans), based on the cluster assumption, is shown to be a powerful knowledge module for further progressive refining features of unlabeled data in the mixed data space. To take advantage of the labeled examples and guide unlabeled data learning, we further propose a mask generation module to generate high-quality pseudo masks for the unlabeled data. Along with supervised learning for labeled data, the prediction of unlabeled data is jointly learned with the generated pseudo masks from the mixed data. Extensive experiments on PASCAL VOC 2012, PASCAL-Context and Cityscapes demonstrate the effectiveness of our GuidedMix-Net, which achieves competitive segmentation accuracy and significantly improves the mIoU by +7$\%$ compared to previous state-of-the-art approaches.
翻訳日:2021-07-01 12:43:25 公開日:2021-06-30
# 動的推論のためのマルチエクイット視覚トランス

Multi-Exit Vision Transformer for Dynamic Inference ( http://arxiv.org/abs/2106.15183v2 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) ディープニューラルネットワークは、中間層の一部の後に早期出口ブランチを挿入することで、マルチエクイットアーキテクチャに変換できる。 これによって推論プロセスは動的になり、時間的に重要なIoTアプリケーションに対して、レイテンシの厳しい要件があるのに、時間的な通信や計算リソースを持つのに役立ちます。 特にエッジコンピューティングシステムやIoTネットワークでは、正確な計算時間予算が可変であり、事前に分かっていない。 vision transformerは、最近提案されたアーキテクチャで、コンピュータビジョンのさまざまな領域にまたがる多くのアプリケーションを見出した。 本研究では,視覚トランスフォーマーバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。 分類問題と回帰問題の両方を含む広範な実験を通じて,提案するアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。

Deep neural networks can be converted to multi-exit architectures by inserting early exit branches after some of their intermediate layers. This allows their inference process to become dynamic, which is useful for time critical IoT applications with stringent latency requirements, but with time-variant communication and computation resources. In particular, in edge computing systems and IoT networks where the exact computation time budget is variable and not known beforehand. Vision Transformer is a recently proposed architecture which has since found many applications across various domains of computer vision. In this work, we propose seven different architectures for early exit branches that can be used for dynamic inference in Vision Transformer backbones. Through extensive experiments involving both classification and regression problems, we show that each one of our proposed architectures could prove useful in the trade-off between accuracy and speed.
翻訳日:2021-07-01 12:42:54 公開日:2021-06-30
# ロバスト回帰を使ってフォントの使用傾向を見つける

Using Robust Regression to Find Font Usage Trends ( http://arxiv.org/abs/2106.15232v2 )

ライセンス: Link先を確認
Kaigen Tsuji, Seiichi Uchida, Brian Kenji Iwana(参考訳) フォントは、発明された時期だけでなく、その使用や人気においても、その歴史を通じてトレンドがあった。 本稿では,テキスト画像の大規模なコレクションにおいて,ロバスト回帰を用いてフォント使用傾向を具体的に把握しようとする。 映画のポスターは,その公開日を用いて,時間を表すことができるので,映画のポスターをフォントの源泉として活用する。 また、映画のポスターは、慎重にデザインされ、幅広いフォントを表現する文書である。 映画ポスターのフォントと時間の関係を理解するために,回帰畳み込みニューラルネットワーク(cnn)を用いて,分離したタイトルテキスト画像を用いて映画の公開年を推定する。 課題の難易度から,平均二乗誤差 (mse) とタキーの2重重損失の組合せを用いたハイブリッドトレーニング手法を提案する。 さらに、時間を通してフォントの傾向を徹底的に分析する。

Fonts have had trends throughout their history, not only in when they were invented but also in their usage and popularity. In this paper, we attempt to specifically find the trends in font usage using robust regression on a large collection of text images. We utilize movie posters as the source of fonts for this task because movie posters can represent time periods by using their release date. In addition, movie posters are documents that are carefully designed and represent a wide range of fonts. To understand the relationship between the fonts of movie posters and time, we use a regression Convolutional Neural Network (CNN) to estimate the release year of a movie using an isolated title text image. Due to the difficulty of the task, we propose to use of a hybrid training regimen that uses a combination of Mean Squared Error (MSE) and Tukey's biweight loss. Furthermore, we perform a thorough analysis on the trends of fonts through time.
翻訳日:2021-07-01 12:42:39 公開日:2021-06-30
# テキスト先行案内シーンテキスト画像の超解像

Text Prior Guided Scene Text Image Super-resolution ( http://arxiv.org/abs/2106.15368v2 )

ライセンス: Link先を確認
Jianqi Ma, Shi Guo, Lei Zhang(参考訳) シーンテキスト画像スーパーレゾリューション(stisr)は、低解像度(lr)シーンテキスト画像の解像度と視覚品質を改善し、テキスト認識の性能を向上させることを目的としている。 しかし、既存のSTISR手法の多くは、テキストの分類情報を無視して、テキストイメージを自然なシーンイメージとみなしている。 本稿では,stisrモデルの学習に先立って,カテゴリー的テキストを組み込むという印象的な試みを行う。 具体的には、文字確率列を先行するテキストとして採用し、テキスト認識モデルから便利に得ることができる。 テキスト先行は、高解像度(HR)テキストイメージを復元するための分類的ガイダンスを提供する。 一方、再構成されたHR画像は、返却前にテキストを洗練することができる。 最後に、STISRのためのマルチステージテキストガイド付き超解像(TPGSR)フレームワークを提案する。 ベンチマークのTextZoomデータセットを用いた実験により,TPGSRはシーンテキスト画像の視覚的品質を効果的に向上するだけでなく,既存のSTISR法よりもテキスト認識精度を大幅に向上させることができることがわかった。 また、TextZoomでトレーニングしたモデルでは、他のデータセットのLR画像に対して特定の一般化能力を示す。

Scene text image super-resolution (STISR) aims to improve the resolution and visual quality of low-resolution (LR) scene text images, and consequently boost the performance of text recognition. However, most of existing STISR methods regard text images as natural scene images, ignoring the categorical information of text. In this paper, we make an inspiring attempt to embed categorical text prior into STISR model training. Specifically, we adopt the character probability sequence as the text prior, which can be obtained conveniently from a text recognition model. The text prior provides categorical guidance to recover high-resolution (HR) text images. On the other hand, the reconstructed HR image can refine the text prior in return. Finally, we present a multi-stage text prior guided super-resolution (TPGSR) framework for STISR. Our experiments on the benchmark TextZoom dataset show that TPGSR can not only effectively improve the visual quality of scene text images, but also significantly improve the text recognition accuracy over existing STISR methods. Our model trained on TextZoom also demonstrates certain generalization capability to the LR images in other datasets.
翻訳日:2021-07-01 12:42:25 公開日:2021-06-30
# ASP.NET で定義可能な $\textit{DL-Lite}_{\cal R}$ の推論

Reasoning on $\textit{DL-Lite}_{\cal R}$ with Defeasibility in ASP ( http://arxiv.org/abs/2106.14801v2 )

ライセンス: Link先を確認
Loris Bozzato, Thomas Eiter, Luciano Serafini(参考訳) 難解な知識に対する推論は、知識ベースにおける例外的な事例を表現する必要性に関連するため、記述論理の領域における関心のトピックである。 この方向において,本論文では,決定可能な公理に対する正当化された例外の概念を持つOWL RL知識ベースを表現するためのフレームワークを提示した。 しかし、OWL RLの結果として生じる推論プロセスは、例外の推論に必要な負の情報に対する推論を捉えるために複雑な符号化を導入している。 本稿では, OWL QL を基盤とする言語である $\textit{DL-Lite}_{\cal R}$ の知識ベースに対して, 正当化された例外アプローチを適用する。 証明可能な公理を持つ$\textit{dl-lite}_{\cal r}$ の知識ベースを定義し、それらの意味的および計算的性質について研究する。 特に,名前のない個人に対する例外の影響について検討する。 制限形式である$\textit{DL-Lite}_{\cal R}$ axiomsは、より単純なASPエンコーディングを定式化できます。 結果の実体化法は、例えば $\textit{DL-Lite}_{\cal R}$ で defeasible axioms を持つような完全な推論手順をもたらす。 論理プログラミングの理論と実践(tplp)における考察。

Reasoning on defeasible knowledge is a topic of interest in the area of description logics, as it is related to the need of representing exceptional instances in knowledge bases. In this direction, in our previous works we presented a framework for representing (contextualized) OWL RL knowledge bases with a notion of justified exceptions on defeasible axioms: reasoning in such framework is realized by a translation into ASP programs. The resulting reasoning process for OWL RL, however, introduces a complex encoding in order to capture reasoning on the negative information needed for reasoning on exceptions. In this paper, we apply the justified exception approach to knowledge bases in $\textit{DL-Lite}_{\cal R}$, i.e., the language underlying OWL QL. We provide a definition for $\textit{DL-Lite}_{\cal R}$ knowledge bases with defeasible axioms and study their semantic and computational properties. In particular, we study the effects of exceptions over unnamed individuals. The limited form of $\textit{DL-Lite}_{\cal R}$ axioms allows us to formulate a simpler ASP encoding, where reasoning on negative information is managed by direct rules. The resulting materialization method gives rise to a complete reasoning procedure for instance checking in $\textit{DL-Lite}_{\cal R}$ with defeasible axioms. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-07-01 12:42:06 公開日:2021-06-30
# BiX-NAS:医用画像分割のための効率的な双方向アーキテクチャの探索

BiX-NAS: Searching Efficient Bi-directional Architecture for Medical Image Segmentation ( http://arxiv.org/abs/2106.14033v2 )

ライセンス: Link先を確認
Xinyi Wang, Tiange Xiang, Chaoyi Zhang, Yang Song, Dongnan Liu, Heng Huang, Weidong Cai(参考訳) このリカレントメカニズムは, 様々な医用画像分割タスクにおいてU-Netに導入された。 既存の研究では、ビルディングブロックの再利用によるネットワーク再帰の促進に重点を置いている。 ネットワークパラメータは大幅に節約できるが、プリセットされたイテレーション時間に応じて計算コストは必然的に増加する。 本研究では,双方向スキップ接続ネットワークのマルチスケールアップグレードについて検討し,新しい2相ニューラルアーキテクチャ探索 (NAS) アルゴリズム,すなわち BiX-NAS を用いて,効率的なアーキテクチャを自動検出する。 提案手法は,異なるレベルやイテレーションで非効率なマルチスケール特徴を抽出し,ネットワーク計算コストを削減する。 3種類の医用画像データセットを用いて2つのセグメンテーションタスクにおけるbix-nasの評価を行い,bix-nas探索アーキテクチャが計算コストを著しく低減した最先端性能を実現することを示す。

The recurrent mechanism has recently been introduced into U-Net in various medical image segmentation tasks. Existing studies have focused on promoting network recursion via reusing building blocks. Although network parameters could be greatly saved, computational costs still increase inevitably in accordance with the pre-set iteration time. In this work, we study a multi-scale upgrade of a bi-directional skip connected network and then automatically discover an efficient architecture by a novel two-phase Neural Architecture Search (NAS) algorithm, namely BiX-NAS. Our proposed method reduces the network computational cost by sifting out ineffective multi-scale features at different levels and iterations. We evaluate BiX-NAS on two segmentation tasks using three different medical image datasets, and the experimental results show that our BiX-NAS searched architecture achieves the state-of-the-art performance with significantly lower computational cost.
翻訳日:2021-07-01 12:41:38 公開日:2021-06-30
# サイクル条件の生成的有用性について

On the Generative Utility of Cyclic Conditionals ( http://arxiv.org/abs/2106.15962v1 )

ライセンス: Link先を確認
Chang Liu, Haoyue Tang, Tao Qin, Jintao Wang, Tie-Yan Liu(参考訳) サイクルを形成する条件付きモデル $p(x|z)$ と $q(z|x)$ を用いてジョイント分布 $p(x,z)$ をモデル化できるかどうかについて検討する。 これは、深い生成モデルが、確率モデル $p(x|z)$ に加えて、しばしばデータ表現に推論モデル $q(z|x)$ を用いるという観察によって動機付けられたものであるが、それらは通常、非形式的な事前分布 $p(z)$ に依存してジョイント分布を定義する。 p(x|z)$ と $q(z|x)$ でジョイント分布をモデル化する可能性を探るため、条件分布が一致するジョイント分布の存在と一意性に対応するそれらの相溶性と決定性について検討する。 我々は、互換性のための新規かつ操作可能な等価基準と、決定性のための十分な条件に関する一般的な理論を開発する。 この理論に基づき, 相互換性を強制し, 決定された分布をデータに適合させ, 生成する手法を含む, 循環条件生成モデリングのためのcygenフレームワークを提案する。 事前の制約を取り除き、CyGenはデータに適合し、より代表的な機能をキャプチャし、より良い生成と下流の分類性能を示す実験でサポートした。

We study whether and how can we model a joint distribution $p(x,z)$ using two conditional models $p(x|z)$ and $q(z|x)$ that form a cycle. This is motivated by the observation that deep generative models, in addition to a likelihood model $p(x|z)$, often also use an inference model $q(z|x)$ for data representation, but they rely on a usually uninformative prior distribution $p(z)$ to define a joint distribution, which may render problems like posterior collapse and manifold mismatch. To explore the possibility to model a joint distribution using only $p(x|z)$ and $q(z|x)$, we study their compatibility and determinacy, corresponding to the existence and uniqueness of a joint distribution whose conditional distributions coincide with them. We develop a general theory for novel and operable equivalence criteria for compatibility, and sufficient conditions for determinacy. Based on the theory, we propose the CyGen framework for cyclic-conditional generative modeling, including methods to enforce compatibility and use the determined distribution to fit and generate data. With the prior constraint removed, CyGen better fits data and captures more representative features, supported by experiments showing better generation and downstream classification performance.
翻訳日:2021-07-01 12:41:20 公開日:2021-06-30
# ニューラルネットワークロスランドスケープの線形補間で何がわかるのか?

What can linear interpolation of neural network loss landscapes tell us? ( http://arxiv.org/abs/2106.16004v1 )

ライセンス: Link先を確認
Tiffany Vlaar and Jonathan Frankle(参考訳) ニューラルネットワークの損失状況の研究は、基盤となる最適化問題の性質に関する洞察を提供する。 残念なことに、失われた風景は人間の理解に富んだ方法で可視化することは非常に難しい。 この問題に対処する一般的な方法は、例えば、ネットワークの初期状態から最適化後の最終状態まで、ランドスケープの線形スライスをプロットすることである。 この分析に基づいて,先行研究は最適化問題の難易度に関する幅広い結論を導き出している。 本稿では,このような推論をテストに適用し,データ変更時の線形補間と最終的な性能の変動,初期化の選択,その他のオプティマイザとアーキテクチャ設計の選択を体系的に評価する。 さらに,ネットワークの個々の層とサブ構造が果たす役割を研究するために線形補間を用いる。 我々は、特定の層が初期化とオプティマイザハイパーパラメータ設定の選択により敏感であることを見出し、これらの観察を利用してカスタム最適化スキームを設計する。 しかし,本研究の結果は,補間時の障壁の有無が最適化の成功に必ずしも関係していることに疑問を呈した。

Studying neural network loss landscapes provides insights into the nature of the underlying optimization problems. Unfortunately, loss landscapes are notoriously difficult to visualize in a human-comprehensible fashion. One common way to address this problem is to plot linear slices of the landscape, for example from the initial state of the network to the final state after optimization. On the basis of this analysis, prior work has drawn broader conclusions about the difficulty of the optimization problem. In this paper, we put inferences of this kind to the test, systematically evaluating how linear interpolation and final performance vary when altering the data, choice of initialization, and other optimizer and architecture design choices. Further, we use linear interpolation to study the role played by individual layers and substructures of the network. We find that certain layers are more sensitive to the choice of initialization and optimizer hyperparameter settings, and we exploit these observations to design custom optimization schemes. However, our results cast doubt on the broader intuition that the presence or absence of barriers when interpolating necessarily relates to the success of optimization.
翻訳日:2021-07-01 12:40:54 公開日:2021-06-30
# オブジェクト検出のためのマルチソースドメイン適応

Multi-Source Domain Adaptation for Object Detection ( http://arxiv.org/abs/2106.15793v1 )

ライセンス: Link先を確認
Xingxu Yao, Sicheng Zhao, Pengfei Xu, Jufeng Yang(参考訳) オブジェクト検出に関連するアノテーションの労力を削減するため、ラベル付きソースドメインからラベル付きターゲットドメインへの学習知識の転送に焦点を当てた研究が増えている。 しかし、既存の手法では、ラベル付きデータは単一のソースドメインからサンプリングされ、複数のソースドメインからラベル付きデータが生成されるより一般的なシナリオを無視していると仮定している。 より困難な課題として,Divide-and-Merge Spindle Network (DMSN) と呼ばれる,ドメインの不変性を同時に向上し,識別力を維持できる,より高速なR-CNNベースのフレームワークを提案する。 具体的には、複数のソースサブネットと擬似ターゲットサブネットを含む。 まず, 物体検出に対する異なる効果を考慮した階層的特徴アライメント戦略を提案し, 低レベル特徴と高レベル特徴のアライメントをそれぞれ強め, 弱いアライメントを行う。 第2に、異なるソースサブネットにおけるパラメータの重み付け組み合わせにより、疑似ターゲットサブセットの最適パラメータを近似する新しい擬似サブネット学習アルゴリズムを開発する。 最後に、各サブネットがより抽象的な不変性を学ぶのを容易にするために、領域提案ネットワークの整合正則化を提案する。 異なる適応シナリオに関する大規模な実験は、提案モデルの有効性を示す。

To reduce annotation labor associated with object detection, an increasing number of studies focus on transferring the learned knowledge from a labeled source domain to another unlabeled target domain. However, existing methods assume that the labeled data are sampled from a single source domain, which ignores a more generalized scenario, where labeled data are from multiple source domains. For the more challenging task, we propose a unified Faster R-CNN based framework, termed Divide-and-Merge Spindle Network (DMSN), which can simultaneously enhance domain invariance and preserve discriminative power. Specifically, the framework contains multiple source subnets and a pseudo target subnet. First, we propose a hierarchical feature alignment strategy to conduct strong and weak alignments for low- and high-level features, respectively, considering their different effects for object detection. Second, we develop a novel pseudo subnet learning algorithm to approximate optimal parameters of pseudo target subset by weighted combination of parameters in different source subnets. Finally, a consistency regularization for region proposal network is proposed to facilitate each subnet to learn more abstract invariances. Extensive experiments on different adaptation scenarios demonstrate the effectiveness of the proposed model.
翻訳日:2021-07-01 12:40:35 公開日:2021-06-30
# 効率的な構成解析のための条件分割フレームワーク

A Conditional Splitting Framework for Efficient Constituency Parsing ( http://arxiv.org/abs/2106.15760v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li(参考訳) 本稿では,選択性解析問題(シンタクティックおよび談話構文解析)を一連の条件分割決定に当てはめる,汎用的なSeq2seq解析フレームワークを提案する。 解析モデルでは,テキストスパンで可能な分割点の条件付き確率分布を推定し,ノード数で線形な効率的なトップダウンデコーディングをサポートする。 条件分割定式化と効率的なビーム探索推論は、高価な構造推論に頼ることなく構造整合性を促進する。 重要なことは、談話分析において、談話セグメンテーションは、前提条件としてセグメンテーションを必要とせず、談話セグメンテーションを実施できるパーシングの特別なケースとしてフレーム化できることを示している。 実験により,本モデルは,事前学習された表現や,計算コストが高い最先端 (sota) 手法を用いて,設定下での標準的な構文解析タスクにおいて良好な結果が得られることを示した。 談話解析において,本手法はSoTAよりも優れた性能を示す。

We introduce a generic seq2seq parsing framework that casts constituency parsing problems (syntactic and discourse parsing) into a series of conditional splitting decisions. Our parsing model estimates the conditional probability distribution of possible splitting points in a given text span and supports efficient top-down decoding, which is linear in number of nodes. The conditional splitting formulation together with efficient beam search inference facilitate structural consistency without relying on expensive structured inference. Crucially, for discourse analysis we show that in our formulation, discourse segmentation can be framed as a special case of parsing which allows us to perform discourse parsing without requiring segmentation as a pre-requisite. Experiments show that our model achieves good results on the standard syntactic parsing tasks under settings with/without pre-trained representations and rivals state-of-the-art (SoTA) methods that are more computationally expensive than ours. In discourse parsing, our method outperforms SoTA by a good margin.
翻訳日:2021-07-01 12:40:13 公開日:2021-06-30
# パーソナリティに影響を及ぼした感情遷移による感情自動選択

Automatically Select Emotion for Response via Personality-affected Emotion Transition ( http://arxiv.org/abs/2106.15846v1 )

ライセンス: Link先を確認
Wen Zhiyuan, Cao Jiannong, Yang Ruosong, Liu Shuaiqi, Shen Jiaxing(参考訳) ユーザとの一貫した感情インタラクションを実現するために、対話システムは、人間のような応答に対して適切な感情を自動的に選択できるべきである。 しかし、既存のほとんどの作品では、特定の感情をユーザーの感情に共感的に表現することに焦点を当てているが、感情表現の個人差は見過ごされている。 これは矛盾した感情表現や不関心なユーザーにつながる可能性がある。 この問題に取り組むために,対話システムとパーソナリティを対応付け,会話中の人間の感情遷移をシミュレートして応答中の感情を自動的に選択する手法を提案する。 詳細には、対話システムの感情は、コンテキストにおける先行する感情から遷移する。 トランジションは、前のダイアログコンテキストによって起動され、指定されたパーソナリティ特性に影響されます。 そこで本研究では,まず対話システムにおける感情遷移を,Valence-Arousal-Dom inance (VAD) 感情空間における先行感情と応答感情の変動としてモデル化する。 そして,先行する対話コンテキストと特定の性格特性を符号化して変動を構成するニューラルネットワークを設計する。 最後に、前回の感情の総和と変動から応答のための感情を選択する。 感情とパーソナリティラベルを用いた対話データセットを構築し,評価のための感情予測タスクを行う。 パーソナリティに影響を及ぼす感情遷移の有効性を実験的に検証した。

To provide consistent emotional interaction with users, dialog systems should be capable to automatically select appropriate emotions for responses like humans. However, most existing works focus on rendering specified emotions in responses or empathetically respond to the emotion of users, yet the individual difference in emotion expression is overlooked. This may lead to inconsistent emotional expressions and disinterest users. To tackle this issue, we propose to equip the dialog system with personality and enable it to automatically select emotions in responses by simulating the emotion transition of humans in conversation. In detail, the emotion of the dialog system is transitioned from its preceding emotion in context. The transition is triggered by the preceding dialog context and affected by the specified personality trait. To achieve this, we first model the emotion transition in the dialog system as the variation between the preceding emotion and the response emotion in the Valence-Arousal-Domi nance (VAD) emotion space. Then, we design neural networks to encode the preceding dialog context and the specified personality traits to compose the variation. Finally, the emotion for response is selected from the sum of the preceding emotion and the variation. We construct a dialog dataset with emotion and personality labels and conduct emotion prediction tasks for evaluation. Experimental results validate the effectiveness of the personality-affected emotion transition.
翻訳日:2021-07-01 12:39:56 公開日:2021-06-30
# 誰の意見が大事? 嫌悪言語検出におけるヘイトスピーチ被害者の意見識別のための視点認識モデル

Whose Opinions Matter? Perspective-aware Models to Identify Opinions of Hate Speech Victims in Abusive Language Detection ( http://arxiv.org/abs/2106.15896v1 )

ライセンス: Link先を確認
Sohail Akhtar, Valerio Basile, Viviana Patti(参考訳) ソーシャルメディアプラットフォームは、ユーザに表現の自由と、情報を交換し、さまざまな意見を表現するための媒体を提供する。 残念ながらこれは、人々を差別し、移民、lgbt、ムスリム、ユダヤ人、女性といった最も脆弱なコミュニティをターゲットにする目的で、虐待的なコンテンツも成長させた。 虐待的言語は本質的に主観的であるため、ヘイトスピーチ(HS)のような虐待的内容の注釈にまつわる話題や出来事が極めて偏りやすい。 したがって、個人的背景や人口統計学的背景の異なる人々からの矛盾する視点や意見をモデル化するための新しいアプローチが必要となる。 本稿では,異なるコミュニティからの偏極的意見のモデル化を,類似した特徴(民族性,社会的背景,文化など)を仮説として詳細に検討する。 注釈者の視点が 特定の現象に影響を与えます この情報に頼ることで、アノテータを同様の視点を共有するグループに分割できると考えています。 私たちは、最先端のディープラーニングモデルをトレーニングするために、それぞれ1つずつのゴールド標準を作成できます。 異なるグループから包括モデルへパースペクティブアウェア分類器を結合するアンサンブルアプローチを用いることができる。 また, ヘイトスピーチ, 攻撃性, 攻撃性, ステレオタイプといった, オンライン虐待を特徴付けるサブカテゴリによって注釈付けされた, 新たなリソースを提案する。 そこで本研究では,最先端ディープラーニングモデルの学習により,最先端の教師付き分類器の予測性能が向上することを示す。

Social media platforms provide users the freedom of expression and a medium to exchange information and express diverse opinions. Unfortunately, this has also resulted in the growth of abusive content with the purpose of discriminating people and targeting the most vulnerable communities such as immigrants, LGBT, Muslims, Jews and women. Because abusive language is subjective in nature, there might be highly polarizing topics or events involved in the annotation of abusive contents such as hate speech (HS). Therefore, we need novel approaches to model conflicting perspectives and opinions coming from people with different personal and demographic backgrounds. In this paper, we present an in-depth study to model polarized opinions coming from different communities under the hypothesis that similar characteristics (ethnicity, social background, culture etc.) can influence the perspectives of annotators on a certain phenomenon. We believe that by relying on this information, we can divide the annotators into groups sharing similar perspectives. We can create separate gold standards, one for each group, to train state-of-the-art deep learning models. We can employ an ensemble approach to combine the perspective-aware classifiers from different groups to an inclusive model. We also propose a novel resource, a multi-perspective English language dataset annotated according to different sub-categories relevant for characterising online abuse: hate speech, aggressiveness, offensiveness and stereotype. By training state-of-the-art deep learning models on this novel resource, we show how our approach improves the prediction performance of a state-of-the-art supervised classifier.
翻訳日:2021-07-01 12:39:35 公開日:2021-06-30
# 相互GAN:相互情報制約による教師なしクロスウェザー適応を目指して

Mutual-GAN: Towards Unsupervised Cross-Weather Adaptation with Mutual Information Constraint ( http://arxiv.org/abs/2106.16000v1 )

ライセンス: Link先を確認
Jiawei Chen and Yuexiang Li and Kai Ma and Yefeng Zheng(参考訳) 畳み込みニューラルネットワーク(CNN)はセマンティックセグメンテーション(セマンティックセグメンテーション)の成功を証明している。 しかし、都市景観のセマンティックセグメンテーションのほとんどの進展は、標準的なシナリオ、すなわち、照明条件のよい昼間シーンで報告されている。 実用的な用途では、例えば曇りや夜間など、屋外の天気や照明は変更可能であり、昼間のデータでしか訓練されていないcnnの意味セグメンテーション精度が大幅に低下する。 本稿では、日中学習したニューラルネットワークを悪天候下の映像に適用した場合の精度低下を緩和する新しい生成型逆ネットワーク(すなわち相互gan)を提案する。 提案したMutual-GANは、クロスウェザー適応中に画像オブジェクトを保存するために相互情報制約を採用しており、これは教師なし画像-画像変換アプローチ(例えば、CycleGAN)において未解決の問題である。 提案したMutual-GANは2つの公開ドライビングビデオデータセット(CamVidとSynTHIA)で評価される。 実験の結果,Mutual-GANは視覚的に可視な変換画像を生成でき,日中学習深層学習ネットワークのセマンティックセマンティックセマンティックセマンティクス精度を大幅に向上させることができることがわかった。

Convolutional neural network (CNN) have proven its success for semantic segmentation, which is a core task of emerging industrial applications such as autonomous driving. However, most progress in semantic segmentation of urban scenes is reported on standard scenarios, i.e., daytime scenes with favorable illumination conditions. In practical applications, the outdoor weather and illumination are changeable, e.g., cloudy and nighttime, which results in a significant drop of semantic segmentation accuracy of CNN only trained with daytime data. In this paper, we propose a novel generative adversarial network (namely Mutual-GAN) to alleviate the accuracy decline when daytime-trained neural network is applied to videos captured under adverse weather conditions. The proposed Mutual-GAN adopts mutual information constraint to preserve image-objects during cross-weather adaptation, which is an unsolved problem for most unsupervised image-to-image translation approaches (e.g., CycleGAN). The proposed Mutual-GAN is evaluated on two publicly available driving video datasets (i.e., CamVid and SYNTHIA). The experimental results demonstrate that our Mutual-GAN can yield visually plausible translated images and significantly improve the semantic segmentation accuracy of daytime-trained deep learning network while processing videos under challenging weathers.
翻訳日:2021-07-01 12:39:10 公開日:2021-06-30
# 顧客フィードバックにおける要約要約の事実整合性の向上

Improving Factual Consistency of Abstractive Summarization on Customer Feedback ( http://arxiv.org/abs/2106.16188v1 )

ライセンス: Link先を確認
Yang Liu, Yifei Sun, Vincent Gao(参考訳) Eコマースストアは顧客からのフィードバックを集め、売り手が顧客の懸念について学び、顧客の注文体験を向上させる。 顧客からのフィードバックは、しばしば冗長な情報を含んでいるため、顧客不満を引き起こす問題を売り手がより理解できるように、フィードバックの簡潔な要約を生成することができる。 従来の抽象テキスト要約モデルでは、顧客からのフィードバックから要約を生成する際に、誤ったエンティティ検出(WED)と誤った製品欠陥記述(IPD)の2つの主要な事実エラーを発生させる。 本研究では,顧客フィードバックにおける抽象的な要約の事実整合性を高めるための一連の手法を紹介する。 我々は,人工的に破損した要約を用いて訓練データを強化し,対象要約の対応語として使用する。 トレーニング対象に対照的な損失項を加え、モデルが特定の事実的誤りを避けるために学習する。 評価の結果,BARTおよびT5では,WEDおよびIPDエラーの大部分が軽減された。 さらに,本手法は要約モデルの構造に依存しないため,任意の抽象的要約システムに対して一般化できる。

E-commerce stores collect customer feedback to let sellers learn about customer concerns and enhance customer order experience. Because customer feedback often contains redundant information, a concise summary of the feedback can be generated to help sellers better understand the issues causing customer dissatisfaction. Previous state-of-the-art abstractive text summarization models make two major types of factual errors when producing summaries from customer feedback, which are wrong entity detection (WED) and incorrect product-defect description (IPD). In this work, we introduce a set of methods to enhance the factual consistency of abstractive summarization on customer feedback. We augment the training data with artificially corrupted summaries, and use them as counterparts of the target summaries. We add a contrastive loss term into the training objective so that the model learns to avoid certain factual errors. Evaluation results show that a large portion of WED and IPD errors are alleviated for BART and T5. Furthermore, our approaches do not depend on the structure of the summarization model and thus are generalizable to any abstractive summarization systems.
翻訳日:2021-07-01 12:38:42 公開日:2021-06-30
# 曲率グラフニューラルネットワーク

Curvature Graph Neural Network ( http://arxiv.org/abs/2106.15762v1 )

ライセンス: Link先を確認
Haifeng Li, Jun Cao, Jiawei Zhu, Yu Liu, Qing Zhu, Guohua Wu(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフベースのタスクで大きな成功を収めている。 多くの作業はGNNに適応的な局所性能力を持たせることに集中しており、ノード固有のメカニズムによって、ターゲットノードへの隣接ノードの重要性を測定することができる。 しかし、現在のノード固有のメカニズムはトポロジ構造におけるノードの重要性を区別するのに不足している。 隣接ノードの構造的重要性は集約の重要性と密接に関連していると考えている。 本稿では,ペアワイズノードの構造接続の強度を定量化するために,離散グラフ曲率(リッチ曲率)を導入する。 また,グラフ曲率の構造特性を活用することにより,GNNの適応的局所性を効果的に向上する曲率グラフニューラルネットワーク(CGNN)を提案する。 様々なデータセットへの曲率の適応性を向上させるため、必要な負曲率処理モジュールと曲率正規化モジュールにより、曲率を隣ノードの重みに明示的に変換する。 次に,様々な合成データセットと実世界のデータセットについて多数の実験を行う。 合成データセットを用いた実験結果から,CGNNはトポロジ構造情報を効果的に活用し,性能を著しく向上することが示された。 CGNNは5つの高密度ノード分類ベンチマークデータセットのベースラインを上回っている。 本研究では,高度なトポロジ情報の利用方法の理解を深め,グラフ曲率の観点から隣接ノードの重要性を割り当て,グラフ理論とニューラルネットワークのギャップを埋めることを奨励する。

Graph neural networks (GNNs) have achieved great success in many graph-based tasks. Much work is dedicated to empowering GNNs with the adaptive locality ability, which enables measuring the importance of neighboring nodes to the target node by a node-specific mechanism. However, the current node-specific mechanisms are deficient in distinguishing the importance of nodes in the topology structure. We believe that the structural importance of neighboring nodes is closely related to their importance in aggregation. In this paper, we introduce discrete graph curvature (the Ricci curvature) to quantify the strength of structural connection of pairwise nodes. And we propose Curvature Graph Neural Network (CGNN), which effectively improves the adaptive locality ability of GNNs by leveraging the structural property of graph curvature. To improve the adaptability of curvature to various datasets, we explicitly transform curvature into the weights of neighboring nodes by the necessary Negative Curvature Processing Module and Curvature Normalization Module. Then, we conduct numerous experiments on various synthetic datasets and real-world datasets. The experimental results on synthetic datasets show that CGNN effectively exploits the topology structure information, and the performance is improved significantly. CGNN outperforms the baselines on 5 dense node classification benchmark datasets. This study deepens the understanding of how to utilize advanced topology information and assign the importance of neighboring nodes from the perspective of graph curvature and encourages us to bridge the gap between graph theory and neural networks.
翻訳日:2021-07-01 12:38:01 公開日:2021-06-30
# オープンセット学習のための学習境界

Learning Bounds for Open-Set Learning ( http://arxiv.org/abs/2106.15792v1 )

ライセンス: Link先を確認
Zhen Fang, Jie Lu, Anjin Liu, Feng Liu, Guangquan Zhang(参考訳) 従来の教師付き学習は、トレーニングとテストサンプルが同じラベル空間を共有するクローズドセットの世界で、分類器を訓練することを目的としている。 本稿では,オープンセット学習(OSL: Open-set Learning)という,学習中に見つからないクラスによるテストサンプルが存在する,より困難で現実的な設定を目標とする。 研究者はアルゴリズムの観点から多くの方法を設計しているが、同じ分布から引き出された異なるトレーニングサンプルで一貫したパフォーマンスを達成する能力に関する一般化の保証を提供する方法はほとんどない。 転送学習とおそらく近似的正解(pac)理論に動機づけられ,その一般化誤りの訓練サンプルをサイズnで証明することで,推定誤差がo_p(1/\sqrt{n})の次数に近づくことを証明し,oslの研究を大胆に試みる。 本研究はOSLの一般化バウンダリを提供する最初の研究であり、未知のクラスにおける対象分類器のリスクを理論的に検討する。 本理論では,OSL問題に対処するために,補助的オープンセットリスク (AOSR) と呼ばれる新しいアルゴリズムを提案する。 実験はaosrの有効性を検証する。 コードはgithub.com/Anjin-Liu /Openset_Learning_AO SRで入手できる。

Traditional supervised learning aims to train a classifier in the closed-set world, where training and test samples share the same label space. In this paper, we target a more challenging and realistic setting: open-set learning (OSL), where there exist test samples from the classes that are unseen during training. Although researchers have designed many methods from the algorithmic perspectives, there are few methods that provide generalization guarantees on their ability to achieve consistent performance on different training samples drawn from the same distribution. Motivated by the transfer learning and probably approximate correct (PAC) theory, we make a bold attempt to study OSL by proving its generalization error-given training samples with size n, the estimation error will get close to order O_p(1/\sqrt{n}). This is the first study to provide a generalization bound for OSL, which we do by theoretically investigating the risk of the target classifier on unknown classes. According to our theory, a novel algorithm, called auxiliary open-set risk (AOSR) is proposed to address the OSL problem. Experiments verify the efficacy of AOSR. The code is available at github.com/Anjin-Liu /Openset_Learning_AO SR.
翻訳日:2021-07-01 12:37:39 公開日:2021-06-30
# グラフ測度によるニューラルネットワークのロバスト性探索

Exploring Robustness of Neural Networks through Graph Measures ( http://arxiv.org/abs/2106.15850v1 )

ライセンス: Link先を確認
Asim Waqas (1), Ghulam Rasool (1), Hamza Farooq (2), and Nidhal C. Bouaynaya (1), ((1) Rowan University, (2) University of Minnesota)(参考訳) グラフ理論に動機づけられた人工ニューラルネットワーク(ann)は、伝統的にニューロン(ノード)の層として構成され、相互接続(エッジ)を通じてデータの通過によって有用な情報を学習する。 機械学習領域において、ANNのグラフ構造(ニューロンと接続)は、その予測性能に関連する様々なグラフ理論測度を用いて最近研究されている。 一方、ネットワークサイエンス(NetSci)では、エントロピーや曲率などのグラフ測度によって、実世界のネットワークの堅牢性や脆弱性についての洞察が得られることが知られている。 本研究では,これらのグラフを用いて,敵攻撃に対する各種ANNの堅牢性について検討する。 そこで,1) グラフ領域におけるANNの層間接続方式と層間接続方式の設計空間を探索し,異なる種類の敵攻撃によるトレーニング後の予測性能を記録し,(2) 層間接続方式と層間接続方式のグラフ表現を用いて曲率やエントロピーなどのグラフ理論の計算を行い,(3) それらのグラフ測度とANNの敵性能との関係を解析する。 グラフ領域における曲率とエントロピーは、これらのANNを訓練することなく、ANNの頑健さを定量化できることを示す。 以上の結果から,脳ネットワーク,金融ネットワーク,ソーシャルネットワークなど現実世界のネットワークが,強固なアンを探索する上で重要な手がかりとなる可能性が示唆された。 そこで我々は,これらのANNを全て訓練することなく,一組の良好なANNの中から堅牢なANNを効率的に見つける検索戦略を提案する。

Motivated by graph theory, artificial neural networks (ANNs) are traditionally structured as layers of neurons (nodes), which learn useful information by the passage of data through interconnections (edges). In the machine learning realm, graph structures (i.e., neurons and connections) of ANNs have recently been explored using various graph-theoretic measures linked to their predictive performance. On the other hand, in network science (NetSci), certain graph measures including entropy and curvature are known to provide insight into the robustness and fragility of real-world networks. In this work, we use these graph measures to explore the robustness of various ANNs to adversarial attacks. To this end, we (1) explore the design space of inter-layer and intra-layers connectivity regimes of ANNs in the graph domain and record their predictive performance after training under different types of adversarial attacks, (2) use graph representations for both inter-layer and intra-layers connectivity regimes to calculate various graph-theoretic measures, including curvature and entropy, and (3) analyze the relationship between these graph measures and the adversarial performance of ANNs. We show that curvature and entropy, while operating in the graph domain, can quantify the robustness of ANNs without having to train these ANNs. Our results suggest that the real-world networks, including brain networks, financial networks, and social networks may provide important clues to the neural architecture search for robust ANNs. We propose a search strategy that efficiently finds robust ANNs amongst a set of well-performing ANNs without having a need to train all of these ANNs.
翻訳日:2021-07-01 12:37:17 公開日:2021-06-30
# 時空間群流予測における文脈モデリング手法の探索

Exploring Context Modeling Techniques on the Spatiotemporal Crowd Flow Prediction ( http://arxiv.org/abs/2106.16046v1 )

ライセンス: Link先を確認
Liyue Chen, Leye Wang(参考訳) ビッグデータとAIの時代において、コンテキストは余分な情報として広く利用されており、機械学習システムにおいてより複雑なパターンを学習しやすくなっている。 しかし、既存の研究の多くは、文脈をほとんど考慮しない。 難しさは、異なるシナリオにわたるコンテキストとそのモデリング技術の未知の一般化能力にある。 以上のギャップを埋めるために,広汎かつ熱い研究トピックである時空間群集予測(STCFP)問題について,大規模かつ実証的な研究を行った。 We mainly make three efforts:(i) we develop new taxonomy about both context features and context modeling techniques based on extensive investigations in prevailing STCFP research; (ii) we conduct extensive experiments on seven datasets with hundreds of millions of records to quantitatively evaluate the generalization ability of both distinct context features and context modeling techniques; (iii) we summarize some guidelines for researchers to conveniently utilize context in diverse applications.

In the big data and AI era, context is widely exploited as extra information which makes it easier to learn a more complex pattern in machine learning systems. However, most of the existing related studies seldom take context into account. The difficulty lies in the unknown generalization ability of both context and its modeling techniques across different scenarios. To fill the above gaps, we conduct a large-scale analytical and empirical study on the spatiotemporal crowd prediction (STCFP) problem that is a widely-studied and hot research topic. We mainly make three efforts:(i) we develop new taxonomy about both context features and context modeling techniques based on extensive investigations in prevailing STCFP research; (ii) we conduct extensive experiments on seven datasets with hundreds of millions of records to quantitatively evaluate the generalization ability of both distinct context features and context modeling techniques; (iii) we summarize some guidelines for researchers to conveniently utilize context in diverse applications.
翻訳日:2021-07-01 12:36:48 公開日:2021-06-30
# 長期短期認知ネットワーク

Long Short-term Cognitive Networks ( http://arxiv.org/abs/2106.16233v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles, Isel Grau, Agnieszka Jastrzebska, Yamisleydi Salgueiro(参考訳) 本稿では,Long Short-term Cognitive Networks (LSTCNs) と名づけられたリカレントニューラルネットワークを,短期認知ネットワーク(STCN)モデルの一般化として提案する。 このような一般化は、効率的でグリーンな方法で非常に長い時系列を予測することの難しさに動機づけられている。 LSTCNモデルはSTCNブロックの集合として定義することができ、それぞれがモデル化されている複数の時系列の特定の時間パッチを処理する。 このニューラルアンサンブルでは、各ブロックは、前知識行列と呼ばれる重み行列の形で、後続のブロックに情報を渡す。 第2の貢献として,従来の学習プロセスから得られた知識を保存しながら学習可能な重みを計算する決定論的学習アルゴリズムを提案する。 第3の貢献として,多変量時系列の予測過程を説明するための指標として,特徴的影響スコアを提案する。 3つのケーススタディを用いたシミュレーションでは、我々のニューラルネットワークは予測エラーを報告し、最先端のリカレントモデルよりも数千倍高速である。

In this paper, we present a recurrent neural system named Long Short-term Cognitive Networks (LSTCNs) as a generalisation of the Short-term Cognitive Network (STCN) model. Such a generalisation is motivated by the difficulty of forecasting very long time series in an efficient, greener fashion. The LSTCN model can be defined as a collection of STCN blocks, each processing a specific time patch of the (multivariate) time series being modelled. In this neural ensemble, each block passes information to the subsequent one in the form of a weight matrix referred to as the prior knowledge matrix. As a second contribution, we propose a deterministic learning algorithm to compute the learnable weights while preserving the prior knowledge resulting from previous learning processes. As a third contribution, we introduce a feature influence score as a proxy to explain the forecasting process in multivariate time series. The simulations using three case studies show that our neural system reports small forecasting errors while being up to thousands of times faster than state-of-the-art recurrent models.
翻訳日:2021-07-01 12:36:34 公開日:2021-06-30
# ディープ線形ネットワークダイナミクス:初期化スケールとL2規則化による低ランクバイアス

Deep Linear Networks Dynamics: Low-Rank Biases Induced by Initialization Scale and L2 Regularization ( http://arxiv.org/abs/2106.15933v1 )

ライセンス: Link先を確認
Arthur Jacot, Fran\c{c}ois Ged, Franck Gabriel, Berfin \c{S}im\c{s}ek, Cl\'ement Hongler(参考訳) 深層線形ネットワーク(DLN)では、様々なハイパーパラメータがトレーニングのダイナミクスを劇的に変える。 本研究では,(1)初期化ノルムと(2)パラメータに対する$L_{2}$正規化の追加により,勾配勾配から得られる線形写像の階数がどのように影響を受けるかを検討する。 1)では、(1a)大ノルム初期化のための線形/怠慢な規則、(1b)小ノルム初期化のための「textquotedbl saddle-to-saddle\tex tquotedbl{}」という2つの規則について検討する。 1a) の設定では、任意の深さのdlnのダイナミクスは、低ランクバイアスを伴わずに標準線形モデルと類似している。 1b) 設定では、トレーニングを通して勾配降下は、最小限の大域的極小に到達するまで、増大する階数の線型写像に対応する一連のサドルに近づいたと推測する。 我々はこの予想を部分的証明といくつかの数値実験で支持する。 例えば、パラメータに$L_{2}$正規化を加えると、$L_{p}$-Schatten (quasi)normが$p=\frac{2}{L}$(深さ-$L$ネットワークの場合)の線型写像に加算され、$L$が大きくなるにつれてより強い低ランクバイアスが生じることを示す。 損失面に対する$L_{2}$正規化の効果は深さに依存する:浅いネットワークでは全ての臨界点は厳密なサドルか大域的なミニマであるが、深いネットワークではいくつかの局所的なミニマが現れる。 我々は、これらの局所的ミニマは、いくつかの設定においてグローバルのものよりも一般化できることを数値的に観察する。

For deep linear networks (DLN), various hyperparameters alter the dynamics of training dramatically. We investigate how the rank of the linear map found by gradient descent is affected by (1) the initialization norm and (2) the addition of $L_{2}$ regularization on the parameters. For (1), we study two regimes: (1a) the linear/lazy regime, for large norm initialization; (1b) a \textquotedbl saddle-to-saddle\tex tquotedbl{} regime for small initialization norm. In the (1a) setting, the dynamics of a DLN of any depth is similar to that of a standard linear model, without any low-rank bias. In the (1b) setting, we conjecture that throughout training, gradient descent approaches a sequence of saddles, each corresponding to linear maps of increasing rank, until reaching a minimal rank global minimum. We support this conjecture with a partial proof and some numerical experiments. For (2), we show that adding a $L_{2}$ regularization on the parameters corresponds to the addition to the cost of a $L_{p}$-Schatten (quasi)norm on the linear map with $p=\frac{2}{L}$ (for a depth-$L$ network), leading to a stronger low-rank bias as $L$ grows. The effect of $L_{2}$ regularization on the loss surface depends on the depth: for shallow networks, all critical points are either strict saddles or global minima, whereas for deep networks, some local minima appear. We numerically observe that these local minima can generalize better than global ones in some settings.
翻訳日:2021-07-01 12:36:04 公開日:2021-06-30
# 視覚変換器用拡張ショートカット

Augmented Shortcuts for Vision Transformers ( http://arxiv.org/abs/2106.15941v1 )

ライセンス: Link先を確認
Yehui Tang, Kai Han, Chang Xu, An Xiao, Yiping Deng, Chao Xu, Yunhe Wang(参考訳) トランスフォーマーモデルは近年,コンピュータビジョンタスクにおいて大きな進歩を遂げている。 視覚変換器の急速な開発は、入力画像から情報的特徴を抽出する高い表現能力に主に寄与している。 しかし、主流のトランスフォーマーモデルは深いアーキテクチャで設計されており、深さが増すにつれて機能の多様性が継続的に減少する。 本稿では,特徴崩壊現象を理論的に解析し,これらの変圧器モデルにおけるショートカットと特徴多様性の関係について検討する。 次に,従来のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。 計算コストを節約するため、ブロック循環投影を用いて拡張ショートカットを実装する効率的なアプローチをさらに探究する。 ベンチマークデータセットで行った広範囲な実験は、提案手法の有効性を実証し、パラメータやフラップを明らかに増加させることなく、最先端の視覚トランスフォーマーの精度を約1%向上させる。

Transformer models have achieved great progress on computer vision tasks recently. The rapid development of vision transformers is mainly contributed by their high representation ability for extracting informative features from input images. However, the mainstream transformer models are designed with deep architectures, and the feature diversity will be continuously reduced as the depth increases, i.e., feature collapse. In this paper, we theoretically analyze the feature collapse phenomenon and study the relationship between shortcuts and feature diversity in these transformer models. Then, we present an augmented shortcut scheme, which inserts additional paths with learnable parameters in parallel on the original shortcuts. To save the computational costs, we further explore an efficient approach that uses the block-circulant projection to implement augmented shortcuts. Extensive experiments conducted on benchmark datasets demonstrate the effectiveness of the proposed method, which brings about 1% accuracy increase of the state-of-the-art visual transformers without obviously increasing their parameters and FLOPs.
翻訳日:2021-07-01 12:35:22 公開日:2021-06-30
# Affective Image Content Analysis: 2年間のレビューと新たな展望

Affective Image Content Analysis: Two Decades Review and New Perspectives ( http://arxiv.org/abs/2106.16125v1 )

ライセンス: Link先を確認
Sicheng Zhao, Xingxu Yao, Jufeng Yang, Guoli Jia, Guiguang Ding, Tat-Seng Chua, Bj\"orn W. Schuller, Kurt Keutzer(参考訳) 画像はリッチなセマンティクスを伝達し、視聴者に様々な感情をもたらす。 近年,情緒的インテリジェンスの急速な進歩と視覚データの爆発的成長により,情緒的画像コンテンツ分析(AICA)の研究が盛んに行われている。 本稿では,過去20年におけるaiaの展開を概観し,特に感情的ギャップ,知覚主観性,ラベルノイズと不在の3つの課題に関して,最先端の手法に焦点をあてた。 まず,aicaで広く採用されている感情表現モデルと,ラベルノイズとデータセットバイアスを定量的に比較して評価を行う利用可能なデータセットについて紹介する。 次に,(1)手作り・深い特徴を含む感情の特徴抽出,(2)支配的感情認識の学習方法,パーソナライズされた感情予測,感情分布学習,およびノイズの多いデータや少数のラベルからの学習,(3)AICAベースのアプリケーションについて,代表的なアプローチを要約して比較する。 最後に,画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。

Images can convey rich semantics and induce various emotions in viewers. Recently, with the rapid advancement of emotional intelligence and the explosive growth of visual data, extensive research efforts have been dedicated to affective image content analysis (AICA). In this survey, we will comprehensively review the development of AICA in the recent two decades, especially focusing on the state-of-the-art methods with respect to three main challenges -- the affective gap, perception subjectivity, and label noise and absence. We begin with an introduction to the key emotion representation models that have been widely employed in AICA and description of available datasets for performing evaluation with quantitative comparison of label noise and dataset bias. We then summarize and compare the representative approaches on (1) emotion feature extraction, including both handcrafted and deep features, (2) learning methods on dominant emotion recognition, personalized emotion prediction, emotion distribution learning, and learning from noisy data or few labels, and (3) AICA based applications. Finally, we discuss some challenges and promising research directions in the future, such as image content and context understanding, group emotion clustering, and viewer-image interaction.
翻訳日:2021-07-01 12:35:06 公開日:2021-06-30
# 飽和変圧器のパワーについて:回路複雑性の観点から

On the Power of Saturated Transformers: A View from Circuit Complexity ( http://arxiv.org/abs/2106.16213v1 )

ライセンス: Link先を確認
William Merrill and Yoav Goldberg and Roy Schwartz and Noah A. Smith(参考訳) トランスフォーマーは多くのNLP問題の標準アーキテクチャとなっている。 これが理論的に言語モデルとしての能力を分析する動機となり、成功の要因と潜在的な弱点を理解できるようになった。 近年の研究では、注目度の高い変圧器はキャパシティが極めて限られており、実際に一定の深さの回路でシミュレートできることが示されている。 しかし、厳しい注意は限定的な仮定であり、実用的トランスフォーマーにおけるこれらの結果の関連性を複雑にする可能性がある。 本研究では,実用的な変圧器で学習可能な注意パターンをより密接に捉えた,集中度の高い変圧器の回路複雑性について解析する。 飽和変圧器はハードアテンション変圧器の限界を超越している。 若干の仮定で、飽和トランスフォーマーメモリベクトルを表すのに必要なビット数が$o(\log n)$であることを証明し、飽和トランスフォーマーはログ深さ回路によってシミュレートできることを示した。 したがって、ハードから飽和した注意へのジャンプは、変圧器の有効回路深さを$o(\log n)$で増加させることで理解できる。

Transformers have become a standard architecture for many NLP problems. This has motivated theoretically analyzing their capabilities as models of language, in order to understand what makes them successful, and what their potential weaknesses might be. Recent work has shown that transformers with hard attention are quite limited in capacity, and in fact can be simulated by constant-depth circuits. However, hard attention is a restrictive assumption, which may complicate the relevance of these results for practical transformers. In this work, we analyze the circuit complexity of transformers with saturated attention: a generalization of hard attention that more closely captures the attention patterns learnable in practical transformers. We show that saturated transformers transcend the limitations of hard-attention transformers. With some minor assumptions, we prove that the number of bits needed to represent a saturated transformer memory vector is $O(\log n)$, which implies saturated transformers can be simulated by log-depth circuits. Thus, the jump from hard to saturated attention can be understood as increasing the transformer's effective circuit depth by a factor of $O(\log n)$.
翻訳日:2021-07-01 12:34:44 公開日:2021-06-30
# 組織に対する攻撃的AIの脅威

The Threat of Offensive AI to Organizations ( http://arxiv.org/abs/2106.15764v1 )

ライセンス: Link先を確認
Yisroel Mirsky, Ambra Demontis, Jaidip Kotak, Ram Shankar, Deng Gelei, Liu Yang, Xiangyu Zhang, Wenke Lee, Yuval Elovici, Battista Biggio(参考訳) aiは私たちにタスクを自動化し、膨大なデータから情報を取り出し、現実とほとんど区別できないメディアを合成する能力を提供します。 しかし、ポジティブなツールは否定的な目的にも使える。 特に、サイバー敵はAI(機械学習など)を使って攻撃を強化し、キャンペーンを拡大することができる。 攻撃的なAIはこれまで議論されてきたが、組織のコンテキストにおける脅威を分析し、理解する必要がある。 例えば、AI対応の敵がサイバー殺人チェーンにどのような影響を与えるのか? AIはディフェンダーよりも攻撃者にとって有益か? 今日の組織が直面する最も重要なAI脅威は何か、そしてそれらが未来に与える影響は何か? 本調査では,組織に対する攻撃的AIの脅威について検討する。 まず、AIが敵の方法、戦略、目標、および全体的な攻撃モデルをどのように変えるかを説明します。 そして、文献レビューを通じて、敵が攻撃を強化するために使用できる33の攻撃的AI能力を特定します。 最後に、業界と学術にまたがるユーザー調査を通じて、AIの脅威をランク付けし、敵に対する洞察を提供する。

AI has provided us with the ability to automate tasks, extract information from vast amounts of data, and synthesize media that is nearly indistinguishable from the real thing. However, positive tools can also be used for negative purposes. In particular, cyber adversaries can use AI (such as machine learning) to enhance their attacks and expand their campaigns. Although offensive AI has been discussed in the past, there is a need to analyze and understand the threat in the context of organizations. For example, how does an AI-capable adversary impact the cyber kill chain? Does AI benefit the attacker more than the defender? What are the most significant AI threats facing organizations today and what will be their impact on the future? In this survey, we explore the threat of offensive AI on organizations. First, we present the background and discuss how AI changes the adversary's methods, strategies, goals, and overall attack model. Then, through a literature review, we identify 33 offensive AI capabilities which adversaries can use to enhance their attacks. Finally, through a user study spanning industry and academia, we rank the AI threats and provide insights on the adversaries.
翻訳日:2021-07-01 12:34:26 公開日:2021-06-30
# 予算を伴う組合わせ帯域としての最適エピデミック制御

Optimal Epidemic Control as a Contextual Combinatorial Bandit with Budget ( http://arxiv.org/abs/2106.15808v1 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf(参考訳) 新型コロナウイルス(covid-19)のパンデミックに照らし合わせると、各国や地域の政府資源と疫病対策をバランスさせる最善の政策を動的に規定する最適な方法を見出すことは、オープン・チャレンジであり、現実的な課題である。 搾取と探索の多次元的トレードオフを解決するために,我々は,マルチクリトリア報酬関数を共同で最適化する文脈組合せバンディット問題として,この技術的課題を定式化する。 地域における歴史的事例と過去の介入計画を考えると、エージェントは、政策立案者がリアルタイムで実施できる有用な介入計画を作成し、毎日の新型コロナウイルス感染者数と推奨介入のストリング性の両方を最小化する必要がある。 この概念を、複数の現実的な政策作成シナリオのシミュレーションで証明する。

In light of the COVID-19 pandemic, it is an open challenge and critical practical problem to find a optimal way to dynamically prescribe the best policies that balance both the governmental resources and epidemic control in different countries and regions. To solve this multi-dimensional tradeoff of exploitation and exploration, we formulate this technical challenge as a contextual combinatorial bandit problem that jointly optimizes a multi-criteria reward function. Given the historical daily cases in a region and the past intervention plans in place, the agent should generate useful intervention plans that policy makers can implement in real time to minimizing both the number of daily COVID-19 cases and the stringency of the recommended interventions. We prove this concept with simulations of multiple realistic policy making scenarios.
翻訳日:2021-07-01 12:34:11 公開日:2021-06-30
# 変圧器を用いた生活予測のための二重アスペクト自己認識

Dual Aspect Self-Attention based on Transformer for Remaining Useful Life Prediction ( http://arxiv.org/abs/2106.15842v1 )

ライセンス: Link先を確認
Zhizheng Zhang, Wen Song, Qiqiang Li(参考訳) rul(containing useful life prediction)は,産業機器の信頼性と安全性を維持する上で重要となる,コンディションベース・メンテナンスの重要な技術の一つである。 ディープラーニングはRUL予測において大きな成功を収めてきたが、既存の手法では長いシーケンスを処理したり、センサーや時間ステップの側面から情報を取り出すのが困難である。 本稿では,新しい深部RUL予測手法であるTransformer (DAST) に基づくDual Aspect Self-attentionを提案する。 DASTは2つのエンコーダから構成されており、異なるセンサーと時間ステップの特徴を同時に抽出する。 自己注意に基づいて、DASTエンコーダは長いデータシーケンスを処理するのに効果的であり、入力のより重要な部分に集中するように適応的に学習することができる。 さらに、並列特徴抽出設計は、情報の相互影響を2つの側面から回避する。 2つの実ターボファンエンジンデータセットによる実験結果から,本手法は最先端の手法よりも優れていた。

Remaining useful life prediction (RUL) is one of the key technologies of condition-based maintenance, which is important to maintain the reliability and safety of industrial equipments. While deep learning has achieved great success in RUL prediction, existing methods have difficulties in processing long sequences and extracting information from the sensor and time step aspects. In this paper, we propose Dual Aspect Self-attention based on Transformer (DAST), a novel deep RUL prediction method. DAST consists of two encoders, which work in parallel to simultaneously extract features of different sensors and time steps. Solely based on self-attention, the DAST encoders are more effective in processing long data sequences, and are capable of adaptively learning to focus on more important parts of input. Moreover, the parallel feature extraction design avoids mutual influence of information from two aspects. Experimental results on two real turbofan engine datasets show that our method significantly outperforms state-of-the-art methods.
翻訳日:2021-07-01 12:33:56 公開日:2021-06-30
# 有効確率モデルのためのpsd表現

PSD Representations for Effective Probability Models ( http://arxiv.org/abs/2106.16116v1 )

ライセンス: Link先を確認
Alessandro Rudi and Carlo Ciliberto(参考訳) 確率密度をモデル化する良い方法を見つけることは確率的推論の鍵となる。 理想モデルは、任意の確率を簡潔に近似できると同時に、2つの主演算、すなわち2つのモデル(積則)の乗算と確率変数(和則)の部分集合に対する辺数化とを両立させることができる。 本研究では,最近提案された非負関数に対する正半定義(psd)モデルが,この目的に特に適合することを示す。 特に,PSDモデルの近似と一般化能力の両方を特徴付け,理論的保証を強く享受することを示す。 さらに, 混合モデルの汎用性を活かして, 閉じた形状の和と積の規則を効率的に実行可能であることを示す。 本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。 予備的評価は我々の発見を裏付ける。

Finding a good way to model probability densities is key to probabilistic inference. An ideal model should be able to concisely approximate any probability, while being also compatible with two main operations: multiplications of two models (product rule) and marginalization with respect to a subset of the random variables (sum rule). In this work, we show that a recently proposed class of positive semi-definite (PSD) models for non-negative functions is particularly suited to this end. In particular, we characterize both approximation and generalization capabilities of PSD models, showing that they enjoy strong theoretical guarantees. Moreover, we show that we can perform efficiently both sum and product rule in closed form via matrix operations, enjoying the same versatility of mixture models. Our results open the way to applications of PSD models to density estimation, decision theory and inference. Preliminary empirical evaluation supports our findings.
翻訳日:2021-07-01 12:32:34 公開日:2021-06-30