このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210805となっている論文です。

PDF登録状況(公開日: 20210805)

TitleAuthorsAbstract論文公表日・翻訳日
# 強化学習剤における高温希薄ニューロンスパイク

Distilling Neuron Spike with High Temperature in Reinforcement Learning Agents ( http://arxiv.org/abs/2108.10078v1 )

ライセンス: Link先を確認
Ling Zhang, Jian Cao, Yuan Zhang, Bohan Zhou, Shuo Feng(参考訳) 深度ニューラルネットワーク(DNN)と比較して、スパイキングニューラルネットワーク(SNN)はより高速な処理速度、省エネルギー、より生物学的な解釈可能性を持ち、Strong AIにアプローチすることが期待される。 強化学習は生物学の学習に似ている。 SNNとRLの組み合わせを研究することは非常に重要である。 本稿では,STBPを用いたスパイク蒸留ネットワーク(SDN)の強化学習手法を提案する。 この方法は蒸留を用いてSTBPの弱点を効果的に回避し、分類におけるSOTA性能を実現し、より小さく、より高速な収束と低消費電力SNN強化学習モデルを得ることができる。 実験により,従来のSNN強化学習法やDNN強化学習法よりも早く収束し,約1000エポックを高速化し,DNNよりも200倍小さいSNNを得ることができた。 我々はまた、PKU nc64cチップにSDNをデプロイし、SDNがDNNよりも消費電力が低く、SDNの消費電力がDNNより600倍以上低いことを証明した。 SDNは、SNN強化学習の新しい方法を提供し、SOTA性能を実現し、SNN強化学習のさらなる発展の可能性を示す。

Spiking neural network (SNN), compared with depth neural network (DNN), has faster processing speed, lower energy consumption and more biological interpretability, which is expected to approach Strong AI. Reinforcement learning is similar to learning in biology. It is of great significance to study the combination of SNN and RL. We propose the reinforcement learning method of spike distillation network (SDN) with STBP. This method uses distillation to effectively avoid the weakness of STBP, which can achieve SOTA performance in classification, and can obtain a smaller, faster convergence and lower power consumption SNN reinforcement learning model. Experiments show that our method can converge faster than traditional SNN reinforcement learning and DNN reinforcement learning methods, about 1000 epochs faster, and obtain SNN 200 times smaller than DNN. We also deploy SDN to the PKU nc64c chip, which proves that SDN has lower power consumption than DNN, and the power consumption of SDN is more than 600 times lower than DNN on large-scale devices. SDN provides a new way of SNN reinforcement learning, and can achieve SOTA performance, which proves the possibility of further development of SNN reinforcement learning.
翻訳日:2021-08-29 12:08:10 公開日:2021-08-05
# 部分群探索を用いた時系列の局所的例外検出

Local Exceptionality Detection in Time Series Using Subgroup Discovery ( http://arxiv.org/abs/2108.11751v1 )

ライセンス: Link先を確認
Dan Hudson and Travis J. Wiltshire and Martin Atzmueller(参考訳) 本稿では,時系列データにおける局所的例外性検出のための新しい手法を提案する。 この方法では、データの解釈可能なパターンを発見し、時系列の進行を理解し予測することができる。 これは探索的なアプローチであり、結果は特定のプロセスを記述する変数とそのダイナミクスの関係に関する仮説を生成するのに使うことができる。 我々は、このアプローチを具体的なインスタンス化と例示的な実装、特にチームワーク研究の分野で詳述する。 チームインタラクションの現実世界のデータセットを使用すると、提案手法のサンプルデータ分析アプリケーションからの結果が含まれ、新しい分析オプションを示し、チームワーク研究の観点から結果の可能性を議論します。

In this paper, we present a novel approach for local exceptionality detection on time series data. This method provides the ability to discover interpretable patterns in the data, which can be used to understand and predict the progression of a time series. This being an exploratory approach, the results can be used to generate hypotheses about the relationships between the variables describing a specific process and its dynamics. We detail our approach in a concrete instantiation and exemplary implementation, specifically in the field of teamwork research. Using a real-world dataset of team interactions we include results from an example data analytics application of our proposed approach, showcase novel analysis options, and discuss possible implications of the results from the perspective of teamwork research.
翻訳日:2021-08-29 12:07:49 公開日:2021-08-05
# 利用者感を利用した保険商品の推薦

Recommending Insurance products by using Users' Sentiments ( http://arxiv.org/abs/2108.06210v1 )

ライセンス: Link先を確認
Rohan Parasrampuria, Ayan Ghosh, Suchandra Dutta and Dhrubasish Sarkar(参考訳) 今日のテクノロジーに精通した世界では、あらゆる業界が、いくつかの技術とアルゴリズムを組み合わせて、予測を行うための最も強化されたモデルをもたらすプールを形成することによって、製品を推奨するための方法を定式化しようとしている。 本論文は, 保険分野におけるレコメンデーションへの感情分析の適用に焦点を当てたものである。 我々は,与えられたフィードバックラインの極性を分析するために,ロジスティック回帰,多項ナイーブベイ,強大なランダムフォレストといった機械学習モデルを構築した。 そして、この極性と年齢、性別、地域性、収入、および既存の顧客が既に購入した他の製品のリストを、レコメンデーションモデルのインプットとして使用しました。 次に、利用者のプロファイルと極性スコアを一致させ、下降順に推奨される保険商品のリストを生成した。 私たちのモデルの単純さとキーデータセットの欠如にもかかわらず、結果は極めて論理的で現実的でした。 したがって、より強化された手法と、保険業界から収集されたより良い真のデータにアクセス可能なモデルを開発することで、このセクターは、感情分析の融合とレコメンデーションの恩恵を受けることができる。

In today's tech-savvy world every industry is trying to formulate methods for recommending products by combining several techniques and algorithms to form a pool that would bring forward the most enhanced models for making the predictions. Building on these lines is our paper focused on the application of sentiment analysis for recommendation in the insurance domain. We tried building the following Machine Learning models namely, Logistic Regression, Multinomial Naive Bayes, and the mighty Random Forest for analyzing the polarity of a given feedback line given by a customer. Then we used this polarity along with other attributes like Age, Gender, Locality, Income, and the list of other products already purchased by our existing customers as input for our recommendation model. Then we matched the polarity score along with the user's profiles and generated the list of insurance products to be recommended in descending order. Despite our model's simplicity and the lack of the key data sets, the results seemed very logical and realistic. So, by developing the model with more enhanced methods and with access to better and true data gathered from an insurance industry may be the sector could be very well benefitted from the amalgamation of sentiment analysis with a recommendation.
翻訳日:2021-08-22 14:39:43 公開日:2021-08-05
# 健康教育におけるリスクの高い学生の識別への予測分析の適用

The application of predictive analytics to identify at-risk students in health professions education ( http://arxiv.org/abs/2108.07709v1 )

ライセンス: Link先を確認
Anshul Kumar, Roger Edwards, Lisa Walker(参考訳) 導入: 学習者がマイルストーンに到達できなかったとき、教育者たちは、より早く介入できる警告サインがあったかどうか疑問に思うことが多い。 機械学習は、国家認定試験に失敗するリスクがある生徒を予測するために使用される。 試験前には、生徒が試験を受ける前に教育者が有意義に介入できるという予測がうまく行われている。 方法:マスター・オブ・メディカル・アシスタント・スタディ・プログラムにおける4つのコホートから得られた1年間の学生評価データを用いて,k-nearest neighborsアルゴリズム(ammknn)の適応的最小マッチング版を実装した。 このモデルの有効性を評価するためにLOOCV(Leave-one-out Cross Validation)を用いて,新入生の予測を行った。 結果: 最良の予測モデルは精度93%,感度69%,特異性94%であった。 試験を受ける予定の1年前に、各生徒に予測されたPANCEスコアを生成する。 学生は前向きに、追加サポート、オプションサポート、追加サポートを必要としないグループに分類できる。 教育者には、各タイプの生徒に適切な支援を提供するための1年が与えられる。 結論:予測分析は、医療専門家が学生に不足した時間とリソースを割り当てるのに役立つ。 職業間教育者は、含む方法とコードを使用して、学生の予測されたテスト結果を生成することができる。 著者らは、これらまたは類似の予測手法を使用する教育者が責任感と透明性をもって行動することを推奨している。

Introduction: When a learner fails to reach a milestone, educators often wonder if there had been any warning signs that could have allowed them to intervene sooner. Machine learning is used to predict which students are at risk of failing a national certifying exam. Predictions are made well in advance of the exam, such that educators can meaningfully intervene before students take the exam. Methods: Using already-collected, first-year student assessment data from four cohorts in a Master of Physician Assistant Studies program, the authors implement an "adaptive minimum match" version of the k-nearest neighbors algorithm (AMMKNN), using changing numbers of neighbors to predict each student's future exam scores on the Physician Assistant National Certifying Examination (PANCE). Leave-one-out cross validation (LOOCV) was used to evaluate the practical capabilities of this model, before making predictions for new students. Results: The best predictive model has an accuracy of 93%, sensitivity of 69%, and specificity of 94%. It generates a predicted PANCE score for each student, one year before they are scheduled to take the exam. Students can then be prospectively categorized into groups that need extra support, optional extra support, or no extra support. The educator then has one year to provide the appropriate customized support to each type of student. Conclusions: Predictive analytics can help health professions educators allocate scarce time and resources across their students. Interprofessional educators can use the included methods and code to generate predicted test outcomes for students. The authors recommend that educators using this or similar predictive methods act responsibly and transparently.
翻訳日:2021-08-22 14:38:30 公開日:2021-08-05
# (参考訳) 微分圧縮サンプリングのためのハイパーパラメータ解析 [全文訳有]

Hyperparameter Analysis for Derivative Compressive Sampling ( http://arxiv.org/abs/2108.04355v1 )

ライセンス: CC BY 4.0
Md Fazle Rabbi(参考訳) 導電性圧縮サンプリング (dcs) は, 空間勾配とサブナイキストサンプリング率の測定から得られた信号再構成法である。 DCSの応用例としては、光学画像再構成、測光ステレオ、シェーディング形状などがある。 本研究では,ブルートフォースサーチアルゴリズムを用いて,アルゴリズムハイパーパラメータに対するdcsの感度について検討する。 我々は,表面画像のデータセット上で実験を行い,信号回復性能を向上させるためにハイパーパラメータの値を設定するためのガイドラインを導出する。

Derivative compressive sampling (DCS) is a signal reconstruction method from measurements of the spatial gradient with sub-Nyquist sampling rate. Applications of DCS include optical image reconstruction, photometric stereo, and shape-from-shading. In this work, we study the sensitivity of DCS with respect to algorithmic hyperparameters using a brute-force search algorithm. We perform experiments on a dataset of surface images and deduce guidelines for the user to setup values for the hyperparameters for improved signal recovery performance.
翻訳日:2021-08-15 11:44:08 公開日:2021-08-05
# 金融市場におけるレジームスイッチ検出のためのハイブリッド学習手法

A Hybrid Learning Approach to Detecting Regime Switches in Financial Markets ( http://arxiv.org/abs/2108.05801v1 )

ライセンス: Link先を確認
Peter Akioyamen (1), Yi Zhou Tang (1), Hussien Hussien (1) ((1) Western University)(参考訳) 金融市場は、そのダイナミックで確率的な性質から研究者にとって大きな関心を集めている。 世界人口、世界経済、資産評価との関係から、トレンドや体制の理解、特定、予測は非常に重要である。 機械学習手法を用いて市場の動向を予測する試みが試みられ、統計手法が取引やヘッジに使用される市場制度変更モデルの開発に利用されてきた。 本稿では,米国の金融市場におけるレジームスイッチ検出のための新しい枠組みを提案する。 主成分分析を次元性低減に適用し,k-meansアルゴリズムをクラスタリング手法として用いる。 クラスタ分析と分類の組み合わせを用いて、公開可能な経済データに基づいて金融市場の体制を特定する。 検出された体制に基づいて2つの取引戦略を構築・評価することで,枠組みの有効性を示す。

Financial markets are of much interest to researchers due to their dynamic and stochastic nature. With their relations to world populations, global economies and asset valuations, understanding, identifying and forecasting trends and regimes are highly important. Attempts have been made to forecast market trends by employing machine learning methodologies, while statistical techniques have been the primary methods used in developing market regime switching models used for trading and hedging. In this paper we present a novel framework for the detection of regime switches within the US financial markets. Principal component analysis is applied for dimensionality reduction and the k-means algorithm is used as a clustering technique. Using a combination of cluster analysis and classification, we identify regimes in financial markets based on publicly available economic data. We display the efficacy of the framework by constructing and assessing the performance of two trading strategies based on detected regimes.
翻訳日:2021-08-15 11:32:29 公開日:2021-08-05
# (参考訳) 外部知識を用いた低相同タンパク質二次構造予測のための適応的残基方向プロファイル融合 [全文訳有]

Adaptive Residue-wise Profile Fusion for Low Homologous Protein SecondaryStructure Prediction Using External Knowledge ( http://arxiv.org/abs/2108.04176v1 )

ライセンス: CC BY 4.0
Qin Wang, Jun Wei, Boyuan Wang, Zhen Li1, Sheng Wang, Shuguang Cu(参考訳) タンパク質二次構造予測(PSSP)はタンパク質の機能解析に必須である。 しかし、低相同性タンパク質では、PSSPは入力特性が不十分である。 本稿では,残差分布融合の指導の下で,低相同性PSSPのための外部自己教師型知識を明示的にインポートする。 まず,低相同性psspに対する位置特異的スコアリングマトリクス(pssm)よりもプロファイルが優れていることを示す。 そこで本研究では,新たな自己教師型BERT特徴を擬似プロファイルとして紹介する。 さらに、新しい残余的注意は、それぞれの特徴を最大限に活用するだけでなく、ノイズの乱れを避けるために、適応的に異なる特徴(すなわち、元々の低品質プロファイル、bertベースの擬似プロファイル)を融合するように特別に設計されている。 逆に、複数の意味レベルからモデル学習を加速するために、機能一貫性の損失が提案されている。 広範な実験により,本手法が最先端(すなわち,bc40データセット上の極めて低いホモログの場合)よりも優れていることが確認された。

Protein secondary structure prediction (PSSP) is essential for protein function analysis. However, for low homologous proteins, the PSSP suffers from insufficient input features. In this paper, we explicitly import external self-supervised knowledge for low homologous PSSP under the guidance of residue-wise profile fusion. In practice, we firstly demonstrate the superiority of profile over Position-Specific Scoring Matrix (PSSM) for low homologous PSSP. Based on this observation, we introduce the novel self-supervised BERT features as the pseudo profile, which implicitly involves the residue distribution in all native discovered sequences as the complementary features. Further-more, a novel residue-wise attention is specially designed to adaptively fuse different features (i.e.,original low-quality profile, BERT based pseudo profile), which not only takes full advantage of each feature but also avoids noise disturbance. Be-sides, the feature consistency loss is proposed to accelerate the model learning from multiple semantic levels. Extensive experiments confirm that our method outperforms state-of-the-arts (i.e.,4.7%forextreme ly low homologous cases on BC40 dataset).
翻訳日:2021-08-12 09:11:36 公開日:2021-08-05
# (参考訳) 電池レスシステムにおける最適エネルギー利用のための機械学習アプリケーションのメモリアウェア分割 [全文訳有]

Memory-Aware Partitioning of Machine Learning Applications for Optimal Energy Use in Batteryless Systems ( http://arxiv.org/abs/2108.04059v1 )

ライセンス: CC BY 4.0
Andres Gomez, Andreas Tretter, Pascal Alexander Hager, Praveenth Sanmugarajah, Luca Benini, Lothar Thiele(参考訳) エネルギー収穫によるセンシングシステムは、伝統的にエネルギーのない長い期間を許容するように設計されてきた。 IoT(Internet of Things)がより過渡的で機会主義的な実行パラダイムへと進化するにつれ、エネルギー貯蔵コストの削減が、その経済的および生態学的生存可能性の鍵となる。 しかし、収穫システムにおけるエネルギー貯蔵量の減少は信頼性の問題を引き起こす。 トランスデューサは低電圧および電流レベルでのみ断続エネルギーを生成するため、保証されたタスク完了は困難である。 既存のアドホックな手法では、単一のタスクで十分なエネルギーをバッファリングし、大きなデータ保持オーバーヘッドを発生させるか、1つのアプリケーションサイクルで大きなエネルギーバッファを必要とする。 電池レスアプリケーションの総エネルギーコストを最適化する自動化手法であるJulinningを提案する。 独自の仕様モデルを使用することで、開発者はトランジェントアプリケーションを、明示的なデータ依存を持つアトミックに実行されるカーネルの集合として記述することができる。 我々の最適化フローは、データおよびエネルギー集約的なアプリケーションを、有界エネルギー消費を伴う複数の実行サイクルに分割することができる。 カーネル間のデータ依存性を利用することで、これらのエネルギー制限された実行サイクルは、システムのアクティベーション数と不揮発性データ転送の数を最小化し、エネルギーの総オーバーヘッドを最小化する。 エネルギー集約型機械学習アプリケーションを実行する2台のバッテリレスカメラを用いて、我々の方法論を検証する。 その結果, アドホック溶液と比較して, 必要なエネルギー貯蔵量を94%以上削減できるが, 0.12%のエネルギーオーバーヘッドしか発生しないことがわかった。

Sensing systems powered by energy harvesting have traditionally been designed to tolerate long periods without energy. As the Internet of Things (IoT) evolves towards a more transient and opportunistic execution paradigm, reducing energy storage costs will be key for its economic and ecologic viability. However, decreasing energy storage in harvesting systems introduces reliability issues. Transducers only produce intermittent energy at low voltage and current levels, making guaranteed task completion a challenge. Existing ad hoc methods overcome this by buffering enough energy either for single tasks, incurring large data-retention overheads, or for one full application cycle, requiring a large energy buffer. We present Julienning: an automated method for optimizing the total energy cost of batteryless applications. Using a custom specification model, developers can describe transient applications as a set of atomically executed kernels with explicit data dependencies. Our optimization flow can partition data- and energy-intensive applications into multiple execution cycles with bounded energy consumption. By leveraging interkernel data dependencies, these energy-bounded execution cycles minimize the number of system activations and nonvolatile data transfers, and thus the total energy overhead. We validate our methodology with two batteryless cameras running energy-intensive machine learning applications. Results demonstrate that compared to ad hoc solutions, our method can reduce the required energy storage by over 94% while only incurring a 0.12% energy overhead.
翻訳日:2021-08-12 08:58:24 公開日:2021-08-05
# (参考訳) 対人攻撃防止のための家庭内活動 [全文訳有]

Householder Activations for Provable Robustness against Adversarial Attacks ( http://arxiv.org/abs/2108.04062v1 )

ライセンス: CC BY 4.0
Sahil Singla, Surbhi Singla, Soheil Feizi(参考訳) l_{2}ノルムの下で厳密なリプシッツ制約を持つ畳み込みニューラルネットワーク(CNN)の訓練は、証明可能な対向性、解釈可能な勾配、安定した訓練に有用である。 1-Lipschitz CNNは、各層に1-Lipschitz制約を課すことで設計できるが、そのようなネットワークのトレーニングでは、バックプロパゲーション中に勾配が消えるのを防ぐために、各層に直交のヤコビ行列(全ての入力に対して)を持つ必要がある。 この性質を持つ層はグラディエントノルム保存(GNP)と呼ばれる。 表現的 GNP 活性化関数を構成するために、まず、任意の GNP 個の線型関数のヤコビアンが連続となるためにハウスナー変換によってのみ変化することが証明される。 この結果に基づいて,学習可能な家事変換を用いた非線形GNPアクティベーションのクラスを紹介した。 ベクトル $\mathbf{v}$ でパラメータ化された家庭用の活性化は、入力 $\mathbf{z}$ if $\mathbf{v}^{T}\mathbf{z} \leq 0$ に対して$(\mathbf{I}2\mathbf{v}\mathbf{v}^{T})\mathbf{z}$ を出力し、そうでなければ$\mathbf{z}$ を出力する。 既存の GNP アクティベーション $\mathrm{MaxMin}$ は、これらの変換の特定の設定に対する $\mathrm{HH}$ アクティベーションの特別なケースと見なすことができる。 したがって、$\mathrm{HH}$ アクティベーションを持つネットワークは $\mathrm{MaxMin}$ アクティベーションを持つネットワークよりも表現力が高い。 $\mathrm{HH}$ アクティベーションを持つネットワークは、敵攻撃に対する非自明な証明可能なロバスト性を持っているが、 (i) 証明正則化を導入し、 (ii) ネットワークの最後の層の直交化を緩和することによって、それらのロバスト性をさらに強化する。 CIFAR-10 と CIFAR-100 を用いた実験により,CIFAR-100 上での標準および証明可能なロバスト精度(それぞれ 3.65 % と 4.46 % )の両性能向上が得られた。

Training convolutional neural networks (CNNs) with a strict Lipschitz constraint under the l_{2} norm is useful for provable adversarial robustness, interpretable gradients and stable training. While 1-Lipschitz CNNs can be designed by enforcing a 1-Lipschitz constraint on each layer, training such networks requires each layer to have an orthogonal Jacobian matrix (for all inputs) to prevent gradients from vanishing during backpropagation. A layer with this property is said to be Gradient Norm Preserving (GNP). To construct expressive GNP activation functions, we first prove that the Jacobian of any GNP piecewise linear function is only allowed to change via Householder transformations for the function to be continuous. Building on this result, we introduce a class of nonlinear GNP activations with learnable Householder transformations called Householder activations. A householder activation parameterized by the vector $\mathbf{v}$ outputs $(\mathbf{I} - 2\mathbf{v}\mathbf{v}^{T})\mathbf{z}$ for its input $\mathbf{z}$ if $\mathbf{v}^{T}\mathbf{z} \leq 0$; otherwise it outputs $\mathbf{z}$. Existing GNP activations such as $\mathrm{MaxMin}$ can be viewed as special cases of $\mathrm{HH}$ activations for certain settings of these transformations. Thus, networks with $\mathrm{HH}$ activations have higher expressive power than those with $\mathrm{MaxMin}$ activations. Although networks with $\mathrm{HH}$ activations have nontrivial provable robustness against adversarial attacks, we further boost their robustness by (i) introducing a certificate regularization and (ii) relaxing orthogonalization of the last layer of the network. Our experiments on CIFAR-10 and CIFAR-100 show that our regularized networks with $\mathrm{HH}$ activations lead to significant improvements in both the standard and provable robust accuracy over the prior works (gain of 3.65\% and 4.46\% on CIFAR-100 respectively).
翻訳日:2021-08-12 07:52:52 公開日:2021-08-05
# 機械学習学習エキスパートシステムによる推奨事項と特許性の決定

Determining Sentencing Recommendations and Patentability Using a Machine Learning Trained Expert System ( http://arxiv.org/abs/2108.04088v1 )

ライセンス: Link先を確認
Logan Brown, Reid Pezewski, Jeremy Straub(参考訳) 本稿では機械学習エキスパートシステム(MLES)を用いた2つの研究について述べる。 1つは、連邦判決ガイドラインと犯罪者の特徴の両方に基づいて、一貫した連邦刑事判決についてアメリカ合衆国連邦判事に助言するシステムに焦点を当てている。 別の研究は、米国特許商標庁が特許性評価プロセスの自動化を前向きに支援できるシステムを開発することを目的としている。 どちらの研究も、機械学習によって訓練されたルールファクトエキスパートシステムネットワークを使用して、トレーニングとプレゼンテーションのための入力変数を受け入れ、システム推奨(例えば、文の長さや特許性評価)を表すスケールド変数を出力する。 本稿では,これらのプロジェクトのために開発されたルールファクトネットワークを提示し,比較する。 これは、両方のネットワークで使用される構造と、必要で実行されたデータの事前処理に基づく意思決定プロセスを説明する。 また、2つのシステムを比較することで、MLESシステムでどのように異なる方法が使えるかを論じる。

This paper presents two studies that use a machine learning expert system (MLES). One focuses on a system to advise to United States federal judges for regarding consistent federal criminal sentencing, based on both the federal sentencing guidelines and offender characteristics. The other study aims to develop a system that could prospectively assist the U.S. Patent and Trademark Office automate their patentability assessment process. Both studies use a machine learning-trained rule-fact expert system network to accept input variables for training and presentation and output a scaled variable that represents the system recommendation (e.g., the sentence length or the patentability assessment). This paper presents and compares the rule-fact networks that have been developed for these projects. It explains the decision-making process underlying the structures used for both networks and the pre-processing of data that was needed and performed. It also, through comparing the two systems, discusses how different methods can be used with the MLES system.
翻訳日:2021-08-10 15:47:50 公開日:2021-08-05
# ディープニューラルネットワークによる線形モデルの混合

Mixture of Linear Models Co-supervised by Deep Neural Networks ( http://arxiv.org/abs/2108.04035v1 )

ライセンス: Link先を確認
Beomseok Seo, Lin Lin, and Jia Li(参考訳) ディープニューラルネットワーク(dnn)モデルは、科学と工学の学術研究から産業とビジネスまで、多くの分野のアプリケーションで驚くべき成功を収めています。 DNNのモデリング能力は、モデルの複雑さと過度パラメータ化に由来すると考えられているが、一方で、解釈の欠如が批判されている。 もちろん全ての応用には当てはまらないが、経済学、社会科学、医療産業、行政上の意思決定など、いくつかの応用において、科学者や実践者は複数の理由でブラックボックスシステムによる予測の使用に抵抗している。 一つの理由は、研究の主な目的は、例えば、測定間の関係を明らかにするために、予測関数に基づく発見を行うことである。 もう1つの理由は、トレーニングデータセットが、研究者が純粋にデータ駆動の結果について完全に確信できるほど大きくないからだ。 予測関数を検証して解釈することで、研究者は結果を既存の知識と結びつけたり、新たな方向性に関する洞察を得ることができるようになる。 古典的な統計モデルはより説明しやすいが、その精度はDNNよりかなり低い。 本稿では,比較的単純な説明可能なモデルとdnnとのギャップを埋める手法を提案し,解釈可能性と精度のトレードオフをより柔軟に調整する。 私たちの主なアイデアは、DNNからのガイダンスでトレーニングされた差別モデルの組み合わせです。 識別モデルの混合物は以前にも研究されてきたが、この混合物の生成方法は全く異なる。

Deep neural network (DNN) models have achieved phenomenal success for applications in many domains, ranging from academic research in science and engineering to industry and business. The modeling power of DNN is believed to have come from the complexity and over-parameterizatio n of the model, which on the other hand has been criticized for the lack of interpretation. Although certainly not true for every application, in some applications, especially in economics, social science, healthcare industry, and administrative decision making, scientists or practitioners are resistant to use predictions made by a black-box system for multiple reasons. One reason is that a major purpose of a study can be to make discoveries based upon the prediction function, e.g., to reveal the relationships between measurements. Another reason can be that the training dataset is not large enough to make researchers feel completely sure about a purely data-driven result. Being able to examine and interpret the prediction function will enable researchers to connect the result with existing knowledge or gain insights about new directions to explore. Although classic statistical models are much more explainable, their accuracy often falls considerably below DNN. In this paper, we propose an approach to fill the gap between relatively simple explainable models and DNN such that we can more flexibly tune the trade-off between interpretability and accuracy. Our main idea is a mixture of discriminative models that is trained with the guidance from a DNN. Although mixtures of discriminative models have been studied before, our way of generating the mixture is quite different.
翻訳日:2021-08-10 15:46:05 公開日:2021-08-05
# Fed-BEV: 電気自動車のエネルギー消費をモデル化するフェデレーションラーニングフレームワーク

Fed-BEV: A Federated Learning Framework for Modelling Energy Consumption of Battery Electric Vehicles ( http://arxiv.org/abs/2108.04036v1 )

ライセンス: Link先を確認
Mingming Liu(参考訳) 近年,世界自動車市場における電気自動車(EV)のロールアウトへの関心が高まっている。 従来の内燃機関車(ICEV)と比較して、EVはユーザーが毎日通勤する際の金銭的コストを削減できるだけでなく、都市で発生する交通排出の増大を効果的に軽減できる。 とりわけ、バッテリ電気自動車(BEV)は、バッテリパックに蓄えられた化学エネルギーのみを推進に使っている。 そのため、様々な交通シナリオにおいて、こうした車両がどれだけのエネルギーを消費できるかを理解することが重要である。 そこで本稿では,BEV(Fed-BEV)のエネルギー消費をモデル化するためのフェデレーション学習アプローチを活用した新しい枠組みを提案する。 具体的には、Fed-BEVフレームワークに関わるBEVのグループが互いに学び、エネルギー消費モデルを共同で強化することができる。 提案するシステムアーキテクチャの設計と実装の詳細を共模した環境で提示する。 最後に,本提案手法がbevの正確なエネルギーモデリングに有効であることを示すため,比較研究とシミュレーション結果について述べる。

Recently, there has been an increasing interest in the roll-out of electric vehicles (EVs) in the global automotive market. Compared to conventional internal combustion engine vehicles (ICEVs), EVs can not only help users reduce monetary costs in their daily commuting, but also can effectively help mitigate the increasing level of traffic emissions produced in cities. Among many others, battery electric vehicles (BEVs) exclusively use chemical energy stored in their battery packs for propulsion. Hence, it becomes important to understand how much energy can be consumed by such vehicles in various traffic scenarios towards effective energy management. To address this challenge, we propose a novel framework in this paper by leveraging the federated learning approaches for modelling energy consumption for BEVs (Fed-BEV). More specifically, a group of BEVs involved in the Fed-BEV framework can learn from each other to jointly enhance their energy consumption model. We present the design of the proposed system architecture and implementation details in a co-simulation environment. Finally, comparative studies and simulation results are discussed to illustrate the efficacy of our proposed framework for accurate energy modelling of BEVs.
翻訳日:2021-08-10 15:41:03 公開日:2021-08-05
# 知的医療システムのための強化学習:包括的調査

Reinforcement Learning for Intelligent Healthcare Systems: A Comprehensive Survey ( http://arxiv.org/abs/2108.04087v1 )

ライセンス: Link先を確認
Alaa Awad Abdellatif, Naram Mhaisen, Zina Chkirbene, Amr Mohamed, Aiman Erbad, Mohsen Guizani(参考訳) 最近のパンデミックに伴う慢性疾患患者の比率の急速な増加は、医療費と死因の増加に直ちに脅威をもたらす。 これにより、医療システムを1対1の患者治療からインテリジェントな医療システムに転換し、サービス、アクセス、スケーラビリティを改善し、コストを削減できる。 強化学習(rl)は、さまざまなアプリケーションやサービスのためのさまざまな複雑な問題を解決する上で、本質的なブレークスルーを目の当たりにしている。 そこで本稿では,知的医療(i-health)システムを支えるために開発されたrlの最近のモデルと技術について総合的な調査を行う。 本稿では,I-healthの文脈におけるRLの使用状況について,読者の理解を深める。 具体的には、まず、i-healthシステムの課題、アーキテクチャ、およびrlがこれらのシステムにどのように貢献できるかの概要を紹介する。 次に、異なるRL、Deep RL(DRL)およびマルチエージェントRLモデルの背景および数学的モデリングについてレビューする。 その後、i-healthシステムにおけるrlの応用について深い文献レビューを行う。 特に、エッジインテリジェンス、スマートコアネットワーク、動的治療体制の3つの主要な領域が取り組まれている。 最後に,新たな課題を浮き彫りにし,i-healthシステムにおけるrlの将来的な成功を推進するための今後の研究方向性を概説する。

The rapid increase in the percentage of chronic disease patients along with the recent pandemic pose immediate threats on healthcare expenditure and elevate causes of death. This calls for transforming healthcare systems away from one-on-one patient treatment into intelligent health systems, to improve services, access and scalability, while reducing costs. Reinforcement Learning (RL) has witnessed an intrinsic breakthrough in solving a variety of complex problems for diverse applications and services. Thus, we conduct in this paper a comprehensive survey of the recent models and techniques of RL that have been developed/used for supporting Intelligent-healthca re (I-health) systems. This paper can guide the readers to deeply understand the state-of-the-art regarding the use of RL in the context of I-health. Specifically, we first present an overview for the I-health systems challenges, architecture, and how RL can benefit these systems. We then review the background and mathematical modeling of different RL, Deep RL (DRL), and multi-agent RL models. After that, we provide a deep literature review for the applications of RL in I-health systems. In particular, three main areas have been tackled, i.e., edge intelligence, smart core network, and dynamic treatment regimes. Finally, we highlight emerging challenges and outline future research directions in driving the future success of RL in I-health systems, which opens the door for exploring some interesting and unsolved problems.
翻訳日:2021-08-10 15:40:45 公開日:2021-08-05
# 複合時空間表現を用いたエンドツーエンドニューラルビデオ符号化

End-to-end Neural Video Coding Using a Compound Spatiotemporal Representation ( http://arxiv.org/abs/2108.04103v1 )

ライセンス: Link先を確認
Haojie Liu, Ming Lu, Zhiqi Chen, Xun Cao, Zhan Ma, Yao Wang(参考訳) 近年、学習ビデオコーディングの急速な進歩が見られた。 ほとんどのアルゴリズムは、フレーム間の冗長性を利用するためにベクトルベースの動き表現と再サンプリング(例えば、光学フローに基づくバイリニアサンプリング)のみに頼っている。 非圧縮ビデオの映像予測における適応型カーネルベースの再サンプリング(適応畳み込みや変形可能な畳み込みなど)の成功にもかかわらず、フレーム間符号化におけるレートゆがみ最適化と統合する手法は、あまり成功していない。 それぞれの再サンプリングソリューションは, 異なる運動特性とテクスチャ特性を持つ領域に特有の利点があることを認識し, これら2つのアプローチによって生成される予測を適応的に組み合わせたハイブリッドモーション補償法を提案する。 具体的には、現在および複数過去のフレームからの情報を用いて、繰り返し情報集約(RIA)モジュールを介して複合時空間表現(CSTR)を生成する。 さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含むCSTRから複数の予測を生成する1対多デコーダパイプラインを設計し、それらを適応的に組み合わせてより正確な相互予測を実現する。 実験により,提案するインターコーディングシステムはより優れた動き補償予測を提供し,咬合や複雑な動きに対してより頑健であることが示された。 共同で訓練されたイントラコーダと残留コーダとともに、学習用ハイブリッドコーダは従来のH.264/AVCとH.265/HEVCと比較して、PSNRとMS-SSIMの両方のメトリクスで最先端のコーディング効率が得られる。

Recent years have witnessed rapid advances in learnt video coding. Most algorithms have solely relied on the vector-based motion representation and resampling (e.g., optical flow based bilinear sampling) for exploiting the inter frame redundancy. In spite of the great success of adaptive kernel-based resampling (e.g., adaptive convolutions and deformable convolutions) in video prediction for uncompressed videos, integrating such approaches with rate-distortion optimization for inter frame coding has been less successful. Recognizing that each resampling solution offers unique advantages in regions with different motion and texture characteristics, we propose a hybrid motion compensation (HMC) method that adaptively combines the predictions generated by these two approaches. Specifically, we generate a compound spatiotemporal representation (CSTR) through a recurrent information aggregation (RIA) module using information from the current and multiple past frames. We further design a one-to-many decoder pipeline to generate multiple predictions from the CSTR, including vector-based resampling, adaptive kernel-based resampling, compensation mode selection maps and texture enhancements, and combines them adaptively to achieve more accurate inter prediction. Experiments show that our proposed inter coding system can provide better motion-compensated prediction and is more robust to occlusions and complex motions. Together with jointly trained intra coder and residual coder, the overall learnt hybrid coder yields the state-of-the-art coding efficiency in low-delay scenario, compared to the traditional H.264/AVC and H.265/HEVC, as well as recently published learning-based methods, in terms of both PSNR and MS-SSIM metrics.
翻訳日:2021-08-10 15:16:48 公開日:2021-08-05
# 共学: 自己監督によるノイズラベルからの学習

Co-learning: Learning from Noisy Labels with Self-supervision ( http://arxiv.org/abs/2108.04063v1 )

ライセンス: Link先を確認
Cheng Tan, Jun Xia, Lirong Wu, Stan Z. Li(参考訳) 手動ラベリングの誤りや教師付き学習のためのwebデータ収集から生じるノイズの多いラベルは、ニューラルネットワークが誤解を招く情報に過剰に適合し、一般化性能を低下させる可能性がある。 自己教師付き学習はラベルのない状態で機能し、ノイズラベルの負の影響を排除する。 教師付き学習と自己監督型学習の両方の視点で協調学習を行うことで、ノイズラベルを用いた学習のためのコラーニングと呼ばれるシンプルで効果的な方法を提案する。 共同学習は、協調的に教師あり学習と自己監督学習を行う。 共有共通特徴エンコーダに、自己教師付きモジュールと固有の類似性の制約とノイズ教師付きモジュールとの構造類似性の制約を課し、ネットワークを正規化し、2つの制約間の合意を最大化する。 コラーニングは、ベンチマークデータセットの破損したデータのピアメソッドを公平に比較し、コラーニングが最先端の多くのアプローチよりも優れていることを示す広範な結果を提供する。

Noisy labels, resulting from mistakes in manual labeling or webly data collecting for supervised learning, can cause neural networks to overfit the misleading information and degrade the generalization performance. Self-supervised learning works in the absence of labels and thus eliminates the negative impact of noisy labels. Motivated by co-training with both supervised learning view and self-supervised learning view, we propose a simple yet effective method called Co-learning for learning with noisy labels. Co-learning performs supervised learning and self-supervised learning in a cooperative way. The constraints of intrinsic similarity with the self-supervised module and the structural similarity with the noisily-supervised module are imposed on a shared common feature encoder to regularize the network to maximize the agreement between the two constraints. Co-learning is compared with peer methods on corrupted data from benchmark datasets fairly, and extensive results are provided which demonstrate that Co-learning is superior to many state-of-the-art approaches.
翻訳日:2021-08-10 15:11:46 公開日:2021-08-05
# 自然勾配ブースティングによる短期太陽発電予測の解釈可能な確率モデル

An Interpretable Probabilistic Model for Short-Term Solar Power Forecasting Using Natural Gradient Boosting ( http://arxiv.org/abs/2108.04058v1 )

ライセンス: Link先を確認
Georgios Mitrentsis, Hendrik Lens(参考訳) 太陽光発電(PV)パワーの確率的性質は、学術と産業の両方を、正確なPV電力予測モデルの開発を目的とした大量の研究に導いた。 しかしながら、これらのモデルのほとんどは機械学習アルゴリズムに基づいており、予測に関する洞察や説明を提供しないブラックボックスと見なされている。 したがって、透明性が必要な環境での直接実施や、それらの予測に関連する信頼に疑問が呈される。 そこで本研究では,精度が高く,信頼性が高く,鋭い予測を生成できる2段階確率予測フレームワークを提案する。 第1段階では、自然勾配上昇(NGBoost)を利用して確率予測を導出し、第2段階ではシャプリー加法的説明(SHAP)値を計算し、なぜ予測がなされたのかを解明する。 提案フレームワークの性能と適用性を強調するため,南ドイツにある2つのPV公園の実際のデータを用いている。 はじめに、自然勾配ブースティングは、幅広い予測指標において、ガウス過程と低い上限推定という2つの最先端アルゴリズムと徹底的に比較される。 次に,モデルの複雑な非線形関係の詳細な解析と様々な特徴の相互作用効果について述べる。 後者は、モデルを解釈し、学習した物理的特性を特定し、個々の予測を説明し、モデルの精度を損なうことなくトレーニングの計算要求を減らし、バグを検知し、モデルに対する信頼を得ることを可能にする。 最後に,学習された物理特性に基づいて,人間の論理と直観に追従する非線形関係を構築できることを確認した。

The stochastic nature of photovoltaic (PV) power has led both academia and industry to a large amount of research work aiming at the development of accurate PV power forecasting models. However, most of those models are based on machine learning algorithms and are considered as black boxes which do not provide any insight or explanation about their predictions. Therefore, their direct implementation in environments, where transparency is required, and the trust associated with their predictions may be questioned. To this end, we propose a two stage probabilistic forecasting framework able to generate highly accurate, reliable, and sharp forecasts yet offering full transparency on both the point forecasts and the prediction intervals (PIs). In the first stage, we exploit natural gradient boosting (NGBoost) for yielding probabilistic forecasts while in the second stage, we calculate the Shapley additive explanation (SHAP) values in order to fully understand why a prediction was made. To highlight the performance and the applicability of the proposed framework, real data from two PV parks located in Southern Germany are employed. Initially, the natural gradient boosting is thoroughly compared with two state-of-the-art algorithms, namely Gaussian process and lower upper bound estimation, in a wide range of forecasting metrics. Secondly, a detailed analysis of the model's complex nonlinear relationships and interaction effects between the various features is presented. The latter allows us to interpret the model, identify some learned physical properties, explain individual predictions, reduce the computational requirements for the training without jeopardizing the model accuracy, detect possible bugs, and gain trust in the model. Finally, we conclude that the model was able to develop nonlinear relationships following human logic and intuition based on learned physical properties.
翻訳日:2021-08-10 15:02:14 公開日:2021-08-05
# 臨床データを用いたアルツハイマー病認知症発症のモデル化のための機械学習--体系的文献レビュー

Machine learning for modeling the progression of Alzheimer disease dementia using clinical data: a systematic literature review ( http://arxiv.org/abs/2108.04174v1 )

ライセンス: Link先を確認
Sayantan Kumar, Inez Oh, Suzanne Schindler, Albert M Lai, Philip R O Payne, Aditi Gupta(参考訳) 客観的アルツハイマー病(objective alzheimer disease, ad)は認知症の最も一般的な原因であり、日常生活活動に干渉できるほど重篤な認知障害を特徴とする。 我々は,AD認知症の進行リスクをモデル化するために,電子健康記録から得られた臨床データに機械学習手法を適用した研究の体系的文献レビュー(SLR)を実施することを目的とした。 資料と方法 2010年1月1日から2020年5月31日まで,PubMed, Scopus, ScienceDirect, IEEE Explore Digital Library, Association for Computing Machinery Digital Library, arXiv で論文を検索した。 我々は、事前定義された基準を用いて関連記事を選択し、データ特性、計算アルゴリズム、研究焦点などのML分析の重要な要素に従ってそれらを要約した。 結果 この5年間で,AD認知症モデルのためのMLベース分析を用いた研究論文の数が大幅に増加した。 我々はSLRで64項目をレビューした。 以上の結果から, 既存の研究の大部分は, 神経画像検査と臨床データ(臨床検査, 患者人口統計, 神経画像データ, 臨床検査値)の公開データセットを用いて, 広告認知症の進行を予測することに焦点を当てていることが示唆された。 広告認知症の進行リスクにある個人を特定する議論は、将来のケアを計画するために疾患管理をパーソナライズするのに役立つ可能性がある。 構造化データテーブルと臨床ノートの両方からなる臨床データは、広告認知症進行のリスクをモデル化するmlベースのアプローチで効果的に使用できる。 結果のデータの共有と再現性は、この研究の影響、適応性、一般化性を高めることができる。

Objective Alzheimer disease (AD) is the most common cause of dementia, a syndrome characterized by cognitive impairment severe enough to interfere with activities of daily life. We aimed to conduct a systematic literature review (SLR) of studies that applied machine learning (ML) methods to clinical data derived from electronic health records in order to model risk for progression of AD dementia. Materials and Methods We searched for articles published between January 1, 2010, and May 31, 2020, in PubMed, Scopus, ScienceDirect, IEEE Explore Digital Library, Association for Computing Machinery Digital Library, and arXiv. We used predefined criteria to select relevant articles and summarized them according to key components of ML analysis such as data characteristics, computational algorithms, and research focus. Results There has been a considerable rise over the past 5 years in the number of research papers using ML-based analysis for AD dementia modeling. We reviewed 64 relevant articles in our SLR. The results suggest that majority of existing research has focused on predicting progression of AD dementia using publicly available datasets containing both neuroimaging and clinical data (neurobehavioral status exam scores, patient demographics, neuroimaging data, and laboratory test values). Discussion Identifying individuals at risk for progression of AD dementia could potentially help to personalize disease management to plan future care. Clinical data consisting of both structured data tables and clinical notes can be effectively used in ML-based approaches to model risk for AD dementia progression. Data sharing and reproducibility of results can enhance the impact, adaptation, and generalizability of this research.
翻訳日:2021-08-10 14:59:54 公開日:2021-08-05
# 疎・雑音データを用いた偏微分方程式パラメータ発見のためのベイズディープラーニング

Bayesian Deep Learning for Partial Differential Equation Parameter Discovery with Sparse and Noisy Data ( http://arxiv.org/abs/2108.04085v1 )

ライセンス: Link先を確認
Christophe Bonneville, Christopher J. Earls(参考訳) 科学機械学習は計算物理学における逆問題やPDE発見に成功している。 しかし、現在の手法の1つの欠点は、完全なシステム応答や基礎となる物理モデルを取り戻すために大量の(クリーンな)データが必要であることである。 ベイズ法は、スパースデータやノイズデータに対する感度が低いため、これらの課題を克服することを特に有望であるかもしれない。 本稿では, ベイズニューラルネットワーク(BNN)を用いて, 1) 測定データからシステム全体の状態を復元する手法を提案する。 温度、速度場など)。 深い密度を持つbnnの後方分布をハミルトニアンモンテカルロを用いてサンプリングし,過度に適合することなく様々な複雑性の物理を正確に捉えることができることを示した。 2) 物理系を支配下にある偏微分方程式(PDE)のパラメータを復元する。 システム応答のサロゲートとして訓練されたBNNを用いて、観測されたシステムの潜伏PDEを構成する可能性のある導関数のデータセットを生成し、空間上の連続する導関数と時間の間のベイズ線形回帰(BLR)を行い、元のPDEパラメータを復元する。 我々は,bnn出力に対する信頼区間を活用し,空間微分分散をblrの確率に導入することで,不確実性の高いサロゲートデータポイントの影響を解消し,より正確なパラメータ発見を可能にする。 物理学や非線形力学に適用できる一握りの例で、我々のアプローチを実証する。

Scientific machine learning has been successfully applied to inverse problems and PDE discoveries in computational physics. One caveat of current methods however is the need for large amounts of (clean) data in order to recover full system responses or underlying physical models. Bayesian methods may be particularly promising to overcome these challenges as they are naturally less sensitive to sparse and noisy data. In this paper, we propose to use Bayesian neural networks (BNN) in order to: 1) Recover the full system states from measurement data (e.g. temperature, velocity field, etc.). We use Hamiltonian Monte-Carlo to sample the posterior distribution of a deep and dense BNN, and show that it is possible to accurately capture physics of varying complexity without overfitting. 2) Recover the parameters in the underlying partial differential equation (PDE) governing the physical system. Using the trained BNN as a surrogate of the system response, we generate datasets of derivatives potentially comprising the latent PDE of the observed system and perform a Bayesian linear regression (BLR) between the successive derivatives in space and time to recover the original PDE parameters. We take advantage of the confidence intervals on the BNN outputs and introduce the spatial derivative variance into the BLR likelihood to discard the influence of highly uncertain surrogate data points, which allows for more accurate parameter discovery. We demonstrate our approach on a handful of example applied to physics and non-linear dynamics.
翻訳日:2021-08-10 14:57:06 公開日:2021-08-05
# (参考訳) リーグ・オブ・レジェンドにおけるプレイヤーチャンピオン体験に基づく機械学習によるゲーム成績予測 [全文訳有]

Using Machine Learning to Predict Game Outcomes Based on Player-Champion Experience in League of Legends ( http://arxiv.org/abs/2108.02799v1 )

ライセンス: CC BY 4.0
Tiffany D. Do, Seong Ioi Wang, Dylan S. Yu, Matthew G. McMillian, Ryan P. McMahan(参考訳) リーグ・オブ・レジェンド(League of Legends)は、世界最多のマルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームである。 LoLの重要な側面は、スキルベースのマッチメイキングシステムを使用してフェアチームを形成する、競争力のあるランキングプレイである。 しかし、プレイヤーのスキルレベルは、どのチャンピオンやヒーローを選ぶかによって大きく異なる。 本稿では,選択したチャンピオンとの体験に基づいて,ランク付けされたlolゲームにおけるゲーム結果を予測する手法を提案する。 ディープニューラルネットワークを用いて、ゲームプレイ開始前に全てのプレイヤーがチャンピオンを選択した後、ゲーム結果が75.1%の精度で予測できることを発見した。 この結果は,LoLとマッチメイキングに重要な意味を持つ。 まず、個々のチャンピオンスキルは、チーム構成に関係なく、試合の結果において重要な役割を果たす。 第二に、スキルベースのマッチメイキングの後にも、ゲームが始まる前にチームのスキルには大きなばらつきがある。 最後に、プレイヤーは、ゲームに勝ちたい場合、マスターしたチャンピオンのみをプレイすべきである。

League of Legends (LoL) is the most widely played multiplayer online battle arena (MOBA) game in the world. An important aspect of LoL is competitive ranked play, which utilizes a skill-based matchmaking system to form fair teams. However, players' skill levels vary widely depending on which champion, or hero, that they choose to play as. In this paper, we propose a method for predicting game outcomes in ranked LoL games based on players' experience with their selected champion. Using a deep neural network, we found that game outcomes can be predicted with 75.1% accuracy after all players have selected champions, which occurs before gameplay begins. Our results have important implications for playing LoL and matchmaking. Firstly, individual champion skill plays a significant role in the outcome of a match, regardless of team composition. Secondly, even after the skill-based matchmaking, there is still a wide variance in team skill before gameplay begins. Finally, players should only play champions that they have mastered, if they want to win games.
翻訳日:2021-08-10 02:39:29 公開日:2021-08-05
# (参考訳) 放射線化学・放射線化学工学における人工知能と機械学習の可能性 [全文訳有]

Potential Applications of Artificial Intelligence and Machine Learning in Radiochemistry and Radiochemical Engineering ( http://arxiv.org/abs/2108.02814v1 )

ライセンス: CC BY 4.0
E. William Webb and Peter J.H. Scott(参考訳) 人工知能と機械学習は、PETイメージングをベンチからクリニックに邪魔する可能性がある。 この観点からは、petイメージングのための新しい放射性医薬品の設計と合成を改善するためにこの技術をどのように適用できるか、最適なラベリングアプローチの同定や放射性ラベリング反応最適化の戦略などについての洞察を提供する。

Artificial intelligence and machine learning are poised to disrupt PET imaging from bench to clinic. In this perspective we offer insights into how the technology could be applied to improve the design and synthesis of new radiopharmaceuticals for PET imaging, including identification of an optimal labeling approach as well as strategies for radiolabeling reaction optimization.
翻訳日:2021-08-10 02:30:33 公開日:2021-08-05
# (参考訳) CLIPの評価: ブロードキャパシティと下流含意の評価に向けて [全文訳有]

Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications ( http://arxiv.org/abs/2108.02818v1 )

ライセンス: CC BY 4.0
Sandhini Agarwal, Gretchen Krueger, Jack Clark, Alec Radford, Jong Wook Kim, Miles Brundage(参考訳) 近年では、クリップやアライメントなどのモデルの出現によってより一般化したコンピュータビジョン(cv)モデルのブレークスルーが起きている。 本稿では、CLIPを分析し、そのようなモデルがもたらす課題をいくつか取り上げる。 CLIPはタスク固有のトレーニングデータの必要性を減らし、多くのニッチなタスクを自動化に開放する可能性がある。 clipは、ユーザーが自然言語で画像分類クラスを柔軟に指定することもできます。 さらに、いくつかの予備的な調査により、CLIPは以前のコンピュータビジョンシステムに見られるバイアスを継承できることがわかった。 このようなモデルに対する広範かつ予測不可能な使用領域を考えると、このようなシステムにとって十分に安全な振る舞いがどのようなものかという疑問が提起される。 これらの結果は、単にタスク指向の能力評価の精度を高めることだけでなく、さまざまなユースケースコンテキストのようなデプロイメントクリティカルな特徴を考慮に入れたより広範な"ベタ"や、モデルデプロイメントについて考えるときにモデルと対話する人々への、"ベタ"モデルの概念の変更を求める成長する作業組織に証拠を与えます。

Recently, there have been breakthroughs in computer vision ("CV") models that are more generalizable with the advent of models such as CLIP and ALIGN. In this paper, we analyze CLIP and highlight some of the challenges such models pose. CLIP reduces the need for task specific training data, potentially opening up many niche tasks to automation. CLIP also allows its users to flexibly specify image classification classes in natural language, which we find can shift how biases manifest. Additionally, through some preliminary probes we find that CLIP can inherit biases found in prior computer vision systems. Given the wide and unpredictable domain of uses for such models, this raises questions regarding what sufficiently safe behaviour for such systems may look like. These results add evidence to the growing body of work calling for a change in the notion of a 'better' model--to move beyond simply looking at higher accuracy at task-oriented capability evaluations, and towards a broader 'better' that takes into account deployment-critical features such as different use contexts, and people who interact with the model when thinking about model deployment.
翻訳日:2021-08-10 02:22:12 公開日:2021-08-05
# (参考訳) Q-learningがほぼ確実に収束する初歩的証明 [全文訳有]

An Elementary Proof that Q-learning Converges Almost Surely ( http://arxiv.org/abs/2108.02827v1 )

ライセンス: CC BY 4.0
Matthew T. Regehr, Alex Ayoub(参考訳) watkins と dayan の q-learning はモデルフリーの強化学習アルゴリズムであり、多くの状態付けペア [watkins と dayan, 1992] を確率的に「訪問」することで mdp の最適動作値関数の推定を反復的に洗練する。 アルゴリズムの変種は、スーパーヒューマンアタリプレイングディープq-ネットワーク(mnih et al., 2015)を含む、強化学習における最新の多くの成果の中心にある。 本論文の目的は,q-learningが収束する正確な(ほぼ)自己完結型証明を再現することである。 利用可能な文献の多くは、この脈絡で非常に一般化可能な結果を得るために強力な理論を活用している。 しかし、このアプローチでは読者に親しみやすく、さまざまな研究領域に多くの深いつながりを持たせる必要がある。 学生は「RL学習地獄」の悪循環の中で、Q学習リスクの理解を深めようとしている。 このため、この最小限の他の結果への依存が「輝き」を犠牲にするという事実にもかかわらず、確率近似の分野から1つの外部結果のみを用いて開始から終了までの完全な証明を与える。

Watkins' and Dayan's Q-learning is a model-free reinforcement learning algorithm that iteratively refines an estimate for the optimal action-value function of an MDP by stochastically "visiting" many state-ation pairs [Watkins and Dayan, 1992]. Variants of the algorithm lie at the heart of numerous recent state-of-the-art achievements in reinforcement learning, including the superhuman Atari-playing deep Q-network [Mnih et al., 2015]. The goal of this paper is to reproduce a precise and (nearly) self-contained proof that Q-learning converges. Much of the available literature leverages powerful theory to obtain highly generalizable results in this vein. However, this approach requires the reader to be familiar with and make many deep connections to different research areas. A student seeking to deepen their understand of Q-learning risks becoming caught in a vicious cycle of "RL-learning Hell". For this reason, we give a complete proof from start to finish using only one external result from the field of stochastic approximation, despite the fact that this minimal dependence on other results comes at the expense of some "shininess".
翻訳日:2021-08-10 02:14:09 公開日:2021-08-05
# (参考訳) 微分プライベートn-gram抽出 [全文訳有]

Differentially Private n-gram Extraction ( http://arxiv.org/abs/2108.02831v1 )

ライセンス: CC BY 4.0
Kunho Kim, Sivakanth Gopi, Janardhan Kulkarni and Sergey Yekhanin(参考訳) 差分プライバシー設定において、n$-gram抽出の問題を再検討する。 この問題では、プライベートテキストデータのコーパスが与えられた場合、ユーザレベルのプライバシを維持しながら、できるだけ多くのn$-gramをリリースすることが目標です。 n$-gramsを抽出することは、文補完や電子メールの応答生成など、多くのNLPアプリケーションにおいて基本的なサブルーチンである。 この問題は、シーケンスマイニングのような他の応用でも起こり、最近研究された微分プライベート集合連合(dpsu)の一般化である。 本稿では,この問題に対する微分プライベートな新しいアルゴリズムを開発し,実験において最先端のアルゴリズムよりも優れることを示す。 我々の改善は、最近のDPSUの進歩、プライバシー会計、そしてChenらによって始められたツリーベースのアプローチで刈り取るための新しいヒューリスティックスを組み合わせることに起因する。 (2012).

We revisit the problem of $n$-gram extraction in the differential privacy setting. In this problem, given a corpus of private text data, the goal is to release as many $n$-grams as possible while preserving user level privacy. Extracting $n$-grams is a fundamental subroutine in many NLP applications such as sentence completion, response generation for emails etc. The problem also arises in other applications such as sequence mining, and is a generalization of recently studied differentially private set union (DPSU). In this paper, we develop a new differentially private algorithm for this problem which, in our experiments, significantly outperforms the state-of-the-art. Our improvements stem from combining recent advances in DPSU, privacy accounting, and new heuristics for pruning in the tree-based approach initiated by Chen et al. (2012).
翻訳日:2021-08-10 01:56:12 公開日:2021-08-05
# (参考訳) ゼロショット動作認識のための共同リハーサル [全文訳有]

Elaborative Rehearsal for Zero-shot Action Recognition ( http://arxiv.org/abs/2108.02833v1 )

ライセンス: CC BY 4.0
Shizhe Chen and Dong Huang(参考訳) アクションクラスの増加はビデオ理解に新たな課題をもたらし、Zero-Shot Action Recognition(ZSAR)が繁栄する方向となった。 ZSARタスクは、目に見えないアクションと見えないアクションをブリッジするために意味表現を活用することで、例を訓練せずにターゲット(見えない)アクションを認識することを目的としている。 しかしながら、アクションの複雑さと多様性のため、アクションクラスを意味的に表現し、見たデータから知識を転送することは依然として困難である。 本研究では,新しい概念を考案し,それを既知の概念に関連付ける,効率的なヒューマンメモリ技術であるElaborative Rehearsal(ER)にインスパイアされたER強化ZSARモデルを提案する。 具体的には、各アクションクラスを、クラス名よりも識別性が高く、手動で定義された属性よりもコストが低く、詳細記述(ed)文として拡張する。 クラスのセマンティクスをビデオと直接連携させるだけでなく、ビデオのオブジェクトを詳細概念(ec)として組み込んで、ビデオセマンティクスを改善し、見たアクションから認識できないアクションへと一般化します。 我々のER強化ZSARモデルは既存の3つのベンチマークで最先端の結果を得る。 さらに,Kineeticsデータセット上に新たなZSAR評価プロトコルを提案し,現在のベンチマークの限界を克服し,ZSAR性能が,このより現実的な設定における少数の学習ベースラインに匹敵する最初の事例を示す。 コードとEDはhttps://github.com/D eLightCMU/Elaborativ eRehearsal.comで公開します。

The growing number of action classes has posed a new challenge for video understanding, making Zero-Shot Action Recognition (ZSAR) a thriving direction. The ZSAR task aims to recognize target (unseen) actions without training examples by leveraging semantic representations to bridge seen and unseen actions. However, due to the complexity and diversity of actions, it remains challenging to semantically represent action classes and transfer knowledge from seen data. In this work, we propose an ER-enhanced ZSAR model inspired by an effective human memory technique Elaborative Rehearsal (ER), which involves elaborating a new concept and relating it to known concepts. Specifically, we expand each action class as an Elaborative Description (ED) sentence, which is more discriminative than a class name and less costly than manual-defined attributes. Besides directly aligning class semantics with videos, we incorporate objects from the video as Elaborative Concepts (EC) to improve video semantics and generalization from seen actions to unseen actions. Our ER-enhanced ZSAR model achieves state-of-the-art results on three existing benchmarks. Moreover, we propose a new ZSAR evaluation protocol on the Kinetics dataset to overcome limitations of current benchmarks and demonstrate the first case where ZSAR performance is comparable to few-shot learning baselines on this more realistic setting. We will release our codes and collected EDs at https://github.com/D eLightCMU/Elaborativ eRehearsal.
翻訳日:2021-08-10 01:42:29 公開日:2021-08-05
# (参考訳) 機械学習とディープラーニング技術を用いた二段階回転法

Two-Stage Sector Rotation Methodology Using Machine Learning and Deep Learning Techniques ( http://arxiv.org/abs/2108.02838v1 )

ライセンス: CC BY 4.0
Tugce Karatas, Ali Hirsa(参考訳) cpiやgdpといった市場指標は、市場状況に応じて事業サイクルの段階や投資の魅力を特定するために、数十年にわたって広く用いられてきた。 本稿では、市場指標とランキング指標を用いて各セクターのetf価格を予測し、利益率を予測した2段階の手法を提案する。 まず最初に、セクター固有のマクロ経済指標を選択し、各セクターで最も重要な特徴を選択するために再帰的特徴除去アルゴリズムを実装します。 予測ツールを用いて,各セクタのetf価格を予測するために,異なるリカレントニューラルネットワークモデルを実装した。 次に、予測したリターン率に基づいてセクタをランク付けする。 本モデルにより選択された上位4部門を含むポートフォリオの年次リターン,年次シャープ比,冷静化率を評価することにより,最高のパフォーマンスモデルを選択する。 また、ルックバックウィンドウに対するモデルパフォーマンスの堅牢性をテストし、先行ウィンドウを確認します。 実験結果から,我々の手法が長期にわたって,ポートフォリオのパフォーマンスを均等に重み付けしていることが明らかとなった。 また、Echo State Networksは他のモデルと比較して優れた性能を示すが、他のRNNモデルよりも高速に実装できる。

Market indicators such as CPI and GDP have been widely used over decades to identify the stage of business cycles and also investment attractiveness of sectors given market conditions. In this paper, we propose a two-stage methodology that consists of predicting ETF prices for each sector using market indicators and ranking sectors based on their predicted rate of returns. We initially start with choosing sector specific macroeconomic indicators and implement Recursive Feature Elimination algorithm to select the most important features for each sector. Using our prediction tool, we implement different Recurrent Neural Networks models to predict the future ETF prices for each sector. We then rank the sectors based on their predicted rate of returns. We select the best performing model by evaluating the annualized return, annualized Sharpe ratio, and Calmar ratio of the portfolios that includes the top four ranked sectors chosen by the model. We also test the robustness of the model performance with respect to lookback windows and look ahead windows. Our empirical results show that our methodology beats the equally weighted portfolio performance even in the long run. We also find that Echo State Networks exhibits an outstanding performance compared to other models yet it is faster to implement compared to other RNN models.
翻訳日:2021-08-10 01:12:52 公開日:2021-08-05
# (参考訳) 時系列回帰のためのマルチモーダルメタラーニング [全文訳有]

Multimodal Meta-Learning for Time Series Regression ( http://arxiv.org/abs/2108.02842v1 )

ライセンス: CC BY 4.0
Sebastian Pineda Arango, Felix Heinrich, Kiran Madhusudhanan, Lars Schmidt-Thieme(参考訳) 最近の研究は、時系列回帰(TSR)問題に対処するため、FCN(Fully Convolutional Networks)やRNN(Recurrent Neural Networks)といったディープラーニングモデルの効率性を示している。 これらのモデルは、一般化するために大量のデータを必要とすることもあるが、時系列はパターンを学習できるほど長くない場合もある。 そのため,学習を改善するために時系列情報を活用することが重要である。 本稿では,モデル非依存メタラーニング (MAML) \cite{finn2017model} の原案を変更することで,モデルパラメータを新しい短史時系列に迅速に適応するメタラーニングの考え方を検討する。 さらに,マルチモーダルmaml \cite{vuorio2019multimodal }の先行研究に基づいて,時系列のグローバル情報をエンコードしてメタ特徴を抽出する補助ネットワークを介してモデルのパラメータを条件付けする手法を提案する。 最後に、汚染の測定、心拍センサー、バッテリーデータなど、さまざまな領域の時系列にデータを適用する。 提案手法は,12実験中9実験において,少ないデータでTSRを学習し,ベースラインよりも優れていることを示す。

Recent work has shown the efficiency of deep learning models such as Fully Convolutional Networks (FCN) or Recurrent Neural Networks (RNN) to deal with Time Series Regression (TSR) problems. These models sometimes need a lot of data to be able to generalize, yet the time series are sometimes not long enough to be able to learn patterns. Therefore, it is important to make use of information across time series to improve learning. In this paper, we will explore the idea of using meta-learning for quickly adapting model parameters to new short-history time series by modifying the original idea of Model Agnostic Meta-Learning (MAML) \cite{finn2017model}. Moreover, based on prior work on multimodal MAML \cite{vuorio2019multimodal }, we propose a method for conditioning parameters of the model through an auxiliary network that encodes global information of the time series to extract meta-features. Finally, we apply the data to time series of different domains, such as pollution measurements, heart-rate sensors, and electrical battery data. We show empirically that our proposed meta-learning method learns TSR with few data fast and outperforms the baselines in 9 of 12 experiments.
翻訳日:2021-08-10 01:11:50 公開日:2021-08-05
# (参考訳) Illiquid代替キャッシュフロー予測のためのニューラルネットワーク [全文訳有]

Supervised Neural Networks for Illiquid Alternative Asset Cash Flow Forecasting ( http://arxiv.org/abs/2108.02853v1 )

ライセンス: CC BY 4.0
Tugce Karatas, Federico Klinkert, Ali Hirsa(参考訳) 機関投資家は、ポートフォリオにプライベートエクイティファンドのような不正な代替資産の割り当てを増やしているが、不正な代替資産のキャッシュフロー予測に関する文献は極めて限られている。 プライベートエクイティファンドの純キャッシュフローは通常Jカーブパターンに従うが、コントリビューションと流通のタイミングと規模は投資機会に依存している。 本稿では、ベンチマークモデルを開発し、プライベートエクイティファンドのキャッシュフローを予測するための2つの新しいアプローチ(直接と間接)を提案する。 異なるヴィンテージ年金には、キャッシュフロー情報の長さが異なるため、キャッシュフローデータに適用するためのスライディングウィンドウアプローチを導入します。 次に、LSTM/GRUモデルにデータを渡して、(ベンチマークモデルに基づいて)直接または間接的に、将来のキャッシュフローを予測する。 我々はさらにマクロ経済指標をデータに統合し、市場環境がキャッシュフローに与える影響を考慮し、ストレステストを適用する。 その結果, 直接モデルの方がベンチマークモデルや間接モデルよりも実装が容易であるが, 予測キャッシュフローは実際のキャッシュフローとよく一致していることがわかった。 また,マクロ経済変数は直接モデルの性能を向上させるが,間接モデルへの影響は明らかではないことを示した。

Institutional investors have been increasing the allocation of the illiquid alternative assets such as private equity funds in their portfolios, yet there exists a very limited literature on cash flow forecasting of illiquid alternative assets. The net cash flow of private equity funds typically follow a J-curve pattern, however the timing and the size of the contributions and distributions depend on the investment opportunities. In this paper, we develop a benchmark model and present two novel approaches (direct vs. indirect) to predict the cash flows of private equity funds. We introduce a sliding window approach to apply on our cash flow data because different vintage year funds contain different lengths of cash flow information. We then pass the data to an LSTM/ GRU model to predict the future cash flows either directly or indirectly (based on the benchmark model). We further integrate macroeconomic indicators into our data, which allows us to consider the impact of market environment on cash flows and to apply stress testing. Our results indicate that the direct model is easier to implement compared to the benchmark model and the indirect model, but still the predicted cash flows align better with the actual cash flows. We also show that macroeconomic variables improve the performance of the direct model whereas the impact is not obvious on the indirect model.
翻訳日:2021-08-10 01:08:17 公開日:2021-08-05
# (参考訳) NO2衛星データを用いた時空間自己回帰のスパース一般化Yile-Walker推定

Sparse Generalized Yule-Walker Estimation for Large Spatio-temporal Autoregressions with an Application to NO2 Satellite Data ( http://arxiv.org/abs/2108.02864v1 )

ライセンス: CC BY 4.0
Hanno Reuvers and Etienne Wijler(参考訳) 我々は高次元時空間モデルのクラスをスパース推定する。 古典的空間自己回帰モデルとは異なり、所定の空間相互作用行列に依存しない。 その代わりに、空間的依存と時間的依存の両方を、ユール=ヴァルカー方程式の集合をペナリゼーションすることで完全にデータ駆動の方法で支配する関係を推定する。 この正規化は非構造化できるが、衛星画像のような空間的グリッドから観測が生じたときに直観的に従う対角的に構造化されたスパーシティを更に活用するために、カスタマイズされた縮小形式も提案する。 この推定器の有限サンプル誤差境界を導出し、サンプルサイズと空間単位の数が共分散する漸近的枠組みにおける推定一貫性を導出する。 シミュレーション演習は、競合する手順と比較して強い有限サンプル性能を示す。 実証的な応用として、我々はロンドンでno2濃度を測定した。 提案手法は,競合ベンチマークによる予測精度の向上を実現し,部分領域間の空間的相互作用が強いことを示す。

We consider sparse estimation of a class of high-dimensional spatio-temporal models. Unlike classical spatial autoregressive models, we do not rely on a predetermined spatial interaction matrix. Instead, under the assumption of sparsity, we estimate the relationships governing both the spatial and temporal dependence in a fully data-driven way by penalizing a set of Yule-Walker equations. While this regularization can be left unstructured, we also propose a customized form of shrinkage to further exploit diagonally structured forms of sparsity that follow intuitively when observations originate from spatial grids such as satellite images. We derive finite sample error bounds for this estimator, as well estimation consistency in an asymptotic framework wherein the sample size and the number of spatial units diverge jointly. A simulation exercise shows strong finite sample performance compared to competing procedures. As an empirical application, we model satellite measured NO2 concentrations in London. Our approach delivers forecast improvements over a competitive benchmark and we discover evidence for strong spatial interactions between sub-regions.
翻訳日:2021-08-10 00:57:08 公開日:2021-08-05
# (参考訳) グラフデータベースとグラフベースのディープラーニングを用いたエンタープライズ分析 [全文訳有]

Enterprise Analytics using Graph Database and Graph-based Deep Learning ( http://arxiv.org/abs/2108.02867v1 )

ライセンス: CC BY 4.0
Shagufta Henna, Shyam Krishnan Kalliadan(参考訳) ビジネス・ツー・ビジネス(B2B)の顧客関係管理(CRM)のユースケースでは、各クライアントは、しっかりとしたビジネス戦略と集中的で合理的な決定を持った潜在的なビジネス組織/企業です。 本稿ではB2B環境でCRMを改善するためのグラフベースの分析手法を提案する。 私たちのアプローチでは、最初の例では、neo4jプラットフォームを使用してグラフデータベースを設計しました。 次に,データマイニングと探索分析とcypher graphクエリ言語を併用したグラフデータベースについて検討した。 具体的には、CRM分析により売上予測を可能にするために、GCN(Graph Convolution Network)を適用した。 これは、B2B CRMの領域におけるグラフデータベースに基づいたGCNベースのバイナリ分類に向けた最初のステップである。 本稿では,グラフデータベース上でのGCNモデルの性能を評価し,それをランダムフォレスト(RF),畳み込みニューラルネットワーク(CNN),ニューラルネットワーク(ANN)と比較する。 提案したGCNアプローチは,販売予測の精度を大幅に向上させるため,最短経路と固有ベクトル中心性属性によりさらに拡張される。 実験の結果,提案手法はランダムフォレスト(Random Forests, RsF)と2つのディープラーニングモデル,すなわちCNNとANNをグラフの特徴の組み合わせで比較した。

In a business-to-business (B2B) customer relationship management (CRM) use case, each client is a potential business organization/company with a solid business strategy and focused and rational decisions. This paper introduces a graph-based analytics approach to improve CRM within a B2B environment. In our approach, in the first instance, we have designed a graph database using the Neo4j platform. Secondly, the graph database has been investigated by using data mining and exploratory analysis coupled with cypher graph query language. Specifically, we have applied the graph convolution network (GCN) to enable CRM analytics to forecast sales. This is the first step towards a GCN-based binary classification based on graph databases in the domain of B2B CRM. We evaluate the performance of the proposed GCN model on graph databases and compare it with Random Forest (RF), Convolutional Neural Network (CNN), and Artificial Neural Network (ANN). The proposed GCN approach is further augmented with the shortest path and eigenvector centrality attribute to significantly improve the accuracy of sales prediction. Experimental results reveal that the proposed graph-based deep learning approach outperforms the Random Forests (RsF) and two deep learning models, i.e., CNN and ANN under different combinations of graph features.
翻訳日:2021-08-10 00:55:52 公開日:2021-08-05
# (参考訳) Covid-19検出のためのトランスファー学習のためのデータ拡張アプローチ [全文訳有]

A Data Augmented Approach to Transfer Learning for Covid-19 Detection ( http://arxiv.org/abs/2108.02870v1 )

ライセンス: CC BY 4.0
Shagufta Henna, Aparna Reji(参考訳) 早期のコビッドウイルス検出は、その拡散を防ぐための効果的な治療と隔離計画に役立つ。 近年、X線、超音波、CTスキャンを用いたコビッド19の検出にトランスファーラーニングが用いられている。 これらの方法に固有の大きな制限の1つは、Covid-19の診断と疾患進行の信頼性に影響を与えるラベル付きデータセットサイズである。 本研究では、コントラスト限定適応ヒストグラム等化(CLAHE)を用いて制限X線画像データを拡張し、事前学習したディープラーニングモデルの最後の層をトレーニングし、Covid-19検出のための転写学習のバイアスを軽減する方法を示す。 我々は、AlexNet、ZFNet、VGG-16、ResNet-18、GoogLeNetといった事前学習されたディープラーニングモデルを学び、CLAHE拡張データセットを使用して最後のレイヤを微調整した。 実験の結果, CLAHEに基づく様々な事前学習深層学習モデルへの拡張は, モデル効率を著しく向上させることがわかった。 CLAHE画像を用いた事前学習VCG-16モデルは15エポックを用いて95%の感度を実現する。 alexnet worksは、非提供データでトレーニングした場合の感度が良好である。 他のモデルは、強化されていないデータでトレーニングされたときに60%未満の値を示す。 以上の結果から, CLAHE法を用いて, サンプルバイアスが伝達学習の性能に悪影響を及ぼす可能性が示唆された。

Covid-19 detection at an early stage can aid in an effective treatment and isolation plan to prevent its spread. Recently, transfer learning has been used for Covid-19 detection using X-ray, ultrasound, and CT scans. One of the major limitations inherent to these proposed methods is limited labeled dataset size that affects the reliability of Covid-19 diagnosis and disease progression. In this work, we demonstrate that how we can augment limited X-ray images data by using Contrast limited adaptive histogram equalization (CLAHE) to train the last layer of the pre-trained deep learning models to mitigate the bias of transfer learning for Covid-19 detection. We transfer learned various pre-trained deep learning models including AlexNet, ZFNet, VGG-16, ResNet-18, and GoogLeNet, and fine-tune the last layer by using CLAHE-augmented dataset. The experiment results reveal that the CLAHE-based augmentation to various pre-trained deep learning models significantly improves the model efficiency. The pre-trained VCG-16 model with CLAHEbased augmented images achieves a sensitivity of 95% using 15 epochs. AlexNet works show good sensitivity when trained on non-augmented data. Other models demonstrate a value of less than 60% when trained on non-augmented data. Our results reveal that the sample bias can negatively impact the performance of transfer learning which is significantly improved by using CLAHE-based augmentation.
翻訳日:2021-08-10 00:53:10 公開日:2021-08-05
# (参考訳) グラフニューラルネットワークを用いた自然免疫系依存性の理解 [全文訳有]

Understanding Human Innate Immune System Dependencies using Graph Neural Networks ( http://arxiv.org/abs/2108.02872v1 )

ライセンス: CC BY 4.0
Shagufta Henna(参考訳) コビッドウイルスの急激な流行と、これまでに承認されたワクチンがないことから、ウイルスに対する自然免疫反応を理解することへの深い研究の関心が高まっている。 この理解は、ウイルスの複製、長期間の適応免疫応答、ウイルスのクリアランスの促進、組織回復を阻害するのに役立つ。 自然免疫系はウイルスの認識によってCoVに対する炎症反応を引き起こすが、ワクチンはCoVの拡散に対する究極の防御である。 このワクチンの開発には時間がかかり、自然免疫応答系の深い理解が必要である。 本研究では、パターン認識受容体(prr)、すなわちヒト免疫応答系間の相互作用を利用したグラフニューラルネットワークに基づくモデルを提案する。 これらの相互作用は病原体関連分子パターン(PAMP)を認識し、それぞれのPRRの活性化要求を予測するのに役立つ。 それぞれのPRRの免疫応答情報は、その近隣のPRRからモデル化された効果と結合した歴史的なPAMPの活性化から導かれる。 一方、この研究はCovid-19が強い免疫反応によって感染した人が安全に仕事に復帰できる免疫をどれだけ長く提供できるかを理解するのに役立つ。 一方、このGNNベースの理解はワクチン開発にも有効である。 提案手法はCoVs免疫応答データセットを用いて評価され, 平均IFNs活性化予測精度は90%, フィードフォワードニューラルネットワークでは85%であった。

Since the rapid outbreak of Covid-19 and with no approved vaccines to date, profound research interest has emerged to understand the innate immune response to viruses. This understanding can help to inhibit virus replication, prolong adaptive immune response, accelerated virus clearance, and tissue recovery, a key milestone to propose a vaccine to combat coronaviruses (CoVs), e.g., Covid-19. Although an innate immune system triggers inflammatory responses against CoVs upon recognition of viruses, however, a vaccine is the ultimate protection against CoV spread. The development of this vaccine is time-consuming and requires a deep understanding of the innate immune response system. In this work, we propose a graph neural network-based model that exploits the interactions between pattern recognition receptors (PRRs), i.e., the human immune response system. These interactions can help to recognize pathogen-associated molecular patterns (PAMPs) to predict the activation requirements of each PRR. The immune response information of each PRR is derived from combining its historical PAMPs activation coupled with the modeled effect on the same from PRRs in its neighborhood. On one hand, this work can help to understand how long Covid-19 can confer immunity where a strong immune response means people already been infected can safely return to work. On the other hand, this GNN-based understanding can also abode well for vaccine development efforts. Our proposal has been evaluated using CoVs immune response dataset, with results showing an average IFNs activation prediction accuracy of 90%, compared to 85% using feed-forward neural networks.
翻訳日:2021-08-10 00:29:56 公開日:2021-08-05
# (参考訳) 異方性ライフスパン顔合成 [全文訳有]

Disentangled Lifespan Face Synthesis ( http://arxiv.org/abs/2108.02874v1 )

ライセンス: CC BY 4.0
Sen He, Wentong Liao, Michael Ying Yang, Yi-Zhe Song, Bodo Rosenhahn, Tao Xiang(参考訳) lifespan face synthesis(lfs)モデルは、1つのスナップショットのみを参考にして、人の生涯のフォトリアリスティックな顔画像を生成することを目的としている。 対象年齢コードに付与された顔画像は, 形状やテクスチャの生鮮やかな変換により, 年齢感を反映し, 同一性を保ちつつも, 年齢感が期待できる。 これは、顔の形状とテクスチャ特性が分離され、非常に非線形な変換 w.r.t となるため、非常に難しい。 年齢。 最近のLFSモデルはGAN(Generative Adversarial Network)に基づいており、年齢コード条件変換を潜在顔表現に適用する。 GANの最近の進歩から大きな恩恵を受けている。 しかしながら、潜在表現をテクスチャ、形状、アイデンティティ要素に明示的に区別せずに、アイデンティティを維持しながらテクスチャと形状の非線形年齢関連変換をモデル化する上では、基本的に制限される。 そこで本研究では, 形状, テクスチャ, アイデンティティなどのキー顔特性を分離し, ユニークな形状とテクスチャ年齢変換を効果的にモデル化するための新しいlfsモデルを提案する。 これは、エンコーダから形状、テクスチャ、アイデンティティの特徴を別々に抽出することで達成される。 臨界的には, 非線形形状とテクスチャ特徴変換をそれぞれモデル化するために, 2つの変換モジュール, 1つの条件畳み込みベースおよびもう1つのチャンネルアテンションベースを設計する。 これは、かなり異なる老化プロセスに対応し、私たちの合成画像が年齢に敏感でアイデンティティを保つことを保証するためです。 我々のLFSモデルは、最先端の代替品よりも明らかに優れている。 コードとデモはプロジェクトのwebサイトにある。 \url{https://senhe.github .io/projects/iccv_20 21_lifespan_face}。

A lifespan face synthesis (LFS) model aims to generate a set of photo-realistic face images of a person's whole life, given only one snapshot as reference. The generated face image given a target age code is expected to be age-sensitive reflected by bio-plausible transformations of shape and texture, while being identity preserving. This is extremely challenging because the shape and texture characteristics of a face undergo separate and highly nonlinear transformations w.r.t. age. Most recent LFS models are based on generative adversarial networks (GANs) whereby age code conditional transformations are applied to a latent face representation. They benefit greatly from the recent advancements of GANs. However, without explicitly disentangling their latent representations into the texture, shape and identity factors, they are fundamentally limited in modeling the nonlinear age-related transformation on texture and shape whilst preserving identity. In this work, a novel LFS model is proposed to disentangle the key face characteristics including shape, texture and identity so that the unique shape and texture age transformations can be modeled effectively. This is achieved by extracting shape, texture and identity features separately from an encoder. Critically, two transformation modules, one conditional convolution based and the other channel attention based, are designed for modeling the nonlinear shape and texture feature transformations respectively. This is to accommodate their rather distinct aging processes and ensure that our synthesized images are both age-sensitive and identity preserving. Extensive experiments show that our LFS model is clearly superior to the state-of-the-art alternatives. Codes and demo are available on our project website: \url{https://senhe.github .io/projects/iccv_20 21_lifespan_face}.
翻訳日:2021-08-10 00:11:04 公開日:2021-08-05
# (参考訳) 感情意味論の進化

Evolution of emotion semantics ( http://arxiv.org/abs/2108.02887v1 )

ライセンス: CC BY 4.0
Aotao Xu, Jennifer E. Stellar, Yang Xu(参考訳) 人間は言語を通して感情を伝えるユニークな能力を持っている。 怒りや憎しみといった概念は抽象的であるが、これらの英語の感情の言葉の意味について共通する意見がある。 この合意は彼らの意味が静的であるという印象を与えるかもしれないが、我々はそうではないと考えている。 感情概念を直接研究するために過去の時代に戻ることはできないが、感情語の意味を部分的に保存したテキストコーパスを調べることができる。 歴史的テキストの自然言語処理を用いて、過去世紀における感情語の意味的変化の証拠を発見し、その変化率の変化は、感情概念の原型性によって部分的に予測された。 テキストベースの単語埋め込みから得られた感情意味変化の歴史的頻度は、英語の使用頻度や第2比較言語(フランス語)を含むより確立された変数よりも負の相関を示した。 プロトティピカリティに対するこの効果は鳥の意味カテゴリーに一貫しては及ばず、意味の変化を予測するための関連性はカテゴリー依存である可能性が示唆された。 その結果,感情セマンティクスは時間とともに進化し,原型的な感情語は意味的に安定し,他の感情語はより自由に進化していることが示唆された。

Humans possess the unique ability to communicate emotions through language. Although concepts like anger or awe are abstract, there is a shared consensus about what these English emotion words mean. This consensus may give the impression that their meaning is static, but we propose this is not the case. We cannot travel back to earlier periods to study emotion concepts directly, but we can examine text corpora, which have partially preserved the meaning of emotion words. Using natural language processing of historical text, we found evidence for semantic change in emotion words over the past century and that varying rates of change were predicted in part by an emotion concept's prototypicality - how representative it is of the broader category of "emotion". Prototypicality negatively correlated with historical rates of emotion semantic change obtained from text-based word embeddings, beyond more established variables including usage frequency in English and a second comparison language, French. This effect for prototypicality did not consistently extend to the semantic category of birds, suggesting its relevance for predicting semantic change may be category-dependent. Our results suggest emotion semantics are evolving over time, with prototypical emotion words remaining semantically stable, while other emotion words evolve more freely.
翻訳日:2021-08-09 23:57:47 公開日:2021-08-05
# (参考訳) 単一ソースからの領域外一般化:不確実性定量化アプローチ [全文訳有]

Out-of-domain Generalization from a Single Source: A Uncertainty Quantification Approach ( http://arxiv.org/abs/2108.02888v1 )

ライセンス: CC BY 4.0
Xi Peng, Fengchun Qiao, Long Zhao(参考訳) 一般化における最悪のシナリオとして,単一ソースからの領域外一般化について検討する。 目標は、単一のソースから堅牢なモデルを学び、多くの未知のディストリビューションを一般化することである。 この困難な問題はめったに解明されていないが、既存のソリューションは不確実性評価の無知やラベルの強化といった様々な制限に苦しめられている。 本稿では,上記の制限に取り組むために不確実性誘導領域の一般化を提案する。 重要なアイデアは、特徴空間とラベル空間の両方でソース容量を増やすことであり、一方、拡張は不確実性評価によって導かれる。 私たちの知る限りでは、(1)単一ソースからの一般化の不確かさを定量化し、(2)堅牢な一般化のために特徴とラベルの強化を導くためにそれを活用した最初の仕事です。 モデルのトレーニングとデプロイは、ベイズメタラーニングフレームワークで効果的に構成される。 我々はアプローチを検証するために広範囲な比較とアブレーション研究を行っている。 その結果,画像分類,意味セグメンテーション,テキスト分類,音声認識など幅広いタスクで優れた性能が得られた。

We study a worst-case scenario in generalization: Out-of-domain generalization from a single source. The goal is to learn a robust model from a single source and expect it to generalize over many unknown distributions. This challenging problem has been seldom investigated while existing solutions suffer from various limitations such as the ignorance of uncertainty assessment and label augmentation. In this paper, we propose uncertainty-guided domain generalization to tackle the aforementioned limitations. The key idea is to augment the source capacity in both feature and label spaces, while the augmentation is guided by uncertainty assessment. To the best of our knowledge, this is the first work to (1) quantify the generalization uncertainty from a single source and (2) leverage it to guide both feature and label augmentation for robust generalization. The model training and deployment are effectively organized in a Bayesian meta-learning framework. We conduct extensive comparisons and ablation study to validate our approach. The results prove our superior performance in a wide scope of tasks including image classification, semantic segmentation, text classification, and speech recognition.
翻訳日:2021-08-09 23:56:20 公開日:2021-08-05
# (参考訳) 深層強化学習を用いた無線電力伝送によるIoT用RIS支援UAV通信 [全文訳有]

RIS-assisted UAV Communications for IoT with Wireless Power Transfer Using Deep Reinforcement Learning ( http://arxiv.org/abs/2108.02889v1 )

ライセンス: CC BY 4.0
Khoi Khac Nguyen and Antonino Masaracchia and Tan Do-Duy and H. Vincent Poor and Trung Q. Duong(参考訳) IoT(Internet-of-Thin gs)アプリケーションで使用されるデバイスの多くはエネルギーに制限があり、IoTデバイスのシームレスな接続を維持しながらエネルギーを供給することが非常に重要である。 この文脈では、再構成可能なインテリジェントサーフェス(RIS)支援無人航空機(UAV)通信の支援により、IoTデバイスの同時無線電力伝送と情報伝送方式を提案する。 特に第1フェーズでは、IoTデバイスが無線電力転送を通じてUAVからエネルギーを回収し、第2フェーズでは、UAVが情報伝送を通じてIoTデバイスからデータを収集する。 UAVの機敏性を特徴づけるために、ホバリングUAVと移動UAVの2つのシナリオを検討する。 ネットワーク総和率の最大化を目的として、UAVの軌道、IoTデバイスのエネルギー回収スケジューリング、RISの位相シフト行列を共同で最適化する。 マルコフ決定過程を定式化し、ネットワーク総和率を最大化する最適化問題を解くために、2つの深い強化学習アルゴリズムを提案する。 数値計算により,UAVの飛行経路最適化の有効性と,提案手法のネットワークスループットを他のベンチマーク手法と比較した。 RISとUAVの厳格な要件を考えると、処理時間とスループット性能の大幅な改善は、提案手法が実用的なIoTアプリケーションに適していることを示している。

Many of the devices used in Internet-of-Things (IoT) applications are energy-limited, and thus supplying energy while maintaining seamless connectivity for IoT devices is of considerable importance. In this context, we propose a simultaneous wireless power transfer and information transmission scheme for IoT devices with support from reconfigurable intelligent surface (RIS)-aided unmanned aerial vehicle (UAV) communications. In particular, in a first phase, IoT devices harvest energy from the UAV through wireless power transfer; and then in a second phase, the UAV collects data from the IoT devices through information transmission. To characterise the agility of the UAV, we consider two scenarios: a hovering UAV and a mobile UAV. Aiming at maximizing the total network sum-rate, we jointly optimize the trajectory of the UAV, the energy harvesting scheduling of IoT devices, and the phaseshift matrix of the RIS. We formulate a Markov decision process and propose two deep reinforcement learning algorithms to solve the optimization problem of maximizing the total network sum-rate. Numerical results illustrate the effectiveness of the UAV's flying path optimization and the network's throughput of our proposed techniques compared with other benchmark schemes. Given the strict requirements of the RIS and UAV, the significant improvement in processing time and throughput performance demonstrates that our proposed scheme is well applicable for practical IoT applications.
翻訳日:2021-08-09 23:31:59 公開日:2021-08-05
# (参考訳) 空力計算によるフェデレーション学習のためのユーザスケジューリング [全文訳有]

User Scheduling for Federated Learning Through Over-the-Air Computation ( http://arxiv.org/abs/2108.02891v1 )

ライセンス: CC BY 4.0
Xiang Ma, Haijian Sun, Qun Wang, Rose Qingyang Hu(参考訳) フェデレートラーニング(FL)と呼ばれる新しい機械学習(ML)技術は、エッジデバイスにおけるデータの保存と、学習プロセスにおけるMLモデルパラメータの交換のみを目的としている。 FLは通信ニーズを減らすだけでなく、地域のプライバシー保護にも役立ちます。 FLにはこれらの利点があるが、中央パラメータサーバ(PS)に接続された巨大なエッジデバイスや学習プロセスに関わる数百万のモデルパラメータがある場合、大きな通信遅延を経験することができる。 オーバー・ザ・エア計算(AirComp)は、アナログ変調を用いて複数のデバイスが同時にデータを送信し、データを送信しながら計算することができる。 AirCompによるFLの性能向上のためには,ユーザスケジューリングが重要な役割を果たす。 本稿では,無線回線条件やモデル更新の意義といった様々な基準に基づいて,異なるユーザスケジューリングポリシーを調査し,比較する。 受信機ビームフォーミングを適用し、aircompによる関数集約結果の歪みの平均二乗誤差(mse)を最小化する。 シミュレーションの結果,モデル更新の重要度に基づくスケジューリングはトレーニングプロセスの変動が小さく,チャネル条件に基づくスケジューリングはエネルギー効率に有利であることがわかった。

A new machine learning (ML) technique termed as federated learning (FL) aims to preserve data at the edge devices and to only exchange ML model parameters in the learning process. FL not only reduces the communication needs but also helps to protect the local privacy. Although FL has these advantages, it can still experience large communication latency when there are massive edge devices connected to the central parameter server (PS) and/or millions of model parameters involved in the learning process. Over-the-air computation (AirComp) is capable of computing while transmitting data by allowing multiple devices to send data simultaneously by using analog modulation. To achieve good performance in FL through AirComp, user scheduling plays a critical role. In this paper, we investigate and compare different user scheduling policies, which are based on various criteria such as wireless channel conditions and the significance of model updates. Receiver beamforming is applied to minimize the mean-square-error (MSE) of the distortion of function aggregation result via AirComp. Simulation results show that scheduling based on the significance of model updates has smaller fluctuations in the training process while scheduling based on channel condition has the advantage on energy efficiency.
翻訳日:2021-08-09 23:14:32 公開日:2021-08-05
# ローマ・ウルドゥー語におけるヘイトスピーチ検出

Hate Speech Detection in Roman Urdu ( http://arxiv.org/abs/2108.02830v1 )

ライセンス: Link先を確認
Moin Khan, Khurram Shahzad, Kamran Malik(参考訳) ヘイトスピーチ(Hate speech)は、特定され、ブロックされなければならない犯罪として広く合法化された、論争を巻き起こす特定のタイプのコンテンツである。 しかし、twitterのデータストリームの膨大なボリュームと速度のため、ヘイトスピーチの検出は手動では行えない。 この問題に対処するために、ヨーロッパの言語でヘイトスピーチを検出するための研究がいくつか行われてきたが、低リソースの南アジア言語にはほとんど注意が払われておらず、何百万人ものユーザーにとってソーシャルメディアは脆弱である。 特に我々の知る限りでは、サブコンティネントで広く使われているローマ・ウルドゥ語のテキストにおけるヘイトスピーチ検出の研究は行われていない。 本研究では、9万件以上のツイートを削除し、手動で解析して5000件のローマ・ウルドゥーのツイートを特定した。 その後,ガイドライン開発に反復的アプローチを採用し,Hate Speech Roman Urdu 2020 corpus の生成に利用した。 このコーパスのツイートは、ニュートラル・ホスティル、シンプル・コンプレックス、攻撃的ヘイトスピーチの3つのレベルに分類される。 また,ディープラーニング技術を含む5つの教師あり学習手法を用いて,ヘイトスピーチ検出の有効性を評価し,比較した。 その結果,2段階の分類のための深層学習技術を含む他の手法よりも,ニュートラル・ホスタイルのツイートを区別するF1スコアが0.906,オフエンジブ・ヘイト音声のツイートを区別する0.756を達成できた。

Hate speech is a specific type of controversial content that is widely legislated as a crime that must be identified and blocked. However, due to the sheer volume and velocity of the Twitter data stream, hate speech detection cannot be performed manually. To address this issue, several studies have been conducted for hate speech detection in European languages, whereas little attention has been paid to low-resource South Asian languages, making the social media vulnerable for millions of users. In particular, to the best of our knowledge, no study has been conducted for hate speech detection in Roman Urdu text, which is widely used in the sub-continent. In this study, we have scrapped more than 90,000 tweets and manually parsed them to identify 5,000 Roman Urdu tweets. Subsequently, we have employed an iterative approach to develop guidelines and used them for generating the Hate Speech Roman Urdu 2020 corpus. The tweets in the this corpus are classified at three levels: Neutral-Hostile, Simple-Complex, and Offensive-Hate speech. As another contribution, we have used five supervised learning techniques, including a deep learning technique, to evaluate and compare their effectiveness for hate speech detection. The results show that Logistic Regression outperformed all other techniques, including deep learning techniques for the two levels of classification, by achieved an F1 score of 0.906 for distinguishing between Neutral-Hostile tweets, and 0.756 for distinguishing between Offensive-Hate speech tweets.
翻訳日:2021-08-09 14:45:32 公開日:2021-08-05
# COVID-Net US: ポイント・オブ・ケア超音波画像によるCOVID-19患者の検出のための、高能率、高能率、自己注意型深層畳み込みニューラルネットワーク設計

COVID-Net US: A Tailored, Highly Efficient, Self-Attention Deep Convolutional Neural Network Design for Detection of COVID-19 Patient Cases from Point-of-care Ultrasound Imaging ( http://arxiv.org/abs/2108.03131v1 )

ライセンス: Link先を確認
Alexander MacLean, Saad Abbasi, Ashkan Ebadi, Andy Zhao, Maya Pavlova, Hayden Gunraj, Pengcheng Xi, Sonny Kohli, and Alexander Wong(参考訳) 新型コロナウイルス感染症(COVID-19)のパンデミックは世界の生活の多くの側面に影響を与えており、その影響を緩和する重要な要因は、感染の個人をスクリーニングすることである。 ポイント・オブ・ケア・超音波(POCUS)イメージングは、胸部X線やCTなどの従来の肺検査で用いられるものよりもずっと安価で、画像のモダリティを適用できるため、スクリーニングツールとして提案されている。 世界中の多くの地域でPOCUS検査の解釈に専門家の放射線学者が不足していることを考えると、低コストのディープラーニングによる臨床診断支援ソリューションは、現在進行中のパンデミックの間に大きな影響を与える可能性がある。 肺POCUS画像からのCOVID-19スクリーニングに適した,高効率かつ自己注意型の深層畳み込みニューラルネットワーク設計であるCOVID-Net USを紹介した。 実験の結果、提案されたCOVID-Net USは、アーキテクチャの複雑さが353倍、計算の複雑さが62倍、Raspberry Piで14.3倍高速なAUCを達成できることがわかった。 また,集中治療専門医(ICU)15年,POCUS解釈専門医(POCUS)15年を対象とする臨床研修医(20年臨床実習)による臨床検証と報告を行った。 リソース制約のある環境において安価な医療と人工知能を提唱するために、COVID-Net USをオープンソースにし、COVID-Netオープンソースイニシアチブの一部として公開しました。

The Coronavirus Disease 2019 (COVID-19) pandemic has impacted many aspects of life globally, and a critical factor in mitigating its effects is screening individuals for infections, thereby allowing for both proper treatment for those individuals as well as action to be taken to prevent further spread of the virus. Point-of-care ultrasound (POCUS) imaging has been proposed as a screening tool as it is a much cheaper and easier to apply imaging modality than others that are traditionally used for pulmonary examinations, namely chest x-ray and computed tomography. Given the scarcity of expert radiologists for interpreting POCUS examinations in many highly affected regions around the world, low-cost deep learning-driven clinical decision support solutions can have a large impact during the on-going pandemic. Motivated by this, we introduce COVID-Net US, a highly efficient, self-attention deep convolutional neural network design tailored for COVID-19 screening from lung POCUS images. Experimental results show that the proposed COVID-Net US can achieve an AUC of over 0.98 while achieving 353X lower architectural complexity, 62X lower computational complexity, and 14.3X faster inference times on a Raspberry Pi. Clinical validation was also conducted, where select cases were reviewed and reported on by a practicing clinician (20 years of clinical practice) specializing in intensive care (ICU) and 15 years of expertise in POCUS interpretation. To advocate affordable healthcare and artificial intelligence for resource-constrained environments, we have made COVID-Net US open source and publicly available as part of the COVID-Net open source initiative.
翻訳日:2021-08-09 14:44:47 公開日:2021-08-05
# 自然ジェスチャを用いたコミュニケーション学習 : 身体的ナビゲーションエージェントと人間---in-the-scene

Communicative Learning with Natural Gestures for Embodied Navigation Agents with Human-in-the-Scene ( http://arxiv.org/abs/2108.02846v1 )

ライセンス: Link先を確認
Qi Wu, Cheng-Ju Wu, Yixin Zhu, Jungseock Joo(参考訳) 人間とロボットのコラボレーションは、人工知能(AI)において重要な研究テーマであり、研究者が認知AIシステムを考案し、ユーザーがロボットと対話するための直感的な手段を提供する。 重要なのは、コミュニケーションが中心的な役割を果たすことだ。 現在までに、エンボディエージェントナビゲーションにおける先行研究は、人間の言語が自然言語によるコミュニケーションを促進することを証明しているだけである。 しかし、他の種類のコミュニケーションは未調査のままである。 実際、人間のコミュニケーションはジェスチャから始まり、しばしばマルチモーダル・キューを通じて配信される。 「そこへ行きなさい」とポインティングのジェスチャーで。 具体化エージェントナビゲーションにおけるコミュニケーションの欠如次元を埋めるために,ジェスチャを言語的手掛かりではなく,コミュニケーションインタフェースとして利用する効果について検討する。 具体的には,AI2-THORプラットフォームに基づくVRベースの3Dシミュレーション環境であるGes-THORを開発した。 この仮想環境において、人間のプレイヤーは同じ仮想シーンに配置され、ジェスチャーのみを用いて人工エージェントを羊飼いする。 エージェントは,人間のジェスチャーの多様性と多様性のために事前に定義されたジェスチャーを一切用いていないため,自然ジェスチャーによって案内されるナビゲーション問題を未知の意味で解決する。 自然なジェスチャーの意味を学習することは、ナビゲーションタスクの学習において相互に有益である、と我々は主張する。 一連の実験で、人間のジェスチャーの手がかりが、事前に定義されたセマンティクスがなくても、具体化エージェントのオブジェクトのナビゲーションを改善し、様々な最先端の手法を上回っていることを実証した。

Human-robot collaboration is an essential research topic in artificial intelligence (AI), enabling researchers to devise cognitive AI systems and affords an intuitive means for users to interact with the robot. Of note, communication plays a central role. To date, prior studies in embodied agent navigation have only demonstrated that human languages facilitate communication by instructions in natural languages. Nevertheless, a plethora of other forms of communication is left unexplored. In fact, human communication originated in gestures and oftentimes is delivered through multimodal cues, e.g. "go there" with a pointing gesture. To bridge the gap and fill in the missing dimension of communication in embodied agent navigation, we propose investigating the effects of using gestures as the communicative interface instead of verbal cues. Specifically, we develop a VR-based 3D simulation environment, named Ges-THOR, based on AI2-THOR platform. In this virtual environment, a human player is placed in the same virtual scene and shepherds the artificial agent using only gestures. The agent is tasked to solve the navigation problem guided by natural gestures with unknown semantics; we do not use any predefined gestures due to the diversity and versatile nature of human gestures. We argue that learning the semantics of natural gestures is mutually beneficial to learning the navigation task--learn to communicate and communicate to learn. In a series of experiments, we demonstrate that human gesture cues, even without predefined semantics, improve the object-goal navigation for an embodied agent, outperforming various state-of-the-art methods.
翻訳日:2021-08-09 14:44:04 公開日:2021-08-05
# 3DRIMR:深層学習に基づくミリ波レーダによる3次元再構成とイメージング

3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning ( http://arxiv.org/abs/2108.02858v1 )

ライセンス: Link先を確認
Yue Sun, Zhuoming Huang, Honggang Zhang, Zhi Cao, Deqiang Xu(参考訳) mmWaveレーダーは、低視認性、煙、ほこり、密集した霧環境において効果的なセンシング技術として示されている。 しかし,3次元物体の形状を再現するためのレーダーセンシングの可能性は,スパーシティ,低分解能,スペクティリティ,高ノイズ,マルチパス誘導影反射やアーティファクトといったレーダーデータの特徴から,依然として大きな課題となっている。 本稿では,mmWaveレーダによる3次元再構成とイメージングを提案する。この3DRIMRは,粗い生のmmWaveレーダ強度データに基づいて,高密度の細いクラウド形式で物体の3次元形状を再構成するディープラーニングアーキテクチャである。 第1のジェネレータネットワークは、生のレーダー強度データに基づいて2次元深度画像を生成し、第2のジェネレータネットワークは、第1のジェネレータの結果に基づいて3Dポイント雲を出力する。 このアーキテクチャは、畳み込みニューラルネットワークの畳み込み操作(局所構造近傍情報を抽出する)と点雲の効率性と詳細な幾何捕獲能力(3次元空間や距離場のコストの高いボキセル化を除く)の両方を利用する。 実験により,3DRIMRの3Dオブジェクト再構成の有効性が実証され,標準技術よりも性能が向上した。

mmWave radar has been shown as an effective sensing technique in low visibility, smoke, dusty, and dense fog environment. However tapping the potential of radar sensing to reconstruct 3D object shapes remains a great challenge, due to the characteristics of radar data such as sparsity, low resolution, specularity, high noise, and multi-path induced shadow reflections and artifacts. In this paper we propose 3D Reconstruction and Imaging via mmWave Radar (3DRIMR), a deep learning based architecture that reconstructs 3D shape of an object in dense detailed point cloud format, based on sparse raw mmWave radar intensity data. The architecture consists of two back-to-back conditional GAN deep neural networks: the first generator network generates 2D depth images based on raw radar intensity data, and the second generator network outputs 3D point clouds based on the results of the first generator. The architecture exploits both convolutional neural network's convolutional operation (that extracts local structure neighborhood information) and the efficiency and detailed geometry capture capability of point clouds (other than costly voxelization of 3D space or distance fields). Our experiments have demonstrated 3DRIMR's effectiveness in reconstructing 3D objects, and its performance improvement over standard techniques.
翻訳日:2021-08-09 14:42:51 公開日:2021-08-05
# gender-it:クロス言語自然性現象のためのアノテーション付き英語とイタリア語の並列チャレンジセット

GENder-IT: An Annotated English-Italian Parallel Challenge Set for Cross-Linguistic Natural Gender Phenomena ( http://arxiv.org/abs/2108.02854v1 )

ライセンス: Link先を確認
Eva Vanmassenhove, Johanna Monti(参考訳) 言語は、性別的特徴の欠如、性別的階級の数、性別的特徴が明確にマークされているかどうかという点で異なる。 これらの言語間の差異は、特に文レベルのMTシステムでは解決が難しい曖昧さにつながる可能性がある。 曖昧さの識別とその後の解決は、現在利用可能な特定のリソースやチャレンジセットが存在しないため、難しい課題である。 本稿では、英語のソース側で単語レベルのジェンダータグと、必要であればイタリア語のターゲット側で複数のジェンダー代替翻訳を提供することにより、自然性現象の解決に焦点を当てた英語-イタリア語の課題セットであるgENder-ITを紹介する。

Languages differ in terms of the absence or presence of gender features, the number of gender classes and whether and where gender features are explicitly marked. These cross-linguistic differences can lead to ambiguities that are difficult to resolve, especially for sentence-level MT systems. The identification of ambiguity and its subsequent resolution is a challenging task for which currently there aren't any specific resources or challenge sets available. In this paper, we introduce gENder-IT, an English--Italian challenge set focusing on the resolution of natural gender phenomena by providing word-level gender tags on the English source side and multiple gender alternative translations, where needed, on the Italian target side.
翻訳日:2021-08-09 14:42:06 公開日:2021-08-05
# 補間は雑音がなくてもロバストな一般化を損なう

Interpolation can hurt robust generalization even when there is no noise ( http://arxiv.org/abs/2108.02883v1 )

ライセンス: Link先を確認
Konstantin Donhauser, Alexandru \c{T}ifrea, Michael Aerni, Reinhard Heckel and Fanny Yang(参考訳) 近年の多くの研究は、過パラメータ化が最小ノルム補間器と最大マルジン分類器の分散を暗黙的に減少させることを示している。 これらの結果はリッジ正規化が高次元の利益を消滅させることを示唆している。 ノイズがなくても、リッジ正規化による補間を避けることで、一般化を大幅に改善できることを示す。 この現象を線形回帰と分類の両方のロバストなリスクに対して証明し,ロバストなオーバーフィッティングに関する最初の理論的結果を与える。

Numerous recent works show that overparameterization implicitly reduces variance for min-norm interpolators and max-margin classifiers. These findings suggest that ridge regularization has vanishing benefits in high dimensions. We challenge this narrative by showing that, even in the absence of noise, avoiding interpolation through ridge regularization can significantly improve generalization. We prove this phenomenon for the robust risk of both linear regression and classification and hence provide the first theoretical result on robust overfitting.
翻訳日:2021-08-09 14:41:27 公開日:2021-08-05
# フォトグラファーの自己監督型学習は網膜のセグメンテーションを改善する

Self-Supervised Learning from Unlabeled Fundus Photographs Improves Segmentation of the Retina ( http://arxiv.org/abs/2108.02798v1 )

ライセンス: Link先を確認
Jan Kuka\v{c}ka, Anja Zenz, Marcel Kollovieh, Dominik J\"ustel, and Vasilis Ntziachristos(参考訳) 基礎撮影は網膜イメージングの主要な方法であり、糖尿病網膜症予防に必須である。 眼底写真の自動セグメンテーションは、眼検診プログラムの品質、能力、費用対効果を向上させる。 しかし、現在のセグメンテーション法は、実際の臨床応用に典型的な画像条件や病理の多様性に対して堅牢ではない。 これらの制限を克服するために,我々は,EyePACSデータセットの多種多様な未ラベル画像を利用するために,コントラッシブな自己教師学習を利用した。 われわれはU-Netのエンコーダを事前訓練し、後に網膜血管と病変のセグメンテーションデータセットを微調整した。 そこで本研究では, 自己教師付き学習を用いて血管, 視神経乳頭, fovea, 各種病変をラベルを付さずに認識できることを初めて実証する。 さらに、下流の血管セグメンテーションタスクに微調整された場合、これらのトレーニング済みネットワークは、異なるデータセットの画像に対して最先端のパフォーマンスを達成する。 さらに、プレトレーニングは、トレーニング時間を短縮し、血管と病変の分割作業の両方において、少数ショットのパフォーマンスが向上する。 その結果,実世界の臨床応用において重要な役割を担い,少数のアノテート標本で新しいデバイスに適応できる頑健なモデルが必要となる,コントラスト型自己教師付き事前訓練の利点が示された。

Fundus photography is the primary method for retinal imaging and essential for diabetic retinopathy prevention. Automated segmentation of fundus photographs would improve the quality, capacity, and cost-effectiveness of eye care screening programs. However, current segmentation methods are not robust towards the diversity in imaging conditions and pathologies typical for real-world clinical applications. To overcome these limitations, we utilized contrastive self-supervised learning to exploit the large variety of unlabeled fundus images in the publicly available EyePACS dataset. We pre-trained an encoder of a U-Net, which we later fine-tuned on several retinal vessel and lesion segmentation datasets. We demonstrate for the first time that by using contrastive self-supervised learning, the pre-trained network can recognize blood vessels, optic disc, fovea, and various lesions without being provided any labels. Furthermore, when fine-tuned on a downstream blood vessel segmentation task, such pre-trained networks achieve state-of-the-art performance on images from different datasets. Additionally, the pre-training also leads to shorter training times and an improved few-shot performance on both blood vessel and lesion segmentation tasks. Altogether, our results showcase the benefits of contrastive self-supervised pre-training which can play a crucial role in real-world clinical applications requiring robust models able to adapt to new devices with only a few annotated samples.
翻訳日:2021-08-09 14:40:57 公開日:2021-08-05
# RockGPT:ビデオ生成の観点からの単一2次元スライスからの3次元デジタル岩の再構成

RockGPT: Reconstructing three-dimensional digital rocks from single two-dimensional slice from the perspective of video generation ( http://arxiv.org/abs/2108.03132v1 )

ライセンス: Link先を確認
Qiang Zheng and Dongxiao Zhang(参考訳) 2次元(2次元)スライスからの3次元デジタル岩のランダムな再構成は,本質的な不確実性に対処するために通常大量の試料を必要とするため,岩石の微細構造と孔径流に対する影響を解明するために重要である。 従来のプロセスベースの手法、統計学的アプローチ、そして近年で有名な深層学習に基づくモデルによって達成された顕著な進歩にもかかわらず、1つの訓練されたモデルで数種類の岩を生産し、再構成されたサンプルがポロシティなどの特定の特性を満たすことに集中する研究はほとんどない。 このギャップを埋めるために、VQ-VAEと条件付きGPTからなるRockGPTという新しいフレームワークを提案し、ビデオ生成の観点から1つの2Dスライスに基づいて3Dサンプルを合成する。 vq-vaeは、高次元の入力映像、すなわち連続した岩石のスライスのシーケンスを圧縮し、離散潜伏符号を合成するために使用される。 多様な再構成を実現するために, 個別の潜伏符号を条件付きGPTを用いて自己回帰的にモデル化し, 所定のスライス, ロックタイプ, ポロシティの条件情報を組み込んだ。 我々は,5種類の岩石について2つの実験を行い,この結果から,RockGPTが同じモデルで異なる種類の岩石を生成できることを示す。 より広い意味では、提案した条件付きスキームを活用することで、RockGPTは、ユーザ定義プロパティを満足する複数の種類の岩を同時に生成する汎用モデルを構築する効果的な方法を構成する。

Random reconstruction of three-dimensional (3D) digital rocks from two-dimensional (2D) slices is crucial for elucidating the microstructure of rocks and its effects on pore-scale flow in terms of numerical modeling, since massive samples are usually required to handle intrinsic uncertainties. Despite remarkable advances achieved by traditional process-based methods, statistical approaches and recently famous deep learning-based models, few works have focused on producing several kinds of rocks with one trained model and allowing the reconstructed samples to satisfy certain given properties, such as porosity. To fill this gap, we propose a new framework, named RockGPT, which is composed of VQ-VAE and conditional GPT, to synthesize 3D samples based on a single 2D slice from the perspective of video generation. The VQ-VAE is utilized to compress high-dimensional input video, i.e., the sequence of continuous rock slices, to discrete latent codes and reconstruct them. In order to obtain diverse reconstructions, the discrete latent codes are modeled using conditional GPT in an autoregressive manner, while incorporating conditional information from a given slice, rock type, and porosity. We conduct two experiments on five kinds of rocks, and the results demonstrate that RockGPT can produce different kinds of rocks with the same model, and the reconstructed samples can successfully meet certain specified porosities. In a broader sense, through leveraging the proposed conditioning scheme, RockGPT constitutes an effective way to build a general model to produce multiple kinds of rocks simultaneously that also satisfy user-defined properties.
翻訳日:2021-08-09 14:39:23 公開日:2021-08-05
# 強化学習によるカナダ海岸沿いの不法活動への対応

Responding to Illegal Activities Along the Canadian Coastlines Using Reinforcement Learning ( http://arxiv.org/abs/2108.03169v1 )

ライセンス: Link先を確認
Mohammed Abouheaf and Shuzheng Qu and Wail Gueaieb and Rami Abielmona and Moufid Harb(参考訳) 本稿では、機械学習(ML)が海洋ドメインのセキュリティに関連する現代の問題の解決策をどのように活用できるかを詳述する。 世界の'Illegal, Unreported, and Unregulated''(IUU)漁業事故は、天然資源の枯渇による財政的損失に加えて、生態系の劇的な変化を伴う深刻な環境・経済的な影響をもたらしている。 国連食糧農業機関(fao)の漁業水産部(fad)は、イウ漁による年間損失が250億ドルに達したことを示す報告書を発表した。 これは海洋生態系と国内総生産(gnp)の将来生物多様性に悪影響を及ぼす。 したがって、海上領土における違法な漁業事件を検知・追跡するためには、頑丈な妨害機構がますます必要である。 本稿は, 沿岸海域において, 海上船舶群(購入者)のIUU船捕獲時の移動を協調する問題に対処するものである。 この問題は、MLフレームワーク内で取り組まれる追従回避問題として定式化されている。 法執行船のような1つ以上の追随者は、価値反復プロセスに基づくオンライン強化学習機構を用いて、避難者(すなわち違法な漁船)を迎撃する。 潜航船のリアルタイム航法測定と追撃艇の航法測定を行い、モデルフリーの迎撃戦略を返却する。

This article elaborates on how machine learning (ML) can leverage the solution of a contemporary problem related to the security of maritime domains. The worldwide ``Illegal, Unreported, and Unregulated'' (IUU) fishing incidents have led to serious environmental and economic consequences which involve drastic changes in our ecosystems in addition to financial losses caused by the depletion of natural resources. The Fisheries and Aquatic Department (FAD) of the United Nation's Food and Agriculture Organization (FAO) issued a report which indicated that the annual losses due to IUU fishing reached $25 Billion. This imposes negative impacts on the future-biodiversity of the marine ecosystem and domestic Gross National Product (GNP). Hence, robust interception mechanisms are increasingly needed for detecting and pursuing the unrelenting illegal fishing incidents in maritime territories. This article addresses the problem of coordinating the motion of a fleet of marine vessels (pursuers) to catch an IUU vessel while still in local waters. The problem is formulated as a pursuer-evader problem that is tackled within an ML framework. One or more pursuers, such as law enforcement vessels, intercept an evader (i.e., the illegal fishing ship) using an online reinforcement learning mechanism that is based on a value iteration process. It employs real-time navigation measurements of the evader ship as well as those of the pursuing vessels and returns back model-free interception strategies.
翻訳日:2021-08-09 14:38:25 公開日:2021-08-05
# 非線形抽象性制約による抽象性-ファクチュアリティトレードオフの解析

Analyzing the Abstractiveness-Fact uality Tradeoff With Nonlinear Abstractiveness Constraints ( http://arxiv.org/abs/2108.02859v1 )

ライセンス: Link先を確認
Markus Dreyer, Mengwen Liu, Feng Nan, Sandeep Atluri, Sujith Ravi(参考訳) 要約の事実性と抽象性とのトレードオフを分析する。 復号時の抽象性の程度を制御するために抽象性制約を導入し、この手法を用いて広範囲の人間評価を用いて、複数の広く研究されたデータセットにまたがる抽象性・事実性トレードオフを特徴付ける。 各データセット上でニューラルネットワークの要約モデルをトレーニングし、抽象性制約を使って徐々に抽象性を高めることで、事実性の変化率を可視化します。 事実性は一般的に抽象性の増加とともに低下するが、異なるデータセットは事実性崩壊の率が異なることを観察する。 事実性と抽象性のトレードオフを定量化する新しい手法を提案する。 muQAGS - 事実と抽象性のバランスをとる。 我々はまた、このトレードオフを過去の作品で定量化し、将来の出版物が比較できる抽象性と事実性のトレードオフのベースラインを確立することを目的とする。

We analyze the tradeoff between factuality and abstractiveness of summaries. We introduce abstractiveness constraints to control the degree of abstractiveness at decoding time, and we apply this technique to characterize the abstractiveness-fact uality tradeoff across multiple widely-studied datasets, using extensive human evaluations. We train a neural summarization model on each dataset and visualize the rates of change in factuality as we gradually increase abstractiveness using our abstractiveness constraints. We observe that, while factuality generally drops with increased abstractiveness, different datasets lead to different rates of factuality decay. We propose new measures to quantify the tradeoff between factuality and abstractiveness, incl. muQAGS, which balances factuality with abstractiveness. We also quantify this tradeoff in previous works, aiming to establish baselines for the abstractiveness-fact uality tradeoff that future publications can compare against.
翻訳日:2021-08-09 14:38:02 公開日:2021-08-05
# Open Domain Question Answeringのためのハイブリッドテキストとタブラリエビデンスに関するデュアルレシーバ

Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering ( http://arxiv.org/abs/2108.02866v1 )

ライセンス: Link先を確認
Alexander Hanbo Li, Patrick Ng, Peng Xu, Henghui Zhu, Zhiguo Wang, Bing Xiang(参考訳) オープンドメイン質問応答(ODQA)の最先端生成モデルは、構造化されていないテキスト情報から直接回答を生成することに焦点を当てている。 しかし、世界の知識の多くは構造化データベースに保存されており、SQLのようなクエリ言語を使ってアクセスする必要がある。 さらに、クエリ言語は複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性も提供する。 本稿では,文と表の両方のエビデンスを入力として,どのフォームで質問に答えられるかによって,直接回答あるいはsqlクエリを生成するハイブリッドフレームワークを提案する。 生成されたSQLクエリは、関連するデータベース上で実行され、最終的な回答が得られる。 私たちの知る限りでは、これはodqaタスクにtext2sqlを適用する最初の論文です。 実験により、複数のODQAデータセットにおいて、ハイブリッド手法は、均一な入力を大きなマージンでのみ得るベースラインモデルよりも一貫して優れていることを示した。 具体的には,T5ベースモデルを用いて,OpenSQuADデータセットの最先端性能を実現する。 詳細な分析では、構造的なSQLクエリを生成することは、特に複雑な推論を必要とする質問に対して、常に利益をもたらすことができることを示した。

The current state-of-the-art generative models for open-domain question answering (ODQA) have focused on generating direct answers from unstructured textual information. However, a large amount of world's knowledge is stored in structured databases, and need to be accessed using query languages such as SQL. Furthermore, query languages can answer questions that require complex reasoning, as well as offering full explainability. In this paper, we propose a hybrid framework that takes both textual and tabular evidence as input and generates either direct answers or SQL queries depending on which form could better answer the question. The generated SQL queries can then be executed on the associated databases to obtain the final answers. To the best of our knowledge, this is the first paper that applies Text2SQL to ODQA tasks. Empirically, we demonstrate that on several ODQA datasets, the hybrid methods consistently outperforms the baseline models that only take homogeneous input by a large margin. Specifically we achieve state-of-the-art performance on OpenSQuAD dataset using a T5-base model. In a detailed analysis, we demonstrate that the being able to generate structural SQL queries can always bring gains, especially for those questions that requires complex reasoning.
翻訳日:2021-08-09 14:37:47 公開日:2021-08-05
# ProcessCO v1.3の用語、特性、関係、公理 - プロセスのコアオントロジー

ProcessCO v1.3's Terms, Properties, Relationships and Axioms - A Core Ontology for Processes ( http://arxiv.org/abs/2108.02816v1 )

ライセンス: Link先を確認
Pablo Becker and Luis Olsina(参考訳) 現在のプレプリントは、プロセスコ(プロセスコアオントロジー)のすべての項、特性、関係、公理を定義し、定義する。 processco は仕事の実体と関連する用語を主に扱うオントロジーであり、fcd-ontoarch (foundational, core, and domain ontological architecture for sciences)と呼ばれる多層オントロジーアーキテクチャの文脈においてコアレベルに位置する。 これは5層のオントロジアーキテクチャで、基礎レベル、コアレベル、ドメインレベル、インスタンスレベルを考慮し、ドメインレベルを2つのサブレベル、すなわちトップドメインとロードメインに分割する。 同じレベルのオントロジーは、ThingFO(Thing Foundational Ontology)のみが見つかる基礎レベルを除いて、相互に関連付けられる。 さらに、より低いレベルのオントロジの用語と関係は、上位レベルのオントロジの用語と関係によって意味的に富むことができる。 注意すべき点は、ThingFOとProcessCO、AreaCOといった中核レベルのオントロジーは、それぞれの用語に関してドメインに依存しないことである。 ステレオタイプは、主にThingFOオントロジーからProcessCO用語を豊かにするメカニズムである。 この論文の最後には、ProcessCO vs. ThingFOノンタコノミック関係検証行列について述べる。 さらに、以前のバージョン(ProcessCO v1.2)から現在のバージョン(v1.3)への更新のアノテーションは、Appendix Aで見ることができる。 例えば、6つの公理が加えられた。

The present preprint specifies and defines all Terms, Properties, Relationships and Axioms of ProcessCO (Process Core Ontology). ProcessCO is an ontology devoted mainly for Work Entities and related terms, which is placed at the core level in the context of a multilayer ontological architecture called FCD-OntoArch (Foundational, Core, and Domain Ontological Architecture for Sciences). This is a five-layered ontological architecture, which considers Foundational, Core, Domain and Instance levels, where the domain level is split down in two sub-levels, namely: Top-domain and Low-domain. Ontologies at the same level can be related to each other, except for the foundational level where only ThingFO (Thing Foundational Ontology) is found. In addition, ontologies' terms and relationships at lower levels can be semantically enriched by ontologies' terms and relationships from the higher levels. Note that both ThingFO and ontologies at the core level such as ProcessCO, SituationCO, among others, are domain independent with respect to their terms. Stereotypes are the mechanism used for enriching ProcessCO terms mainly from the ThingFO ontology. Note that in the end of this document, we address the ProcessCO vs. ThingFO non-taxonomic relationship verification matrix. Additionally, note that annotations of updates from the previous version (ProcessCO v1.2) to the current one (v1.3) can be found in Appendix A. For instance, 6 axioms were added.
翻訳日:2021-08-09 14:37:02 公開日:2021-08-05
# UAV斜め光度計を用いた体積変化検出フレームワーク -進行建物崩壊の超高分解能モニタリングの事例-

A volumetric change detection framework using UAV oblique photogrammetry - A case study of ultra-high-resolutio n monitoring of progressive building collapse ( http://arxiv.org/abs/2108.02800v1 )

ライセンス: Link先を確認
Ningli Xu, Debao Huang, Shuang Song, Xiao Ling, Chris Strasbaugh, Alper Yilmaz, Halil Sezen, Rongjun Qin(参考訳) 本稿では, 解体時の建物の進行崩壊挙動を, 小型3次元形状変化検出および監視により, 無人航空機 (uav) を運用するケーススタディについて述べる。 分解の異なる段階で発生する3次元点雲で, 多時間斜め撮影画像が収集される。 大気中のLiDAR点雲と地上のLiDAR点雲の双方に対して発生点雲の幾何的精度を評価し,屋根とファサードの平均距離を12cm,16cmとした。 提案する階層的な体積変化検出フレームワークは,ポーズ推定(地上制御点のない),再構成,粗大な3次元密度変化解析のための多時間UAV画像を統合する。 この研究は、劇的なシーン内容の変更が徐々に提示されるフル3D時系列データセットで変更検出に対処できるソリューションを提供する。 建物解体イベントにおける変化検出結果は,手動による地中構造変化に対して評価され,F-1スコアは0.78から0.92に変化し,精度は一貫して0.92から0.99に向上した。 解体進展による体積変化は変化検出から導出され、質的かつ定量的な建物の解体進展を反映していることが示されている。

In this paper, we present a case study that performs an unmanned aerial vehicle (UAV) based fine-scale 3D change detection and monitoring of progressive collapse performance of a building during a demolition event. Multi-temporal oblique photogrammetry images are collected with 3D point clouds generated at different stages of the demolition. The geometric accuracy of the generated point clouds has been evaluated against both airborne and terrestrial LiDAR point clouds, achieving an average distance of 12 cm and 16 cm for roof and facade respectively. We propose a hierarchical volumetric change detection framework that unifies multi-temporal UAV images for pose estimation (free of ground control points), reconstruction, and a coarse-to-fine 3D density change analysis. This work has provided a solution capable of addressing change detection on full 3D time-series datasets where dramatic scene content changes are presented progressively. Our change detection results on the building demolition event have been evaluated against the manually marked ground-truth changes and have achieved an F-1 score varying from 0.78 to 0.92, with consistently high precision (0.92 - 0.99). Volumetric changes through the demolition progress are derived from change detection and have shown to favorably reflect the qualitative and quantitative building demolition progression.
翻訳日:2021-08-09 14:36:38 公開日:2021-08-05
# ニューラルツイントークと代替計算

Neural Twins Talk & Alternative Calculations ( http://arxiv.org/abs/2108.02807v1 )

ライセンス: Link先を確認
Zanyar Zohourianshahzadi, Jugal K. Kalita(参考訳) 高度に焦点を絞った主題を記述する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、画像キャプションの主視覚言語タスクに使用される深い注意モデルが、より良いパフォーマンスを達成するために拡張可能であることを示す。 画像キャプションは、コンピュータビジョンと自然言語処理の間のギャップを埋める。 自動キャプションは、人間のエージェントが見えない画像に記述的なキャプションを作成する必要をなくすためのツールとして使われている。 ひとつは、入力画像を記述する文を生成することができるAIベースのシステムは、Webやソーシャルメディアにアップロードされた未確認画像のキャプションを生成する以外に、さまざまなタスクで使用できるからだ。 例えば、生物学や医学では、これらのシステムは研究者や医師に関連画像の言語的記述を簡潔に提供し、研究を迅速化する可能性がある。

Inspired by how the human brain employs a higher number of neural pathways when describing a highly focused subject, we show that deep attentive models used for the main vision-language task of image captioning, could be extended to achieve better performance. Image captioning bridges a gap between computer vision and natural language processing. Automated image captioning is used as a tool to eliminate the need for human agent for creating descriptive captions for unseen images.Automated image captioning is challenging and yet interesting. One reason is that AI based systems capable of generating sentences that describe an input image could be used in a wide variety of tasks beyond generating captions for unseen images found on web or uploaded to social media. For example, in biology and medical sciences, these systems could provide researchers and physicians with a brief linguistic description of relevant images, potentially expediting their work.
翻訳日:2021-08-09 14:36:15 公開日:2021-08-05
# セマンティクスセグメンテーション改善のための注意に基づくセマンティクス境界と非バウンダリ情報の融合

Attention-based fusion of semantic boundary and non-boundary information to improve semantic segmentation ( http://arxiv.org/abs/2108.02840v1 )

ライセンス: Link先を確認
Jefferson Fontinele and Gabriel Lefundes and Luciano Oliveira(参考訳) 本稿では,深層畳み込みニューラルネットワーク内で発生する新しい融合方式に基づく画像意味セグメンテーション手法を提案する。 提案の主な目標は,オブジェクト境界情報を探索し,全体のセグメンテーション性能を改善することである。 境界とセグメンテーションの特徴を結合した以前の作品や、セグメンテーションを規則化するために境界情報を使用する作品とは異なり、代わりにセグメンテーションに境界情報を具現化する新しいアプローチを提案する。 そこで本手法では,2つのストリームをアテンションゲートを介して結合し,エンドツーエンドのYモデルを生成する。 我々の知る限りでは、セマンティックフュージョンゲート(アテンションモデル)を介して融合した場合、境界検出がセマンティックセグメンテーションを改善することを示す最初の研究である。 提案手法を公開データセットに対して広範囲に評価した。 提案したモデルと他の12の最先端セグメンタを比較して,同じトレーニング条件を考慮に入れた結果,全データセットの競争結果が得られた。 提案したモデルでは,CityScapes,CamVid,P ascal Contextデータセットで最高のmIoU,Mapillary Vistasで2番目によいmIoUを達成した。

This paper introduces a method for image semantic segmentation grounded on a novel fusion scheme, which takes place inside a deep convolutional neural network. The main goal of our proposal is to explore object boundary information to improve the overall segmentation performance. Unlike previous works that combine boundary and segmentation features, or those that use boundary information to regularize semantic segmentation, we instead propose a novel approach that embodies boundary information onto segmentation. For that, our semantic segmentation method uses two streams, which are combined through an attention gate, forming an end-to-end Y-model. To the best of our knowledge, ours is the first work to show that boundary detection can improve semantic segmentation when fused through a semantic fusion gate (attention model). We performed an extensive evaluation of our method over public data sets. We found competitive results on all data sets after comparing our proposed model with other twelve state-of-the-art segmenters, considering the same training conditions. Our proposed model achieved the best mIoU on the CityScapes, CamVid, and Pascal Context data sets, and the second best on Mapillary Vistas.
翻訳日:2021-08-09 14:35:58 公開日:2021-08-05
# 単粒子短波・雑音軌跡を均一に拡散する効率的なリカレントニューラルネットワーク法

Efficient recurrent neural network methods for anomalously diffusing single particle short and noisy trajectories ( http://arxiv.org/abs/2108.02834v1 )

ライセンス: Link先を確認
\`Oscar Garibo i Orts, Miguel A. Garcia-March, J. Alberto Conejero(参考訳) 異常拡散は、原子システムから細胞小器官、生物学的組織、生態学、およびセメントなどの人工材料における運動まで、自然界において非常に異なるスケールで起こる。 与えられた粒子軌道に付随する異常指数を正確に測定できるため、粒子が拡散過程を理解する上では、粒子のサブディフュース、スーパーディフュース、または正常拡散を行うかが重要となる。 また、システムダイナミクスに関する大量の情報を提供するため、軌跡の背後にあるモデルを信頼して識別することがしばしば重要である。 入力データが短くノイズの多い軌跡である場合、どちらの面も特に困難である。 実験で出力される軌跡が均質であることを保証することができなければさらに困難であり、軌跡のアンサンブルに基づく統計的方法を妨げる。 本稿では, 異常指数を推定し, 単一, 雑音, 短軌跡の背後にある異常拡散過程のタイプを精度良く同定できるデータ駆動手法を提案する。 このモデルは、Anomalous Diffusion (AnDi) Challengeへの参加に使用された。 畳み込みニューラルネットワークとリカレントニューラルネットワークの組み合わせを用いて,andiチャレンジに参加する手法と比較し,分類と拡散指数回帰の両方において上位4位となった。

Anomalous diffusion occurs at very different scales in nature, from atomic systems to motions in cell organelles, biological tissues or ecology, and also in artificial materials, such as cement. Being able to accurately measure the anomalous exponent associated with a given particle trajectory, thus determining whether the particle subdiffuses, superdiffuses or performs normal diffusion is of key importance to understand the diffusion process. Also, it is often important to trustingly identify the model behind the trajectory, as this gives a large amount of information on the system dynamics. Both aspects are particularly difficult when the input data are short and noisy trajectories. It is even more difficult if one cannot guarantee that the trajectories output in experiments is homogeneous, hindering the statistical methods based on ensembles of trajectories. We present a data-driven method able to infer the anomalous exponent and to identify the type of anomalous diffusion process behind single, noisy and short trajectories, with good accuracy. This model was used in our participation in the Anomalous Diffusion (AnDi) Challenge. A combination of convolutional and recurrent neural networks were used to achieve state-of-the-art results when compared to methods participating in the AnDi Challenge, ranking top 4 in both classification and diffusion exponent regression.
翻訳日:2021-08-09 14:28:41 公開日:2021-08-05
# I-DLV-sr:I-DLVに基づくストリーム推論システム

I-DLV-sr: A Stream Reasoning System based on I-DLV ( http://arxiv.org/abs/2108.02797v1 )

ライセンス: Link先を確認
Francesco Calimeri, Marco Manna, Elena Mastria, Maria Concetta Morelli, Simona Perri and Jessica Zangari(参考訳) 我々は,Apache Flink と I^2-DLV システム間の密なきめ細かなインタラクションを可能にするフレームワークに依存した,データストリームの推論のための新しい論理ベースのシステムを提案する。 このアーキテクチャは、Flinkの強力な分散ストリーム処理機能と、オーバーグラウンド技術に基づくI^2-DLVの漸進的推論機能の両方を活用することができる。 システムアーキテクチャの他に、サポートされている入力言語とそのモデリング能力を説明し、そのアプローチの存続可能性を評価するための実験活動の結果について論じる。 本稿では,論理プログラミング(tplp)の理論と実践について考察する。

We introduce a novel logic-based system for reasoning over data streams, which relies on a framework enabling a tight, fine-tuned interaction between Apache Flink and the I^2-DLV system. The architecture allows to take advantage from both the powerful distributed stream processing capabilities of Flink and the incremental reasoning capabilities of I^2-DLV based on overgrounding techniques. Besides the system architecture, we illustrate the supported input language and its modeling capabilities, and discuss the results of an experimental activity aimed at assessing the viability of the approach. This paper is under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-08-09 14:27:58 公開日:2021-08-05
# Ada-VSR:メタラーニングによる適応型ビデオ超解法

Ada-VSR: Adaptive Video Super-Resolution with Meta-Learning ( http://arxiv.org/abs/2108.02832v1 )

ライセンス: Link先を確認
Akash Gupta, Padmaja Jonnalagedda, Bir Bhanu, Amit K. Roy-Chowdhury(参考訳) 監視時空間ビデオ超解像(STVSR)における既存の研究の多くは、ペア化された低解像度低フレームレート(LR-LFR)と高解像度高フレームレート(HR-HFR)のビデオからなる大規模な外部データセットに大きく依存している。 これらの手法は、その優れた性能にもかかわらず、既知の劣化カーネルを用いて高解像度映像をダウンスケールすることで低解像度映像が得られると仮定する。 これらの方法のもうひとつの問題は、テスト時にビデオのインスタンス固有の内部情報を活用できないことだ。 近年,ビデオのインスタンス固有の統計情報を活用する能力により,深層学習アプローチが注目されている。 しかし、これらのメソッドはデータの内部構造を学ぶために数千の勾配更新を必要とするため、大きな推論時間を持つ。 本稿では,メタトランスファー学習と内部学習による外部情報と内部情報を活用するadaptivevideo super- resolution (ada-vsr)を提案する。 具体的には、内部学習タスク中に与えられたテストビデオの新しい条件(劣化モデル)に迅速に適応できる大規模な外部データセットを用いて適応パラメータを得るためにメタラーニングを用い、ビデオの外的・内的情報を超解像に活用する。 提案手法を用いてトレーニングしたモデルでは,若干の勾配更新しか行わず,特定の映像条件に迅速に適応できるため,推論時間を大幅に短縮できる。 標準データセットに対する大規模な実験により,本手法は様々な最先端手法に対して良好に機能することを示した。

Most of the existing works in supervised spatio-temporal video super-resolution (STVSR) heavily rely on a large-scale external dataset consisting of paired low-resolution low-frame rate (LR-LFR)and high-resolution high-frame-rate (HR-HFR) videos. Despite their remarkable performance, these methods make a prior assumption that the low-resolution video is obtained by down-scaling the high-resolution video using a known degradation kernel, which does not hold in practical settings. Another problem with these methods is that they cannot exploit instance-specific internal information of video at testing time. Recently, deep internal learning approaches have gained attention due to their ability to utilize the instance-specific statistics of a video. However, these methods have a large inference time as they require thousands of gradient updates to learn the intrinsic structure of the data. In this work, we presentAdaptiveVideo Super-Resolution (Ada-VSR) which leverages external, as well as internal, information through meta-transfer learning and internal learning, respectively. Specifically, meta-learning is employed to obtain adaptive parameters, using a large-scale external dataset, that can adapt quickly to the novel condition (degradation model) of the given test video during the internal learning task, thereby exploiting external and internal information of a video for super-resolution. The model trained using our approach can quickly adapt to a specific video condition with only a few gradient updates, which reduces the inference time significantly. Extensive experiments on standard datasets demonstrate that our method performs favorably against various state-of-the-art approaches.
翻訳日:2021-08-09 14:26:43 公開日:2021-08-05
# THALIS:癌治療における縦断症状のヒト・マシーン解析

THALIS: Human-Machine Analysis of Longitudinal Symptoms in Cancer Therapy ( http://arxiv.org/abs/2108.02817v1 )

ライセンス: Link先を確認
Carla Floricel, Nafiul Nipu, Mikayla Biggs, Andrew Wentzel, Guadalupe Canahuate, Lisanne Van Dijk, Abdallah Mohamed, C. David Fuller, G. Elisabeta Marai(参考訳) 癌患者は腫瘍治療後数年生存するが、長期または持続的な残留症状に悩まされ、その重症度、発達率、治療後の分解能は生存者によって大きく異なる。 症状の分析と解釈は、その部分的共起、集団間および時間にわたっての変動、および放射線療法を使用するがんの場合、腫瘍の位置と所定の治療に対するさらなる症状依存性により複雑である。 がん治療の症状データから視覚分析と知識発見を行う環境であるthalisについて,腫瘍学の専門家と緊密に連携して開発した。 このアプローチは、患者のコホートよりも教師なしの機械学習方法論を活用し、カスタムのビジュアルエンコーディングとインタラクションと合わせて、類似した診断特徴と症状の進化を持つ患者に基づいて、新しい患者にコンテキストを提供する。 このアプローチは,頭頸部癌患者のコホートから収集したデータに基づいて評価する。 臨床共同研究者からのフィードバックは、THALISが機械や人間の限界を超えた知識発見をサポートしており、臨床および症状研究において貴重なツールであることを示している。

Although cancer patients survive years after oncologic therapy, they are plagued with long-lasting or permanent residual symptoms, whose severity, rate of development, and resolution after treatment vary largely between survivors. The analysis and interpretation of symptoms is complicated by their partial co-occurrence, variability across populations and across time, and, in the case of cancers that use radiotherapy, by further symptom dependency on the tumor location and prescribed treatment. We describe THALIS, an environment for visual analysis and knowledge discovery from cancer therapy symptom data, developed in close collaboration with oncology experts. Our approach leverages unsupervised machine learning methodology over cohorts of patients, and, in conjunction with custom visual encodings and interactions, provides context for new patients based on patients with similar diagnostic features and symptom evolution. We evaluate this approach on data collected from a cohort of head and neck cancer patients. Feedback from our clinician collaborators indicates that THALIS supports knowledge discovery beyond the limits of machines or humans alone, and that it serves as a valuable tool in both the clinic and symptom research.
翻訳日:2021-08-09 14:24:22 公開日:2021-08-05
# スペクトログラムを用いたバイタルサインのパターン認識

Pattern Recognition in Vital Signs Using Spectrograms ( http://arxiv.org/abs/2108.03168v1 )

ライセンス: Link先を確認
Sidharth Srivatsav Sribhashyam, Md Sirajus Salekin, Dmitry Goldgof, Ghada Zamzmi, and Yu Sun(参考訳) スペクトログラムは、オーディオ信号または時系列信号である可能性のある所定の信号の周波数成分を可視化する。 音声信号はサンプリング率が高く、時間とともに周波数のばらつきが高い。 スペクトログラムはそのような変動をうまく捉えることができる。 しかし、時系列信号であるバイタルサインはサンプリング周波数と低周波数変動が少なく、スペクトル図は変化やパターンを表現できない。 本稿では,バイタルサインの周波数変調を用いた周波数可変性の導入手法を提案する。 次に周波数変調信号にスペクトログラムを適用してパターンを捉える。 提案手法は、予測と分類の両方の4つの異なる医療データセットで評価されている。 バイタルサイン信号に対するアプローチの有効性を示す重要な結果が得られた。 提案手法による結果は,予測と分類タスクにおいて91.55%,91.67%の精度で有望である。

Spectrograms visualize the frequency components of a given signal which may be an audio signal or even a time-series signal. Audio signals have higher sampling rate and high variability of frequency with time. Spectrograms can capture such variations well. But, vital signs which are time-series signals have less sampling frequency and low-frequency variability due to which, spectrograms fail to express variations and patterns. In this paper, we propose a novel solution to introduce frequency variability using frequency modulation on vital signs. Then we apply spectrograms on frequency modulated signals to capture the patterns. The proposed approach has been evaluated on 4 different medical datasets across both prediction and classification tasks. Significant results are found showing the efficacy of the approach for vital sign signals. The results from the proposed approach are promising with an accuracy of 91.55% and 91.67% in prediction and classification tasks respectively.
翻訳日:2021-08-09 14:22:38 公開日:2021-08-05
# 破滅的予測を克服する量子連続学習

Quantum Continual Learning Overcoming Catastrophic Forgetting ( http://arxiv.org/abs/2108.02786v1 )

ライセンス: Link先を確認
Wenjie Jiang, Zhide Lu and Dong-Ling Deng(参考訳) 破滅的な忘れは、機械学習モデルが、新しいタスクの学習プロセスの後に学習したタスクの知識を忘れる可能性が高いという事実を記述している。 継続的な学習シナリオにおいて重要な問題であり、最近は様々なコミュニティで大きな関心を集めている。 本稿では,量子機械学習の文脈における破滅的な忘れ現象について考察する。 ニューラルネットワークに基づく古典的な学習モデルと同様に、量子学習システムは、様々なアプリケーションシーンから出現する分類タスクにおいて、そのような忘れられる問題に悩まされている。 学習モデルの損失関数のランドスケープにおける局所幾何情報に基づいて,インクリメンタル学習環境における忘れられる問題を克服するために一様戦略を適用することができることを示す。 本研究は,量子機械学習における破滅的な記憶現象を解明し,この問題を克服するための実用的な手法を提供する。

Catastrophic forgetting describes the fact that machine learning models will likely forget the knowledge of previously learned tasks after the learning process of a new one. It is a vital problem in the continual learning scenario and recently has attracted tremendous concern across different communities. In this paper, we explore the catastrophic forgetting phenomena in the context of quantum machine learning. We find that, similar to those classical learning models based on neural networks, quantum learning systems likewise suffer from such forgetting problem in classification tasks emerging from various application scenes. We show that based on the local geometrical information in the loss function landscape of the trained model, a uniform strategy can be adapted to overcome the forgetting problem in the incremental learning setting. Our results uncover the catastrophic forgetting phenomena in quantum machine learning and offer a practical method to overcome this problem, which opens a new avenue for exploring potential quantum advantages towards continual learning.
翻訳日:2021-08-09 14:22:27 公開日:2021-08-05
# 線形深さと指数速度を用いた量子トポロジカルデータ解析

Quantum Topological Data Analysis with Linear Depth and Exponential Speedup ( http://arxiv.org/abs/2108.02811v1 )

ライセンス: Link先を確認
Shashanka Ubaru, Ismail Yunus Akhalwaya, Mark S. Squillante, Kenneth L. Clarkson, Lior Horesh(参考訳) 量子コンピューティングは、ある種の古典的な計算に対して指数的スピードアップの可能性を提供する。 過去10年間で、このような指数関数的改善の候補として多くの量子機械学習(QML)アルゴリズムが提案されている。 しかし、この2つの問題は、これらのqmlアルゴリズムのいくつかに指数関数的なスピードアップの希望をもたらす:データローディング問題、そして最近では、tangらによる驚くべき非量子化結果である。 第3の課題、すなわちほとんどのQMLアルゴリズムのフォールトトレランス要件は、その実践的実現をさらに妨げている。 Lloyd, Garnerone, Zanardiの量子トポロジカルデータ解析(QTDA)アルゴリズムは、予想される指数的スピードアップを提供する最初のQMLアルゴリズムの1つである。 当初から、データローディングの問題に悩まされていなかった。 最近の結果は、このアルゴリズムによって解決された一般化された問題は、古典的に難解であり、従っていかなる解量化努力にも無関係であることも示している。 しかし、lloyd et~alのqtdaアルゴリズム。 時間複雑性は$O(n^4/(\epsilon^2 \delta))$($n$はデータポイントの数、$\epsilon$はエラートレランス、$\delta$は制限されたラプラシアンの最小の非ゼロ固有値であり、まだ達成されていないフォールトトレラント量子コンピューティングを必要とする。 本稿では,QTDAアルゴリズムを改良した指数的高速化と深さ複雑性を$O(n\log(1/(\delta\e psilon))$で実現する。 このアプローチには、3つの重要な革新がある: (a) パウリ作用素の和としての組合せラプラシアンの効率的な実現、(b)複素体の単純さに重畳を制限する量子拒絶サンプリングアプローチ、(c)ベッチ数を推定する確率的ランク推定方法。 理論的誤差解析とベッチ数推定のための回路・計算時間・深度複雑度について述べる。

Quantum computing offers the potential of exponential speedups for certain classical computations. Over the last decade, many quantum machine learning (QML) algorithms have been proposed as candidates for such exponential improvements. However, two issues unravel the hope of exponential speedup for some of these QML algorithms: the data-loading problem and, more recently, the stunning dequantization results of Tang et al. A third issue, namely the fault-tolerance requirements of most QML algorithms, has further hindered their practical realization. The quantum topological data analysis (QTDA) algorithm of Lloyd, Garnerone and Zanardi was one of the first QML algorithms that convincingly offered an expected exponential speedup. From the outset, it did not suffer from the data-loading problem. A recent result has also shown that the generalized problem solved by this algorithm is likely classically intractable, and would therefore be immune to any dequantization efforts. However, the QTDA algorithm of Lloyd et~al. has a time complexity of $O(n^4/(\epsilon^2 \delta))$ (where $n$ is the number of data points, $\epsilon$ is the error tolerance, and $\delta$ is the smallest nonzero eigenvalue of the restricted Laplacian) and requires fault-tolerant quantum computing, which has not yet been achieved. In this paper, we completely overhaul the QTDA algorithm to achieve an improved exponential speedup and depth complexity of $O(n\log(1/(\delta\e psilon)))$. Our approach includes three key innovations: (a) an efficient realization of the combinatorial Laplacian as a sum of Pauli operators; (b) a quantum rejection sampling approach to restrict the superposition to the simplices in the complex; and (c) a stochastic rank estimation method to estimate the Betti numbers. We present a theoretical error analysis, and the circuit and computational time and depth complexities for Betti number estimation.
翻訳日:2021-08-09 14:22:13 公開日:2021-08-05
# 無損失マルチスケール構成弾性関係と人工知能

Lossless Multi-Scale Constitutive Elastic Relations with Artificial Intelligence ( http://arxiv.org/abs/2108.02837v1 )

ライセンス: Link先を確認
Jaber Rezaei Mianroodi, Shahed Rezaei, Nima H. Siboni, Bai-Xiang Xu, Dierk Raabe(参考訳) 材料の弾性特性は、その電子的および原子的性質に由来する。 しかし、このスケールでバルク材料を完全にシミュレーションすることは不可能であり、通常は同種連続体の記述が使われる。 これら2つのスケール間における材料の弾性応答の構成的記述のシームレスで無損失な遷移は、非常に不可解である。 ここでは人工知能(AI)を用いてこの問題を克服する方法を示す。 分子スタティックス(MS)から算出したナノ多孔体の構造画像を入力とし、対応する弾性テンソルを出力として畳み込みニューラルネットワーク(CNN)モデルを訓練する。 原子学的データを用いて訓練されたCNNモデルは、物理側では表面と非局所的な効果から引き出すことができる材料の弾性特性のサイズと細孔依存性をキャプチャする。 このような効果は原子論から古典的連続論へのアップスケーリングにおいてしばしば無視される。 トレーニングされたCNNモデルの精度と効率を実証するため、CNNを構成則として弾性変形したナノ多孔体ビームの有限要素法(FEM)を全原子学シミュレーションで比較した。 原子論シミュレーションと、サイズと表面効果を持つ系のFEM-AI結合との良好な一致は、そのような問題に対する新たな損失のないスケールブリッジングアプローチを確立する。 トレーニングされたCNNモデルは、最大90 %のポロシティシナリオの9.6 %で原子学的結果から逸脱するが、MS計算の約230倍の速度であり、異なるスケールでシミュレーション方法を変更する必要はない。 CNN評価の効率性と重要な原子学的効果の保存は、ナノポーラス材料のマクロシミュレーションや逆問題の解決に有効な原子学的インフォームド構成モデルとなる。

The elastic properties of materials derive from their electronic and atomic nature. However, simulating bulk materials fully at these scales is not feasible, so that typically homogenized continuum descriptions are used instead. A seamless and lossless transition of the constitutive description of the elastic response of materials between these two scales has been so far elusive. Here we show how this problem can be overcome by using Artificial Intelligence (AI). A Convolutional Neural Network (CNN) model is trained, by taking the structure image of a nanoporous material as input and the corresponding elasticity tensor, calculated from Molecular Statics (MS), as output. Trained with the atomistic data, the CNN model captures the size- and pore-dependency of the material's elastic properties which, on the physics side, can stem from surfaces and non-local effects. Such effects are often ignored in upscaling from atomistic to classical continuum theory. To demonstrate the accuracy and the efficiency of the trained CNN model, a Finite Element Method (FEM) based result of an elastically deformed nanoporous beam equipped with the CNN as constitutive law is compared with that by a full atomistic simulation. The good agreement between the atomistic simulations and the FEM-AI combination for a system with size and surface effects establishes a new lossless scale bridging approach to such problems. The trained CNN model deviates from the atomistic result by 9.6\% for porosity scenarios of up to 90\% but it is about 230 times faster than the MS calculation and does not require to change simulation methods between different scales. The efficiency of the CNN evaluation together with the preservation of important atomistic effects makes the trained model an effective atomistically-inform ed constitutive model for macroscopic simulations of nanoporous materials and solving of inverse problems.
翻訳日:2021-08-09 14:21:39 公開日:2021-08-05
# 高次元不均衡産業データのオートエンコーダモデル

Auto-encoder based Model for High-dimensional Imbalanced Industrial Data ( http://arxiv.org/abs/2108.02083v2 )

ライセンス: Link先を確認
Chao Zhang, Sthitie Bom(参考訳) iotデバイスの普及に伴い、分散コントロールシステムはこれまでにない頻度でより多くのセンサーを捕捉し、処理している。 これらの新しいデータは、ボリュームとノベルティのため、データ駆動技術なしでは効果的に消費できない。 ディープラーニングは、特にソフトセンサーモデリングにおいて、これらのデータを分析するための有望な技術として登場しつつある。 複雑なデータの強力な表現能力と、アーキテクチャの観点から提供される柔軟性は、産業環境でのアクティブな応用研究のトピックとなります。 しかし, ソフトセンシングにおける深層学習の応用は, 相変わらず, ノイズや不完全な大規模産業データにアクセスできないため, 工場制御システムに広く組み込まれていない。 したがって、ほとんどの研究論文で発表された結果は、産業環境における様々なデータに適用しても容易には再現できない。 ここでは,公開オープンソフトセンサデータよりもはるかに大きく,より複雑である製造データセットを提供する。 さらに、データセットはシーゲート工場のアクティブなサービスであり、実際のデータの複雑でノイズの多い性質を反映するため、匿名化は必要なだけである。 分散重み付き多頭自動エンコーダ分類モデルを導入し,高次元・高度不均衡データに適用する。 高度に不均衡なデータを扱うために重み付けやサンプリング手法を使用するのに加えて、モデルは出力教師付き表現学習とマルチタスク重み付けを利用して同時に複数の出力を予測する。

With the proliferation of IoT devices, the distributed control systems are now capturing and processing more sensors at higher frequency than ever before. These new data, due to their volume and novelty, cannot be effectively consumed without the help of data-driven techniques. Deep learning is emerging as a promising technique to analyze these data, particularly in soft sensor modeling. The strong representational capabilities of complex data and the flexibility it offers from an architectural perspective make it a topic of active applied research in industrial settings. However, the successful applications of deep learning in soft sensing are still not widely integrated in factory control systems, because most of the research on soft sensing do not have access to large scale industrial data which are varied, noisy and incomplete. The results published in most research papers are therefore not easily reproduced when applied to the variety of data in industrial settings. Here we provide manufacturing data sets that are much larger and more complex than public open soft sensor data. Moreover, the data sets are from Seagate factories on active service with only necessary anonymization, so that they reflect the complex and noisy nature of real-world data. We introduce a variance weighted multi-headed auto-encoder classification model that fits well into the high-dimensional and highly imbalanced data. Besides the use of weighting or sampling methods to handle the highly imbalanced data, the model also simultaneously predicts multiple outputs by exploiting output-supervised representation learning and multi-task weighting.
翻訳日:2021-08-09 11:38:01 公開日:2021-08-05
# (参考訳) mdpsによるアクティブ強化学習 [全文訳有]

Active Reinforcement Learning over MDPs ( http://arxiv.org/abs/2108.02323v1 )

ライセンス: CC BY 4.0
Qi Yang, Peng Yang, Ke Tang(参考訳) 過去10年で強化学習が急速に発展し、多くのトレーニングリソースで素晴らしいパフォーマンスを得られるようになった。 しかしながら、rlの最大の課題の1つは、一般化効率(単位時間における一般化性能)である。 本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。 多数のインスタンスが与えられた場合、アルゴリズムはポリシーのトレーニング中にトレーニングセットとして貴重なインスタンスを選択し、リソースを少なくする。 既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。 さらに、フレームワークに一般的なインスタンス評価指標と選択メカニズムを導入します。 実験結果から,ポリシオプティマイザとしてプロクティマルポリシーオプティマイザが提案するフレームワークは,選択されていない手法やバイアスのない手法よりも効果的に一般化効率を向上できることがわかった。

The past decade has seen the rapid development of Reinforcement Learning, which acquires impressive performance with numerous training resources. However, one of the greatest challenges in RL is generalization efficiency (i.e., generalization performance in a unit time). This paper proposes a framework of Active Reinforcement Learning (ARL) over MDPs to improve generalization efficiency in a limited resource by instance selection. Given a number of instances, the algorithm chooses out valuable instances as training sets while training the policy, thereby costing fewer resources. Unlike existing approaches, we attempt to actively select and use training data rather than train on all the given data, thereby costing fewer resources. Furthermore, we introduce a general instance evaluation metrics and selection mechanism into the framework. Experiments results reveal that the proposed framework with Proximal Policy Optimization as policy optimizer can effectively improve generalization efficiency than unselect-ed and unbiased selected methods.
翻訳日:2021-08-07 00:54:53 公開日:2021-08-05
# (参考訳) 宇宙車両制御のための軌道最適化の進歩

Advances in Trajectory Optimization for Space Vehicle Control ( http://arxiv.org/abs/2108.02335v1 )

ライセンス: CC BY 4.0
Danylo Malyuta, Yue Yu, Purnanand Elango, Behcet Acikmese(参考訳) 宇宙ミッションの設計はコストと運用効率にプレミアムを課す。 地球を超えた新しい科学と生命の探索は、地質学的に豊富だが危険な着陸地点に科学的ペイロードを届けられる宇宙船を求めている。 同時に、過去40年にわたる最適化研究によって、コントロールエンジニアの指先で強力な最適化ツールが開発された。 新しい10年に入ると、最適化理論、アルゴリズム、ソフトウェアツールが臨界質量に達し、宇宙船の誘導と制御システムに真剣な応用を見始めた。 本稿では、最適化に基づく宇宙機制御の最近の進歩、成功、有望な方向性を詳細に概観する。 考えられる用途は、惑星着陸、ランデブーおよび近接操作、小天体着陸、制限された再配向、上昇と再突入を含む大気圏内飛行、軌道移動と噴射である。 主な焦点は、過去10年間の進歩であり、損失のない凸化、シーケンシャルな凸プログラミング、モデル予測制御という、3つのコア技術を使ったアプリケーションの数が増えてきた。 読者は、それぞれの宇宙車両制御アプリケーションにおける最先端の理解を深め、凸最適化をコア技術として、現在の重要なオープンな問題に取り組むのに十分な位置にいる。

Space mission design places a premium on cost and operational efficiency. The search for new science and life beyond Earth calls for spacecraft that can deliver scientific payloads to geologically rich yet hazardous landing sites. At the same time, the last four decades of optimization research have put a suite of powerful optimization tools at the fingertips of the controls engineer. As we enter the new decade, optimization theory, algorithms, and software tooling have reached a critical mass to start seeing serious application in space vehicle guidance and control systems. This survey paper provides a detailed overview of recent advances, successes, and promising directions for optimization-based space vehicle control. The considered applications include planetary landing, rendezvous and proximity operations, small body landing, constrained reorientation, endo-atmospheric flight including ascent and re-entry, and orbit transfer and injection. The primary focus is on the last ten years of progress, which have seen a veritable rise in the number of applications using three core technologies: lossless convexification, sequential convex programming, and model predictive control. The reader will come away with a well-rounded understanding of the state-of-the-art in each space vehicle control application, and will be well positioned to tackle important current open problems using convex optimization as a core technology.
翻訳日:2021-08-07 00:41:49 公開日:2021-08-05
# (参考訳) アダプタによる事前学習型言語モデルによるロバスト転送学習 [全文訳有]

Robust Transfer Learning with Pretrained Language Models through Adapters ( http://arxiv.org/abs/2108.02340v1 )

ライセンス: CC BY 4.0
Wenjuan Han, Bo Pang, Yingnian Wu(参考訳) BERTのような大きな事前訓練されたトランスフォーマーベース言語モデルによるトランスファー学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。 ダウンストリームタスクでこれらの大きな言語モデルを微調整したり、タスク固有の事前トレーニングと組み合わせるだけでは、堅牢ではないことが多い。 特に、ランダムな種の変化や事前訓練や微調整の回数が変化し、微調整されたモデルが敵攻撃に弱いため、性能は著しく変化する。 我々は,これらの問題を解決するために,簡易かつ効果的なアダプタベースアプローチを提案する。 具体的には、事前訓練されたモデルの各層に小さなボトルネック層(アダプタ)を挿入し、事前訓練された層を固定し、下流のタスクデータ上にアダプタ層をトレーニングする。 実験により,このような学習手法が,下流タスクへの移動学習における安定性と対角的堅牢性の向上につながることが示された。

Transfer learning with large pretrained transformer-based language models like BERT has become a dominating approach for most NLP tasks. Simply fine-tuning those large language models on downstream tasks or combining it with task-specific pretraining is often not robust. In particular, the performance considerably varies as the random seed changes or the number of pretraining and/or fine-tuning iterations varies, and the fine-tuned model is vulnerable to adversarial attack. We propose a simple yet effective adapter-based approach to mitigate these issues. Specifically, we insert small bottleneck layers (i.e., adapter) within each layer of a pretrained model, then fix the pretrained layers and train the adapter layers on the downstream task data, with (1) task-specific unsupervised pretraining and then (2) task-specific supervised training (e.g., classification, sequence labeling). Our experiments demonstrate that such a training scheme leads to improved stability and adversarial robustness in transfer learning to various downstream tasks.
翻訳日:2021-08-07 00:40:37 公開日:2021-08-05
# (参考訳) FMMformer:非分解近接場および遠方場注意による効率・柔軟変換器 [全文訳有]

FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention ( http://arxiv.org/abs/2108.02347v1 )

ライセンス: CC0 1.0
Tan M. Nguyen and Vai Suliafu and Stanley J. Osher and Long Chen and Bao Wang(参考訳) 粒子シミュレーションを高速化するための高速マルチポール法(FMM)に触発された,効率的で柔軟な変換器のクラスであるFMMformersを提案する。 FMMは、粒子と粒子の相互作用を近接場と遠場に分解し、それぞれ直接および粗粒の計算を行う。 同様に、fmmフォーマーは、近視野と遠視野の注意に注意を分解し、バンドドマトリックスによる近視野の注意と低ランクのマトリクスによる遠視野の注意をモデル化する。 FMMフォーマーの注意行列の計算には、列長に関する計算時間とメモリフットプリントの線形複雑さが必要である。 対照的に、標準変圧器は二次的な複雑さに悩まされる。 本研究では,Long Range Arenaの標準変圧器と言語モデリングベンチマークによるFMMフォーマーの利点を分析し,検証する。 FMMフォーマーは、精度の点で標準変圧器よりもかなり優れている。 例えば、FMMフォーマーは5つのLong Range Arenaタスクに対して平均分類精度が60.74 %$であり、標準変換器の平均精度が58.70 %$よりもかなり良い。

We propose FMMformers, a class of efficient and flexible transformers inspired by the celebrated fast multipole method (FMM) for accelerating interacting particle simulation. FMM decomposes particle-particle interaction into near-field and far-field components and then performs direct and coarse-grained computation, respectively. Similarly, FMMformers decompose the attention into near-field and far-field attention, modeling the near-field attention by a banded matrix and the far-field attention by a low-rank matrix. Computing the attention matrix for FMMformers requires linear complexity in computational time and memory footprint with respect to the sequence length. In contrast, standard transformers suffer from quadratic complexity. We analyze and validate the advantage of FMMformers over the standard transformer on the Long Range Arena and language modeling benchmarks. FMMformers can even outperform the standard transformer in terms of accuracy by a significant margin. For instance, FMMformers achieve an average classification accuracy of $60.74\%$ over the five Long Range Arena tasks, which is significantly better than the standard transformer's average accuracy of $58.70\%$.
翻訳日:2021-08-07 00:31:40 公開日:2021-08-05
# (参考訳) dp-GAN : ダイバーシティペナルティモジュールによるGANのモード崩壊軽減 [全文訳有]

dp-GAN : Alleviating Mode Collapse in GAN via Diversity Penalty Module ( http://arxiv.org/abs/2108.02353v1 )

ライセンス: CC BY 4.0
Sen Pei, Richard Yi Da Xu, Gaofeng Meng(参考訳) バニラ GAN [5] はモード崩壊に深く悩まされ、通常、ジェネレータによって生成された画像は、対応する潜伏ベクトルが非常に異なるにもかかわらず、それらの間に高い類似性を持つ傾向にある。 本稿では,GANのモード崩壊を軽減するために,多様性ペナルティ(dp)と呼ばれるプラグ可能なブロックを導入する。 特徴空間における画像対の類似性、すなわち2つの潜在ベクトルが異なる場合、生成元に異なる特徴を持つ2つの画像を生成するように強制する。 正規化グラム行列は類似度を測定するために用いられる。 提案手法を2次元合成データセット上で,Unrolled GAN [17], BourGAN [26], PacGAN [14], VEEGAN [23], ALI [4]と比較し, 提案手法がデータ分布のより多くのモードを捉えるのに役立つことを示す。 さらに, このペナルティ項をMNIST, Fashion-MNIST, CIFAR-10上の画像データ拡張に適用し, WGAN GP [6] と比較して0.24%, 1.34%, 0.52%の改善を行った。 最後に,提案手法をCelebA, CIFAR-10, MNIST, Fashion-MNISTで定量的に評価した。 その結果,本手法は現在のGANアーキテクチャと比較して,ISとFIDがはるかに高いことがわかった。

The vanilla GAN [5] suffers from mode collapse deeply, which usually manifests as that the images generated by generators tend to have a high similarity amongst them, even though their corresponding latent vectors have been very different. In this paper, we introduce a pluggable block called diversity penalty (dp) to alleviate mode collapse of GANs. It is used to reduce the similarity of image pairs in feature space, i.e., if two latent vectors are different, then we enforce the generator to generate two images with different features. The normalized Gram Matrix is used to measure the similarity. We compare the proposed method with Unrolled GAN [17], BourGAN [26], PacGAN [14], VEEGAN [23] and ALI [4] on 2D synthetic dataset, and results show that our proposed method can help GAN capture more modes of the data distribution. Further, we apply this penalty term into image data augmentation on MNIST, Fashion-MNIST and CIFAR-10, and the testing accuracy is improved by 0.24%, 1.34% and 0.52% compared with WGAN GP [6], respectively. Finally, we quantitatively evaluate the proposed method with IS and FID on CelebA, CIFAR-10, MNIST and Fashion-MNIST. Results show that our method gets much higher IS and lower FID compared with some current GAN architectures.
翻訳日:2021-08-07 00:06:31 公開日:2021-08-05
# (参考訳) O2NA: 制御可能なビデオキャプションのためのオブジェクト指向非自律的アプローチ [全文訳有]

O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning ( http://arxiv.org/abs/2108.02359v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Xuancheng Ren, Xian Wu, Bang Yang, Shen Ge, Xu Sun(参考訳) ビデオキャプションは、ビデオ理解と言語生成を組み合わせる。 ビデオキャプションは、ほとんどすべてのオブジェクトの詳細な静的なイメージを記述する画像キャプションとは異なり、通常、背景の変化に関係なく焦点を合わせているオブジェクトなど、集中したオブジェクトに対する一連のフレームとバイアスを考慮している。 したがって,映像キャプションではフォーカス対象の検出と適切な適応が重要である。 被写体の記述を強制し,制御可能な映像キャプションを実現するために,1)被写体を特定し,対象キャプション内の位置を予測する,2)被写体の属性語と関連語を生成してキャプションの草案を作成する,3)映像情報を組み合わせることでキャプションを流動的な最終キャプションに洗練させる,という3ステップでキャプション生成を行うオブジェクト指向非自己回帰アプローチ(o2na)を提案する。 集中オブジェクトは単語よりも先に生成され配置されるので、単語ごとの自己回帰生成プロセスを適用することは困難であり、代わりに非自己回帰的アプローチを採用する。 MSR-VTTとMSVDの2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。

Video captioning combines video understanding and language generation. Different from image captioning that describes a static image with details of almost every object, video captioning usually considers a sequence of frames and biases towards focused objects, e.g., the objects that stay in focus regardless of the changing background. Therefore, detecting and properly accommodating focused objects is critical in video captioning. To enforce the description of focused objects and achieve controllable video captioning, we propose an Object-Oriented Non-Autoregressive approach (O2NA), which performs caption generation in three steps: 1) identify the focused objects and predict their locations in the target caption; 2) generate the related attribute words and relation words of these focused objects to form a draft caption; and 3) combine video information to refine the draft caption to a fluent final caption. Since the focused objects are generated and located ahead of other words, it is difficult to apply the word-by-word autoregressive generation process; instead, we adopt a non-autoregressive approach. The experiments on two benchmark datasets, i.e., MSR-VTT and MSVD, demonstrate the effectiveness of O2NA, which achieves results competitive with the state-of-the-arts but with both higher diversity and higher inference speed.
翻訳日:2021-08-06 23:53:33 公開日:2021-08-05
# (参考訳) SAPを用いたSpotifyのダンス性と人気度分析 [全文訳有]

Spotify Danceability and Popularity Analysis using SAP ( http://arxiv.org/abs/2108.02370v1 )

ライセンス: CC BY 4.0
Virginia Ochi, Ricardo Estrada, Teezal Gaji, Wendy Gadea, Emily Duong(参考訳) われわれの分析は、Spotifyでストリーミングされた楽曲のオーディオ機能と人気をレビューし視覚化する*。 我々のデータセットはKaggleからダウンロードされ、Spotify APIからソースされたもので、視覚化と回帰分析に関連する情報を含む複数のExcelファイルで構成されています。 このエクササイズは、歌の人気と踊りやすさの関連性を決定する。 私たちの分析に含めるべき洞察には、歌のエネルギー、価値、BPM、リリース日、年などがあります。

Our analysis reviews and visualizes the audio features and popularity of songs streamed on Spotify*. Our dataset, downloaded from Kaggle and originally sourced from Spotify API, consists of multiple Excel files containing information relevant to our visualization and regression analysis. The exercise seeks to determine the connection between the popularity of the songs and the danceability. Insights to be included and factored as part of our analysis include song energy, valence, BPM, release date, and year.
翻訳日:2021-08-06 23:33:01 公開日:2021-08-05
# (参考訳) 知識グラフを用いたファジィ論理に基づく論理クエリ応答 [全文訳有]

Fuzzy Logic based Logical Query Answering on Knowledge Graph ( http://arxiv.org/abs/2108.02390v1 )

ライセンス: CC BY 4.0
Xuelu Chen, Ziniu Hu, Yizhou Sun(参考訳) 大規模不完全知識グラフ(KG)上での複雑な一階論理(FOL)クエリの解答は重要な課題である。 近年、ベクトル空間に論理クエリとkgエンティティを埋め込み、高密度類似性探索によるクエリ応答を行う。 しかし、既存の作品で設計された論理演算子のほとんどは古典論理の公理系を満たしていない。 さらに、これらの論理演算子は、多くの複雑なFOLクエリをトレーニングデータとして必要とするようにパラメータ化されている。 本稿では,FOLクエリをKG上で応答するファジィ論理ベースのクエリ埋め込みフレームワークFuzzQEを提案する。 FuzzQEはファジィ論理に従って論理演算子を原理的かつ学習的な方法で定義する。 2つのベンチマークデータセットに対する大規模な実験により、FuzzQEは最先端の手法に比べてFOLクエリの応答性能が大幅に向上していることが示された。 さらに、複雑なクエリなしでKGリンク予測のみをトレーニングしたFuzzQEは、すべてのFOLクエリでトレーニングされたシステムと同等のパフォーマンスを達成できる。

Answering complex First-Order Logical (FOL) queries on large-scale incomplete knowledge graphs (KGs) is an important yet challenging task. Recent advances embed logical queries and KG entities in the vector space and conduct query answering via dense similarity search. However, most of the designed logical operators in existing works do not satisfy the axiomatic system of classical logic. Moreover, these logical operators are parameterized so that they require a large number of complex FOL queries as training data, which are often arduous or even inaccessible to collect in most real-world KGs. In this paper, we present FuzzQE, a fuzzy logic based query embedding framework for answering FOL queries over KGs. FuzzQE follows fuzzy logic to define logical operators in a principled and learning free manner. Extensive experiments on two benchmark datasets demonstrate that FuzzQE achieves significantly better performance in answering FOL queries compared to the state-of-the-art methods. In addition, FuzzQE trained with only KG link prediction without any complex queries can achieve comparable performance with the systems trained with all FOL queries.
翻訳日:2021-08-06 23:29:37 公開日:2021-08-05
# (参考訳) 柔軟翼航空機の自動制御のためのオンラインモデルフリー強化学習 [全文訳有]

Online Model-Free Reinforcement Learning for the Automatic Control of a Flexible Wing Aircraft ( http://arxiv.org/abs/2108.02393v1 )

ライセンス: CC BY 4.0
Mohammed Abouheaf and Wail Gueaieb and Frank Lewis(参考訳) フレキシブル翼機の制御問題は,柔軟性翼系の偏在・高非線形変形のため困難である。 これにより、翼の空力のリアルタイムな変動にロバストな新しい制御機構が求められた。 柔軟な翼空構造のための価値反復強化学習プロセスに基づくオンライン制御機構を開発した。 モデルフリー制御ポリシーフレームワークと、システムのベルマン最適性方程式を解くために収束適応学習アーキテクチャを採用している。 リカティ方程式は導出され、ベルマン方程式の解法と等価であることが示されている。 オンライン強化学習ソリューションは適応的批判機構を用いて実装される。 コントローラーは、リャプノフの意味で漸近的に安定であることが証明されている。 計算機シミュレーションにより評価し、異なる動作条件下での2つのシナリオで優れた性能を示す。

The control problem of the flexible wing aircraft is challenging due to the prevailing and high nonlinear deformations in the flexible wing system. This urged for new control mechanisms that are robust to the real-time variations in the wing's aerodynamics. An online control mechanism based on a value iteration reinforcement learning process is developed for flexible wing aerial structures. It employs a model-free control policy framework and a guaranteed convergent adaptive learning architecture to solve the system's Bellman optimality equation. A Riccati equation is derived and shown to be equivalent to solving the underlying Bellman equation. The online reinforcement learning solution is implemented using means of an adaptive-critic mechanism. The controller is proven to be asymptotically stable in the Lyapunov sense. It is assessed through computer simulations and its superior performance is demonstrated on two scenarios under different operating conditions.
翻訳日:2021-08-06 23:15:25 公開日:2021-08-05
# (参考訳) ランダム表現学習とデジタルロッカーを用いたセキュリティとプライバシー強化型歩行認証

Security and Privacy Enhanced Gait Authentication with Random Representation Learning and Digital Lockers ( http://arxiv.org/abs/2108.02400v1 )

ライセンス: CC BY 4.0
Lam Tran, Thuc Nguyen, Hyunil Kim, Deokjai Choi(参考訳) 慣性センサが取得した歩行データは、ユーザ認証において有望な結果を示している。 しかし、既存のアプローチのほとんどは、認証パターンにマッチするために登録済みの歩行パターンを不セキュアに保存しているため、重大なセキュリティとプライバシの問題を引き起こした。 本研究では,歩行データからユーザ認証のためのランダム鍵を生成するゲイト暗号システムを提案する。 まず, ディープニューラルネットワークを用いたリボケータブルでランダムなバイナリ文字列抽出法と, 特徴量二項化手法を提案する。 また,ネットワーク最適化のための新たな損失関数を設計し,ユーザ内安定性だけでなく,ユーザ間のランダム性にも対処する。 第2に,2進文字列からランダムかつ不可逆鍵を安全に生成するために,誤り訂正および難読化(eco)方式から改良した,可逆誤り訂正および可読化(ieco)と呼ばれる新しい生体認証鍵生成方式を提案する。 このモデルを,OU-ISIRとwuGAITの2つのベンチマークデータセットを用いて評価した。 その結果,FAR(False Acceptance Rate)とFRR(False Rejection Rate)が5.441%未満の5秒データ列から139ビットの鍵を生成することができた。 さらに,セキュリティとユーザのプライバシ分析により,既存の生体認証テンプレート保護攻撃に対して安全であり,非可逆性と非リンク性が実現できた。

Gait data captured by inertial sensors have demonstrated promising results on user authentication. However, most existing approaches stored the enrolled gait pattern insecurely for matching with the validating pattern, thus, posed critical security and privacy issues. In this study, we present a gait cryptosystem that generates from gait data the random key for user authentication, meanwhile, secures the gait pattern. First, we propose a revocable and random binary string extraction method using a deep neural network followed by feature-wise binarization. A novel loss function for network optimization is also designed, to tackle not only the intrauser stability but also the inter-user randomness. Second, we propose a new biometric key generation scheme, namely Irreversible Error Correct and Obfuscate (IECO), improved from the Error Correct and Obfuscate (ECO) scheme, to securely generate from the binary string the random and irreversible key. The model was evaluated with two benchmark datasets as OU-ISIR and whuGAIT. We showed that our model could generate the key of 139 bits from 5-second data sequence with zero False Acceptance Rate (FAR) and False Rejection Rate (FRR) smaller than 5.441%. In addition, the security and user privacy analyses showed that our model was secure against existing attacks on biometric template protection, and fulfilled irreversibility and unlinkability.
翻訳日:2021-08-06 22:57:15 公開日:2021-08-05
# (参考訳) Aspis:分散学習のためのロバスト検出システム [全文訳有]

Aspis: A Robust Detection System for Distributed Learning ( http://arxiv.org/abs/2108.02416v1 )

ライセンス: CC BY 4.0
Konstantinos Konstantinidis, Aditya Ramamoorthy(参考訳) 最先端の機械学習モデルは、大規模分散クラスタで定期的にトレーニングされる。 このようなシステムは、一部のコンピュータ装置が異常(ビザンチン)な振る舞いを示し、パラメータサーバ(PS)に任意の結果を返すと、危うくなりかねない。 この行動は、システム障害やアタックのオーケストレーションなど、多くの理由によって引き起こされる可能性がある。 既存の研究は、歪んだ勾配の効果を緩和するためにロバストなアグリゲーションと計算冗長性が示唆されている。 しかし、ほとんどのスキームは、敵がタスクの割り当てを知っていて、攻撃された労働者を司法的に選別して最大被害を誘発できる場合、効果がない。 提案手法は,ワーカノードの動作に対する複数の整合性チェックを可能にするサブセットベースの割り当てを用いて,ワーカノードに勾配計算を割り当てる。 中央ノードによる計算された勾配と後処理(適切に構築されたグラフの傾き)の検証は、学習プロセスから敵を効率的に検出し、それに続く排除を可能にする。 我々は,aspiの弱大かつ強大な攻撃下での弾力性と検出の保証を実証し,様々な大規模訓練シナリオにおいてシステムを広範囲に評価した。 実験の主な指標は,CIFAR-10データセットにおける多くの最先端アプローチと比較して,約30%の大幅な改善を示すテスト精度である。 劣化した勾配の割合は16%から98%に減少する。

State of the art machine learning models are routinely trained on large scale distributed clusters. Crucially, such systems can be compromised when some of the computing devices exhibit abnormal (Byzantine) behavior and return arbitrary results to the parameter server (PS). This behavior may be attributed to a plethora of reasons including system failures and orchestrated attacks. Existing work suggests robust aggregation and/or computational redundancy to alleviate the effect of distorted gradients. However, most of these schemes are ineffective when an adversary knows the task assignment and can judiciously choose the attacked workers to induce maximal damage. Our proposed method Aspis assigns gradient computations to worker nodes using a subset-based assignment which allows for multiple consistency checks on the behavior of a worker node. Examination of the calculated gradients and post-processing (clique-finding in an appropriately constructed graph) by the central node allows for efficient detection and subsequent exclusion of adversaries from the training process. We prove the Byzantine resilience and detection guarantees of Aspis under weak and strong attacks and extensively evaluate the system on various large-scale training scenarios. The main metric for our experiments is the test accuracy for which we demonstrate significant improvement of about 30% compared to many state-of-the-art approaches on the CIFAR-10 dataset. The corresponding reduction of the fraction of corrupted gradients ranges from 16% to 98%.
翻訳日:2021-08-06 22:56:02 公開日:2021-08-05
# (参考訳) 画像文検索のための構造的マルチモーダル特徴埋め込みとアライメント [全文訳有]

Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval ( http://arxiv.org/abs/2108.02417v1 )

ライセンス: CC BY 4.0
Xuri Ge, Fuhai Chen, Joemon M. Jose, Zhilong Ji, Zhongqin Wu, Xiao Liu(参考訳) 本手法は,画像の領域や文中の単語などの視覚文の断片を暗黙的に整列させ,クロスモーダル意味対応の関連性を強調するために注意モジュールを採用する。 しかし,セマンティクスと構造空間の両方における一貫した表現の欠如により,検索性能は満足できないままであった。 本研究では, 画像の意味的構造における「dog $\to$ play $\to$ ball」や, (ii) 視覚的・テキスト的モダリティ間の明示的なモーダル間構造と意味的対応を求める2つの側面から, 上記の課題に対処することを提案する。 本稿では,画像文検索のための構造化多モード特徴埋め込み・アライメント(SMFEA)モデルを提案する。 視覚-テクスチャ埋め込みとクロスモーダルアライメントを共同で、明示的に学習するために、SMFEAは、共有コンテキスト対応の参照ツリーを持つ新しいマルチモーダル構造化モジュールを作成する。 特に、ビジュアルコンテキスト対応構造化木エンコーダ(VCS-Tree)とテキストコンテキスト対応構造化木エンコーダ(TCS-Tree)を共有ラベルで構築することにより、視覚的特徴とテキスト的特徴の関係をモデル化する。 我々はマルチモーダルツリー構造を用いて、対応するモーダルツリーノード間の意味的および構造的類似性を最大化することにより、異種画像文データを明示的に調整する。 microsoft coco と flickr30k ベンチマークに関する広範な実験は、最先端の手法と比較して提案モデルが優れていることを示している。

The current state-of-the-art image-sentence retrieval methods implicitly align the visual-textual fragments, like regions in images and words in sentences, and adopt attention modules to highlight the relevance of cross-modal semantic correspondences. However, the retrieval performance remains unsatisfactory due to a lack of consistent representation in both semantics and structural spaces. In this work, we propose to address the above issue from two aspects: (i) constructing intrinsic structure (along with relations) among the fragments of respective modalities, e.g., "dog $\to$ play $\to$ ball" in semantic structure for an image, and (ii) seeking explicit inter-modal structural and semantic correspondence between the visual and textual modalities. In this paper, we propose a novel Structured Multi-modal Feature Embedding and Alignment (SMFEA) model for image-sentence retrieval. In order to jointly and explicitly learn the visual-textual embedding and the cross-modal alignment, SMFEA creates a novel multi-modal structured module with a shared context-aware referral tree. In particular, the relations of the visual and textual fragments are modeled by constructing Visual Context-aware Structured Tree encoder (VCS-Tree) and Textual Context-aware Structured Tree encoder (TCS-Tree) with shared labels, from which visual and textual features can be jointly learned and optimized. We utilize the multi-modal tree structure to explicitly align the heterogeneous image-sentence data by maximizing the semantic and structural similarity between corresponding inter-modal tree nodes. Extensive experiments on Microsoft COCO and Flickr30K benchmarks demonstrate the superiority of the proposed model in comparison to the state-of-the-art methods.
翻訳日:2021-08-06 22:34:20 公開日:2021-08-05
# (参考訳) intelligent railway foreign objects detection: a semi-supervised convolutional autoencoder based method [全文訳有]

Intelligent Railway Foreign Object Detection: A Semi-supervised Convolutional Autoencoder Based Method ( http://arxiv.org/abs/2108.02421v1 )

ライセンス: CC BY 4.0
Tiange Wang, Zijun Zhang, Fangfang Yang, and Kwok-Leung Tsui(参考訳) 鉄道における異物の自動検査・検出は、潜在的な事故や列車の脱線を防止するため、鉄道輸送の安全のために重要である。 既存の視覚に基づくアプローチは、対象のカテゴリや位置といった先行ラベルによる正面侵入物体の検出に重点を置いている。 実際には、未知のカテゴリーを持つ異物はいつでも線路に現れる。 本稿では,鉄道軌道画像のみを必要とする半教師付き畳み込みオートエンコーダに基づくフレームワークを開発する。 3つの異なるモジュール、エンコーダとしてのボトルネック特徴生成器、デコーダとしての写真画像生成器、対向学習による再構成識別器で構成されている。 提案手法では,入力画像と再構成画像を比較し,復元誤差に基づいてしきい値を設定することにより,異物の存在,位置,形状を検出する問題に対処する。 提案手法は性能基準の異なる総合的な研究を通して評価される。 その結果,提案手法はよく知られたベンチマーク手法よりも優れていることがわかった。 The proposed framework is useful for data analytics via the Train Internet-of-Things (IoT) systems

Automated inspection and detection of foreign objects on railways is important for rail transportation safety as it helps prevent potential accidents and trains derailment. Most existing vision-based approaches focus on the detection of frontal intrusion objects with prior labels, such as categories and locations of the objects. In reality, foreign objects with unknown categories can appear anytime on railway tracks. In this paper, we develop a semi-supervised convolutional autoencoder based framework that only requires railway track images without prior knowledge on the foreign objects in the training process. It consists of three different modules, a bottleneck feature generator as encoder, a photographic image generator as decoder, and a reconstruction discriminator developed via adversarial learning. In the proposed framework, the problem of detecting the presence, location, and shape of foreign objects is addressed by comparing the input and reconstructed images as well as setting thresholds based on reconstruction errors. The proposed method is evaluated through comprehensive studies under different performance criteria. The results show that the proposed method outperforms some well-known benchmarking methods. The proposed framework is useful for data analytics via the train Internet-of-Things (IoT) systems
翻訳日:2021-08-06 22:16:06 公開日:2021-08-05
# (参考訳) 深層畳み込み変圧器ネットワークによるレール部品の自動検出 [全文訳有]

Automatic Detection of Rail Components via A Deep Convolutional Transformer Network ( http://arxiv.org/abs/2108.02423v1 )

ライセンス: CC BY 4.0
Tiange Wang, Zijun Zhang, Fangfang Yang, and Kwok-Leung Tsui(参考訳) 継続的に収集した鉄道画像を用いた鉄道線路及びそのファスナーの自動検出は,メンテナンス効率を著しく向上し,システム安全性の確保を図る上で重要である。 支配的なコンピュータビジョンに基づく検出モデルは、通常、ローカルな画像特徴と厄介な事前設定を利用して候補ボックスを生成する畳み込みニューラルネットワークに依存する。 本稿では,レール,クリップ,ボルトを含む多種類のレール成分を検出するための深部畳み込み変圧器ネットワーク方式を提案する。 レール部品検出における効率的かつ正確な性能を実現するために,原画像から潜伏特徴を抽出する際の畳み込み構造の利点と,貴重な潜伏特徴を選択的に決定する変換器の利点を効果的に相乗化する。 提案手法は,アンカーボックスやアスペクト比,デフォルト座標,非最大抑制しきい値などの後処理といった事前設定の必要性を排除し,検出パイプラインを簡素化すると共に,限られたトレーニングデータで検出器の品質と複雑さをトレードオフできるようにする。 総合計算による研究結果から,提案手法は既存の最先端手法よりも高い性能を示した。

Automatic detection of rail track and its fasteners via using continuously collected railway images is important to maintenance as it can significantly improve maintenance efficiency and better ensure system safety. Dominant computer vision-based detection models typically rely on convolutional neural networks that utilize local image features and cumbersome prior settings to generate candidate boxes. In this paper, we propose a deep convolutional transformer network based method to detect multi-class rail components including the rail, clip, and bolt. We effectively synergize advantages of the convolutional structure on extracting latent features from raw images as well as advantages of transformers on selectively determining valuable latent features to achieve an efficient and accurate performance on rail component detections. Our proposed method simplifies the detection pipeline by eliminating the need of prior settings, such as anchor box, aspect ratio, default coordinates, and post-processing, such as the threshold for non-maximum suppression; as well as allows users to trade off the quality and complexity of the detector with limited training data. Results of a comprehensive computational study show that our proposed method outperforms a set of existing state-of-art approaches with large margins
翻訳日:2021-08-06 22:01:26 公開日:2021-08-05
# (参考訳) PSTN:交通条件予測のための周期的時空間深部ニューラルネットワーク [全文訳有]

PSTN: Periodic Spatial-temporal Deep Neural Network for Traffic Condition Prediction ( http://arxiv.org/abs/2108.02424v1 )

ライセンス: CC BY 4.0
Tiange Wang, Zijun Zhang, and Kwok-Leung Tsui(参考訳) 交通状況の正確な予測は、都市交通システムの安全性、安定性、効率を向上させるために重要である。 実際、複雑でダイナミックな時空間相関のため、正確な交通予測を行うことは困難である。 既存の作品の多くは、トラフィックデータの部分的特徴と特徴のみを考慮し、モデリングと予測において不十分な性能をもたらす。 本稿では,3種類の情報の統合により,交通条件の予測性能を向上させるために,周期的時空間深部ニューラルネットワーク(PSTN)を提案する。 まず、履歴トラフィック情報を折り畳み、グラフ畳み込みネットワークと時間畳み込みネットワークとからなるモジュールに供給する。 第2に、最近のトラフィック情報と過去の出力は、グラフ畳み込みネットワークとゲートリカレントユニットフレームワークからなる第2モジュールを通過する。 最後に、補助道路属性を処理し、最終予測を出力するために多層パーセプトロンを適用する。 実世界の都市交通データ2セットにおける実験結果から,提案するpstnは,短期交通状況予測に有意なマージンを付けて,最先端のベンチマークを上回っていることが示された。

Accurate forecasting of traffic conditions is critical for improving safety, stability, and efficiency of a city transportation system. In reality, it is challenging to produce accurate traffic forecasts due to the complex and dynamic spatiotemporal correlations. Most existing works only consider partial characteristics and features of traffic data, and result in unsatisfactory performances on modeling and forecasting. In this paper, we propose a periodic spatial-temporal deep neural network (PSTN) with three pivotal modules to improve the forecasting performance of traffic conditions through a novel integration of three types of information. First, the historical traffic information is folded and fed into a module consisting of a graph convolutional network and a temporal convolutional network. Second, the recent traffic information together with the historical output passes through the second module consisting of a graph convolutional network and a gated recurrent unit framework. Finally, a multi-layer perceptron is applied to process the auxiliary road attributes and output the final predictions. Experimental results on two publicly accessible real-world urban traffic data sets show that the proposed PSTN outperforms the state-of-the-art benchmarks by significant margins for short-term traffic conditions forecasting
翻訳日:2021-08-06 21:48:35 公開日:2021-08-05
# (参考訳) 6-DoF Grasp Pose 推定のための同時意味・衝突学習 [全文訳有]

Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation ( http://arxiv.org/abs/2108.02425v1 )

ライセンス: CC BY 4.0
Yiming Li, Tao Kong, Ruihang Chu, Yifeng Li, Peng Wang and Lei Li(参考訳) 乱雑なシーンを掴むことは、シーンや対象の情報を理解する能力が必要となるため、ロボットにとって常に大きな課題だった。 以前の作品では、通常、物体の幾何学的情報は利用可能であると仮定し、あるいはステップワイズ多段階戦略を用いて、実現可能な6自由度姿勢を予測できると仮定している。 本研究では,同時マルチタスク学習問題として6-DoFグリップポーズ推定法を提案する。 統一された枠組みでは,6自由度把握ポーズ,インスタンス意味セグメンテーション,衝突情報などを同時に予測する。 フレームワーク全体が共同最適化され、エンドツーエンドの差別化が可能である。 本モデルは,大規模ベンチマークと実ロボットシステムを用いて評価する。 公開データセットでは,従来の最先端手法よりも大きなマージン(+4.08 AP)で優れていた。 また,実際のロボットプラットフォーム上でのモデルの実装を実演し,ロボットが乱雑なシナリオにおける対象物を高い成功率で正確に把握できることを示した。 プロジェクトリンク: https://openbyterobo tics.github.io/sscl

Grasping in cluttered scenes has always been a great challenge for robots, due to the requirement of the ability to well understand the scene and object information. Previous works usually assume that the geometry information of the objects is available, or utilize a step-wise, multi-stage strategy to predict the feasible 6-DoF grasp poses. In this work, we propose to formalize the 6-DoF grasp pose estimation as a simultaneous multi-task learning problem. In a unified framework, we jointly predict the feasible 6-DoF grasp poses, instance semantic segmentation, and collision information. The whole framework is jointly optimized and end-to-end differentiable. Our model is evaluated on large-scale benchmarks as well as the real robot system. On the public dataset, our method outperforms prior state-of-the-art methods by a large margin (+4.08 AP). We also demonstrate the implementation of our model on a real robotic platform and show that the robot can accurately grasp target objects in cluttered scenarios with a high success rate. Project link: https://openbyterobo tics.github.io/sscl
翻訳日:2021-08-06 21:32:45 公開日:2021-08-05
# (参考訳) ディープニューラルネットワークとPIDE離散化

Deep Neural Networks and PIDE discretizations ( http://arxiv.org/abs/2108.02430v1 )

ライセンス: CC BY 4.0
Bastian Bohn, Michael Griebel, Dinesh Kannan(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の安定性と視野問題に対処するニューラルネットワークを提案する。 ネットワークの深さや幅を拡大して性能を向上させる代替として,大域的重み付きラプラシアン,分数的ラプラシアン,逆分数的ラプラシアン演算子に関連する積分型空間非局所演算子を提案する。 このようなネットワークの前方伝播は部分積分微分方程式(pide)に触発されている。 自律運転における画像分類データセットとセマンティックセグメンテーションタスクに対するニューラルネットワークの有効性を検証する。 さらに,これらの密作用素の余剰計算コストと,提案するニューラルネットワークの前方伝播の安定性について検討した。

In this paper, we propose neural networks that tackle the problems of stability and field-of-view of a Convolutional Neural Network (CNN). As an alternative to increasing the network's depth or width to improve performance, we propose integral-based spatially nonlocal operators which are related to global weighted Laplacian, fractional Laplacian and inverse fractional Laplacian operators that arise in several problems in the physical sciences. The forward propagation of such networks is inspired by partial integro-differential equations (PIDEs). We test the effectiveness of the proposed neural architectures on benchmark image classification datasets and semantic segmentation tasks in autonomous driving. Moreover, we investigate the extra computational costs of these dense operators and the stability of forward propagation of the proposed neural networks.
翻訳日:2021-08-06 21:16:15 公開日:2021-08-05
# (参考訳) 青写真のない橋の設計と構築を学ぶ [全文訳有]

Learning to Design and Construct Bridge without Blueprint ( http://arxiv.org/abs/2108.02439v1 )

ライセンス: CC BY 4.0
Yunfei Li, Tao Kong, Lei Li, Yifeng Li and Yi Wu(参考訳) 自律的な組み立ては多くのインテリジェントなロボットシステムの望ましい機能である。 ブループリントを使わずに橋を設計・構築する,新しい難易度組立作業について検討する。 この作業では,まず任意に広い崖の橋梁構造を設計し,提案した設計に従って安定な橋梁を構築するためにブロックを確実に操作する必要がある。 本稿では,この課題に取り組むためのbiレベルアプローチを提案する。 高レベルでは、深層強化学習とカリキュラム学習を用いて、物理シミュレータでブリッジブループリントポリシーを学習する。 ポリシーは、オブジェクト中心の入力を持つ注目ベースのニューラルネットワークとして表現され、ブロックの数や崖幅を一般化することができる。 低レベル制御のために、実世界の橋梁構築のための訓練された青写真ポリシーと直接結合できる実ロボットモーション制御のためのモーションプランニングベースのポリシーを実装した。 本研究では,両立型ロボットシステムが,異なるアーキテクチャを持つ多様な橋梁群を構築するために,ブロックを操作できることを実証する。

Autonomous assembly has been a desired functionality of many intelligent robot systems. We study a new challenging assembly task, designing and constructing a bridge without a blueprint. In this task, the robot needs to first design a feasible bridge architecture for arbitrarily wide cliffs and then manipulate the blocks reliably to construct a stable bridge according to the proposed design. In this paper, we propose a bi-level approach to tackle this task. At the high level, the system learns a bridge blueprint policy in a physical simulator using deep reinforcement learning and curriculum learning. A policy is represented as an attention-based neural network with object-centric input, which enables generalization to different numbers of blocks and cliff widths. For low-level control, we implement a motion-planning-base d policy for real-robot motion control, which can be directly combined with a trained blueprint policy for real-world bridge construction without tuning. In our field study, our bi-level robot system demonstrates the capability of manipulating blocks to construct a diverse set of bridges with different architectures.
翻訳日:2021-08-06 21:15:16 公開日:2021-08-05
# (参考訳) mfusenet:学習型多眼融合によるロバスト深さ推定 [全文訳有]

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion ( http://arxiv.org/abs/2108.02448v1 )

ライセンス: CC BY 4.0
Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen(参考訳) 低コストの単眼RGBカメラを用いて正確な深度推定を行うマルチスコープビジョンシステムの設計を行う。 制約のないカメラポーズで撮影された画像を持つマルチビューステレオとは異なり、提案システムはカメラの動きを制御し、水平または垂直に並んだ位置の画像を同じパララックスで撮影する。 本システムでは,参照画像と周辺画像の間に複数のコストボリュームを融合する新しいヒューリスティック法と頑健な学習ベース手法を提案する。 トレーニングデータを得るために,多次元画像を用いた合成データセットを構築する。 実世界のミドルベリーデータセットと実ロボットによる実演実験により,本システムは従来の2フレームステレオマッチング手法よりも奥行き推定において優れていることが示された。 私たちのコードとデータセットは \url{https://sites.google .com/view/multiscopi c で利用可能です。

We design a multiscopic vision system that utilizes a low-cost monocular RGB camera to acquire accurate depth estimation. Unlike multi-view stereo with images captured at unconstrained camera poses, the proposed system controls the motion of a camera to capture a sequence of images in horizontally or vertically aligned positions with the same parallax. In this system, we propose a new heuristic method and a robust learning-based method to fuse multiple cost volumes between the reference image and its surrounding images. To obtain training data, we build a synthetic dataset with multiscopic images. The experiments on the real-world Middlebury dataset and real robot demonstration show that our multiscopic vision system outperforms traditional two-frame stereo matching methods in depth estimation. Our code and dataset are available at \url{https://sites.google .com/view/multiscopi c
翻訳日:2021-08-06 20:59:53 公開日:2021-08-05
# (参考訳) 領域アライメントによる白光内視鏡画像からの大腸ポリープ分類 [全文訳有]

Colorectal Polyp Classification from White-light Colonoscopy Images via Domain Alignment ( http://arxiv.org/abs/2108.02476v1 )

ライセンス: CC BY 4.0
Qin Wang, Hui Che, Weizhen Ding, Li Xiang, Guanbin Li, Zhen Li, Shuguang Cui(参考訳) 大腸ポリープの分化は重要な臨床検査である。 大腸内視鏡画像からの正確な診断を支援するためにコンピュータ支援診断システムが必要となる。 これまでのほとんどの研究では、Narrow-Band Imaging (NBI) や他の拡張画像を用いたポリプ分化モデルの開発が試みられている。 しかし、これらのモデルが臨床研究に応用される範囲は、画像技術の遅れによって制限されている。 そこで本研究では,白光(WL)大腸内視鏡画像を直接使用して,正確な大腸ポリープ分類(CPC)のための教師学生アーキテクチャに基づく新しい枠組みを提案する。 実際に、訓練中に補助的なNBI画像を用いて教師ネットワークを訓練し、学生ネットワークを指導し、WL画像からよりリッチな特徴表現を取得する。 特徴伝達はドメインアライメントと対比学習によって実現される。 最終的に、最終学生ネットワークは、CPCタスクを容易にするために、WL画像のみから整列した特徴を抽出する能力を持つ。 さらに、アライメントトレーニングのためのWL-NBIペアを含む、最初の公開可能なペアCPCデータセットをリリースする。 定量的・定性的評価は,提案手法が従来のcpc法を上回り,高速で5.6%精度向上したことを示す。

Differentiation of colorectal polyps is an important clinical examination. A computer-aided diagnosis system is required to assist accurate diagnosis from colonoscopy images. Most previous studies at-tempt to develop models for polyp differentiation using Narrow-Band Imaging (NBI) or other enhanced images. However, the wide range of these models' applications for clinical work has been limited by the lagging of imaging techniques. Thus, we propose a novel framework based on a teacher-student architecture for the accurate colorectal polyp classification (CPC) through directly using white-light (WL) colonoscopy images in the examination. In practice, during training, the auxiliary NBI images are utilized to train a teacher network and guide the student network to acquire richer feature representation from WL images. The feature transfer is realized by domain alignment and contrastive learning. Eventually the final student network has the ability to extract aligned features from only WL images to facilitate the CPC task. Besides, we release the first public-available paired CPC dataset containing WL-NBI pairs for the alignment training. Quantitative and qualitative evaluation indicates that the proposed method outperforms the previous methods in CPC, improving the accuracy by 5.6%with very fast speed.
翻訳日:2021-08-06 20:46:24 公開日:2021-08-05
# (参考訳) HyperJump: リスクモデリングによるHyperBandの高速化 [全文訳有]

HyperJump: Accelerating HyperBand via Risk Modelling ( http://arxiv.org/abs/2108.02479v1 )

ライセンス: CC BY 4.0
Pedro Mendes, Maria Casimiro, Paolo Romano(参考訳) ハイパーパラメータチューニングに関する文献では、多くの最近のソリューションは、完全なトレーニングを行う際に使用する優れた構成を外挿するために、低忠実度観測(例えば、サブサンプルデータセットを使用したトレーニングや短時間のトレーニング)に依存している。 その中でもHyperBandは、その効率性と理論的に証明可能な堅牢性のために、おそらく最も人気のあるソリューションの1つである。 本稿では,HyperBandのロバストな検索戦略に基づく新しいアプローチであるHyperJumpを紹介し,低リスク構成,すなわちHyperBandによって破棄される可能性のある構成の評価をジャンプすることによって,検索を高速化するモデルベースリスク分析手法を補完する。 我々はハイパーパラメータ最適化の一連の問題に対してHyperJumpを評価し、HyperBandやアートオプティマイザのさまざまな状態と比較して、様々なディープラーニングやカーネルベースの学習問題に対して、1桁以上のスピードアップを提供することを示した。

In the literature on hyper-parameter tuning, a number of recent solutions rely on low-fidelity observations (e.g., training with sub-sampled datasets or for short periods of time) to extrapolate good configurations to use when performing full training. Among these, HyperBand is arguably one of the most popular solutions, due to its efficiency and theoretically provable robustness. In this work, we introduce HyperJump, a new approach that builds on HyperBand's robust search strategy and complements it with novel model-based risk analysis techniques that accelerate the search by jumping the evaluation of low risk configurations, i.e., configurations that are likely to be discarded by HyperBand. We evaluate HyperJump on a suite of hyper-parameter optimization problems and show that it provides over one-order of magnitude speed-ups on a variety of deep-learning and kernel-based learning problems when compared to HyperBand as well as to a number of state of the art optimizers.
翻訳日:2021-08-06 20:38:13 公開日:2021-08-05
# (参考訳) Mix Microbleed:脳微小血の多段階検出とセグメンテーション [全文訳有]

MixMicrobleed: Multi-stage detection and segmentation of cerebral microbleeds ( http://arxiv.org/abs/2108.02482v1 )

ライセンス: CC BY 4.0
Marta Girones Sanguesa, Denis Kutnar, Bas H.M. van der Velden, Hugo J. Kuijf(参考訳) 脳微小出血は小さく、暗く、丸い病変であり、T2*強調MRIや他の感受性に敏感な配列で可視化することができる。 本研究では,マイクロブリード検出とセグメンテーションへの多段階アプローチを提案する。 第1に、Mask R-CNN技術により、可能なマイクロ出血箇所を検出する。 第二に、可能なマイクロブロードロケーションごとに、単純なU-Netが最終セグメンテーションを実行する。 この研究は72名の被験者を「VALDOはどこにあるのか」というトレーニングデータとして用いた。 MICCAI 2021の挑戦。

Cerebral microbleeds are small, dark, round lesions that can be visualised on T2*-weighted MRI or other sequences sensitive to susceptibility effects. In this work, we propose a multi-stage approach to both microbleed detection and segmentation. First, possible microbleed locations are detected with a Mask R-CNN technique. Second, at each possible microbleed location, a simple U-Net performs the final segmentation. This work used the 72 subjects as training data provided by the "Where is VALDO?" challenge of MICCAI 2021.
翻訳日:2021-08-06 20:34:52 公開日:2021-08-05
# (参考訳) MixLacune: 推定血管起源の漆片の分別 [全文訳有]

MixLacune: Segmentation of lacunes of presumed vascular origin ( http://arxiv.org/abs/2108.02483v1 )

ライセンス: CC BY 4.0
Denis Kutnar, Bas H.M. van der Velden, Marta Girones Sanguesa, Mirjam I. Geerlings, J. Matthijs Biesbroek, Hugo J. Kuijf(参考訳) 血管起源と推定されるラカンは、T1およびFLAIR脳MRIで見られる直径315mmの流体充填キャビティである。 ラックーンの定量化は手動のアノテーションや半自動的/インタラクティブなアプローチに依存しており、このタスクにはほとんど自動的な方法が存在しない。 本研究では,(1) Mask R-CNN による検出,(2) U-Net CNN による分画の2段階的アプローチを提案する。 データは "where is valdo?" のタスク3に由来する。 課題は40の教科から成っています トレーニングセット0.83、検証セット0.84について平均DICEを報告する。 ソースコードは、https://github.com/h jkuijf/MixLacune で入手できる。 dockerコンテナhjkuijf/mixlacuneはhttps://hub.docker.c om/r/hjkuijf/mixlacu neからプルできる。

Lacunes of presumed vascular origin are fluid-filled cavities of between 3 - 15 mm in diameter, visible on T1 and FLAIR brain MRI. Quantification of lacunes relies on manual annotation or semi-automatic / interactive approaches; and almost no automatic methods exist for this task. In this work, we present a two-stage approach to segment lacunes of presumed vascular origin: (1) detection with Mask R-CNN followed by (2) segmentation with a U-Net CNN. Data originates from Task 3 of the "Where is VALDO?" challenge and consists of 40 training subjects. We report the mean DICE on the training set of 0.83 and on the validation set of 0.84. Source code is available at: https://github.com/h jkuijf/MixLacune . The docker container hjkuijf/mixlacune can be pulled from https://hub.docker.c om/r/hjkuijf/mixlacu ne .
翻訳日:2021-08-06 20:26:36 公開日:2021-08-05
# (参考訳) 空間クロマシフトによる知覚不能な逆行例 [全文訳有]

Imperceptible Adversarial Examples by Spatial Chroma-Shift ( http://arxiv.org/abs/2108.02502v1 )

ライセンス: CC BY 4.0
Ayberk Aydin, Deniz Sen, Berat Tuna Karli, Oguz Hanoglu and Alptekin Temizel(参考訳) ディープニューラルネットワークは、様々な種類の敵の摂動に弱いことが示されている。 広く研究されている付加ノイズベースの摂動に加えて、入力画像に1ピクセルあたりの空間ドリフトを適用することで、逆の例を作ることもできる。 空間変換に基づく対向的な例は、付加的な雑音がないために人間の観察者にとって自然に見えるが、空間変換によって引き起こされる可視歪みは今も残っている。 人間の視覚は、視覚的マルチメディア圧縮規格の欠落の背後にある主要な考え方の一つであるクロミナンスチャネルに比べて輝度の歪みに敏感であるため、入力画像の色成分だけを修正して、逆の例を作成するための空間変換に基づく摂動法を提案する。 CIFAR-10 と NIPS2017 Adversarial Learning Challenge データセットの競合的不正率を持つ一方で,提案手法を用いて作成した例では,様々な知覚的品質指標に関して,より良いスコアが得られた。 ヒトの視覚知覚研究は、この例がより自然な外観であり、しばしば元のものと区別できないことを検証している。

Deep Neural Networks have been shown to be vulnerable to various kinds of adversarial perturbations. In addition to widely studied additive noise based perturbations, adversarial examples can also be created by applying a per pixel spatial drift on input images. While spatial transformation based adversarial examples look more natural to human observers due to absence of additive noise, they still possess visible distortions caused by spatial transformations. Since the human vision is more sensitive to the distortions in the luminance compared to those in chrominance channels, which is one of the main ideas behind the lossy visual multimedia compression standards, we propose a spatial transformation based perturbation method to create adversarial examples by only modifying the color components of an input image. While having competitive fooling rates on CIFAR-10 and NIPS2017 Adversarial Learning Challenge datasets, examples created with the proposed method have better scores with regards to various perceptual quality metrics. Human visual perception studies validate that the examples are more natural looking and often indistinguishable from their original counterparts.
翻訳日:2021-08-06 20:17:03 公開日:2021-08-05
# (参考訳) スプライン分割による形状モデリング [全文訳有]

Shape Modeling with Spline Partitions ( http://arxiv.org/abs/2108.02507v1 )

ライセンス: CC BY 4.0
Shufei Ge, Shijia Wang, Lloyd Elliott(参考訳) 形状モデリング(形状を出力する手法)は、ベイズ非パラメトリックスやバイオインフォマティクスにおける新しい重要な課題である。 本研究では,曲線を用いて空間を分割して形状を捉えるベイズ非パラメトリック法に着目した。 関連する研究において、古典的なモンドリアン過程は、空間を軸に整列した切断で再帰的に分割するために使われ、多次元および関係データに広く適用される。 モンドリアン過程は超矩形を出力する。 近年、ランダムなテッセル化過程がモンドリアン過程の一般化として導入され、任意の次元空間で非軸整列切断された領域を分割し、ポリトープを出力した。 本稿では,これらのプロセスに動機づけられ,曲線を持つ領域を分割する並列化ベイズ型非パラメトリック手法を提案する。 本手法をhiv-1感染ヒトマクロファージ画像データセットに適用し,本手法をシミュレートした。 サポートベクターマシン,ランダムフォレスト,および単純な線形反復クラスタリングスーパーピクセル画像セグメンテーションのような最先端のコンピュータビジョン手法と比較する。 我々は, \url{https://github.com/S hufeiGe/Shape-Modeli ng-with-Spline-Parti tions} で利用可能な R パッケージを開発した。

Shape modelling (with methods that output shapes) is a new and important task in Bayesian nonparametrics and bioinformatics. In this work, we focus on Bayesian nonparametric methods for capturing shapes by partitioning a space using curves. In related work, the classical Mondrian process is used to partition spaces recursively with axis-aligned cuts, and is widely applied in multi-dimensional and relational data. The Mondrian process outputs hyper-rectangles. Recently, the random tessellation process was introduced as a generalization of the Mondrian process, partitioning a domain with non-axis aligned cuts in an arbitrary dimensional space, and outputting polytopes. Motivated by these processes, in this work, we propose a novel parallelized Bayesian nonparametric approach to partition a domain with curves, enabling complex data-shapes to be acquired. We apply our method to HIV-1-infected human macrophage image dataset, and also simulated datasets sets to illustrate our approach. We compare to support vector machines, random forests and state-of-the-art computer vision methods such as simple linear iterative clustering super pixel image segmentation. We develop an R package that is available at \url{https://github.com/S hufeiGe/Shape-Modeli ng-with-Spline-Parti tions}.
翻訳日:2021-08-06 20:06:15 公開日:2021-08-05
# (参考訳) RCA-IUnet : 乳房超音波画像における腫瘍分節の出現誘導U-Netモデル [全文訳有]

RCA-IUnet: A residual cross-spatial attention guided inception U-Net model for tumor segmentation in breast ultrasound imaging ( http://arxiv.org/abs/2108.02508v1 )

ライセンス: CC BY 4.0
Narinder Singh Punn, Sonali Agarwal(参考訳) 深層学習技術の進歩は、バイオメディカル画像解析の応用に多大な貢献をもたらした。 乳がんは女性にとって最も多い致死性疾患であり、早期発見は生存可能性を高める鍵となる手段である。 超音波のような医用イメージングは臓器の機能の優れた視覚的表現を示すが、そのようなスキャンを分析する放射線科医にとっては困難で時間がかかり、診断プロセスが遅れる。 そこで本研究では,乳房超音波画像を用いた腫瘍セグメント化の訓練パラメータを最小に抑え,腫瘍サイズによるセグメント化性能をさらに向上させるため,高効率な空間間注意誘導型u-net(rca-iunet)モデルを提案する。 RCA-IUnet モデルは、U-Net トポロジーに従っており、奥行きの深い分離可能な畳み込みとハイブリッドプール(最大プールとスペクトルプール)層が残っている。 さらに、無関係な特徴を抑制し、ターゲット構造に集中するために、空間横断型注意フィルタが追加される。 提案モデルのセグメンテーション性能は、標準セグメンテーション評価指標を用いて2つの公開データセット上で検証され、他の最先端セグメンテーションモデルよりも優れていた。

The advancements in deep learning technologies have produced immense contribution to biomedical image analysis applications. With breast cancer being the common deadliest disease among women, early detection is the key means to improve survivability. Medical imaging like ultrasound presents an excellent visual representation of the functioning of the organs; however, for any radiologist analysing such scans is challenging and time consuming which delays the diagnosis process. Although various deep learning based approaches are proposed that achieved promising results, the present article introduces an efficient residual cross-spatial attention guided inception U-Net (RCA-IUnet) model with minimal training parameters for tumor segmentation using breast ultrasound imaging to further improve the segmentation performance of varying tumor sizes. The RCA-IUnet model follows U-Net topology with residual inception depth-wise separable convolution and hybrid pooling (max pooling and spectral pooling) layers. In addition, cross-spatial attention filters are added to suppress the irrelevant features and focus on the target structure. The segmentation performance of the proposed model is validated on two publicly available datasets using standard segmentation evaluation metrics, where it outperformed the other state-of-the-art segmentation models.
翻訳日:2021-08-06 19:51:20 公開日:2021-08-05
# (参考訳) 伝達学習とスペクトログラム増強による音声感情認識の改善 [全文訳有]

Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation ( http://arxiv.org/abs/2108.02510v1 )

ライセンス: CC BY 4.0
Sarala Padi, Seyed Omid Sadjadi, Dinesh Manocha, Ram D. Sriram(参考訳) 自動音声感情認識(ser)は,人間とコンピュータの対話において重要な役割を果たす課題である。 serの主な課題の1つは、データ不足、すなわち感情分類のための複雑なディープラーニングモデルを構築し、完全に探索するために慎重にラベル付けされたデータの不足である。 本稿では,この課題に対して,スペクトログラム拡張と併用した伝達学習戦略を提案する。 具体的には,大量の話者ラベルデータを用いて学習した話者認識から,統計プーリング層を含む事前学習された残差ネットワーク(resnet)モデルを活用する転送学習手法を提案する。 統計プーリング層は、モデルが可変長入力を効率的に処理できるため、serシステムで一般的に使用されるシーケンス切断の必要性をなくすことができる。 さらに,不規則な時間周波数マスクをログメル・スペクトログラムに適用することにより,感情認識モデルの一般化を緩和し,追加のトレーニングデータサンプルを生成するためのスペクトログラム拡張手法も採用した。 対話型情緒的動作キャプチャー(IEMOCAP)データセットにおける提案手法の有効性を評価する。 実験結果から,移動学習とスペクトログラム増強のアプローチにより,SERの性能が向上し,同時に最先端の結果が得られた。

Automatic speech emotion recognition (SER) is a challenging task that plays a crucial role in natural human-computer interaction. One of the main challenges in SER is data scarcity, i.e., insufficient amounts of carefully labeled data to build and fully explore complex deep learning models for emotion classification. This paper aims to address this challenge using a transfer learning strategy combined with spectrogram augmentation. Specifically, we propose a transfer learning approach that leverages a pre-trained residual network (ResNet) model including a statistics pooling layer from speaker recognition trained using large amounts of speaker-labeled data. The statistics pooling layer enables the model to efficiently process variable-length input, thereby eliminating the need for sequence truncation which is commonly used in SER systems. In addition, we adopt a spectrogram augmentation technique to generate additional training data samples by applying random time-frequency masks to log-mel spectrograms to mitigate overfitting and improve the generalization of emotion recognition models. We evaluate the effectiveness of our proposed approach on the interactive emotional dyadic motion capture (IEMOCAP) dataset. Experimental results indicate that the transfer learning and spectrogram augmentation approaches improve the SER performance, and when combined achieve state-of-the-art results.
翻訳日:2021-08-06 19:37:28 公開日:2021-08-05
# (参考訳) 無線ネットワークにおけるマルチタスクフェデレーションエッジ学習(MtFEEL) [全文訳有]

Multi-task Federated Edge Learning (MtFEEL) in Wireless Networks ( http://arxiv.org/abs/2108.02517v1 )

ライセンス: CC BY 4.0
Sawan Singh Mahara, Shruti M., B. N. Bharath(参考訳) フェデレーション学習(federated learning, fl)は、エッジデバイス間の分散機械学習を扱う有望なテクニックとして進化した。 グローバルな目的を最適化する単一のニューラルネットワーク(NN)は、一般的に、エッジデバイスに最適化される可能性のあるFLのほとんどの研究で学習されている。 エッジデバイス固有のタスクにパーソナライズされたNNを見つける作業は存在するが、一般化や収束保証がない。 本稿では,保証付き無線環境での個人化学習のための新しいコミュニケーション効率FLアルゴリズムを提案する。 このアルゴリズムは、異なるデバイス間での損失の重み付け平均を使用して、各デバイスにおける損失の実証的な推定を見つけることに依存する。 それは、提案された経験的損失の観点で真の損失に束縛されたおそらくほぼ正しい(pac)から考案され、(i)ラデマッハ複雑性、(ii)不一致、(iii)ペナルティ項によって境界付けられる。 署名された勾配フィードバックを用いて各デバイスでパーソナライズされたNNを見つけることで、(アップリンクの)レイリー平らなフェージング(英語版)チャネルに収束することが実証され、実験結果により、提案アルゴリズムは実効SNR体制下で使用されるFedAvgおよびFedSGDアルゴリズムと同様に、局所的に訓練されたデバイスよりも優れていることが示された。

Federated Learning (FL) has evolved as a promising technique to handle distributed machine learning across edge devices. A single neural network (NN) that optimises a global objective is generally learned in most work in FL, which could be suboptimal for edge devices. Although works finding a NN personalised for edge device specific tasks exist, they lack generalisation and/or convergence guarantees. In this paper, a novel communication efficient FL algorithm for personalised learning in a wireless setting with guarantees is presented. The algorithm relies on finding a ``better`` empirical estimate of losses at each device, using a weighted average of the losses across different devices. It is devised from a Probably Approximately Correct (PAC) bound on the true loss in terms of the proposed empirical loss and is bounded by (i) the Rademacher complexity, (ii) the discrepancy, (iii) and a penalty term. Using a signed gradient feedback to find a personalised NN at each device, it is also proven to converge in a Rayleigh flat fading (in the uplink) channel, at a rate of the order max{1/SNR,1/sqrt(T)} Experimental results show that the proposed algorithm outperforms locally trained devices as well as the conventionally used FedAvg and FedSGD algorithms under practical SNR regimes.
翻訳日:2021-08-06 19:23:53 公開日:2021-08-05
# (参考訳) 感性分析のためのBambara言語データセット [全文訳有]

Bambara Language Dataset for Sentiment Analysis ( http://arxiv.org/abs/2108.02524v1 )

ライセンス: CC BY 4.0
Mountaga Diallo and Chayma Fourati and Hatem Haddad(参考訳) コミュニケーションや投稿、コメントをしやすくするために、人々は自分の方言を使う。 アフリカでは様々な言語や方言が存在する。 しかし、それらはまだ不十分であり、分析研究や研究目的には十分に活用されていない。 機械学習やディープラーニングのようなアプローチを実行するには、データセットが必要である。 アフリカの言語の1つがバンバラ語であり、各国の市民が使用している。 しかし、この言語のデータセットに関する以前の研究はSentiment Analysisでは行われなかった。 本稿では,自然言語処理研究目的で利用可能となる感性分析専用の共通crawlベースのバンバラ方言データセットについて紹介する。

For easier communication, posting, or commenting on each others posts, people use their dialects. In Africa, various languages and dialects exist. However, they are still underrepresented and not fully exploited for analytical studies and research purposes. In order to perform approaches like Machine Learning and Deep Learning, datasets are required. One of the African languages is Bambara, used by citizens in different countries. However, no previous work on datasets for this language was performed for Sentiment Analysis. In this paper, we present the first common-crawl-based Bambara dialectal dataset dedicated for Sentiment Analysis, available freely for Natural Language Processing research purposes.
翻訳日:2021-08-06 18:58:02 公開日:2021-08-05
# (参考訳) 対称オートエンコーダを用いた物理システムの再評価 [全文訳有]

Redatuming physical systems using symmetric autoencoders ( http://arxiv.org/abs/2108.02537v1 )

ライセンス: CC BY 4.0
Pawan Bharadwaj, Matthew Li and Laurent Demanet(参考訳) 本稿では,隠蔽状態によって記述された物理系について考察し,非モデル化ニュアンスパラメータによって劣化した繰り返し測定により間接的に観察する。 ネットワークベースの表現は、コヒーレント情報(状態に関する)を、非コヒーレントなニュアンス情報(センサに関する)から切り離すことを学ぶ。 物理モデルの代わりに対称性と確率正規化を使い、SymAEと呼ばれるオートエンコーダアーキテクチャを知らせる。 これにより、測定値間で迷惑が均一化された仮想データインスタンスの作成など、再集計が可能になる。

This paper considers physical systems described by hidden states and indirectly observed through repeated measurements corrupted by unmodeled nuisance parameters. A network-based representation learns to disentangle the coherent information (relative to the state) from the incoherent nuisance information (relative to the sensing). Instead of physical models, the representation uses symmetry and stochastic regularization to inform an autoencoder architecture called SymAE. It enables redatuming, i.e., creating virtual data instances where the nuisances are uniformized across measurements.
翻訳日:2021-08-06 18:54:13 公開日:2021-08-05
# (参考訳) Simp Modeling: 3次元モルモフィックヘッド設計のためのガイドメッシュモデリングへのインシシティフィールドのスケッチ [全文訳有]

SimpModeling: Sketching Implicit Field to Guide Mesh Modeling for 3D Animalmorphic Head Design ( http://arxiv.org/abs/2108.02548v1 )

ライセンス: CC0 1.0
Zhongjin Luo and Jie Zhou and Heming Zhu and Dong Du and Xiaoguang Han and Hongbo Fu(参考訳) 頭部形状は3Dキャラクタデザインにおいて重要な役割を果たす。 本研究では,素人,特に素人において,文字設計における一般的な頭部である3d動物形頭部のモデル化を容易にするための,新しいスケッチベースシステムであるsimpmodelingを提案する。 スケッチは所望の形状を描く簡単な方法であるが、疎線図から密度の高い幾何学的情報を推測することは困難である。 近年,この課題に対処するディープネットベースのアプローチが採用され,ごく少数のストロークからリッチな幾何学的詳細を導き出そうとしている。 しかし、そのような方法ではユーザの作業負荷を減少させるが、ターゲット形状の制御性は低下する。 これは主に神経予測の不確実性によるものである。 Our system tackles this issue and provides good controllability from three aspects: 1) we separate coarse shape design and geometric detail specification into two stages and respectively provide different sketching means; 2) in coarse shape designing, sketches are used for both shape inference and geometric constraints to determine global geometry, and in geometric detail crafting, sketches are used for carving surface details; 3) in both stages, we use the advanced implicit-based shape inference methods, which have strong ability to handle the domain gap between freehand sketches and synthetic ones used for training. 実験により,本手法の有効性と対話システムの有用性が確認された。 また、アーティストが手作業で作成する高品質な3D動物の頭部のデータセットにも貢献する。

Head shapes play an important role in 3D character design. In this work, we propose SimpModeling, a novel sketch-based system for helping users, especially amateur users, easily model 3D animalmorphic heads - a prevalent kind of heads in character design. Although sketching provides an easy way to depict desired shapes, it is challenging to infer dense geometric information from sparse line drawings. Recently, deepnet-based approaches have been taken to address this challenge and try to produce rich geometric details from very few strokes. However, while such methods reduce users' workload, they would cause less controllability of target shapes. This is mainly due to the uncertainty of the neural prediction. Our system tackles this issue and provides good controllability from three aspects: 1) we separate coarse shape design and geometric detail specification into two stages and respectively provide different sketching means; 2) in coarse shape designing, sketches are used for both shape inference and geometric constraints to determine global geometry, and in geometric detail crafting, sketches are used for carving surface details; 3) in both stages, we use the advanced implicit-based shape inference methods, which have strong ability to handle the domain gap between freehand sketches and synthetic ones used for training. Experimental results confirm the effectiveness of our method and the usability of our interactive system. We also contribute to a dataset of high-quality 3D animal heads, which are manually created by artists.
翻訳日:2021-08-06 18:15:49 公開日:2021-08-05
# (参考訳) エンサンブル・コンセンサスに基づくハイブリッドFSO/RF通信システムのための深層強化学習 [全文訳有]

Ensemble Consensus-based Representation Deep Reinforcement Learning for Hybrid FSO/RF Communication Systems ( http://arxiv.org/abs/2108.02551v1 )

ライセンス: CC BY 4.0
Shagufta Henna(参考訳) ハイブリッドFSO/RFシステムは、両方のリンクの相補的な利点を実現することにより、システム容量を改善するために効率的なFSOおよびRFリンク切替機構を必要とする。 霧、ほこり、砂嵐などのネットワーク条件のダイナミクスは、リンク切替問題と制御複雑性を複雑にしている。 この問題に対処するために,ハイブリッドFSO/RFシステムのリンク切替のための深層強化学習(DRL)の研究を開始する。 具体的には,大気乱流下でのFSO/RFリンクスイッチングのためのDQN-FSO/RF(DQN)と呼ばれるアクタ/Critic-FSO/RFおよびDeep-Qネットワークに着目した。 問題を定式化するために,ハイブリッドFSO/RFシステムの状態,動作,報酬関数を定義する。 DQN-FSO/RFは、ハイブリッドFSO/RFシステムにおいて環境と相互作用するデプロイポリシーを頻繁に更新する。 これを解決するため,DQNEnsemble-FSO/RFと呼ばれる深層強化のためのコンセンサスに基づく表現学習を行う。 提案するDQNEnsemble-FSO/RF DRLアプローチでは,非同期スレッドのアンサンブルに基づくコンセンサス学習された特徴表現を用いて,デプロイされたポリシーを更新する。 実験結果から,提案するdqnensemble-fso/rfのコンセンサスをリードする特徴スイッチングの性能は,fso/fso/rf,dqn-fso/ rf,myopicよりも向上し,スイッチングコストは大幅に低減した。

Hybrid FSO/RF system requires an efficient FSO and RF link switching mechanism to improve the system capacity by realizing the complementary benefits of both the links. The dynamics of network conditions, such as fog, dust, and sand storms compound the link switching problem and control complexity. To address this problem, we initiate the study of deep reinforcement learning (DRL) for link switching of hybrid FSO/RF systems. Specifically, in this work, we focus on actor-critic called Actor/Critic-FSO/RF and Deep-Q network (DQN) called DQN-FSO/RF for FSO/RF link switching under atmospheric turbulences. To formulate the problem, we define the state, action, and reward function of a hybrid FSO/RF system. DQN-FSO/RF frequently updates the deployed policy that interacts with the environment in a hybrid FSO/RF system, resulting in high switching costs. To overcome this, we lift this problem to ensemble consensus-based representation learning for deep reinforcement called DQNEnsemble-FSO/RF. The proposed novel DQNEnsemble-FSO/RF DRL approach uses consensus learned features representations based on an ensemble of asynchronous threads to update the deployed policy. Experimental results corroborate that the proposed DQNEnsemble-FSO/RF&# x27;s consensus-learned features switching achieves better performance than Actor/Critic-FSO/RF, DQN-FSO/RF, and MyOpic for FSO/RF link switching while keeping the switching cost significantly low.
翻訳日:2021-08-06 17:58:58 公開日:2021-08-05
# (参考訳) MS-KD:複数バイナリラベルデータセットによるマルチオーガンセグメンテーション [全文訳有]

MS-KD: Multi-Organ Segmentation with Multiple Binary-Labeled Datasets ( http://arxiv.org/abs/2108.02559v1 )

ライセンス: CC BY 4.0
Shixiang Feng, Yuhang Zhou, Xiaoman Zhang, Ya Zhang, and Yanfeng Wang(参考訳) 3D画像に複数の臓器を付加することは、時間と費用がかかる。 一方、特定の臓器に注釈を付けた単一臓器データセットが多数存在する。 本稿では,バイナリラベル付きデータセットの集合を利用したマルチ組織セグメンテーションモデルを学習する方法を検討する。 教師モデルが事前訓練された単一組織セグメンテーションネットワークであり、学生モデルがマルチ組織セグメンテーションネットワークである、新しいマルチ教師シングルスチューデント知識蒸留(MS-KD)フレームワークを提案する。 それぞれの教師が異なる臓器に焦点を当てていることを考慮し,ロジット的監督と機能的監督からなる地域的監督手法を提案する。 各教師は、教師が専門家と見なされるオルガン領域と、すべての教師が同意する背景領域の2つの領域で生徒を監督する。 3つのパブリック・シングル・オーガン・データセットとマルチ・オーガン・データセットに関する広範な実験により、提案されたms-kdフレームワークの有効性が実証された。

Annotating multiple organs in 3D medical images is time-consuming and costly. Meanwhile, there exist many single-organ datasets with one specific organ annotated. This paper investigates how to learn a multi-organ segmentation model leveraging a set of binary-labeled datasets. A novel Multi-teacher Single-student Knowledge Distillation (MS-KD) framework is proposed, where the teacher models are pre-trained single-organ segmentation networks, and the student model is a multi-organ segmentation network. Considering that each teacher focuses on different organs, a region-based supervision method, consisting of logits-wise supervision and feature-wise supervision, is proposed. Each teacher supervises the student in two regions, the organ region where the teacher is considered as an expert and the background region where all teachers agree. Extensive experiments on three public single-organ datasets and a multi-organ dataset have demonstrated the effectiveness of the proposed MS-KD framework.
翻訳日:2021-08-06 17:36:26 公開日:2021-08-05
# (参考訳) 統計的モデルを用いた記号表現による演奏者同定 [全文訳有]

Performer Identification From Symbolic Representation of Music Using Statistical Models ( http://arxiv.org/abs/2108.02576v1 )

ライセンス: CC BY 4.0
Syed Rifat Mahmud Rafee, Gyorgy Fazekas, Geraint A.~Wiggins(参考訳) Music Performersは、楽曲を解釈する独自の慣用的な方法を持っている。 同じ曲を演奏する熟練したパフォーマーのグループは、彼らの演奏に独自の芸術スタイルを注入する可能性が高い。 テンポ、タイミング、ダイナミクス、調音などのバリエーション。 実際の楽譜から、演奏者が演奏においてユニークなものとなる。 本研究では、9人のヴィルトゥオーゾ・ピアニストがそれぞれ行うシューベルトの「ソナタ」の4つの楽章からなるデータセットについて述べる。 我々は,個々の演奏者のスタイルの特徴を把握できる表現的特徴セットを提案し,抽出した。 次に,ピアノ演奏のセットを与えられた特徴分布の類似性に基づく演奏者識別法を提案する。 それぞれの特徴と特徴の融合を個別に考慮して識別を行う。 その結果, 核融合特性を用いた0.903の精度が得られた。 さらに、このオンセット時間偏差特徴は、個別に考えると有望な結果を示す。

Music Performers have their own idiosyncratic way of interpreting a musical piece. A group of skilled performers playing the same piece of music would likely to inject their unique artistic styles in their performances. The variations of the tempo, timing, dynamics, articulation etc. from the actual notated music are what make the performers unique in their performances. This study presents a dataset consisting of four movements of Schubert's ``Sonata in B-flat major, D.960" performed by nine virtuoso pianists individually. We proposed and extracted a set of expressive features that are able to capture the characteristics of an individual performer's style. We then present a performer identification method based on the similarity of feature distribution, given a set of piano performances. The identification is done considering each feature individually as well as a fusion of the features. Results show that the proposed method achieved a precision of 0.903 using fusion features. Moreover, the onset time deviation feature shows promising result when considered individually.
翻訳日:2021-08-06 17:25:55 公開日:2021-08-05
# (参考訳) 入力分類のためのBERT変換器から音声変換器への知識蒸留 [全文訳有]

Knowledge Distillation from BERT Transformer to Speech Transformer for Intent Classification ( http://arxiv.org/abs/2108.02598v1 )

ライセンス: CC BY-SA 4.0
Yidi Jiang, Bidisha Sharma, Maulik Madhavi, and Haizhou Li(参考訳) 音声を用いたエンドツーエンドの意図分類は, 音声認識(ASR)を用いた従来のパイプライン方式と比較して, 自然言語処理モジュールに次いで多くの利点がある。 中間ASRモジュールを使わずに音声から意図を予測しようとする。 しかし、このようなエンドツーエンドのフレームワークは、音声言語理解において高い音響的変動を伴う大きな音声リソースの有効性に悩まされている。 本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。 本研究では,トランスフォーマ (bert) モデルからの信頼度の高い双方向エンコーダ表現を言語モデルとして活用し,その知識を伝達し,音声を用いた意図分類のための音響モデルを構築する。 特にマルチレベルトランスフォーマーベースの教師学生モデルが設計され、学生モデルと教師モデルの異なるトランスフォーマーレイヤーの注目層と隠されたサブレイヤ間で知識蒸留が行われる。 本研究では,Fluent音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。 さらに, 本手法は, ベースライン法と比較して, 音響劣化条件下での性能とロバスト性を示す。

End-to-end intent classification using speech has numerous advantages compared to the conventional pipeline approach using automatic speech recognition (ASR), followed by natural language processing modules. It attempts to predict intent from speech without using an intermediate ASR module. However, such end-to-end framework suffers from the unavailability of large speech resources with higher acoustic variation in spoken language understanding. In this work, we exploit the scope of the transformer distillation method that is specifically designed for knowledge distillation from a transformer based language model to a transformer based speech model. In this regard, we leverage the reliable and widely used bidirectional encoder representations from transformers (BERT) model as a language model and transfer the knowledge to build an acoustic model for intent classification using the speech. In particular, a multilevel transformer based teacher-student model is designed, and knowledge distillation is performed across attention and hidden sub-layers of different transformer layers of the student and teacher models. We achieve an intent classification accuracy of 99.10% and 88.79% for Fluent speech corpus and ATIS database, respectively. Further, the proposed method demonstrates better performance and robustness in acoustically degraded condition compared to the baseline method.
翻訳日:2021-08-06 17:13:45 公開日:2021-08-05
# (参考訳) EENLP:多言語東欧NLP指数 [全文訳有]

EENLP: Cross-lingual Eastern European NLP Index ( http://arxiv.org/abs/2108.02605v1 )

ライセンス: CC BY-SA 4.0
Alexey Tikhonov, Alex Malkhasov, Andrey Manoshin, George Dima, R\'eka Cserh\'ati, Md.Sadek Hossain Asif, Matt S\'ardi(参考訳) 本報告では,EEML 2021サマースクールの一部として実施されたEENLPプロジェクトの結果を報告する。 これは、東欧の言語に対するNLPリソースの広範な索引を示しており、これがNLPコミュニティに役立つことを願っている; 現代多言語トランスフォーマーモデルによる言語間変換学習能力のスケッチ評価、東欧の言語に焦点を当てた手作りのクロスランガルデータセット。

This report presents the results of the EENLP project, done as a part of EEML 2021 summer school. It presents a broad index of NLP resources for Eastern European languages, which, we hope, could be helpful for the NLP community; several new hand-crafted cross-lingual datasets focused on Eastern European languages, and a sketch evaluation of cross-lingual transfer learning abilities of several modern multilingual Transformer-based models.
翻訳日:2021-08-06 17:01:35 公開日:2021-08-05
# (参考訳) 機械学習と人工知能のための照合型サイバーセキュリティデータセットの使用 [全文訳有]

Using a Collated Cybersecurity Dataset for Machine Learning and Artificial Intelligence ( http://arxiv.org/abs/2108.02618v1 )

ライセンス: CC BY 4.0
Erik Hemberg, Una-May O'Reilly(参考訳) 人工知能(AI)と機械学習(ML)アルゴリズムは、例えば指標レベルの範囲をサポートすることができる。 異常検出 - 行動レベルのサイバーセキュリティモデリングと推論。 この貢献は、公共の脅威と脆弱性の行動源から融合したbronというデータセットに基づいている。 我々は、BRONが関連する脅威技術や攻撃パターンの予測をどのようにサポートするかを示す。 また、行動知識を活用するために、BRONの他のAIおよびMLの使用についても論じる。

Artificial Intelligence (AI) and Machine Learning (ML) algorithms can support the span of indicator-level, e.g. anomaly detection, to behavioral level cyber security modeling and inference. This contribution is based on a dataset named BRON which is amalgamated from public threat and vulnerability behavioral sources. We demonstrate how BRON can support prediction of related threat techniques and attack patterns. We also discuss other AI and ML uses of BRON to exploit its behavioral knowledge.
翻訳日:2021-08-06 16:57:50 公開日:2021-08-05
# (参考訳) MSTRE-Net: 自動歌詞転写のためのマルチストリーミング音響モデル [全文訳有]

MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics Transcription ( http://arxiv.org/abs/2108.02625v1 )

ライセンス: CC BY 4.0
Emir Demirel, Sven Ahlb\"ack, Simon Dixon(参考訳) 本稿では,alt(automatic lyrics transcription)研究にいくつかの貢献をする。 mstre-net(multistrea ming time-delay neural network, mtdnn)アーキテクチャの新たな変種であるmstre-netは,複数のストリームを並行して処理し,ネットワークをよりコンパクトにすることで,同一のtdnnストリームよりも高速な推論と認識率の向上を実現している。 また,音響モデルの学習に先立つ2つの新しい前処理ステップを提案する。 まず,音響モデルの学習中に単音域と多声領域の両方から録音することを提案する。 第2に,単音とポリフォニックの録音を異なるラベルでタグ付けし,非ボーカル的な沈黙と音楽のインスタンスをアライメント中に識別する。 さらに,歌手の性別バランスを保ちつつ,ALT文献で使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。 我々の最高の演奏モデルは、歌詞の書き起こしの最先端を大きな利幅で設定する。 再現性のために,本論文で使用されるデータを取得する識別子を公開する。

This paper makes several contributions to automatic lyrics transcription (ALT) research. Our main contribution is a novel variant of the Multistreaming Time-Delay Neural Network (MTDNN) architecture, called MSTRE-Net, which processes the temporal information using multiple streams in parallel with varying resolutions keeping the network more compact, and thus with a faster inference and an improved recognition rate than having identical TDNN streams. In addition, two novel preprocessing steps prior to training the acoustic model are proposed. First, we suggest using recordings from both monophonic and polyphonic domains during training the acoustic model. Second, we tag monophonic and polyphonic recordings with distinct labels for discriminating non-vocal silence and music instances during alignment. Moreover, we present a new test set with a considerably larger size and a higher musical variability compared to the existing datasets used in ALT literature, while maintaining the gender balance of the singers. Our best performing model sets the state-of-the-art in lyrics transcription by a large margin. For reproducibility, we publicly share the identifiers to retrieve the data used in this paper.
翻訳日:2021-08-06 16:50:21 公開日:2021-08-05
# (参考訳) スマートグリッド領域における新しい最先端変圧器負荷予測器 [全文訳有]

A New State-of-the-Art Transformers-Based Load Forecaster on the Smart Grid Domain ( http://arxiv.org/abs/2108.02628v1 )

ライセンス: CC BY 4.0
Andre Luiz Farias Novaes, Rui Alexandre de Matos Araujo, Jose Figueiredo, Lucas Aguiar Pavanelli(参考訳) スマートグリッド(SG)の効率的なエネルギー管理と電力システム計画には,電力グリッドの規制,ディスパッチ,スケジューリング,ユニットコミットメントに関連するタスクにおいて,メーターレベルの負荷予測が不可欠である。 様々なアルゴリズムが提案され、この分野に適用されているが、より正確で堅牢なモデルが必要であり、sgsでの運用の全体的な実用コストは、負荷予測エラーが1%増加すると1000万通貨単位を増加させ、予測における平均絶対パーセンテージエラー(mape)は1%以上である。 トランスフォーマーは、コンピュータビジョンや自然言語処理、時系列予測など、畳み込みニューラルネットワークやリカレントニューラルネットワークのような代替ニューラルネットワークモデルを上回るさまざまなタスクにおいて、新たな最先端技術となっている。 本稿では,従来のLSTMおよび従来のベンチマークであるバニラRNNを少なくとも13%のMAPEのマージンで越えた,メートルレベルの負荷予測タスクのための,最先端のTransformerベースの新しいアルゴリズムを提案する。

Meter-level load forecasting is crucial for efficient energy management and power system planning for Smart Grids (SGs), in tasks associated with regulation, dispatching, scheduling, and unit commitment of power grids. Although a variety of algorithms have been proposed and applied on the field, more accurate and robust models are still required: the overall utility cost of operations in SGs increases 10 million currency units if the load forecasting error increases 1%, and the mean absolute percentage error (MAPE) in forecasting is still much higher than 1%. Transformers have become the new state-of-the-art in a variety of tasks, including the ones in computer vision, natural language processing and time series forecasting, surpassing alternative neural models such as convolutional and recurrent neural networks. In this letter, we present a new state-of-the-art Transformer-based algorithm for the meter-level load forecasting task, which has surpassed the former state-of-the-art, LSTM, and the traditional benchmark, vanilla RNN, in all experiments by a margin of at least 13% in MAPE.
翻訳日:2021-08-06 16:36:04 公開日:2021-08-05
# (参考訳) 自律型水中車両の連続ドッキング制御のための深層強化学習--ベンチマーク研究 [全文訳有]

Deep Reinforcement Learning for Continuous Docking Control of Autonomous Underwater Vehicles: A Benchmarking Study ( http://arxiv.org/abs/2108.02665v1 )

ライセンス: CC BY 4.0
Mihir Patil and Bilal Wehbe and Matias Valdenegro-Toro(参考訳) 自律型水中車両(AUV)のドッキング制御は、永続的な長期的自律の実現に不可欠なタスクである。 本研究は、連続領域におけるAUVドッキングの課題に対する、最先端のモデルフリー深部強化学習(DRL)アプローチの適用について検討する。 我々は、AUVを固定ドッキングプラットフォームにドッキングするのに利用される報酬関数の詳細な定式化を提供する。 我々の研究を以前のアプローチと区別する大きな貢献は、DeepLeng AUVと同様に水中環境を定義し、シミュレートするための物理学シミュレータの使用である。 そこで本研究では,いくつかの構成要素を組み込んだドッキングタスクにおける新たな報酬関数の定式化を提案し,従来の報酬定式化よりも優れる。 近位政策最適化 (ppo) と2つの遅延的決定論的政策勾配 (td3) とソフト・アクタ・クリティック (sac) を報酬関数と組み合わせて評価した。 評価の結果、auvのドッキングに関して、td3エージェントが最も効率的かつ一貫性があることが判明し、複数の評価で100%の成功率と10667.1 +-688.8のエピソードリターンを達成した。 また,報奨関数の定式化が芸術の状況に対してどのように改善するかを示す。

Docking control of an autonomous underwater vehicle (AUV) is a task that is integral to achieving persistent long term autonomy. This work explores the application of state-of-the-art model-free deep reinforcement learning (DRL) approaches to the task of AUV docking in the continuous domain. We provide a detailed formulation of the reward function, utilized to successfully dock the AUV onto a fixed docking platform. A major contribution that distinguishes our work from the previous approaches is the usage of a physics simulator to define and simulate the underwater environment as well as the DeepLeng AUV. We propose a new reward function formulation for the docking task, incorporating several components, that outperforms previous reward formulations. We evaluate proximal policy optimization (PPO), twin delayed deep deterministic policy gradients (TD3) and soft actor-critic (SAC) in combination with our reward function. Our evaluation yielded results that conclusively show the TD3 agent to be most efficient and consistent in terms of docking the AUV, over multiple evaluation runs it achieved a 100% success rate and episode return of 10667.1 +- 688.8. We also show how our reward function formulation improves over the state of the art.
翻訳日:2021-08-06 16:32:04 公開日:2021-08-05
# (参考訳) 変成関係を用いたArtcode分類の検証と拡張

Using Metamorphic Relations to Verify and Enhance Artcode Classification ( http://arxiv.org/abs/2108.02694v1 )

ライセンス: CC BY 4.0
Liming Xu, Dave Towey, Andrew French, Steve Benford, Zhi Quan Zhou and Tsong Yueh Chen(参考訳) ソフトウェアテストは、テスト中のソフトウェア(SUT)の振舞いやアウトプットの正しさを決定することが不可能または非現実的である場合、しばしば障害となる。 オラクル問題に直面している領域の例として、機械学習を用いて、入力イメージを事前定義されたクラスのセットの1つに分類する自動画像分類がある。 オラクルの問題を軽減するソフトウェアテストへのアプローチは、メタモルフィックテスト(MT)である。 従来のソフトウェアテストは個々のテストケースの正確性を調べるが、mtはテストケースの複数の実行とその出力の関係を調べる。 これらの関係を準同型関係(MRs: Metamorphic relations)と呼ぶ: MRが破られた場合、SUTに欠陥が存在する。 本稿では,アートコードと呼ばれる視覚的に隠されたマーカーを含む画像の分類の問題について検討し,mtを用いて訓練された分類器の検証と拡張を行う。 本稿ではさらに,mrsの分離と咬合について検討し,t-test(不等分散),kruskal-wallis test,dunnett's testの3つの統計解析法と併用して,一方向分散解析(anova)を用いて画像分類の検証を行う能力について報告する。 ランダムフォレストを用いた以前に研究した分類器に加えて,サポートベクターマシンを用いた新しい分類器を導入し,MR拡張版を提示する。 実験により,拡張分類器は非拡張分類器よりも優れた性能が得られることが示された。 本稿では,性能向上の方法についても考察する。

Software testing is often hindered where it is impossible or impractical to determine the correctness of the behaviour or output of the software under test (SUT), a situation known as the oracle problem. An example of an area facing the oracle problem is automatic image classification, using machine learning to classify an input image as one of a set of predefined classes. An approach to software testing that alleviates the oracle problem is metamorphic testing (MT). While traditional software testing examines the correctness of individual test cases, MT instead examines the relations amongst multiple executions of test cases and their outputs. These relations are called metamorphic relations (MRs): if an MR is found to be violated, then a fault must exist in the SUT. This paper examines the problem of classifying images containing visually hidden markers called Artcodes, and applies MT to verify and enhance the trained classifiers. This paper further examines two MRs, Separation and Occlusion, and reports on their capability in verifying the image classification using one-way analysis of variance (ANOVA) in conjunction with three other statistical analysis methods: t-test (for unequal variances), Kruskal-Wallis test, and Dunnett's test. In addition to our previously-studied classifier, that used Random Forests, we introduce a new classifier that uses a support vector machine, and present its MR-augmented version. Experimental evaluations across a number of performance metrics show that the augmented classifiers can achieve better performance than non-augmented classifiers. This paper also analyses how the enhanced performance is obtained.
翻訳日:2021-08-06 16:21:00 公開日:2021-08-05
# (参考訳) GIFAIR-FL:フェデレーション学習におけるグループと個人フェアネスのアプローチ

GIFAIR-FL: An Approach for Group and Individual Fairness in Federated Learning ( http://arxiv.org/abs/2108.02741v1 )

ライセンス: CC0 1.0
Xubo Yue, Maher Nouiehed, Raed Al Kontar(参考訳) 本稿では,federated learning 設定にグループと個人を公平に強制する手法である \texttt{gifair-fl} を提案する。 正規化項を追加することで、このアルゴリズムはクライアントグループの損失の拡散をペナルティ化し、最適化器を公平な解に導く。 理論的には、非凸および強い凸設定における収束を示す。 我々の収束保証は、$i.i.d.$ と non-$i.d.$ の両方のデータを保持する。 提案アルゴリズムの実証的な性能を示すため,画像分類とテキスト予測タスクに本手法を適用した。 既存のアルゴリズムと比較して, 予測精度は良好でありながら, 公平性が向上した。

In this paper we propose \texttt{GIFAIR-FL}: an approach that imposes group and individual fairness to federated learning settings. By adding a regularization term, our algorithm penalizes the spread in the loss of client groups to drive the optimizer to fair solutions. Theoretically, we show convergence in non-convex and strongly convex settings. Our convergence guarantees hold for both $i.i.d.$ and non-$i.i.d.$ data. To demonstrate the empirical performance of our algorithm, we apply our method on image classification and text prediction tasks. Compared to existing algorithms, our method shows improved fairness results while retaining superior or similar prediction accuracy.
翻訳日:2021-08-06 16:19:54 公開日:2021-08-05
# (参考訳) BOSS: 逆例の双方向ワンショット合成 [全文訳有]

BOSS: Bidirectional One-Shot Synthesis of Adversarial Examples ( http://arxiv.org/abs/2108.02756v1 )

ライセンス: CC BY 4.0
Ismail Alkhouri, Alvaro Velasquez, George Atia(参考訳) 誤分類率を最大化する深層分類器の入力に対する加法的受容不能な摂動の設計は、敵機械学習の中心的な焦点である。 もう一つのアプローチは、大量のトレーニングデータを使用するにもかかわらず、GANのような構造を用いて、スクラッチから敵の例を合成することである。 対照的に,本論文では,先行学習したモデルの出力において,任意のソフト予測を誘導するため,スクラッチから入力を合成し,同時に特定の入力と高い類似性を維持する。 そこで本研究では,学習モデルの所望分布と出力分布との距離と,それらの入力と合成例との類似性について対象を符号化する問題を提案する。 定式化問題はNP完全であることを示す。 次に,双対目的に対してサーロゲート損失関数を最適化することにより,パラメータを反復的に更新する生成ネットワークの出力として,逆例が得られた解に対する生成的アプローチを前進させる。 提案するフレームワークとアプローチの汎用性と汎用性を,対象とする敵攻撃の設計,決定境界サンプルの生成,低信頼分類入力の合成に応用して実証する。 このアプローチはさらに、ソフト出力仕様の異なるモデルのアンサンブルにまで拡張されている。 実験により, 対象と信頼性を低下させる攻撃法が, 最先端のアルゴリズムと同等に動作することを確認した。

The design of additive imperceptible perturbations to the inputs of deep classifiers to maximize their misclassification rates is a central focus of adversarial machine learning. An alternative approach is to synthesize adversarial examples from scratch using GAN-like structures, albeit with the use of large amounts of training data. By contrast, this paper considers one-shot synthesis of adversarial examples; the inputs are synthesized from scratch to induce arbitrary soft predictions at the output of pre-trained models, while simultaneously maintaining high similarity to specified inputs. To this end, we present a problem that encodes objectives on the distance between the desired and output distributions of the trained model and the similarity between such inputs and the synthesized examples. We prove that the formulated problem is NP-complete. Then, we advance a generative approach to the solution in which the adversarial examples are obtained as the output of a generative network whose parameters are iteratively updated by optimizing surrogate loss functions for the dual-objective. We demonstrate the generality and versatility of the framework and approach proposed through applications to the design of targeted adversarial attacks, generation of decision boundary samples, and synthesis of low confidence classification inputs. The approach is further extended to an ensemble of models with different soft output specifications. The experimental results verify that the targeted and confidence reduction attack methods developed perform on par with state-of-the-art algorithms.
翻訳日:2021-08-06 16:18:42 公開日:2021-08-05
# (参考訳) SLAMP:確率的潜在出現と動き予測 [全文訳有]

SLAMP: Stochastic Latent Appearance and Motion Prediction ( http://arxiv.org/abs/2108.02760v1 )

ライセンス: CC BY 4.0
Adil Kaan Akan, Erkut Erdem, Aykut Erdem, Fatma G\"uney(参考訳) モーションはビデオ予測の重要な手がかりであり、ビデオコンテンツを静的および動的コンポーネントに分割することでしばしば利用される。 運動を利用する以前の仕事のほとんどは決定論的であるが、未来の本質的な不確実性をモデル化できる確率的方法がある。 既存の確率モデルは、動きを明示的に推論しないか、静的部分に関する仮定を限定する。 本稿では,映像の出現と動きを,動き履歴に基づいて未来を予測することにより確率論的に推定する。 履歴のない動きの明示的推論はすでに現在の確率モデルの性能に達している。 動き履歴は、将来に複数のフレームが一貫したダイナミクスを予測できるように、結果をさらに改善する。 しかし,本モデルは,複雑な動きと動的背景を持つ実世界の2つの自律運転データセットにおいて,その性能を大幅に上回っている。

Motion is an important cue for video prediction and often utilized by separating video content into static and dynamic components. Most of the previous work utilizing motion is deterministic but there are stochastic methods that can model the inherent uncertainty of the future. Existing stochastic models either do not reason about motion explicitly or make limiting assumptions about the static part. In this paper, we reason about appearance and motion in the video stochastically by predicting the future based on the motion history. Explicit reasoning about motion without history already reaches the performance of current stochastic models. The motion history further improves the results by allowing to predict consistent dynamics several frames into the future. Our model performs comparably to the state-of-the-art models on the generic video prediction datasets, however, significantly outperforms them on two challenging real-world autonomous driving datasets with complex motion and dynamic background.
翻訳日:2021-08-06 15:59:14 公開日:2021-08-05
# (参考訳) 自分のGANをスケッチする [全文訳有]

Sketch Your Own GAN ( http://arxiv.org/abs/2108.02774v1 )

ライセンス: CC BY 4.0
Sheng-Yu Wang, David Bau, Jun-Yan Zhu(参考訳) ユーザは1つの例をスケッチすることで、深い生成モデルを作ることができるだろうか? 伝統的に、GANモデルを作成するには、ディープラーニングにおける経験と専門知識の大規模なデータセットの収集が必要である。 対照的に、スケッチはおそらく視覚概念を伝える最も普遍的な方法である。 本研究では,1つ以上のスケッチでGANを書き換える手法であるGAN Sketchingを提案する。 特に、ユーザスケッチに従って、元のGANモデルの重みを変更する。 我々は、ドメイン間の敵対的損失を通じて、ユーザスケッチにマッチするようにモデルの出力を奨励する。 さらに、原モデルの多様性と画質を維持するために、異なる正規化手法を検討する。 提案手法は,写実性や多様性を保ちながら,スケッチで指定した形状やポーズを一致させることができる。 最後に、遅延空間補間や画像編集など、得られたGANのいくつかの応用例を示す。

Can a user create a deep generative model by sketching a single example? Traditionally, creating a GAN model has required the collection of a large-scale dataset of exemplars and specialized knowledge in deep learning. In contrast, sketching is possibly the most universally accessible way to convey a visual concept. In this work, we present a method, GAN Sketching, for rewriting GANs with one or more sketches, to make GANs training easier for novice users. In particular, we change the weights of an original GAN model according to user sketches. We encourage the model's output to match the user sketches through a cross-domain adversarial loss. Furthermore, we explore different regularization methods to preserve the original model's diversity and image quality. Experiments have shown that our method can mold GANs to match shapes and poses specified by sketches while maintaining realism and diversity. Finally, we demonstrate a few applications of the resulting GAN, including latent space interpolation and image editing.
翻訳日:2021-08-06 15:31:21 公開日:2021-08-05
# 教師なしコントラスト学習のための低位促進前処理

A Low Rank Promoting Prior for Unsupervised Contrastive Learning ( http://arxiv.org/abs/2108.02696v1 )

ライセンス: Link先を確認
Yu Wang and Jingyang Lin and Qi Cai and Yingwei Pan and Ting Yao and Hongyang Chao and Tao Mei(参考訳) 教師なしの学習は、本当に離陸できる転換点に過ぎません。 これらのアプローチの中で、対照的な学習は著しく進歩し、最先端のパフォーマンスにつながった。 本稿では,LORACと呼ばれるコントラスト学習の枠組みに,従来の低階の促進を効果的に組み込んだ新しい確率的グラフィカルモデルを構築する。 独立した学習のみを考える従来の自己教師ありアプローチとは対照的に、この仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さい次元の同じ部分空間上にあることを明示的に要求している。 このヒューリスティックは、最適なネットワークパラメータ化の探索中に問題の自由度を減らすために、特定の共同学習制約を課す。 最も重要なことは、ここで以前に用いられた低いランクはユニークではなく、多くの異なる先行は同様の確率論的方法で呼び出すことができ、対照的な特徴の背後にある根底にある真実に関する異なる仮説に対応する。 実証的な証拠は、提案アルゴリズムが画像分類、オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出など、複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。

Unsupervised learning is just at a tipping point where it could really take off. Among these approaches, contrastive learning has seen tremendous progress and led to state-of-the-art performance. In this paper, we construct a novel probabilistic graphical model that effectively incorporates the low rank promoting prior into the framework of contrastive learning, referred to as LORAC. In contrast to the existing conventional self-supervised approaches that only considers independent learning, our hypothesis explicitly requires that all the samples belonging to the same instance class lie on the same subspace with small dimension. This heuristic poses particular joint learning constraints to reduce the degree of freedom of the problem during the search of the optimal network parameterization. Most importantly, we argue that the low rank prior employed here is not unique, and many different priors can be invoked in a similar probabilistic way, corresponding to different hypotheses about underlying truth behind the contrastive features. Empirical evidences show that the proposed algorithm clearly surpasses the state-of-the-art approaches on multiple benchmarks, including image classification, object detection, instance segmentation and keypoint detection.
翻訳日:2021-08-06 14:59:17 公開日:2021-08-05
# グローバルコンテキストによるビデオコントラスト学習

Video Contrastive Learning with Global Context ( http://arxiv.org/abs/2108.02722v1 )

ライセンス: Link先を確認
Haofei Kuang, Yi Zhu, Zhi Zhang, Xinyu Li, Joseph Tighe, S\"oren Schwertfeger, Cyrill Stachniss, Mu Li(参考訳) コントラスト学習は、自己監督型画像表現学習分野に革命をもたらし、最近ビデオ領域に適応した。 コントラスト学習の最大の利点の1つは、コントラストに正と負のサンプルを定式化する合理的な方法を見つけることができる限り、強力な損失目標を柔軟に定義できることである。 しかし、既存のアプローチは、クリップレベルのコントラスト信号を形成するために短距離時空間サリエンスに大きく依存しているため、グローバルコンテキストの使用を制限している。 本稿では,正対を定式化するためのセグメントに基づくビデオレベルのコントラスト学習手法を提案する。 提案方式は,映像中のグローバルコンテキストをキャプチャできるため,時間的コンテンツ変化に頑健である。 また,映像の逐次構造を強制するために,時間順序正規化用語も取り入れた。 我々のビデオレベルのコントラスト学習フレームワーク(VCLR)は、ダウンストリームアクション分類、アクションローカライゼーション、ビデオ検索のための5つのビデオデータセットにおいて、過去の最先端を上回ります。 コードはhttps://github.com/a mazon-research/video -contrastive-learnin gで入手できる。

Contrastive learning has revolutionized self-supervised image representation learning field, and recently been adapted to video domain. One of the greatest advantages of contrastive learning is that it allows us to flexibly define powerful loss objectives as long as we can find a reasonable way to formulate positive and negative samples to contrast. However, existing approaches rely heavily on the short-range spatiotemporal salience to form clip-level contrastive signals, thus limit themselves from using global context. In this paper, we propose a new video-level contrastive learning method based on segments to formulate positive pairs. Our formulation is able to capture global context in a video, thus robust to temporal content change. We also incorporate a temporal order regularization term to enforce the inherent sequential structure of videos. Extensive experiments show that our video-level contrastive learning framework (VCLR) is able to outperform previous state-of-the-arts on five video datasets for downstream action classification, action localization and video retrieval. Code is available at https://github.com/a mazon-research/video -contrastive-learnin g.
翻訳日:2021-08-06 14:58:58 公開日:2021-08-05
# アスペクト知識(aspect knowledge)について言えば、知識を意識したゲート型リカレントメモリネットワーク(recurrent memory network)です。

Understand me, if you refer to Aspect Knowledge: Knowledge-aware Gated Recurrent Memory Network ( http://arxiv.org/abs/2108.02352v1 )

ライセンス: Link先を確認
Bowen Xing, Ivor W. Tsang(参考訳) アスペクトレベルの感情分類(ASC)は、レビューで言及された特定の側面に対する微粒な感情極性を予測することを目的としている。 最近のASCの進歩にもかかわらず、マシンが重要な側面の感情を推測することは依然として困難である。 本稿では,(1)アスペクト知識の欠如により,先行研究から派生したアスペクト表現が,アスペクトの正確な意味と特性情報を表現できないこと,(2)先行研究は局所構文情報とグローバルリレーショナル情報の両方しか取得できないこと,という2つの課題に対処する。 これらの課題に取り組むため,我々は,エンド・ツー・エンドの組込みとアスペクト知識の活用だけでなく,これら2種類の構文情報を結婚させ,相互補完を可能にする新しいascモデルを提案する。 Our model includes three key components: (1) a knowledge-aware gated recurrent memory network recurrently integrates dynamically summarized aspect knowledge; (2) a dual syntax graph network combines both kinds of syntactic information to comprehensively capture sufficient syntactic information; (3) a knowledge integrating gate re-enhances the final representation with further needed aspect knowledge; (4) an aspect-to-context attention mechanism aggregates the aspect-related semantics from all hidden states into the final representation. いくつかのベンチマークデータセットによる実験結果から,従来の最先端モデルよりも精度とマクロF1の両面で大きなマージンを超越したモデルの有効性が示された。

Aspect-level sentiment classification (ASC) aims to predict the fine-grained sentiment polarity towards a given aspect mentioned in a review. Despite recent advances in ASC, enabling machines to preciously infer aspect sentiments is still challenging. This paper tackles two challenges in ASC: (1) due to lack of aspect knowledge, aspect representation derived in prior works is inadequate to represent aspect's exact meaning and property information; (2) prior works only capture either local syntactic information or global relational information, thus missing either one of them leads to insufficient syntactic information. To tackle these challenges, we propose a novel ASC model which not only end-to-end embeds and leverages aspect knowledge but also marries the two kinds of syntactic information and lets them compensate for each other. Our model includes three key components: (1) a knowledge-aware gated recurrent memory network recurrently integrates dynamically summarized aspect knowledge; (2) a dual syntax graph network combines both kinds of syntactic information to comprehensively capture sufficient syntactic information; (3) a knowledge integrating gate re-enhances the final representation with further needed aspect knowledge; (4) an aspect-to-context attention mechanism aggregates the aspect-related semantics from all hidden states into the final representation. Experimental results on several benchmark datasets demonstrate the effectiveness of our model, which overpass previous state-of-the-art models by large margins in terms of both Accuracy and Macro-F1.
翻訳日:2021-08-06 14:58:40 公開日:2021-08-05
# WMT21のためのWeChatニューラル機械翻訳システム

WeChat Neural Machine Translation Systems for WMT21 ( http://arxiv.org/abs/2108.02401v1 )

ライセンス: Link先を確認
Xianfeng Zeng, Yijin Liu, Ernan Li, Qiu Ran, Fandong Meng, Peng Li, Jinan Xu and Jie Zhou(参考訳) 本稿では,WMT 2021におけるWeChat AIの参加について紹介する。 我々のシステムはトランスフォーマー (Vaswani et al., 2017) に基づいており、いくつかの斬新で効果的な変種がある。 実験では,データフィルタリング,大規模合成データ生成(バックトランスレーション,知識蒸留,前方トランスレーション,ドメイン内知識伝達),高度な微調整アプローチ,自己BLEUに基づくモデルアンサンブルの強化を行った。 日本語・中国語・日本語・英語・ドイツ語にそれぞれ36.9点,46.9点,27.8点,31.3点のBLEUスコアが得られた。 BLEUの英語・中国語・日本語・日本語のスコアは全ての提出物の中で最高であり、英語・ドイツ語のスコアは全ての制約された提出物の中で最高である。

This paper introduces WeChat AI's participation in WMT 2021 shared news translation task on English->Chinese, English->Japanese, Japanese->English and English->German. Our systems are based on the Transformer (Vaswani et al., 2017) with several novel and effective variants. In our experiments, we employ data filtering, large-scale synthetic data generation (i.e., back-translation, knowledge distillation, forward-translation, iterative in-domain knowledge transfer), advanced finetuning approaches, and boosted Self-BLEU based model ensemble. Our constrained systems achieve 36.9, 46.9, 27.8 and 31.3 case-sensitive BLEU scores on English->Chinese, English->Japanese, Japanese->English and English->German, respectively. The BLEU scores of English->Chinese, English->Japanese and Japanese->English are the highest among all submissions, and that of English->German is the highest among all constrained submissions.
翻訳日:2021-08-06 14:58:08 公開日:2021-08-05
# 変分オートエンコーダへの微調整プリトレーニングトランス

Finetuning Pretrained Transformers into Variational Autoencoders ( http://arxiv.org/abs/2108.02446v1 )

ライセンス: Link先を確認
Seongmin Park, Jihwa Lee(参考訳) テキスト変分オートエンコーダ(VAE)は、モデルデコーダがエンコーダからの信号を無視することを学ぶ現象である後部崩壊で有名である。 後部崩壊は表現的デコーダによって悪化することが知られているため、トランスフォーマーはテキストVAEの構成要素として限定的に採用されている。 トランスフォーマーをテキストVAE(Li et al., 2020; Fang et al., 2021)に組み込んだ既存の研究は、大規模な事前トレーニングによる後部崩壊を緩和している。 本稿では,逐次列変換器を微調整するだけでvaeに変換するための簡易な二相学習方式を提案する。 結果の言語モデルは、内部メトリクスにおいて、非常に事前訓練されたTransformerベースのVAEと競合する一方で、他では不足している。 訓練を容易にするため,文献に共通する後方崩壊軽減手法の影響を総合的に検討する。 再現性のためにコードをリリースします。

Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers have seen limited adoption as components of text VAEs. Existing studies that incorporate Transformers into text VAEs (Li et al., 2020; Fang et al., 2021) mitigate posterior collapse using massive pretraining, a technique unavailable to most of the research community without extensive computing resources. We present a simple two-phase training scheme to convert a sequence-to-sequence Transformer into a VAE with just finetuning. The resulting language model is competitive with massively pretrained Transformer-based VAEs in some internal metrics while falling short on others. To facilitate training we comprehensively explore the impact of common posterior collapse alleviation techniques in the literature. We release our code for reproducability.
翻訳日:2021-08-06 14:57:51 公開日:2021-08-05
# ビデオベースコモンセンスキャプションのためのハイブリッド推論ネットワーク

Hybrid Reasoning Network for Video-based Commonsense Captioning ( http://arxiv.org/abs/2108.02365v1 )

ライセンス: Link先を確認
Weijiang Yu, Jian Liang, Lei Ji, Lu Li, Yuejian Fang, Nong Xiao, Nan Duan(参考訳) ビデオベースのcommonsenseキャプションのタスクは、イベント毎のキャプションの生成と、ビデオの基盤となるイベントに関する複数のcommonsense記述(属性、効果、意図など)の提供を目的としている。 以前の作品では、異なるcommonsenseタイプのために別々のネットワークを使用することで、commonsenseのキャプションを探求している。 本稿では,ニューラルネットワークに意味レベルの推論と単語レベルの推論の能力を与えるハイブリッド推論ネットワーク(hybridnet)を提案する。 まず,複数のコモンセンス記述の手がかり,イベントワイズキャプション,ビデオ間のインタラクションを促進するために,統合ネットワークで異なるコモンセンスタイプを共同学習することにより,意味論的推論のためのマルチコモンセンス学習を開発する。 そして、(1)メモリモジュールが、前世代のプロセスから予測された履歴シーケンスを記録すること、(2)メモリモジュールからの履歴情報をワードレベルの推論のためにトランスフォーマデコーダに組み込むことにより、メモリ主導マルチヘッドアテンション(mmha)モジュールがワードレベルのアテンションマップを更新すること、の2つのステップがある。 さらに、マルチモーダル機能は、コモンセンス推論の多様な知識をフル活用するために使用される。 大規模ビデオ・ツー・コモンセンスベンチマークの実験と豊富な分析により,我々のHybridNetは,他の手法と比較して最先端の性能を達成した。

The task of video-based commonsense captioning aims to generate event-wise captions and meanwhile provide multiple commonsense descriptions (e.g., attribute, effect and intention) about the underlying event in the video. Prior works explore the commonsense captions by using separate networks for different commonsense types, which is time-consuming and lacks mining the interaction of different commonsense. In this paper, we propose a Hybrid Reasoning Network (HybridNet) to endow the neural networks with the capability of semantic-level reasoning and word-level reasoning. Firstly, we develop multi-commonsense learning for semantic-level reasoning by jointly training different commonsense types in a unified network, which encourages the interaction between the clues of multiple commonsense descriptions, event-wise captions and videos. Then, there are two steps to achieve the word-level reasoning: (1) a memory module records the history predicted sequence from the previous generation processes; (2) a memory-routed multi-head attention (MMHA) module updates the word-level attention maps by incorporating the history information from the memory module into the transformer decoder for word-level reasoning. Moreover, the multimodal features are used to make full use of diverse knowledge for commonsense reasoning. Experiments and abundant analysis on the large-scale Video-to-Commonsense benchmark show that our HybridNet achieves state-of-the-art performance compared with other methods.
翻訳日:2021-08-06 14:57:33 公開日:2021-08-05
# VisualTextRank: 画像検索のための広告テキストの自動化のための教師なしグラフベースのコンテンツ抽出

VisualTextRank: Unsupervised Graph-based Content Extraction for Automating Ad Text to Image Search ( http://arxiv.org/abs/2108.02725v1 )

ライセンス: Link先を確認
Shaunak Mishra, Mikhail Kuznetsov, Gaurav Srivastava, and Maxim Sviridenko(参考訳) 多数のオンラインストックイメージライブラリは、高品質だが著作権のない画像を提供し、マーケティングキャンペーンに利用されている。 このようなサードパーティライブラリをナビゲートする広告主を支援するために、広告テキストが与えられた関連広告画像を自動的に取得する問題を(画像に対する短いテキストクエリを通じて)検討する。 広告画像検索クエリ(given ad text)のログデータの観察に動機づけられ、広告テキスト(またはその拡張バージョン)から抽出されたキーワードが広告画像クエリとして機能するキーワード抽出問題を定式化した。 この文脈では、視覚的に類似した広告を用いて入力広告テキストを増強するための教師なし手法であるvisualtextrankを提案し、(ii)拡張広告テキストから画像クエリを抽出する。 VisualTextRankは、グラフベースのコンテキスト抽出(特にバイアス付きTextRank)に関する以前の作業に基づいて、類似広告のテキストとイメージの両方を活用して、キーワード抽出を改善する。 ベライゾンメディアネイティブ(Yahoo Gemini)広告プラットフォームのストックイメージ検索機能から収集したデータを広告主に搭載するために利用し、競合するキーワード抽出ベースラインと比較してVisualTextRankの優位性を示す(バイアス付きTextRankよりも111\%$精度アップを含む)。 ストックイメージライブラリが英語クエリに限定されている場合、意味論的に類似した英語広告を活用しながら、多言語広告(英訳)におけるVisualTextRankの有効性を示す。 visualtextrankの簡易版によるオンラインテストでは、ストック画像検索の利用が28.7%増加し、ベライゾンのメディアネイティブ広告プラットフォームにおける広告主の加入率は41.6%増加した。

Numerous online stock image libraries offer high quality yet copyright free images for use in marketing campaigns. To assist advertisers in navigating such third party libraries, we study the problem of automatically fetching relevant ad images given the ad text (via a short textual query for images). Motivated by our observations in logged data on ad image search queries (given ad text), we formulate a keyword extraction problem, where a keyword extracted from the ad text (or its augmented version) serves as the ad image query. In this context, we propose VisualTextRank: an unsupervised method to (i) augment input ad text using semantically similar ads, and (ii) extract the image query from the augmented ad text. VisualTextRank builds on prior work on graph based context extraction (biased TextRank in particular) by leveraging both the text and image of similar ads for better keyword extraction, and using advertiser category specific biasing with sentence-BERT embeddings. Using data collected from the Verizon Media Native (Yahoo Gemini) ad platform's stock image search feature for onboarding advertisers, we demonstrate the superiority of VisualTextRank compared to competitive keyword extraction baselines (including an $11\%$ accuracy lift over biased TextRank). For the case when the stock image library is restricted to English queries, we show the effectiveness of VisualTextRank on multilingual ads (translated to English) while leveraging semantically similar English ads. Online tests with a simplified version of VisualTextRank led to a 28.7% increase in the usage of stock image search, and a 41.6% increase in the advertiser onboarding rate in the Verizon Media Native ad platform.
翻訳日:2021-08-06 14:57:02 公開日:2021-08-05
# 視覚的クローゼテストの完全学習によるビデオ異常事象検出

Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests ( http://arxiv.org/abs/2108.02356v1 )

ライセンス: Link先を確認
Siqi Wang, Guang Yu, Zhiping Cai, Xinwang Liu, En Zhu, Jianping Yin, Qing Liao(参考訳) ビデオ異常事象検出(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習する必要がある重要な半教師付きタスクである。 ディープニューラルネットワーク(dnn)はvadの大幅な進歩を実現するが,既存のソリューションでは,(1)ビデオイベントの正確かつ包括的なローカライズが無視される,という2つの問題が発生する。 2)ビデオ意味論と時間的文脈は未検討である。 これらの問題に対処するために,我々は教育における一般的なクローズテストにモチベーションを与え,視覚クローズテスト(vcts)の完成を学習することでvadを行う新しいアプローチであるvisual cloze completion (vcc)を提案する。 具体的には、VCCはまず各ビデオイベントをローカライズし、それを時空間立方体(STC)に囲む。 精密かつ包括的なローカライゼーションを実現するため、各映像イベントに関連する対象領域を示す相互補完的手がかりとして外観と動きを用いる。 各マーク領域に対して、時間的に隣接したフレームから正規化されたパッチシーケンスを抽出し、STCに積み重ねる。 それぞれのパッチとSTCのパッチシーケンスを視覚的な「ワード」と「文」と比較することにより、ある「ワード」(パッチ)を意図的に消去してVCTを生成することができる。 DNNは、VCTを完成させるために、ビデオセマンティクスによって消去されたパッチを推測するように訓練される。 時間的コンテキストを完全に活用するために、STCの各パッチは、代わりに複数のVCTを生成するために消去され、削除されたパッチの光学フローも推論され、よりリッチな動き手がかりが統合される。 一方、新しいdnnアーキテクチャは、ビデオ意味論と時間的文脈を利用するモデルレベルのソリューションとして設計されている。 大規模な実験はVCCが最先端のVAD性能を達成することを示す。 我々のコードと結果は \url{https://github.com/y uguangnudt/VEC_VAD/t ree/VCC} で公開されている。

Video abnormal event detection (VAD) is a vital semi-supervised task that requires learning with only roughly labeled normal videos, as anomalies are often practically unavailable. Although deep neural networks (DNNs) enable great progress in VAD, existing solutions typically suffer from two issues: (1) The precise and comprehensive localization of video events is ignored. (2) The video semantics and temporal context are under-explored. To address those issues, we are motivated by the prevalent cloze test in education and propose a novel approach named visual cloze completion (VCC), which performs VAD by learning to complete "visual cloze tests" (VCTs). Specifically, VCC first localizes each video event and encloses it into a spatio-temporal cube (STC). To achieve both precise and comprehensive localization, appearance and motion are used as mutually complementary cues to mark the object region associated with each video event. For each marked region, a normalized patch sequence is extracted from temporally adjacent frames and stacked into the STC. By comparing each patch and the patch sequence of a STC to a visual "word" and "sentence" respectively, we can deliberately erase a certain "word" (patch) to yield a VCT. DNNs are then trained to infer the erased patch by video semantics, so as to complete the VCT. To fully exploit the temporal context, each patch in STC is alternatively erased to create multiple VCTs, and the erased patch's optical flow is also inferred to integrate richer motion clues. Meanwhile, a new DNN architecture is designed as a model-level solution to utilize video semantics and temporal context. Extensive experiments demonstrate that VCC achieves state-of-the-art VAD performance. Our codes and results are open at \url{https://github.com/y uguangnudt/VEC_VAD/t ree/VCC}
翻訳日:2021-08-06 14:56:30 公開日:2021-08-05
# TransRefer3D:細粒度3次元視覚グラウンドのためのEntity-and-Relation Aware Transformer

TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding ( http://arxiv.org/abs/2108.02388v1 )

ライセンス: Link先を確認
Dailan he, Yusheng Zhao, Junyu Luo, Tianrui Hui, Shaofei Huang, Aixi Zhang, Si Liu(参考訳) 最近提案された細粒度3次元視覚接地は,同じカテゴリーの他の散逸した対象から自然言語文によって参照される3次元オブジェクトを識別することを目的とする,不可欠かつ困難な課題である。 既存の作業では、動的グラフネットワークを用いて間接的にモーダル内相互作用をモデル化し、視覚的および言語的内容のモノリシックな表現のため、参照対象をイントラクタと区別することが困難になる。 本研究では,変分不変な3次元点雲データに対する自然な適合性からTransformerを利用して,オブジェクト間のエンティティ・アンド・リレーショナルなマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。 具体的には,Entity-Aware Attention (EA) モジュールとRelation-Aware Attention (RA) モジュールを考案し,粒度の細かいクロスモーダルな特徴マッチングを実現する。 我々のEAモジュールは視覚的実体特徴と言語的実体特徴とを一致させる一方、RAモジュールは言語的関係特徴とペアワイドな視覚的関係特徴を一致させる。 さらに EA と RA モジュールを Entity-and-Relation aware Contextual Block (ERCB) に統合し,複数の ERCB を積み重ね,階層型マルチモーダルコンテキストモデリングのための TransRefer3D を作成する。 Nr3DデータセットとSr3Dデータセットの大規模な実験により、提案したモデルは既存のアプローチを最大10.6%上回り、新しい最先端技術を主張している。 私たちの知る限りでは、これは細かな3d視覚接地タスクのためのトランスフォーマーアーキテクチャを調査する最初の作業です。

Recently proposed fine-grained 3D visual grounding is an essential and challenging task, whose goal is to identify the 3D object referred by a natural language sentence from other distractive objects of the same category. Existing works usually adopt dynamic graph networks to indirectly model the intra/inter-modal interactions, making the model difficult to distinguish the referred object from distractors due to the monolithic representations of visual and linguistic contents. In this work, we exploit Transformer for its natural suitability on permutation-invarian t 3D point clouds data and propose a TransRefer3D network to extract entity-and-relation aware multimodal context among objects for more discriminative feature learning. Concretely, we devise an Entity-aware Attention (EA) module and a Relation-aware Attention (RA) module to conduct fine-grained cross-modal feature matching. Facilitated by co-attention operation, our EA module matches visual entity features with linguistic entity features while RA module matches pair-wise visual relation features with linguistic relation features, respectively. We further integrate EA and RA modules into an Entity-and-Relation aware Contextual Block (ERCB) and stack several ERCBs to form our TransRefer3D for hierarchical multimodal context modeling. Extensive experiments on both Nr3D and Sr3D datasets demonstrate that our proposed model significantly outperforms existing approaches by up to 10.6% and claims the new state-of-the-art. To the best of our knowledge, this is the first work investigating Transformer architecture for fine-grained 3D visual grounding task.
翻訳日:2021-08-06 14:55:58 公開日:2021-08-05
# ニューラルネットワークのための非局所ブロックの統合

Unifying Nonlocal Blocks for Neural Networks ( http://arxiv.org/abs/2108.02451v1 )

ライセンス: Link先を確認
Lei Zhu, Qi She, Duo Li, Yanye Lu, Xuejing Kang, Jie Hu, Changhu Wang(参考訳) 非局所型ブロックは、コンピュータビジョンタスクにおける長距離空間-時間依存を捉えるために設計されている。 優れたパフォーマンスを示しているが、画像やビデオの要素間のリッチで構造化された情報をエンコードするメカニズムがまだ欠けている。 本稿では,これらの非局所ブロックの特性を理論的に解析するために,これらを完全連結グラフ上に生成したグラフフィルタの集合として解釈する新たな視点を提供する。 具体的には、chebyshevグラフフィルタを選択する際に、既存の非局所ブロック(非局所ブロック、非局所ステージ、ダブルアテンションブロックなど)を説明し分析するための統一的な定式化を導出することができる。 さらに,スペクトル特性を考慮し,既存の非局所ブロックよりも深層ニューラルネットワークに挿入した場合の長距離依存性をより強固かつ柔軟に捉えることができる効率的かつ堅牢なスペクトル非局所ブロックを提案する。 実験により,画像分類,行動認識,セマンティックセグメンテーション,人物再識別タスクにおいて,提案手法の明確化と実用性を示した。

The nonlocal-based blocks are designed for capturing long-range spatial-temporal dependencies in computer vision tasks. Although having shown excellent performance, they still lack the mechanism to encode the rich, structured information among elements in an image or video. In this paper, to theoretically analyze the property of these nonlocal-based blocks, we provide a new perspective to interpret them, where we view them as a set of graph filters generated on a fully-connected graph. Specifically, when choosing the Chebyshev graph filter, a unified formulation can be derived for explaining and analyzing the existing nonlocal-based blocks (e.g., nonlocal block, nonlocal stage, double attention block). Furthermore, by concerning the property of spectral, we propose an efficient and robust spectral nonlocal block, which can be more robust and flexible to catch long-range dependencies when inserted into deep neural networks than the existing nonlocal blocks. Experimental results demonstrate the clear-cut improvements and practical applicabilities of our method on image classification, action recognition, semantic segmentation, and person re-identification tasks.
翻訳日:2021-08-06 14:55:25 公開日:2021-08-05
# LSENet:マルチクラスオーシャンフロント検出のための位置と季節拡張ネットワーク

LSENet: Location and Seasonality Enhanced Network for Multi-Class Ocean Front Detection ( http://arxiv.org/abs/2108.02455v1 )

ライセンス: Link先を確認
Cui Xie, Hao Guo, Junyu Dong(参考訳) 海洋フロントは栄養素の蓄積を招き、水中音の伝搬に影響を及ぼす可能性があるため、海洋フロント検出は海洋漁業や国防分野にとって非常に重要である。 しかし、現在の海面検出法は、検出精度が低いか、あるいは二分分類で海面の発生のみを検出できるため、異なる海域における複数の海面の特徴の違いを考慮することは稀である。 上記の問題を解決するために,画素レベルでのマルチクラス海面検出のための位置・季節性拡張ネットワーク (LSENet) と呼ばれるセグメンテーションネットワークを提案する。 本ネットワークでは,まず,海面自体の季節特性と文脈情報を統合し,検出精度を向上させるチャネル監視ユニット構造を設計する。 また,頻発する海域に応じて,海面に注意重みを適応的に割り当てる位置注意機構を導入し,多級海面検出の精度をさらに向上させる。 他のセマンティックセグメンテーション法や現在の代表的海洋前面検出法と比較して,本手法の方が有効であることを示す。

Ocean fronts can cause the accumulation of nutrients and affect the propagation of underwater sound, so high-precision ocean front detection is of great significance to the marine fishery and national defense fields. However, the current ocean front detection methods either have low detection accuracy or most can only detect the occurrence of ocean front by binary classification, rarely considering the differences of the characteristics of multiple ocean fronts in different sea areas. In order to solve the above problems, we propose a semantic segmentation network called location and seasonality enhanced network (LSENet) for multi-class ocean fronts detection at pixel level. In this network, we first design a channel supervision unit structure, which integrates the seasonal characteristics of the ocean front itself and the contextual information to improve the detection accuracy. We also introduce a location attention mechanism to adaptively assign attention weights to the fronts according to their frequently occurred sea area, which can further improve the accuracy of multi-class ocean front detection. Compared with other semantic segmentation methods and current representative ocean front detection method, the experimental results demonstrate convincingly that our method is more effective.
翻訳日:2021-08-06 14:55:08 公開日:2021-08-05
# 教師なしポイントクラウド登録のための学習動的モデルによる計画

Planning with Learned Dynamic Model for Unsupervised Point Cloud Registration ( http://arxiv.org/abs/2108.02613v1 )

ライセンス: Link先を確認
Haobo Jiang, Jianjun Qian, Jin Xie and Jian Yang(参考訳) ポイントクラウドの登録は、3Dコンピュータビジョンの基本的な問題である。 そこで,本論文では,実測と誤りにより,音源と目標点の雲間の変換を求めることができる強化学習の計画問題にポイントクラウドの登録を組み込んだ。 点雲登録プロセスをマルコフ決定プロセス(MDP)としてモデル化することにより,変換ネットワークと評価ネットワークからなる点雲の潜在動的モデルを開発する。 評価ネットワークは、変換されたソースポイントクラウドとターゲットポイントクラウドとのアライメント精度を報奨信号として予測することを目的として、その上で剛体変換(例えばアクション)を行った後に、ポイントクラウドの新たな変換特徴を予測する。 ポイントクラウドの動的モデルをトレーニングすると、ポイントクラウド登録プロセスにおける報酬を最大化して計画ポリシーを反復的に更新するためにクロスエントロピー法(CEM)を用いる。 したがって、変換の探索空間を徐々に狭めることで、最適なポリシ、すなわち、ソースとターゲットポイントの雲の間の変換を得ることができる。 ModelNet40および7Sceneベンチマークデータセットの実験結果から,本手法は教師なしで良好な登録性能が得られることが示された。

Point cloud registration is a fundamental problem in 3D computer vision. In this paper, we cast point cloud registration into a planning problem in reinforcement learning, which can seek the transformation between the source and target point clouds through trial and error. By modeling the point cloud registration process as a Markov decision process (MDP), we develop a latent dynamic model of point clouds, consisting of a transformation network and evaluation network. The transformation network aims to predict the new transformed feature of the point cloud after performing a rigid transformation (i.e., action) on it while the evaluation network aims to predict the alignment precision between the transformed source point cloud and target point cloud as the reward signal. Once the dynamic model of the point cloud is trained, we employ the cross-entropy method (CEM) to iteratively update the planning policy by maximizing the rewards in the point cloud registration process. Thus, the optimal policy, i.e., the transformation between the source and target point clouds, can be obtained via gradually narrowing the search space of the transformation. Experimental results on ModelNet40 and 7Scene benchmark datasets demonstrate that our method can yield good registration performance in an unsupervised manner.
翻訳日:2021-08-06 14:54:49 公開日:2021-08-05
# 乳腺疾患のコンピュータ診断システム:病理的観点からのモデル解釈可能性を用いた深層学習アプローチ

A Computer-Aided Diagnosis System for Breast Pathology: A Deep Learning Approach with Model Interpretability from Pathological Perspective ( http://arxiv.org/abs/2108.02656v1 )

ライセンス: Link先を確認
Wei-Wen Hsu, Yongfang Wu, Chang Hao, Yu-Ling Hou, Xiang Gao, Yun Shao, Xueli Zhang, Tao He, and Yanhong Tai(参考訳) 目的: 乳がんを伴う全スライディング画像(WSI)の病変検出と分類にディープラーニングを用いたコンピュータ支援診断(CAD)システムを開発した。 本研究では, 病的知識を用いたCADシステムにおいて, 畳み込みニューラルネットワーク (CNN) と区別される深い特徴を包括的に解釈可能であることを示す。 方法: 本実験では, 非癌, 直腸癌 (DCIS) , 浸潤性直腸癌 (IDC) の3つのカテゴリーに, 合計186個のWSIスライドを収集し, 分類した。 ピクセルワイズを3つのクラスに直接分類する代わりに,まず高倍率で領域提案の病変検出を行い,検出された各病変に対して低倍率で病変分類を行う階層的枠組みを設計した。 結果: 3カテゴリー分類のスライドレベルの精度は5倍のクロスバリデーションで90.8% (99/109) に達し,テストセットで94.8% (73/77) に達する。 その結果, 病変分類のための深層学習モデルにより得られた形態的特徴と共起特性は, 診断における臨床規則と一致していることがわかった。 結論: 深い特徴の病理学的解釈可能性は, 提案したCADシステムの信頼性を高めるだけでなく, 病理学における様々な課題のための深層学習フレームワークの開発も促進する。 意義: 本論文は, 臨床要件を満たし, 病理的観点からの解釈可能性を提供することで, 医療専門家に受け入れられる, 病理画像解析のためのCADシステムについて述べる。

Objective: We develop a computer-aided diagnosis (CAD) system using deep learning approaches for lesion detection and classification on whole-slide images (WSIs) with breast cancer. The deep features being distinguishing in classification from the convolutional neural networks (CNN) are demonstrated in this study to provide comprehensive interpretability for the proposed CAD system using pathological knowledge. Methods: In the experiment, a total of 186 slides of WSIs were collected and classified into three categories: Non-Carcinoma, Ductal Carcinoma in Situ (DCIS), and Invasive Ductal Carcinoma (IDC). Instead of conducting pixel-wise classification into three classes directly, we designed a hierarchical framework with the multi-view scheme that performs lesion detection for region proposal at higher magnification first and then conducts lesion classification at lower magnification for each detected lesion. Results: The slide-level accuracy rate for three-category classification reaches 90.8% (99/109) through 5-fold cross-validation and achieves 94.8% (73/77) on the testing set. The experimental results show that the morphological characteristics and co-occurrence properties learned by the deep learning models for lesion classification are accordant with the clinical rules in diagnosis. Conclusion: The pathological interpretability of the deep features not only enhances the reliability of the proposed CAD system to gain acceptance from medical specialists, but also facilitates the development of deep learning frameworks for various tasks in pathology. Significance: This paper presents a CAD system for pathological image analysis, which fills the clinical requirements and can be accepted by medical specialists with providing its interpretability from the pathological perspective.
翻訳日:2021-08-06 14:54:27 公開日:2021-08-05
# 顔認識と難読化システムの公平性

Fairness Properties of Face Recognition and Obfuscation Systems ( http://arxiv.org/abs/2108.02707v1 )

ライセンス: Link先を確認
Harrison Rosenberg, Brian Tang, Kassem Fawaz, and Somesh Jha(参考訳) さまざまな商業分野や政府分野における顔認識の自動生成が、個人にとって大きなプライバシー上の懸念を引き起こしている。 これらのプライバシー問題に対処する最近の一般的なアプローチは、顔認識システムを支えるメートル法埋め込みネットワークに対する回避攻撃を採用することである。 顔難読化システムは、画像に追加されると知覚不能な摂動を生成し、顔認識システムがユーザを誤識別させる。 これらのアプローチの鍵は、事前訓練されたメトリック埋め込みネットワークを使った摂動の発生と、そのモデルがプロプライエタリであるかもしれないオンラインシステムへの応用である。 顔認識の文脈で不公平であることが知られているメートル法埋め込みネットワークにおける顔難読化のこの依存は、人口統計学的公正性の問題を表面化する。 この問題に対処するために, 深層埋込ネットワークに依存する最近の顔難読化システムの性能を解析的, 実証的に調査する。 グラフ埋め込みネットワークは人口統計学的に認識されており、それらの人口統計学的特性に基づいて埋め込み空間に顔をクラスタリングしている。 マイノリティグループに属する顔は、多数派の顔に比べて有用性を低下させる。 例えば、オンラインのface++ apiでの平均難読化成功率の差は最大20ポイントに達する。 さらに、一部の人口統計グループでは、異なる人口統計グループに属するターゲットアイデンティティを同じ人口統計グループと比較すると、平均摂動サイズが最大17\%増加する。 最後に,これらの現象に対する洞察を与えるための簡易解析モデルを提案する。

The proliferation of automated facial recognition in various commercial and government sectors has caused significant privacy concerns for individuals. A recent and popular approach to address these privacy concerns is to employ evasion attacks against the metric embedding networks powering facial recognition systems. Face obfuscation systems generate imperceptible perturbations, when added to an image, cause the facial recognition system to misidentify the user. The key to these approaches is the generation of perturbations using a pre-trained metric embedding network followed by their application to an online system, whose model might be proprietary. This dependence of face obfuscation on metric embedding networks, which are known to be unfair in the context of facial recognition, surfaces the question of demographic fairness -- \textit{are there demographic disparities in the performance of face obfuscation systems?} To address this question, we perform an analytical and empirical exploration of the performance of recent face obfuscation systems that rely on deep embedding networks. We find that metric embedding networks are demographically aware; they cluster faces in the embedding space based on their demographic attributes. We observe that this effect carries through to the face obfuscation systems: faces belonging to minority groups incur reduced utility compared to those from majority groups. For example, the disparity in average obfuscation success rate on the online Face++ API can reach up to 20 percentage points. Further, for some demographic groups, the average perturbation size increases by up to 17\% when choosing a target identity belonging to a different demographic group versus the same demographic group. Finally, we present a simple analytical model to provide insights into these phenomena.
翻訳日:2021-08-06 14:53:59 公開日:2021-08-05
# クレジットカード不正検出のための局所的一級異常検出

Locally Interpretable One-Class Anomaly Detection for Credit Card Fraud Detection ( http://arxiv.org/abs/2108.02501v1 )

ライセンス: Link先を確認
Tungyu Wu, Youting Wang(参考訳) 高度に不均衡なクレジットカード不正検出問題では、既存のほとんどのメソッドはデータ拡張法または従来の機械学習モデルを使用するが、ニューラルネットワークベースの異常検出アプローチには欠けている。 さらに、ブラックボックス詐欺検出モジュールにとって重要なトランザクションデータの特徴的重要性を調べるために、ai解釈ツールを用いた研究は少ない。 これら2点を合わせて,クレジットカード不正検出のための新たな異常検出フレームワークと,予測説明を行うモデル記述モジュールを提案する。 不正検出モデルは2つのディープニューラルネットワークで構成され、教師なしかつ敵対的な方法でトレーニングされる。 正確には、ジェネレータは本物のトランザクションデータを再構築するためのオートエンコーダであり、判別器は不正検出のための完全接続されたネットワークである。 説明モジュールは、それぞれオートエンコーダ、判別器、および検出モデル全体の解釈を担当する3つのホワイトボックス説明器を有する。 実験の結果, ベースラインと比較して, ベンチマークデータセット上での不正検出モデルの最先端性能が示された。 さらに、3つの説明者による予測分析を行い、興味のあるインスタンスのそれぞれの特徴が最終的なモデル出力にどのように貢献するかを明確にする。

For the highly imbalanced credit card fraud detection problem, most existing methods either use data augmentation methods or conventional machine learning models, while neural network-based anomaly detection approaches are lacking. Furthermore, few studies have employed AI interpretability tools to investigate the feature importance of transaction data, which is crucial for the black-box fraud detection module. Considering these two points together, we propose a novel anomaly detection framework for credit card fraud detection as well as a model-explaining module responsible for prediction explanations. The fraud detection model is composed of two deep neural networks, which are trained in an unsupervised and adversarial manner. Precisely, the generator is an AutoEncoder aiming to reconstruct genuine transaction data, while the discriminator is a fully-connected network for fraud detection. The explanation module has three white-box explainers in charge of interpretations of the AutoEncoder, discriminator, and the whole detection model, respectively. Experimental results show the state-of-the-art performances of our fraud detection model on the benchmark dataset compared with baselines. In addition, prediction analyses by three explainers are presented, offering a clear perspective on how each feature of an instance of interest contributes to the final model output.
翻訳日:2021-08-06 14:53:18 公開日:2021-08-05
# 選び方を学ぶ

Learning to Elect ( http://arxiv.org/abs/2108.02768v1 )

ライセンス: Link先を確認
Cem Anil, Xuchan Bao(参考訳) 投票システムには、推薦システム、ウェブ検索、製品デザイン、選挙など幅広いアプリケーションがある。 汎用分析ツールの欠如により、ユースケースごとに望ましい投票ルールを手作業で設計することは困難である。 そのため,各シナリオを対象とした投票ルールを自動的に発見することが望ましい。 本稿では,Set Transformersや完全連結グラフネットワーク,DeepSetsといったセットインプットニューラルネットワークアーキテクチャが,理論的にも経験的にも投票規則の学習に適していることを示す。 特に,これらのネットワークモデルは,複数の既存投票ルールを模倣して,位置ベース(複数,ボルダなど)と比較ベース(ケメニー,コープランド,マクシミンなど)の両方の説得力のある正確性を実現するだけでなく,異なる社会福祉機能を最大化する最適に近い投票ルールも発見できることを示す。 さらに, 学習した投票ルールは, 異なる投票率分布と, 訓練中は見当たらない選挙規模によく一般化する。

Voting systems have a wide range of applications including recommender systems, web search, product design and elections. Limited by the lack of general-purpose analytical tools, it is difficult to hand-engineer desirable voting rules for each use case. For this reason, it is appealing to automatically discover voting rules geared towards each scenario. In this paper, we show that set-input neural network architectures such as Set Transformers, fully-connected graph networks and DeepSets are both theoretically and empirically well-suited for learning voting rules. In particular, we show that these network models can not only mimic a number of existing voting rules to compelling accuracy --- both position-based (such as Plurality and Borda) and comparison-based (such as Kemeny, Copeland and Maximin) --- but also discover near-optimal voting rules that maximize different social welfare functions. Furthermore, the learned voting rules generalize well to different voter utility distributions and election sizes unseen during training.
翻訳日:2021-08-06 14:52:37 公開日:2021-08-05
# AutoLL: ディープニューラルネットワークに基づくグラフの自動線形レイアウト

AutoLL: Automatic Linear Layout of Graphs based on Deep Neural Network ( http://arxiv.org/abs/2108.02431v1 )

ライセンス: Link先を確認
Chihiro Watanabe, Taiji Suzuki(参考訳) リニアレイアウトは、与えられたグラフの隣接行列のエントリパターンをキャプチャするために使用できるグラフ可視化手法である。 元の隣接行列のノードインデックスを並べ替えることで、線形レイアウトは潜在グラフ構造に関する知識を提供する。 従来の線形配置法は、与えられた行列と損失関数の事前定義された特徴に基づいて最適な並べ替え解を求めるのが一般的である。 しかし、特定の隣接行列で使用する適切な機能や構造パターンに関する事前知識は必ずしも得られない。 この場合、隣接行列における特定の構造を仮定することなく、データ駆動特徴抽出に基づく再順序付けが好ましい。 近年,DeepTMRと呼ばれるニューラルネットワークによる行列再構成手法が提案されている。 しかし、二モードリ順序付け(行と列は別々に再順序付けされる)に限定されており、モデルアーキテクチャの特徴から一モード設定(つまり、列と列の両方を再順序付けするために同じノード順序が使用される)では適用できない。 本研究では,DeepTMRを拡張し,AutoLLと呼ばれる新しい1モード線形レイアウト手法を提案する。 指向性ネットワークと非指向性ネットワークを並べ替える2種類のニューラルネットワークモデルであるAutoLL-DとAutoLL-Uを開発した。 1モードのリオーダを実行するために、これらのautollモデルは特定のエンコーダアーキテクチャを持ち、観測された隣接マトリックスからノードの特徴を抽出する。 提案手法の質的および定量的評価を行い,その有効性を実証した。

Linear layouts are a graph visualization method that can be used to capture an entry pattern in an adjacency matrix of a given graph. By reordering the node indices of the original adjacency matrix, linear layouts provide knowledge of latent graph structures. Conventional linear layout methods commonly aim to find an optimal reordering solution based on predefined features of a given matrix and loss function. However, prior knowledge of the appropriate features to use or structural patterns in a given adjacency matrix is not always available. In such a case, performing the reordering based on data-driven feature extraction without assuming a specific structure in an adjacency matrix is preferable. Recently, a neural-network-based matrix reordering method called DeepTMR has been proposed to perform this function. However, it is limited to a two-mode reordering (i.e., the rows and columns are reordered separately) and it cannot be applied in the one-mode setting (i.e., the same node order is used for reordering both rows and columns), owing to the characteristics of its model architecture. In this study, we extend DeepTMR and propose a new one-mode linear layout method referred to as AutoLL. We developed two types of neural network models, AutoLL-D and AutoLL-U, for reordering directed and undirected networks, respectively. To perform one-mode reordering, these AutoLL models have specific encoder architectures, which extract node features from an observed adjacency matrix. We conducted both qualitative and quantitative evaluations of the proposed approach, and the experimental results demonstrate its effectiveness.
翻訳日:2021-08-06 14:52:16 公開日:2021-08-05
# 小データ構造におけるランダム材料ミクロ構造の自己監督的最適化

Self-supervised optimization of random material microstructures in the small-data regime ( http://arxiv.org/abs/2108.02606v1 )

ライセンス: Link先を確認
Maximilian Rixner, Phaedon-Stelios Koutsourelakis(参考訳) プロセス構造・プロパティーチェーンの前方および後方のモデリングは材料コミュニティから多くの注目を集めているが、不確実性を考慮する努力は少ない。 これらは多種多様な源から発生し、その定量化と反転過程の統合は材料設計の目的を達成する上で不可欠である。 この論文の最初の貢献は、プロセス構造と構造プロパティのリンクの不確実性を考慮して、最適な高次元のプロセスパラメータの同定を可能にするような最適化問題の柔軟で完全な確率的定式化である。 我々は、計算を高速化し、非微分目標の処理を可能にする構造-プロパティリンクに対して確率論的データ駆動サロゲートを用いる。 これを、新しいアクティブラーニング戦略、すなわち、新しいアクティブラーニング戦略と組み合わせる。 少量のトレーニングデータを必要としながら精度を大幅に向上させる、自己監督型のデータの収集。 二相ランダム媒体の機械的および熱的特性を最適化する効果を実証するが、その適用性は多種多様な微視的設計問題を含んでいる。

While the forward and backward modeling of the process-structure-pr operty chain has received a lot of attention from the materials community, fewer efforts have taken into consideration uncertainties. Those arise from a multitude of sources and their quantification and integration in the inversion process are essential in meeting the materials design objectives. The first contribution of this paper is a flexible, fully probabilistic formulation of such optimization problems that accounts for the uncertainty in the process-structure and structure-property linkages and enables the identification of optimal, high-dimensional, process parameters. We employ a probabilistic, data-driven surrogate for the structure-property link which expedites computations and enables handling of non-differential objectives. We couple this with a novel active learning strategy, i.e. a self-supervised collection of data, which significantly improves accuracy while requiring small amounts of training data. We demonstrate its efficacy in optimizing the mechanical and thermal properties of two-phase, random media but envision its applicability encompasses a wide variety of microstructure-sensi tive design problems.
翻訳日:2021-08-06 14:51:51 公開日:2021-08-05
# No Regretを超える: インスタンス依存のPAC強化学習

Beyond No Regret: Instance-Dependent PAC Reinforcement Learning ( http://arxiv.org/abs/2108.02717v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Max Simchowitz, Kevin Jamieson(参考訳) 強化学習の理論は、2つの基本的な問題に焦点をあてている: 後悔の少ないこと、そして$\epsilon$-Optimal Policyを同定する。 簡単な減算法では、$\epsilon$-optimal policy と the worst-casetimal rate をローレグレットアルゴリズムに適用できるが、低レグレットアルゴリズムがポリシー識別のインスタンス最適化率を得ることができるかどうかは不明である。 低い後悔を達成することと、インスタンス最適化率で$\epsilon$-Optimalポリシーを特定することの間には、根本的なトレードオフが存在する。 そこで本研究では, PAC表層強化学習において, MDPの達成可能な状態訪問分布を明示的に考慮し, インスタンス依存型サンプル複雑性の新たな尺度を提案する。 次に,このサンプル複雑性を達成するための新しい計画ベースアルゴリズムを提案し解析し,準最適ギャップと状態の'到達可能性'にスケールする複雑性をもたらす。 我々のアルゴリズムは最小限の最適値であり、いくつかの例では、インスタンス依存のサンプル複雑性は最悪のケース境界よりも大幅に改善されている。

The theory of reinforcement learning has focused on two fundamental problems: achieving low regret, and identifying $\epsilon$-optimal policies. While a simple reduction allows one to apply a low-regret algorithm to obtain an $\epsilon$-optimal policy and achieve the worst-case optimal rate, it is unknown whether low-regret algorithms can obtain the instance-optimal rate for policy identification. We show that this is not possible -- there exists a fundamental tradeoff between achieving low regret and identifying an $\epsilon$-optimal policy at the instance-optimal rate. Motivated by our negative finding, we propose a new measure of instance-dependent sample complexity for PAC tabular reinforcement learning which explicitly accounts for the attainable state visitation distributions in the underlying MDP. We then propose and analyze a novel, planning-based algorithm which attains this sample complexity -- yielding a complexity which scales with the suboptimality gaps and the ``reachability'' of a state. We show that our algorithm is nearly minimax optimal, and on several examples that our instance-dependent sample complexity offers significant improvements over worst-case bounds.
翻訳日:2021-08-06 14:51:33 公開日:2021-08-05
# 白血球分類のためのパラレルカプセルネットワーク

Parallel Capsule Networks for Classification of White Blood Cells ( http://arxiv.org/abs/2108.02644v1 )

ライセンス: Link先を確認
Juan P. Vigueras-Guill\' ;en, Arijit Patra, Ola Engkvist, and Frank Seeliger(参考訳) Capsule Networks(CapsNets)は、畳み込みニューラルネットワーク(CNN)の欠点を克服するために提案された機械学習アーキテクチャである。 しかし、CapsNetsは主に、画像が小さく、/または識別するオブジェクトが最小のバックグラウンドノイズを持つデータセットでCNNを上回っている。 本研究では,特定のカプセルを分離するためにネットワークを分岐するという概念を利用して,各ブランチで異なるエンティティを識別する,新しいアーキテクチャであるCapsNetsを提案する。 この概念を現在の2種類のCapsNetアーキテクチャに適用し、カプセル層が異なるネットワークの性能について検討した。 急性骨髄性白血病画像(15クラス)を公開,高度にバランスの取れないデータセットで検討した。 実験の結果,従来の CapsNet はベースライン CNN (ResNeXt-50) と同等の性能を示したが,不安定性の問題を示した。 対照的に、並列CapsNetsはResNeXt-50より優れ、より安定しており、従来のCapsNetsやResNeXt-50よりも回転不変性が高い。

Capsule Networks (CapsNets) is a machine learning architecture proposed to overcome some of the shortcomings of convolutional neural networks (CNNs). However, CapsNets have mainly outperformed CNNs in datasets where images are small and/or the objects to identify have minimal background noise. In this work, we present a new architecture, parallel CapsNets, which exploits the concept of branching the network to isolate certain capsules, allowing each branch to identify different entities. We applied our concept to the two current types of CapsNet architectures, studying the performance for networks with different layers of capsules. We tested our design in a public, highly unbalanced dataset of acute myeloid leukaemia images (15 classes). Our experiments showed that conventional CapsNets show similar performance than our baseline CNN (ResNeXt-50) but depict instability problems. In contrast, parallel CapsNets can outperform ResNeXt-50, is more stable, and shows better rotational invariance than both, conventional CapsNets and ResNeXt-50.
翻訳日:2021-08-06 14:50:57 公開日:2021-08-05
# 資源制約ハードウェアにおける単眼深度推定のための視覚領域適応

Visual Domain Adaptation for Monocular Depth Estimation on Resource-Constrained Hardware ( http://arxiv.org/abs/2108.02671v1 )

ライセンス: Link先を確認
Julia Hornauer, Lazaros Nalpantidis, Vasileios Belagiannis(参考訳) 実世界の知覚システムは、輸送システムのコストと電力制限に固執するため、限られたリソースを持つハードウェア上に構築されることが多い。 リソースに制約のあるハードウェアにディープニューラルネットワークをデプロイすることは、モデル圧縮技術と効率的なハードウェア対応アーキテクチャ設計によって可能になった。 しかし、多様な運用環境のためにモデル適応も必要である。 本稿では,視覚領域適応の文脈において,リソース制約ハードウェア上でディープニューラルネットワークをトレーニングする問題に対処する。 我々は,事前学習したモデルを対象のドメインデータに変換することを目的とした単眼深度推定のタスクを選択する。 ソースドメインにはラベルが含まれているが、実際のアプリケーションで発生するように、ラベルのないターゲットドメインを仮定する。 次に,限られたリソースでデバイス上でのトレーニングに適応した,敵対的学習手法を提案する。 視覚領域適応以来、すなわち、 ニューラルネットワークトレーニングは、これまでリソース制約のあるハードウェアとして研究されていないが、画像に基づく深度推定のための最初の実現可能性研究を示す。 実験では,効率的なネットワークアーキテクチャとトレーニングセットにのみ,数百サンプルの順序で視覚領域適応が関与することを示した。 モデルとコードは公開されている。

Real-world perception systems in many cases build on hardware with limited resources to adhere to cost and power limitations of their carrying system. Deploying deep neural networks on resource-constrained hardware became possible with model compression techniques, as well as efficient and hardware-aware architecture design. However, model adaptation is additionally required due to the diverse operation environments. In this work, we address the problem of training deep neural networks on resource-constrained hardware in the context of visual domain adaptation. We select the task of monocular depth estimation where our goal is to transform a pre-trained model to the target's domain data. While the source domain includes labels, we assume an unlabelled target domain, as it happens in real-world applications. Then, we present an adversarial learning approach that is adapted for training on the device with limited resources. Since visual domain adaptation, i.e. neural network training, has not been previously explored for resource-constrained hardware, we present the first feasibility study for image-based depth estimation. Our experiments show that visual domain adaptation is relevant only for efficient network architectures and training sets at the order of a few hundred samples. Models and code are publicly available.
翻訳日:2021-08-06 14:50:36 公開日:2021-08-05
# 大きな病理組織像に対する完全畳み込み線条体の再設計

Redesigning Fully Convolutional DenseUNets for Large Histopathology Images ( http://arxiv.org/abs/2108.02676v1 )

ライセンス: Link先を確認
Juan P. Vigueras-Guill\' ;en, Joan Lasenby, and Frank Seeliger(参考訳) 病理組織像におけるがん組織の自動分割は、臨床医がそのような疾患を検出し、診断し、分析するのに役立つ。 ベンチマークのために多くの畳み込みネットワークで使用される他の自然画像とは異なり、病理像は非常に大きく、がんのパターンは1000ピクセルを超える。 そのため、文学における有名なネットワークは、これらの特質を扱うために決して考えられなかった。 本研究では,特に病理組織学の問題を解決するために設計された完全畳み込みDenseUNetを提案する。 最近のMICCAI 2019の課題として,大腸癌画像の2値分割(DigestPath2019)と前立腺癌画像の複数クラス分割(Gleason2019)の2つの公開病理データセットを用いてネットワークを評価し,各課題の勝者と類似した結果を得た。 さらに,これらの病理組織学データセットにおいて,最良の成績を得るためのトレーニングセットアップの優れたプラクティスと,主な課題について論じた。

The automated segmentation of cancer tissue in histopathology images can help clinicians to detect, diagnose, and analyze such disease. Different from other natural images used in many convolutional networks for benchmark, histopathology images can be extremely large, and the cancerous patterns can reach beyond 1000 pixels. Therefore, the well-known networks in the literature were never conceived to handle these peculiarities. In this work, we propose a Fully Convolutional DenseUNet that is particularly designed to solve histopathology problems. We evaluated our network in two public pathology datasets published as challenges in the recent MICCAI 2019: binary segmentation in colon cancer images (DigestPath2019), and multi-class segmentation in prostate cancer images (Gleason2019), achieving similar and better results than the winners of the challenges, respectively. Furthermore, we discussed some good practices in the training setup to yield the best performance and the main challenges in these histopathology datasets.
翻訳日:2021-08-06 14:50:18 公開日:2021-08-05
# Rotaflip: 医療画像の規則化と回転不変性のための新しいCNNレイヤー

Rotaflip: A New CNN Layer for Regularization and Rotational Invariance in Medical Images ( http://arxiv.org/abs/2108.02704v1 )

ライセンス: Link先を確認
Juan P. Vigueras-Guill\' ;en, Joan Lasenby, and Frank Seeliger(参考訳) 畳み込みニューラルネットワーク(CNN)の規則化は通常、ドロップアウト層で対処される。 しかし、ドロップアウトはcnnの畳み込み部分において、単にフィーチャーマップのピクセルの比率をゼロに設定し、トレーニング中に表現できない例を追加するため、しばしば有害である。 本稿では,各畳み込み層の後,少数の特徴写像に対して反射のランダムな回転を適用して正規化を行うCNN層を提案する。 この概念は, 医療画像などの方位対称性を持つ画像に対して, ある程度の回転不変性を与えるため, 有効であることを示す。 本手法を2つのデータセットで検証し, 総称的密集網を用いて分類を行うパッチベースの組織病理画像(patchcamelyon)と, 角膜内皮の鏡像のセットを用いて, 調整したu-netを用いてセグメンテーションを行い, 両症例における性能を改善した。

Regularization in convolutional neural networks (CNNs) is usually addressed with dropout layers. However, dropout is sometimes detrimental in the convolutional part of a CNN as it simply sets to zero a percentage of pixels in the feature maps, adding unrepresentative examples during training. Here, we propose a CNN layer that performs regularization by applying random rotations of reflections to a small percentage of feature maps after every convolutional layer. We prove how this concept is beneficial for images with orientational symmetries, such as in medical images, as it provides a certain degree of rotational invariance. We tested this method in two datasets, a patch-based set of histopathology images (PatchCamelyon) to perform classification using a generic DenseNet, and a set of specular microscopy images of the corneal endothelium to perform segmentation using a tailored U-net, improving the performance in both cases.
翻訳日:2021-08-06 14:50:02 公開日:2021-08-05
# 生成逆ネットワークを用いた3次元顕微鏡画像の半・自己監督多視点融合

Semi- and Self-Supervised Multi-View Fusion of 3D Microscopy Images using Generative Adversarial Networks ( http://arxiv.org/abs/2108.02743v1 )

ライセンス: Link先を確認
Canyu Yang, Dennis Eschweiler, Johannes Stegmaier(参考訳) 蛍光顕微鏡の最近の進歩により、生体の高分解能3d画像の撮影が可能となった。 さらに大きな標本を撮影するために、マルチビュー・ライトシート・イメージングのような技術は各時点ごとに異なる向きを記録し、それを単一の高品質なボリュームに融合させる。 測定点拡散関数 (PSF) に基づいて、デコンボリューションとコンテント融合は、撮像過程中に生じる必然的な劣化を大きく戻すことができる。 古典的なマルチビューデコンボリューションと融合法は、主に反復手順とコンテンツベースの平均化を用いる。 最近では、畳み込みニューラルネットワーク(CNN)が3次元の1次元デ畳み込み顕微鏡にアプローチするためにデプロイされているが、マルチビューケースは研究が待たれている。 今回我々は,cnnを用いた多視点デコンボリューションと融合法について,胚の発達を模倣し,相補的な3dビューを2つまたは4つ含む2つの合成データセットを用いて検討した。 従来の最先端手法と比較して,提案する半教師付きモデルと自己教師付きモデルは,それぞれ2視点と4視点のケースにおいて,競争性と優れた縮合性と融合品質を達成している。

Recent developments in fluorescence microscopy allow capturing high-resolution 3D images over time for living model organisms. To be able to image even large specimens, techniques like multi-view light-sheet imaging record different orientations at each time point that can then be fused into a single high-quality volume. Based on measured point spread functions (PSF), deconvolution and content fusion are able to largely revert the inevitable degradation occurring during the imaging process. Classical multi-view deconvolution and fusion methods mainly use iterative procedures and content-based averaging. Lately, Convolutional Neural Networks (CNNs) have been deployed to approach 3D single-view deconvolution microscopy, but the multi-view case waits to be studied. We investigated the efficacy of CNN-based multi-view deconvolution and fusion with two synthetic data sets that mimic developing embryos and involve either two or four complementary 3D views. Compared with classical state-of-the-art methods, the proposed semi- and self-supervised models achieve competitive and superior deconvolution and fusion quality in the two-view and quad-view cases, respectively.
翻訳日:2021-08-06 14:49:42 公開日:2021-08-05
# Sinsy: ディープニューラルネットワークによる歌声合成システム

Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System ( http://arxiv.org/abs/2108.02776v1 )

ライセンス: Link先を確認
Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda(参考訳) 本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。 近年、DNNは統計パラメトリックSVSシステムで利用されており、DNNベースのSVSシステムは従来のマルコフモデルよりも優れた性能を示している。 SVSシステムは、特定の楽譜に厳密に従うピッチとタイミングで歌声を合成する必要がある。 また、ビブラートやタイミングゆらぎなどの楽譜に記載されていない歌唱表現を再生する必要がある。 提案するシステムは4つのモジュールで構成される: タイムラグモデル, 持続時間モデル, 音響モデル, ボコーダであり, 歌唱音声の特徴を考慮した歌唱音声合成が可能である。 歌唱音声のモデル化を改善するため,提案手法ではピッチやビブラートをモデル化する手法が改良され,音響モデルへの訓練基準が向上した。 さらに,ピッチに頑健な非自己回帰型ニューラルボコーダである periodnet をシステムに統合し,高忠実度歌唱音声波形を生成する。 さらに,DNNをベースとしたSVSの自動ピッチ補正手法を提案し,トレーニングデータにアウトオブチューン句がある場合でも,正しいピッチで歌唱音声を合成する。 実験結果から,歌唱音声をより適切なタイミング,より自然なビブラート,正しいピッチで合成し,主観評価試験における平均評価スコアを向上できることが示された。

This paper presents Sinsy, a deep neural network (DNN)-based singing voice synthesis (SVS) system. In recent years, DNNs have been utilized in statistical parametric SVS systems, and DNN-based SVS systems have demonstrated better performance than conventional hidden Markov model-based ones. SVS systems are required to synthesize a singing voice with pitch and timing that strictly follow a given musical score. Additionally, singing expressions that are not described on the musical score, such as vibrato and timing fluctuations, should be reproduced. The proposed system is composed of four modules: a time-lag model, a duration model, an acoustic model, and a vocoder, and singing voices can be synthesized taking these characteristics of singing voices into account. To better model a singing voice, the proposed system incorporates improved approaches to modeling pitch and vibrato and better training criteria into the acoustic model. In addition, we incorporated PeriodNet, a non-autoregressive neural vocoder with robustness for the pitch, into our systems to generate a high-fidelity singing voice waveform. Moreover, we propose automatic pitch correction techniques for DNN-based SVS to synthesize singing voices with correct pitch even if the training data has out-of-tune phrases. Experimental results show our system can synthesize a singing voice with better timing, more natural vibrato, and correct pitch, and it can achieve better mean opinion scores in subjective evaluation tests.
翻訳日:2021-08-06 14:49:20 公開日:2021-08-05
# 医療における臨床診断支援システムとエッジコンピューティングのためのLogNNetを用いた医療データ分析手法

A Method for Medical Data Analysis Using the LogNNet for Clinical Decision Support Systems and Edge Computing in Healthcare ( http://arxiv.org/abs/2108.02428v1 )

ライセンス: Link先を確認
Andrei Velichko(参考訳) 本研究では,入力情報変換のためのカオスマッピングを用いたlognnetニューラルネットワークに基づく医療データ解析手法を提案する。 本手法は、患者に疾患が存在する際の危険因子を、一連の医療健康指標に従って算出する。 LogNNetアーキテクチャは、低RAMリソースを持つモノのインターネットの医療用周辺部における人工知能の実装と、医療におけるエッジコンピューティングの開発を可能にする。 uc irvine machine learning repositoryから得られた2126名の妊婦の心電図データから, 周産リスク評価におけるlognnetの有効性を示した。 分類精度はおよそ91%に達し、Arduinoマイクロコントローラで使用されるRAMは3~10kBである。 さらに、イスラエル保健省の公開データベースでトレーニングされたlognnetを使用して、covid-19診断の例も提供されている。 サービスの概念は、COVID-19のエクスプレステストのデータを使用し、Arduinoマイクロコントローラで使用される約0.6kBのRAMで95%の分類精度に達した。 すべての例において、モデルは標準的な分類品質指標(Precision、Recall、F1-measure)を使用してテストされる。 本研究結果は臨床意思決定支援システムで利用可能である。

The study presents a new method for analyzing medical data based on the LogNNet neural network, which uses chaotic mappings to transform input information. The technique calculates risk factors for the presence of a disease in a patient according to a set of medical health indicators. The LogNNet architecture allows the implementation of artificial intelligence on medical pe-ripherals of the Internet of Things with low RAM resources, and the development of edge computing in healthcare. The efficiency of LogNNet in assessing perinatal risk is illustrated on cardiotocogram data of 2126 pregnant women, obtained from the UC Irvine machine learning repository. The classification accuracy reaches ~ 91%, with the ~ 3-10 kB of RAM used on the Arduino microcontroller. In addition, examples for diagnosing COVID-19 are provided, using LogNNet trained on a publicly available database from the Israeli Ministry of Health. The service concept has been developed, which uses the data of the express test for COVID-19 and reaches the classification accuracy of ~ 95% with the ~ 0.6 kB of RAM used on Arduino microcontrollers. In all examples, the model is tested using standard classification quality metrics: Precision, Recall, and F1-measure. The study results can be used in clinical decision support systems.
翻訳日:2021-08-06 14:48:29 公開日:2021-08-05
# 語彙とテクスチャデータに基づくMLモデルの意図しないバイアス低減

Reducing Unintended Bias of ML Models on Tabular and Textual Data ( http://arxiv.org/abs/2108.02662v1 )

ライセンス: Link先を確認
Guilherme Alves, Maxime Amblard, Fabien Bernier, Miguel Couceiro and Amedeo Napoli(参考訳) 機械学習(ML)モデルにおける意図しないバイアスは、MLに対する公的な信頼を維持するために対処しなければならない主要な関心事の一つである。 本稿では,その性能を損なうことなく,感度特性へのモデル依存を低減させるMLモデルのプロセスフェアネスについて述べる。 より公平なモデルを構築するための"無意識によるフェアネス"アプローチに触発されたフレームワークフィクスアウトを再考する。 我々は fixout パラメータの選択を自動化するなど,いくつかの改良点を導入する。 FixOutはもともと、表データのMLモデルの公平性を改善するために提案されていた。 また,テキストデータを用いたモデルに対するfixoutのワークフローの実現可能性を示す。 我々は、FixOutが異なる分類設定におけるプロセスの公平性を改善することを示す実験結果をいくつか提示する。

Unintended biases in machine learning (ML) models are among the major concerns that must be addressed to maintain public trust in ML. In this paper, we address process fairness of ML models that consists in reducing the dependence of models on sensitive features, without compromising their performance. We revisit the framework FixOut that is inspired in the approach "fairness through unawareness" to build fairer models. We introduce several improvements such as automating the choice of FixOut's parameters. Also, FixOut was originally proposed to improve fairness of ML models on tabular data. We also demonstrate the feasibility of FixOut's workflow for models on textual data. We present several experimental results that illustrate the fact that FixOut improves process fairness on different classification settings.
翻訳日:2021-08-06 14:47:43 公開日:2021-08-05
# プライベート最適化における機能障害と成長条件への適応

Adapting to Function Difficulty and Growth Conditions in Private Optimization ( http://arxiv.org/abs/2108.02391v1 )

ライセンス: Link先を確認
Hilal Asi, Daniel Levy, John Duchi(参考訳) 我々は、最適化したい特定の関数の硬さに適応するプライベート確率凸最適化アルゴリズムを開発した。 以前の研究は任意の凸関数に対して最悪のケース境界を提供するが、手元の関数がより高速なレートを持つより小さなクラスに属する場合が多い。 具体的には、$f(x) \ge f(x^*) + \lambda \kappa^{-1} \|x-x^*\|_2^\kappa$ for $\kappa > 1$という最適値の周りに$\kappa$成長を示す関数に対して、アルゴリズムは標準の${\sqrt{d}}/{n\varepsilon}$プライバシレートを$({\sqrt{d}}/{n\varepsilon})^{\tfrac{\kappa}{\kappa - 1}}$に改善することを示す。 重要なことに、彼らは関数の成長定数$\kappa$を知らずにこれらのレートを達成する。 我々のアルゴリズムは、インスタンス難易度(asi & duchi, 2020)と最近のプライベート最適化におけるローカライズ技術(feldman et al., 2020)に適応する逆感度機構に基づいている。 これらの関数クラスに対する下界のマッチングでアルゴリズムを補完し、適応的アルゴリズムがすべての$\kappa \ge 1+c$に対して \emph{simultanely} (minimax) 最適であることを証明する。

We develop algorithms for private stochastic convex optimization that adapt to the hardness of the specific function we wish to optimize. While previous work provide worst-case bounds for arbitrary convex functions, it is often the case that the function at hand belongs to a smaller class that enjoys faster rates. Concretely, we show that for functions exhibiting $\kappa$-growth around the optimum, i.e., $f(x) \ge f(x^*) + \lambda \kappa^{-1} \|x-x^*\|_2^\kappa$ for $\kappa > 1$, our algorithms improve upon the standard ${\sqrt{d}}/{n\varepsilon}$ privacy rate to the faster $({\sqrt{d}}/{n\varepsilon})^{\tfrac{\kappa}{\kappa - 1}}$. Crucially, they achieve these rates without knowledge of the growth constant $\kappa$ of the function. Our algorithms build upon the inverse sensitivity mechanism, which adapts to instance difficulty (Asi & Duchi, 2020), and recent localization techniques in private optimization (Feldman et al., 2020). We complement our algorithms with matching lower bounds for these function classes and demonstrate that our adaptive algorithm is \emph{simultaneously} (minimax) optimal over all $\kappa \ge 1+c$ whenever $c = \Theta(1)$.
翻訳日:2021-08-06 14:46:28 公開日:2021-08-05
# 変分ベイズ空間相互作用モデルによる事業施設の収益と需要の推定

A variational Bayesian spatial interaction model for estimating revenue and demand at business facilities ( http://arxiv.org/abs/2108.02594v1 )

ライセンス: Link先を確認
Shanaka Perera, Virginia Aglietti, Theodoros Damoulas(参考訳) 事業施設における潜在的な収益や需要を推定し、その発生メカニズムを理解するという課題について検討する。 この問題は運用研究や都市科学といった様々な分野で発生し、より一般的には、ビジネスの計画や意思決定に不可欠である。 そこで我々はベイズ空間相互作用モデルを開発し、特定のビジネスロケーションが生み出す収益を確率論的に予測し、その特徴と、ある地域での潜在的な顧客特性を推定する。 BSIMは、店舗固有のガウス分布を所定の顧客位置で評価することによって決定される確率値を用いて、競争施設間の競争を明示的に説明する。 我々は,マルコフ連鎖モンテカルロ推論スキームよりもかなり高速であるが,パラメータ同定や不確実性定量化において同等の性能を示すスケーラブルな変分推論フレームワークを提案する。 店舗や顧客の増加により特徴付けられる様々な合成環境におけるBSIMの利点を実証する。 最後に,1500以上のパブと15万の顧客地域を含む,パブ活動のための実世界の大規模空間データセットを構築した。 我々はBSIMが、ロンドン地域で観測された関連する指標と解釈可能かつ整合性のある結果を提供しながら、予測性能の観点から、この大きなデータセットの競合するアプローチよりも優れていることを示す。

We study the problem of estimating potential revenue or demand at business facilities and understanding its generating mechanism. This problem arises in different fields such as operation research or urban science, and more generally, it is crucial for businesses' planning and decision making. We develop a Bayesian spatial interaction model, henceforth BSIM, which provides probabilistic predictions about revenues generated by a particular business location provided their features and the potential customers' characteristics in a given region. BSIM explicitly accounts for the competition among the competitive facilities through a probability value determined by evaluating a store-specific Gaussian distribution at a given customer location. We propose a scalable variational inference framework that, while being significantly faster than competing Markov Chain Monte Carlo inference schemes, exhibits comparable performances in terms of parameters identification and uncertainty quantification. We demonstrate the benefits of BSIM in various synthetic settings characterised by an increasing number of stores and customers. Finally, we construct a real-world, large spatial dataset for pub activities in London, UK, which includes over 1,500 pubs and 150,000 customer regions. We demonstrate how BSIM outperforms competing approaches on this large dataset in terms of prediction performances while providing results that are both interpretable and consistent with related indicators observed for the London region.
翻訳日:2021-08-06 14:45:51 公開日:2021-08-05
# 未知演算子を用いた逆問題に対するディープラーニング

Deep learning for inverse problems with unknown operator ( http://arxiv.org/abs/2108.02744v1 )

ライセンス: Link先を確認
Miguel del Alamo(参考訳) フォワード演算子$T$が不明な不適切な逆問題を考え、代わりに関数$f_i$とノイズの多いイメージ$Tf_i$からなるトレーニングデータにアクセスすることができる。 これは、現在の方法がトレーニングセットの強い仮定の下でのみ解決できる、実際に適切で挑戦的な問題である。 本稿では,データに対する仮定を最小にし,訓練点数と騒音レベルに依存する復元率を証明する新しい手法を提案する。 我々は,「多くの」トレーニングデータの体系において,この手法が極小最適であることを示す。 提案手法は畳み込みニューラルネットワーク(u-nets)の一種と経験的リスク最小化を用いて未知の演算子を"適合"する。 一つ目は、u-netをウェーブレットのようなマルチスケール分解に関連付けることであり、それによって既存の理論と結びつけることであり、二つ目は、u-netの階層構造と畳み込みニューラルネットワークのパラメータを、実際に有用であるエントロピー境界を証明するために使うことである。 非パラメトリック統計学におけるニューラルネットワークの既存の研究との大きな違いは、演算子を関数ではなく近似演算子に利用していることである。

We consider ill-posed inverse problems where the forward operator $T$ is unknown, and instead we have access to training data consisting of functions $f_i$ and their noisy images $Tf_i$. This is a practically relevant and challenging problem which current methods are able to solve only under strong assumptions on the training set. Here we propose a new method that requires minimal assumptions on the data, and prove reconstruction rates that depend on the number of training points and the noise level. We show that, in the regime of "many" training data, the method is minimax optimal. The proposed method employs a type of convolutional neural networks (U-nets) and empirical risk minimization in order to "fit" the unknown operator. In a nutshell, our approach is based on two ideas: the first is to relate U-nets to multiscale decompositions such as wavelets, thereby linking them to the existing theory, and the second is to use the hierarchical structure of U-nets and the low number of parameters of convolutional neural nets to prove entropy bounds that are practically useful. A significant difference with the existing works on neural networks in nonparametric statistics is that we use them to approximate operators and not functions, which we argue is mathematically more natural and technically more convenient.
翻訳日:2021-08-06 14:45:30 公開日:2021-08-05
# Tobacco-3482 と RVL-CDIP を用いたテキスト分類における分布外一般化の探索

Exploring Out-of-Distribution Generalization in Text Classifiers Trained on Tobacco-3482 and RVL-CDIP ( http://arxiv.org/abs/2108.02684v1 )

ライセンス: Link先を確認
Stefan Larson, Navtej Singh, Saarthak Maheshwari, Shanti Stewart, Uma Krishnaswamy(参考訳) 広く普及するには、機械学習モデルを含む文書分析システムは、モデルがトレーニングされたデータを生成するのに使用されたデータ分散の外にある入力に正しく応答できなければならない。 本稿では,標準文書分類データセットで学習したテキスト分類器を用いて,推定時に分布外文書に一般化する能力について検討する。 Tobacco-3482とRVL-CDIPデータセットを出発点として、これらの標準データセットでトレーニングされたモデルの一般化性能を分析するために、新しいアウト・オブ・ディストリビューション評価データセットを生成する。 より小さなTobacco-3482データセットでトレーニングされたモデルは、我々の新しいアウト・オブ・ディストリビューション・データでは性能が悪く、大きなRVL-CDIPでトレーニングされたテキスト分類モデルは、より少ない性能低下を示す。

To be robust enough for widespread adoption, document analysis systems involving machine learning models must be able to respond correctly to inputs that fall outside of the data distribution that was used to generate the data on which the models were trained. This paper explores the ability of text classifiers trained on standard document classification datasets to generalize to out-of-distribution documents at inference time. We take the Tobacco-3482 and RVL-CDIP datasets as a starting point and generate new out-of-distribution evaluation datasets in order to analyze the generalization performance of models trained on these standard datasets. We find that models trained on the smaller Tobacco-3482 dataset perform poorly on our new out-of-distribution data, while text classification models trained on the larger RVL-CDIP exhibit smaller performance drops.
翻訳日:2021-08-06 14:44:19 公開日:2021-08-05
# オープンドメイン質問応答におけるスケーラブルな推論のための分離トランスフォーマー

Decoupled Transformer for Scalable Inference in Open-domain Question Answering ( http://arxiv.org/abs/2108.02765v1 )

ライセンス: Link先を確認
Haytham ElFadeel and Stan Peshterliev(参考訳) BERTのような大きなトランスフォーマーモデルは、オープンドメイン質問応答(QA)のための機械読解(MRC)の最先端の結果を得る。 しかし、トランスフォーマーは推論の計算コストが高いため、音声アシスタントのようなアプリケーションにオンラインQAシステムを適用するのが難しくなる。 計算コストと待ち時間を削減するため、トランスフォーマーmrcモデルを入出力成分とクロス成分に分離する。 このデカップリングにより、表現計算の一部をオフラインで実行し、オンライン使用のためにキャッシュすることができる。 脱カップリングトランスの精度を維持するため,標準変圧器モデルから知識蒸留目的を考案した。 さらに、キャッシュの4倍のストレージ要求を削減できる、学習された表現圧縮層を導入する。 SQUAD 2.0データセットの実験では、切り離された変換器は、標準変換器に比べて1.2ポイント悪いF1スコアで、オープンドメインMCCの計算コストとレイテンシを30-40%削減する。

Large transformer models, such as BERT, achieve state-of-the-art results in machine reading comprehension (MRC) for open-domain question answering (QA). However, transformers have a high computational cost for inference which makes them hard to apply to online QA systems for applications like voice assistants. To reduce computational cost and latency, we propose decoupling the transformer MRC model into input-component and cross-component. The decoupling allows for part of the representation computation to be performed offline and cached for online use. To retain the decoupled transformer accuracy, we devised a knowledge distillation objective from a standard transformer model. Moreover, we introduce learned representation compression layers which help reduce by four times the storage requirement for the cache. In experiments on the SQUAD 2.0 dataset, a decoupled transformer reduces the computational cost and latency of open-domain MRC by 30-40% with only 1.2 points worse F1-score compared to a standard transformer.
翻訳日:2021-08-06 14:44:01 公開日:2021-08-05
# 画像超解像のためのデュアルリファレンストレーニングデータ取得とcnn構築

Dual-reference Training Data Acquisition and CNN Construction for Image Super-Resolution ( http://arxiv.org/abs/2108.02348v1 )

ライセンス: Link先を確認
Yanhui Guo, Xiao Shu, Xiaolin Wu(参考訳) 画像スーパーレゾリューションの深層学習法では,訓練用低解像度・高解像度画像が実カメラのサンプリング過程を正確に反映するかどうかが重要な課題である。 低分解能 (LR$\sim$HR) 画像対は既存の劣化モデル (\eg, bicubic downsampling) によって合成されるため、これらの合成されたLR$\sim$HR画像対によって訓練された超分解能CNNは実画像に適用してもうまく動作しない。 本稿では,実写カメラを用いた大量のリアルLR$\sim$HR画像対をキャプチャする新しい手法を提案し,人間の介入を最小限に抑え,高スループット(毎時約500枚)でデータ取得を行う。 高レベルの自動化により、カメラ毎にLR$\sim$HRトレーニングイメージペアのセットを簡単に作成できる。 我々の革新は、解像度の異なる超高品質のスクリーンに表示される画像を撮影することであり、画像超解像度のための高品質なトレーニングデータセットを収集できる方法には3つの特徴がある。 まず、LRとHRの画像を3次元平面面(スクリーン)で撮影すると、登録問題はホモグラフィーモデルに正確に適合する。 第二に、画像マージンに特別なマーカーを表示することで、登録精度をさらに向上させることができるが、表示されたデジタル画像ファイルは、復元された画像の高周波コンテンツを最適化するための参照として利用することができる。 実験の結果,超解像cnnをlr$\sim$hrデータセットでトレーニングした場合,推定段階で既存のデータセットでトレーニングするよりも復元性能が優れていることがわかった。

For deep learning methods of image super-resolution, the most critical issue is whether the paired low and high resolution images for training accurately reflect the sampling process of real cameras. Low and high resolution (LR$\sim$HR) image pairs synthesized by existing degradation models (\eg, bicubic downsampling) deviate from those in reality; thus the super-resolution CNN trained by these synthesized LR$\sim$HR image pairs does not perform well when being applied to real images. In this paper, we propose a novel method to capture a large set of realistic LR$\sim$HR image pairs using real cameras.The data acquisition is carried out under controllable lab conditions with minimum human intervention and at high throughput (about 500 image pairs per hour). The high level of automation makes it easy to produce a set of real LR$\sim$HR training image pairs for each camera. Our innovation is to shoot images displayed on an ultra-high quality screen at different resolutions.There are three distinctive advantages with our method that allow us to collect high-quality training datasets for image super-resolution. First, as the LR and HR images are taken of a 3D planar surface (the screen) the registration problem fits exactly to a homography model. Second, we can display special markers on the image margin to further improve the registration precision.Third, the displayed digital image file can be exploited as a reference to optimize the high frequency content of the restored image. Experimental results show that training a super-resolution CNN by our LR$\sim$HR dataset has superior restoration performance than training it by existing datasets on real world images at the inference stage.
翻訳日:2021-08-06 14:43:06 公開日:2021-08-05
# 3次元インスタンス分割のための階層的集約

Hierarchical Aggregation for 3D Instance Segmentation ( http://arxiv.org/abs/2108.02350v1 )

ライセンス: Link先を確認
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang(参考訳) ポイントクラウド上のインスタンスセグメンテーションは、3Dシーン認識における基本的なタスクである。 本稿では,ポイントとポイント集合の空間的関係を十分に活用した,より簡潔なクラスタリングベースのフレームワークhaisを提案する。 クラスタリングに基づく手法は、過剰なセグメンテーションや過小セグメンテーションをもたらす可能性があるので、階層的アグリゲーションを導入して、段階的にインスタンス提案を生成し、例えば、予め設定した集合へのクラスタリングポイントのためのポイントアグリゲーションと、集合から完全なインスタンスを生成するための集合アグリゲーションを導入する。 完全な3dインスタンスが得られたら、ノイズ点フィルタリングとマスク品質スコアリングにインテント内予測のサブネットワークが採用される。 HAISは高速(フレームあたり410ms)で、非最大抑圧を必要としない。 ScanNet v2ベンチマークでは、69.9%のAP50を達成し、従来のSOTA(State-of-the-ar t)メソッドを大きく上回っている。 さらに、S3DISデータセット上のSOTA結果は、優れた一般化能力を検証する。 コードはhttps://github.com/h ustvl/HAISで入手できる。

Instance segmentation on point clouds is a fundamental task in 3D scene perception. In this work, we propose a concise clustering-based framework named HAIS, which makes full use of spatial relation of points and point sets. Considering clustering-based methods may result in over-segmentation or under-segmentation, we introduce the hierarchical aggregation to progressively generate instance proposals, i.e., point aggregation for preliminarily clustering points to sets and set aggregation for generating complete instances from sets. Once the complete 3D instances are obtained, a sub-network of intra-instance prediction is adopted for noisy points filtering and mask quality scoring. HAIS is fast (only 410ms per frame) and does not require non-maximum suppression. It ranks 1st on the ScanNet v2 benchmark, achieving the highest 69.9% AP50 and surpassing previous state-of-the-art (SOTA) methods by a large margin. Besides, the SOTA results on the S3DIS dataset validate the good generalization ability. Code will be available at https://github.com/h ustvl/HAIS.
翻訳日:2021-08-06 14:42:38 公開日:2021-08-05
# 画像キャプションのための変換器とカリキュラム学習を用いたデュアルグラフ畳み込みネットワーク

Dual Graph Convolutional Networks with Transformer and Curriculum Learning for Image Captioning ( http://arxiv.org/abs/2108.02366v1 )

ライセンス: Link先を確認
Xinzhi Dong, Chengjiang Long, Wenju Xu, Chunxia Xiao(参考訳) 既存の画像キャプション手法は、文脈的相関を探索することなく、単一の画像内のオブジェクトやインスタンスの関係を理解することに集中する。 本稿では,画像キャプションのためのトランスフォーマとカリキュラム学習を備えたDual Graph Convolutional Networks (Dual-GCN)を提案する。 特に、オブジェクトレベルのGCNを用いて1つの画像内のオブジェクト空間関係をキャプチャするだけでなく、画像レベルのGCNを用いて類似画像が提供する特徴情報をキャプチャする。 良く設計されたDual-GCNにより、言語変換器は単一の画像内の異なるオブジェクト間の関係をよりよく理解し、類似した画像を補助情報としてフル活用して、単一の画像に対して適切なキャプション記述を生成することができる。 一方、難易度を決定するための相互レビュー戦略を導入し、カリキュラム学習をトレーニング戦略として採用し、提案モデルの堅牢性と一般化を図る。 大規模MS COCOデータセットについて広範な実験を行い,提案手法が最近の最先端手法よりも優れていることを示す。 BLEU-1スコアは82.2、BLEU-2スコアは67.6である。 ソースコードは {\em \color{magenta}{\url{https://github.com/u nbear430/dgcn-for-im age-captioning}}} で利用可能です。

Existing image captioning methods just focus on understanding the relationship between objects or instances in a single image, without exploring the contextual correlation existed among contextual image. In this paper, we propose Dual Graph Convolutional Networks (Dual-GCN) with transformer and curriculum learning for image captioning. In particular, we not only use an object-level GCN to capture the object to object spatial relation within a single image, but also adopt an image-level GCN to capture the feature information provided by similar images. With the well-designed Dual-GCN, we can make the linguistic transformer better understand the relationship between different objects in a single image and make full use of similar images as auxiliary information to generate a reasonable caption description for a single image. Meanwhile, with a cross-review strategy introduced to determine difficulty levels, we adopt curriculum learning as the training strategy to increase the robustness and generalization of our proposed model. We conduct extensive experiments on the large-scale MS COCO dataset, and the experimental results powerfully demonstrate that our proposed method outperforms recent state-of-the-art approaches. It achieves a BLEU-1 score of 82.2 and a BLEU-2 score of 67.6. Our source code is available at {\em \color{magenta}{\url{https://github.com/U nbear430/DGCN-for-im age-captioning}}}.
翻訳日:2021-08-06 14:42:19 公開日:2021-08-05
# M2IOSR: 最大相互情報開集合認識

M2IOSR: Maximal Mutual Information Open Set Recognition ( http://arxiv.org/abs/2108.02373v1 )

ライセンス: Link先を確認
Xin Sun, Henghui Ding, Chi Zhang, Guosheng Lin, Keck-Voon Ling(参考訳) 本研究では,オープンセット認識(OSR)の課題に対処することを目的とする。 近年のOSR法の多くは、自動エンコーダを使用して、再構成戦略によってクラス固有の特徴を抽出し、入力画像をピクセルレベルで復元する必要がある。 クラス固有の機能は一般的にすべてのピクセルではなくターゲットオブジェクトに含まれているため、この戦略はosrの要求過剰である。 ここでは,画素レベルの再構築戦略を捨て,クラス固有の特徴抽出の有効性向上により多くの注意を払う。 本稿では,M2IOSR (Maximal Mutual Information Open Set Recognition) を用いた相互情報ベース手法を提案する。 提案したM2IOSRは,与えられた入力と潜在特徴との相互情報を複数のスケールで最大化することにより,クラス固有の特徴を抽出するエンコーダのみを使用する。 一方、開空間リスクをさらに低減するために、潜在特徴は KL-発散損失関数によってクラス条件ガウス分布に制約される。 このようにして、ネットワークが同様の潜在特徴に異なる観測結果がマッピングされることを防止し、所望の統計特性を持つクラス固有の特徴を抽出する。 提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。 ソースコードは補足資料にアップロードされる。

In this work, we aim to address the challenging task of open set recognition (OSR). Many recent OSR methods rely on auto-encoders to extract class-specific features by a reconstruction strategy, requiring the network to restore the input image on pixel-level. This strategy is commonly over-demanding for OSR since class-specific features are generally contained in target objects, not in all pixels. To address this shortcoming, here we discard the pixel-level reconstruction strategy and pay more attention to improving the effectiveness of class-specific feature extraction. We propose a mutual information-based method with a streamlined architecture, Maximal Mutual Information Open Set Recognition (M2IOSR). The proposed M2IOSR only uses an encoder to extract class-specific features by maximizing the mutual information between the given input and its latent features across multiple scales. Meanwhile, to further reduce the open space risk, latent features are constrained to class conditional Gaussian distributions by a KL-divergence loss function. In this way, a strong function is learned to prevent the network from mapping different observations to similar latent features and help the network extract class-specific features with desired statistical characteristics. The proposed method significantly improves the performance of baselines and achieves new state-of-the-art results on several benchmarks consistently. Source codes are uploaded in supplementary materials.
翻訳日:2021-08-06 14:41:57 公開日:2021-08-05
# セマンティックセマンティックセグメンテーションのためのグローバルおよび局所テクスチャランダム化

Global and Local Texture Randomization for Synthetic-to-Real Semantic Segmentation ( http://arxiv.org/abs/2108.02376v1 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, and Jun Liu(参考訳) セマンティックセグメンテーションは、画像の各ピクセルを対応するラベルに分類する重要な画像理解タスクである。 地表面のピクセル単位のラベリングは退屈で手間がかかるため、実際の用途では、合成画像を利用して実語画像意味セグメンテーション(srss)のモデルを訓練する作品が多い。 しかしながら、ソース合成データでトレーニングされた深層畳み込みニューラルネットワーク(cnns)は、ターゲットとする現実世界のデータにうまく一般化できない可能性がある。 本研究では,グローバルテクスチャランダム化 (gtr) とローカルテクスチャランダム化 (ltr) の2つの簡易かつ効果的なテクスチャランダム化機構を提案する。 GTRは、ソース画像のテクスチャを多様な非現実的なテクスチャスタイルにランダム化する。 ネットワークのテクスチャへの依存を軽減するとともに,ドメイン不変の学習を促進することを目的としている。 また,画像全体においてテクスチャの違いは必ずしも発生せず,一部の地域のみに現れる可能性がある。 そこで本研究では,ソース画像を部分的にスタイリングするために,多様な局所領域を生成するLTR機構を提案する。 最後に、GTRとLTR(CGL)の整合性の規則化を実装し、トレーニング中の2つのメカニズムの調和を図る。 各種SRSS設定(GTA5/SyNTHIA to Cityscapes/BDDS/Mapi llary)を用いた5つの公開データセット(GTA5,SynTHIA,Citysc apes,BDDS,Mapillary) の大規模な実験により、提案手法はドメイン一般化に基づくSRSSの最先端手法よりも優れていることが示された。

Semantic segmentation is a crucial image understanding task, where each pixel of image is categorized into a corresponding label. Since the pixel-wise labeling for ground-truth is tedious and labor intensive, in practical applications, many works exploit the synthetic images to train the model for real-word image semantic segmentation, i.e., Synthetic-to-Real Semantic Segmentation (SRSS). However, Deep Convolutional Neural Networks (CNNs) trained on the source synthetic data may not generalize well to the target real-world data. In this work, we propose two simple yet effective texture randomization mechanisms, Global Texture Randomization (GTR) and Local Texture Randomization (LTR), for Domain Generalization based SRSS. GTR is proposed to randomize the texture of source images into diverse unreal texture styles. It aims to alleviate the reliance of the network on texture while promoting the learning of the domain-invariant cues. In addition, we find the texture difference is not always occurred in entire image and may only appear in some local areas. Therefore, we further propose a LTR mechanism to generate diverse local regions for partially stylizing the source images. Finally, we implement a regularization of Consistency between GTR and LTR (CGL) aiming to harmonize the two proposed mechanisms during training. Extensive experiments on five publicly available datasets (i.e., GTA5, SYNTHIA, Cityscapes, BDDS and Mapillary) with various SRSS settings (i.e., GTA5/SYNTHIA to Cityscapes/BDDS/Mapi llary) demonstrate that the proposed method is superior to the state-of-the-art methods for domain generalization based SRSS.
翻訳日:2021-08-06 14:41:33 公開日:2021-08-05
# ACE: ワンショットで長めの認識を解くための専門家たち

ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in One-Shot ( http://arxiv.org/abs/2108.02385v1 )

ライセンス: Link先を確認
Jiarui Cai, Yizhou Wang, Jenq-Neng Hwang(参考訳) 一段長尾認識法は、全体的なパフォーマンスを「シーソー」方式で改善する、すなわち、より優れた尾の分類のために頭部の精度を犠牲にするか、あるいは頭部の精度をさらに高めるか、尾を無視する。 既存のアルゴリズムは、不均衡セットの事前トレーニングとバランスセットの微調整という、多段階のトレーニングプロセスによってこのようなトレードオフを回避している。 有望な性能を達成する一方で、事前訓練されたモデルの一般化可能性に敏感なだけでなく、識別やセグメンテーションといった他のコンピュータビジョンタスクにも容易に統合されない。 本稿では,一段階の長尾認識手法であるアリー補完専門家(ACE)を提案し,専門家はトレーニングを統括するサブセットにおいて,最も知識に富んだ専門家であり,これまで見たことのないものに邪魔されずに,他分野の専門家と相補的である。 過度な適合を避けるために,各専門家の学習速度を調整する分布適応型最適化器を設計する。 特別なベルや笛がなければ、バニラACEはCIFAR10-LT、CIFAR100-LT、ImageNet-LT、iNaturalistデータセットで現在のワンステージSOTA法を3-10%上回る。 また、多数派と少数派を同時に1段階に絞って「シーソー」のトレードオフを打破した最初の例であることも示されている。 コードとトレーニングされたモデルはhttps://github.com/j rcai/aceにある。

One-stage long-tailed recognition methods improve the overall performance in a "seesaw" manner, i.e., either sacrifice the head's accuracy for better tail classification or elevate the head's accuracy even higher but ignore the tail. Existing algorithms bypass such trade-off by a multi-stage training process: pre-training on imbalanced set and fine-tuning on balanced set. Though achieving promising performance, not only are they sensitive to the generalizability of the pre-trained model, but also not easily integrated into other computer vision tasks like detection and segmentation, where pre-training of classifiers solely is not applicable. In this paper, we propose a one-stage long-tailed recognition scheme, ally complementary experts (ACE), where the expert is the most knowledgeable specialist in a sub-set that dominates its training, and is complementary to other experts in the less-seen categories without being disturbed by what it has never seen. We design a distribution-adaptiv e optimizer to adjust the learning pace of each expert to avoid over-fitting. Without special bells and whistles, the vanilla ACE outperforms the current one-stage SOTA method by 3-10% on CIFAR10-LT, CIFAR100-LT, ImageNet-LT and iNaturalist datasets. It is also shown to be the first one to break the "seesaw" trade-off by improving the accuracy of the majority and minority categories simultaneously in only one stage. Code and trained models are at https://github.com/j rcai/ACE.
翻訳日:2021-08-06 14:40:54 公開日:2021-08-05
# Webly Supervised Fine-Grained Recognition:ベンチマークデータセットとアプローチ

Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach ( http://arxiv.org/abs/2108.02399v1 )

ライセンス: Link先を確認
Zeren Sun, Yazhou Yao, Xiu-Shen Wei, Yongshun Zhang, Fumin Shen, Jianxin Wu, Jian Zhang, Heng-Tao Shen(参考訳) webからの学習は、大規模な手動ラベル付きデータセットへのディープラーニングの極端な依存を緩和する。 特に下位カテゴリの識別を目的とした微粒化認識では,自由なWebデータを活用することでラベル付けコストを大幅に削減する。 実用的、研究的な価値は大きいが、Webで制御される微粒化認識問題はコンピュータビジョンのコミュニティでは研究されていない。 そこで本稿では,webfg-496 と webinat-5089 と呼ばれる,web で教師あり細かなデータセットを2つのベンチマークで構築する。 具体的には、WebFG-496は、合計53,339個のWebトレーニングイメージと200種類の鳥(Web-bird)、100種類の航空機(Web-Aircraft)、196種類の自動車(Web-car)を含む3つのサブデータセットで構成されている。 WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。 実験結果と2つのベンチマークデータセットの解析結果から,提案手法が競合するベースラインモデルや最先端技術よりも優れた性能を発揮することを示す。 ベンチマークデータセットとピアラーニングのソースコードは、https://github.com/N UST-Machine-Intellig ence-Laboratory/webl yFG-dataset}}で公開されています。

Learning from the web can ease the extreme dependence of deep learning on large-scale manually labeled datasets. Especially for fine-grained recognition, which targets at distinguishing subordinate categories, it will significantly reduce the labeling costs by leveraging free web data. Despite its significant practical and research value, the webly supervised fine-grained recognition problem is not extensively studied in the computer vision community, largely due to the lack of high-quality datasets. To fill this gap, in this paper we construct two new benchmark webly supervised fine-grained datasets, termed WebFG-496 and WebiNat-5089, respectively. In concretely, WebFG-496 consists of three sub-datasets containing a total of 53,339 web training images with 200 species of birds (Web-bird), 100 types of aircrafts (Web-aircraft), and 196 models of cars (Web-car). For WebiNat-5089, it contains 5089 sub-categories and more than 1.1 million web training images, which is the largest webly supervised fine-grained dataset ever. As a minor contribution, we also propose a novel webly supervised method (termed ``{Peer-learning}'') for benchmarking these datasets.~Comprehens ive experimental results and analyses on two new benchmark datasets demonstrate that the proposed method achieves superior performance over the competing baseline models and states-of-the-art. Our benchmark datasets and the source codes of Peer-learning have been made available at {\url{https://github.com/N UST-Machine-Intellig ence-Laboratory/webl yFG-dataset}}.
翻訳日:2021-08-06 14:40:25 公開日:2021-08-05
# 空間変調を用いたDECRの高速収束

Fast Convergence of DETR with Spatially Modulated Co-Attention ( http://arxiv.org/abs/2108.02404v1 )

ライセンス: Link先を確認
Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li(参考訳) 最近提案されたDETRモデルは、Transformerをオブジェクト検出に適用し、Faster-RCNNのような2段階のオブジェクト検出フレームワークで同等のパフォーマンスを実現する。 しかし、DETRは収束が遅い。 DETRをスクラッチからトレーニングするには500エポックが必要である。 そこで本研究では,その収束を加速するために,DECフレームワーク,すなわちSpatially Modulated Co-Attention (SMCA) 機構を改善するための簡易かつ効果的な手法を提案する。 SMCAの中核となる考え方は、当初推定された境界ボックス付近で高いコアテンション応答を制限し、DEC における位置認識コアテンションを実行することである。 提案するSMCAは,DeTR内の他の操作を一定に保ちながら,デコーダ内の元のコアテンション機構を置き換えることで,DTRの収束速度を向上する。 さらに,マルチヘッドおよびスケール選択型アテンションデザインをSMCAに統合することにより,拡張畳み込みベースバックボーン(45.6 mAP,108 epochs,43.3 mAP,500 epochs)のDETRよりも優れた性能が得られる。 SMCAを検証するため,COCOデータセットについて広範囲にわたるアブレーション研究を行った。 コードはhttps://github.com/g aopengcuhk/SMCA-DETR で公開されている。

The recently proposed Detection Transformer (DETR) model successfully applies Transformer to objects detection and achieves comparable performance with two-stage object detection frameworks, such as Faster-RCNN. However, DETR suffers from its slow convergence. Training DETR from scratch needs 500 epochs to achieve a high accuracy. To accelerate its convergence, we propose a simple yet effective scheme for improving the DETR framework, namely Spatially Modulated Co-Attention (SMCA) mechanism. The core idea of SMCA is to conduct location-aware co-attention in DETR by constraining co-attention responses to be high near initially estimated bounding box locations. Our proposed SMCA increases DETR's convergence speed by replacing the original co-attention mechanism in the decoder while keeping other operations in DETR unchanged. Furthermore, by integrating multi-head and scale-selection attention designs into SMCA, our fully-fledged SMCA can achieve better performance compared to DETR with a dilated convolution-based backbone (45.6 mAP at 108 epochs vs. 43.3 mAP at 500 epochs). We perform extensive ablation studies on COCO dataset to validate SMCA. Code is released at https://github.com/g aopengcuhk/SMCA-DETR .
翻訳日:2021-08-06 14:39:56 公開日:2021-08-05
# IDM: ドメイン適応型Re-IDのための中間ドメインモジュール

IDM: An Intermediate Domain Module for Domain Adaptive Person Re-ID ( http://arxiv.org/abs/2108.02413v1 )

ライセンス: Link先を確認
Yongxing Dai, Jun Liu, Yifan Sun, Zekun Tong, Chi Zhang, Ling-Yu Duan(参考訳) unsupervised domain adaptive person re-id(uda re-id)は、ラベル付きソースドメインの知識を転送して、ラベルなしターゲットドメインにおけるモデルの識別性を改善することを目的としている。 新しい観点からは、ソースドメインとターゲットドメイン間のブリッジはuda re-idタスクに取り組むために利用できると主張し、このブリッジを特徴付ける適切な中間ドメインを明示的にモデル化することに焦点を当てている。 具体的には、2つのドメイン要素を用いてソースとターゲットドメインの隠れ表現を混合することにより、オンザフライで中間ドメインの表現を生成する中間ドメインモジュール(idm)を提案する。 すなわち、二つの極端領域の間の最短測地線経路に沿った中間領域はより良いブリッジングの役割を果たすことができるので、これらの中間領域が満足すべき2つの性質を提案する。 これら2つの特性が適切な中間領域をよりよく特徴付けるために、中間領域の予測空間と特徴空間の橋梁損失を強制し、2つの領域因子の多様性損失を強制する。 橋梁の損失は、適切な中間ドメインの分布を誘導し、ソースとターゲットドメインとの適切な距離を維持することを目的としている。 多様性の喪失は、生成された中間ドメインがソースドメインとターゲットドメインのいずれかに過度に適合することを防ぐための規則化として機能する。 提案手法は,すべてのUDA再IDタスクにおいて最先端の手法よりも優れており,MSMT17ベンチマークではmAPゲインが最大7.7%向上している。 コードはhttps://github.com/s ikastar/idmで入手できる。

Unsupervised domain adaptive person re-identification (UDA re-ID) aims at transferring the labeled source domain's knowledge to improve the model's discriminability on the unlabeled target domain. From a novel perspective, we argue that the bridging between the source and target domains can be utilized to tackle the UDA re-ID task, and we focus on explicitly modeling appropriate intermediate domains to characterize this bridging. Specifically, we propose an Intermediate Domain Module (IDM) to generate intermediate domains' representations on-the-fly by mixing the source and target domains' hidden representations using two domain factors. Based on the "shortest geodesic path" definition, i.e., the intermediate domains along the shortest geodesic path between the two extreme domains can play a better bridging role, we propose two properties that these intermediate domains should satisfy. To ensure these two properties to better characterize appropriate intermediate domains, we enforce the bridge losses on intermediate domains' prediction space and feature space, and enforce a diversity loss on the two domain factors. The bridge losses aim at guiding the distribution of appropriate intermediate domains to keep the right distance to the source and target domains. The diversity loss serves as a regularization to prevent the generated intermediate domains from being over-fitting to either of the source and target domains. Our proposed method outperforms the state-of-the-arts by a large margin in all the common UDA re-ID tasks, and the mAP gain is up to 7.7% on the challenging MSMT17 benchmark. Code is available at https://github.com/S ikaStar/IDM.
翻訳日:2021-08-06 14:39:28 公開日:2021-08-05
# voxeltrack:野生における多人数3次元ポーズ推定と追跡

VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the Wild ( http://arxiv.org/abs/2108.02452v1 )

ライセンス: Link先を確認
Yifu Zhang and Chunyu Wang and Xinggang Wang and Wenyu Liu and Wenjun Zeng(参考訳) 本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。 マルチブランチネットワークを使用して、3dポーズと再識別(re-id)機能を共同推定している。 ノイズの多い2次元ポーズ推定に基づくクロスビュー対応を確立する以前の取り組みとは対照的に、マルチビュー画像から構築した3dvoxelベースの表現から直接3dポーズを推定し、追跡する。 まず、3次元空間を正規なボクセルで識別し、全てのビューから逆投影された身体の関節熱マップ平均化により各ボクセルの特徴ベクトルを計算する。 各ボクセルが特定の身体関節を含むかどうかを予測することにより、ボクセル表現から3dポーズを推定する。 同様に、推定された3Dポーズを時間とともに追跡するために使用される各ボクセルに対してRe-ID機能が計算される。 このアプローチの主な利点は、個々の画像に基づいて難しい決定を行なわないことだ。 このアプローチは、一部のカメラに閉じ込められたときでも、しっかりと3Dのポーズを推定し、追跡することができる。 これは、shelf、campus、cmu panopticの3つのパブリックデータセットにおいて、最先端の手法を大きく上回っている。

We present VoxelTrack for multi-person 3D pose estimation and tracking from a few cameras which are separated by wide baselines. It employs a multi-branch network to jointly estimate 3D poses and re-identification (Re-ID) features for all people in the environment. In contrast to previous efforts which require to establish cross-view correspondence based on noisy 2D pose estimates, it directly estimates and tracks 3D poses from a 3D voxel-based representation constructed from multi-view images. We first discretize the 3D space by regular voxels and compute a feature vector for each voxel by averaging the body joint heatmaps that are inversely projected from all views. We estimate 3D poses from the voxel representation by predicting whether each voxel contains a particular body joint. Similarly, a Re-ID feature is computed for each voxel which is used to track the estimated 3D poses over time. The main advantage of the approach is that it avoids making any hard decisions based on individual images. The approach can robustly estimate and track 3D poses even when people are severely occluded in some cameras. It outperforms the state-of-the-art methods by a large margin on three public datasets including Shelf, Campus and CMU Panoptic.
翻訳日:2021-08-06 14:38:55 公開日:2021-08-05
# 残留注意:マルチラベル認識のためのシンプルだが効果的な方法

Residual Attention: A Simple but Effective Method for Multi-Label Recognition ( http://arxiv.org/abs/2108.02456v1 )

ライセンス: Link先を確認
Ke Zhu, Jianxin Wu(参考訳) マルチラベル画像認識は実用的なコンピュータビジョンの課題である。 しかし、この分野の進歩はしばしば複雑な方法、重い計算、直感的な説明の欠如によって特徴づけられる。 異なるカテゴリのオブジェクトが占有する異なる空間領域を効果的に捉えるために,クラス固有残差注意 (CSRA) という,恥ずかしいほど単純なモジュールを提案する。 CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。 csraはマルチラベル認識で最先端の成果を達成し、それよりもずっとシンプルである。 さらに、たった4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。 CSRAは簡単に実装でき、計算にも光があり、直感的な説明や視覚化も楽しめる。

Multi-label image recognition is a challenging computer vision task of practical use. Progresses in this area, however, are often characterized by complicated methods, heavy computations, and lack of intuitive explanations. To effectively capture different spatial regions occupied by objects from different categories, we propose an embarrassingly simple module, named class-specific residual attention (CSRA). CSRA generates class-specific features for every category by proposing a simple spatial attention score, and then combines it with the class-agnostic average pooling feature. CSRA achieves state-of-the-art results on multilabel recognition, and at the same time is much simpler than them. Furthermore, with only 4 lines of code, CSRA also leads to consistent improvement across many diverse pretrained models and datasets without any extra training. CSRA is both easy to implement and light in computations, which also enjoys intuitive explanations and visualizations.
翻訳日:2021-08-06 14:38:34 公開日:2021-08-05
# 一般化可能な顔アンチスプーフィングのための適応正規化表現学習

Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing ( http://arxiv.org/abs/2108.02667v1 )

ライセンス: Link先を確認
Shubao Liu, Ke-Yue Zhang, Taiping Yao, Mingwei Bi, Shouhong Ding, Jilin Li, Feiyue Huang, Lizhuang Ma(参考訳) 目に見えないシナリオで発生する様々な顔の提示攻撃により、ドメイン一般化(DG)に基づく顔の反偽造(FAS)が、その堅牢性から注目を集めている。 既存のほとんどのメソッドはDGフレームワークを使用して、コンパクトで一般化された機能空間を求める特徴を整列する。 しかし、FASタスクの特徴抽出プロセス、特に正規化の影響にはほとんど注意が払われておらず、学習された表現の一般化にも大きな影響を与えている。 この問題に対処するために,特徴抽出プロセスにおける正規化選択に焦点を当てた顔アンチスプーフィングの新たな視点を提案する。 具体的には、適応正規化学習(ANRL)フレームワークを考案し、入力に応じて特徴正規化手法を適応的に選択し、ドメインに依存しない識別的表現を学習することを目的とする。 さらに、表現学習を容易にするために、ドメイン間互換性損失とクラス間分離損失を含む二重校正制約を設計し、一般化可能な表現により良い最適化方向を提供する。 提案手法の有効性を実証するために,広範な実験と可視化を行った。

With various face presentation attacks arising under unseen scenarios, face anti-spoofing (FAS) based on domain generalization (DG) has drawn growing attention due to its robustness. Most existing methods utilize DG frameworks to align the features to seek a compact and generalized feature space. However, little attention has been paid to the feature extraction process for the FAS task, especially the influence of normalization, which also has a great impact on the generalization of the learned representation. To address this issue, we propose a novel perspective of face anti-spoofing that focuses on the normalization selection in the feature extraction process. Concretely, an Adaptive Normalized Representation Learning (ANRL) framework is devised, which adaptively selects feature normalization methods according to the inputs, aiming to learn domain-agnostic and discriminative representation. Moreover, to facilitate the representation learning, Dual Calibration Constraints are designed, including Inter-Domain Compatible loss and Inter-Class Separable loss, which provide a better optimization direction for generalizable representation. Extensive experiments and visualizations are presented to demonstrate the effectiveness of our method against the SOTA competitors.
翻訳日:2021-08-06 14:38:20 公開日:2021-08-05
# オブジェクトウェイクアップ:1枚の画像からの3次元オブジェクト再構成、アニメーション、その場レンダリング

Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ Rendering from a Single Image ( http://arxiv.org/abs/2108.02708v1 )

ライセンス: Link先を確認
Xinxin Zuo and Ji Yang and Sen Wang and Zhenbo Yu and Xinyu Li and Bingbing Ni and Minglun Gong and Li Cheng(参考訳) 椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか? 上記の質問は、単一の画像からarticulated objectsを抽出および操作するための自動化アプローチを考案することを促します。 従来のオブジェクト操作と比較して、我々の研究は2次元操作を超越し、アーティキュラブルなオブジェクトに焦点を当てているため、オブジェクトの変形の柔軟性が向上する。 提案手法のパイプラインは,入力画像から関心対象の3Dメッシュ表現を再構成し,その制御関節を意味部分のセグメンテーション情報を利用して予測し,得られたオブジェクト3Dメッシュを非剛性変形によりアニメーション化し,元の画像空間でその場で動作するようにレンダリングする。 単一画像からの3次元再構成について定量的評価を行い,本研究の成果がsotaの3次元画像の精度を有意なマージンで上回った。 広汎な視覚的結果も我々のアプローチの適用性を示している。

Given a picture of a chair, could we extract the 3-D shape of the chair, animate its plausible articulations and motions, and render in-situ in its original image space? The above question prompts us to devise an automated approach to extract and manipulate articulated objects in single images. Comparing with previous efforts on object manipulation, our work goes beyond 2-D manipulation and focuses on articulable objects, thus introduces greater flexibility for possible object deformations. The pipeline of our approach starts by reconstructing and refining a 3-D mesh representation of the object of interest from an input image; its control joints are predicted by exploiting the semantic part segmentation information; the obtained object 3-D mesh is then rigged \& animated by non-rigid deformation, and rendered to perform in-situ motions in its original image space. Quantitative evaluations are carried out on 3-D reconstruction from single images, an established task that is related to our pipeline, where our results surpass those of the SOTAs by a noticeable margin. Extensive visual results also demonstrate the applicability of our approach.
翻訳日:2021-08-06 14:37:59 公開日:2021-08-05
# 帰属ランク保存による一般化可能な混合精度量子化

Generalizable Mixed-Precision Quantization via Attribution Rank Preservation ( http://arxiv.org/abs/2108.02720v1 )

ライセンス: Link先を確認
Ziwei Wang, Han Xiao, Jiwen Lu, Jie Zhou(参考訳) 本稿では,効率的な推論のための一般化可能な混合精度量子化法を提案する。 従来の方法では、ポリシーの最適性を保証するためにビット幅探索とモデル展開のためのデータセットの一貫性が必要であり、現実的なアプリケーションで大規模データセットに挑戦する際の検索コストが重い。 一方,GMPQでは,データ量が少ない大規模データセットに一般化可能な混合量子化ポリシーを探索し,性能劣化を伴わずに検索コストを大幅に削減した。 具体的には、ネットワーク属性の正確な位置決めが、異なるデータ分布における正確な視覚解析の一般的な能力であることを示す。 したがって、高いモデルの精度と複雑さを追求するにもかかわらず、一般化された混合精度量子化戦略探索のための効率的なキャパシティ・アウェア・アトリビューション模倣により、量子化モデルと全精度モデルのアトリビューションランクの一貫性を保ちます。 大規模実験により,検索コストが大幅に削減され,精度と複雑さのトレードオフが得られた。 コードはhttps://github.com/z iweiwangthu/gmpq.git で入手できる。

In this paper, we propose a generalizable mixed-precision quantization (GMPQ) method for efficient inference. Conventional methods require the consistency of datasets for bitwidth search and model deployment to guarantee the policy optimality, leading to heavy search cost on challenging largescale datasets in realistic applications. On the contrary, our GMPQ searches the mixed-quantization policy that can be generalized to largescale datasets with only a small amount of data, so that the search cost is significantly reduced without performance degradation. Specifically, we observe that locating network attribution correctly is general ability for accurate visual analysis across different data distribution. Therefore, despite of pursuing higher model accuracy and complexity, we preserve attribution rank consistency between the quantized models and their full-precision counterparts via efficient capacity-aware attribution imitation for generalizable mixed-precision quantization strategy search. Extensive experiments show that our method obtains competitive accuracy-complexity trade-off compared with the state-of-the-art mixed-precision networks in significantly reduced search cost. The code is available at https://github.com/Z iweiWangTHU/GMPQ.git .
翻訳日:2021-08-06 14:37:37 公開日:2021-08-05
# 教師なし特徴表現のためのインスタンス類似学習

Instance Similarity Learning for Unsupervised Feature Representation ( http://arxiv.org/abs/2108.02721v1 )

ライセンス: Link先を確認
Ziwei Wang, Yunsong Wang, Ziyi Wu, Jiwen Lu, Jie Zhou(参考訳) 本稿では,教師なし特徴表現のためのインスタンス類似性学習(ISL)手法を提案する。 従来の方法では、特徴空間内の近いインスタンス対を高い類似性で割り当てるが、これは通常、ユークリッド距離が特徴多様体上の真の意味的類似性を記述するのに失敗するため、大きな近傍のペア関係を誤ったものにする。 逆に,本手法は特徴多様体を教師なしの方法でマイニングし,インスタンス間の意味的類似性を学習して識別的表現を得る。 具体的には、GAN(Generative Adversarial Networks)を用いて基礎となる特徴多様体をマイニングし、生成した特徴をプロキシとして適用して、特徴多様体を段階的に探索し、インスタンス間の意味的類似性を信頼できる疑似監視として取得する。 画像分類に関する広範な実験は,最先端の手法と比較して,この手法が優れていることを示している。 コードはhttps://github.com/z iweiwangthu/isl.gitで入手できる。

In this paper, we propose an instance similarity learning (ISL) method for unsupervised feature representation. Conventional methods assign close instance pairs in the feature space with high similarity, which usually leads to wrong pairwise relationship for large neighborhoods because the Euclidean distance fails to depict the true semantic similarity on the feature manifold. On the contrary, our method mines the feature manifold in an unsupervised manner, through which the semantic similarity among instances is learned in order to obtain discriminative representations. Specifically, we employ the Generative Adversarial Networks (GAN) to mine the underlying feature manifold, where the generated features are applied as the proxies to progressively explore the feature manifold so that the semantic similarity among instances is acquired as reliable pseudo supervision. Extensive experiments on image classification demonstrate the superiority of our method compared with the state-of-the-art methods. The code is available at https://github.com/Z iweiWangTHU/ISL.git.
翻訳日:2021-08-06 14:37:18 公開日:2021-08-05
# トランスを用いた局所的物体検出におけるグローバルローカル表現の統一

Unifying Global-Local Representations in Salient Object Detection with Transformer ( http://arxiv.org/abs/2108.02759v1 )

ライセンス: Link先を確認
Sucheng Ren, Qiang Wen, Nanxuan Zhao, Guoqiang Han, Shengfeng He(参考訳) 完全畳み込みネットワーク (FCN) は, 長期間にわたって有能な物体検出を支配してきた。 しかし、CNNの局所性は、グローバルな受容場を持つのに十分な深さのモデルを必要とし、そのような深いモデルは、常に局所的な詳細が失われる。 本稿では,新しい注意に基づくエンコーダである視覚トランスフォーマを物体検出に導入し,浅い層から深い層への表現のグローバリゼーションを保証する。 非常に浅い層のグローバルビューにより、トランスフォーマーエンコーダはより局所的な表現を保存し、最終的なサリエンシマップの空間的詳細を復元する。 さらに、各レイヤが前のレイヤのグローバルなビューをキャプチャできるため、隣接するレイヤは表現の差を暗黙的に最大化し、冗長な機能を最小化することができるため、トランスフォーマー層の出力機能は最終的な予測に一意に寄与する。 変圧器から特徴をデコードするために,単純かつ効果的な深変換デコーダを提案する。 デコーダはトランスフォーマーの機能を高密度にデコードし、サンプリングし、ノイズ注入を少なくした最後のサリエンシーマップを生成する。 実験により,本手法は,平均絶対誤差(MAE)において平均12.17%向上した5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも有意に優れていた。 コードはhttps://github.com/O liverRensu/GLSTR.com から入手できる。

The fully convolutional network (FCN) has dominated salient object detection for a long period. However, the locality of CNN requires the model deep enough to have a global receptive field and such a deep model always leads to the loss of local details. In this paper, we introduce a new attention-based encoder, vision transformer, into salient object detection to ensure the globalization of the representations from shallow to deep layers. With the global view in very shallow layers, the transformer encoder preserves more local representations to recover the spatial details in final saliency maps. Besides, as each layer can capture a global view of its previous layer, adjacent layers can implicitly maximize the representation differences and minimize the redundant features, making that every output feature of transformer layers contributes uniquely for final prediction. To decode features from the transformer, we propose a simple yet effective deeply-transformed decoder. The decoder densely decodes and upsamples the transformer features, generating the final saliency map with less noise injection. Experimental results demonstrate that our method significantly outperforms other FCN-based and transformer-based methods in five benchmarks by a large margin, with an average of 12.17% improvement in terms of Mean Absolute Error (MAE). Code will be available at https://github.com/O liverRensu/GLSTR.
翻訳日:2021-08-06 14:37:01 公開日:2021-08-05
# PI3NN:3つの独立訓練ニューラルネットワークからの予測間隔

PI3NN: Prediction intervals from three independently trained neural networks ( http://arxiv.org/abs/2108.02327v1 )

ライセンス: Link先を確認
Siyan Liu, Pei Zhang, Dan Lu, Guannan Zhang(参考訳) 回帰課題における不確実性定量化のために,標準平均二乗誤差(mse)損失のみを用いて,3つの独立学習ニューラルネットワークから予測平均値,下限,上限を学習する新しい予測間隔法を提案する。 本手法では,データに対する分布仮定は必要とせず,ニューラルネットワークモデルや損失関数に異常なハイパーパラメータを導入することはない。 また,本手法は分布外サンプルを効果的に同定し,その不確かさを合理的に定量化することができる。 ベンチマーク回帰問題に対する数値実験により,本手法は予測の不確実性品質,ロバスト性,分布外サンプルの同定において最先端手法よりも優れていることが示された。

We propose a novel prediction interval method to learn prediction mean values, lower and upper bounds of prediction intervals from three independently trained neural networks only using the standard mean squared error (MSE) loss, for uncertainty quantification in regression tasks. Our method requires no distributional assumption on data, does not introduce unusual hyperparameters to either the neural network models or the loss function. Moreover, our method can effectively identify out-of-distribution samples and reasonably quantify their uncertainty. Numerical experiments on benchmark regression problems show that our method outperforms the state-of-the-art methods with respect to predictive uncertainty quality, robustness, and identification of out-of-distribution samples.
翻訳日:2021-08-06 14:36:36 公開日:2021-08-05
# 機械学習の落とし穴を避ける方法: 研究者のためのガイド

How to avoid machine learning pitfalls: a guide for academic researchers ( http://arxiv.org/abs/2108.02497v1 )

ライセンス: Link先を確認
Michael A. Lones(参考訳) この文書は、機械学習技術を使用する際の一般的な誤りのいくつかと、それを避けるためにできることを簡潔に概説する。 主に研究学生のためのガイドとして意図され、厳密な比較や有効な結論に達する必要性など、学術研究の中で特に懸念される問題に焦点を当てている。 モデル構築前に何をすべきか、モデルを確実に構築する方法、モデルを堅牢に評価する方法、モデルを公平に比較する方法、結果を報告する方法である。

This document gives a concise outline of some of the common mistakes that occur when using machine learning techniques, and what can be done to avoid them. It is intended primarily as a guide for research students, and focuses on issues that are of particular concern within academic research, such as the need to do rigorous comparisons and reach valid conclusions. It covers five stages of the machine learning process: what to do before model building, how to reliably build models, how to robustly evaluate models, how to compare models fairly, and how to report results.
翻訳日:2021-08-06 14:36:22 公開日:2021-08-05
# 混合分布によるスパース通信

Sparse Communication via Mixed Distributions ( http://arxiv.org/abs/2108.02658v1 )

ライセンス: Link先を確認
Ant\'onio Farinhas and Wilker Aziz and Vlad Niculae and Andr\'e F. T. Martins(参考訳) ニューラルネットワークやその他の機械学習モデルは連続表現を計算し、人間は主として離散シンボルを介して通信する。 これらの2種類のコミュニケーションは、エンドツーエンドの識別性を保ちながら、人間可読な解釈を生成したり、個別の潜在変数モデルを学習するのに望ましい。 既存のアプローチ(Gumbel-Softmax変換など)は、ゼロ温度極限における離散近似である連続緩和を構築し、他のアプローチ(スパースマックス変換やハードコンクリート分布など)は離散/連続ハイブリッドを生成する。 本稿では,これらのハイブリッドに対する厳密な理論的基礎を構築し,これを「混合確率変数」と呼ぶ。 我々の出発点は、確率単純性の面格子上で定義される新しい「直和」基底測度である。 この尺度から, 離散的および微分的ケースを仮定し, 符号最適性の観点から解釈を行う新しいエントロピー関数とkullback-leibler 発散関数を導入する。 本フレームワークは,混合確率変数の表現とサンプリングのための2つの戦略,外在的(サンプル・アンド・プロジェクト)と内在的(顔層化に基づく)の戦略を提案する。 我々は、創発的通信ベンチマークとMNISTとFashion-MNISTデータを混合潜在変数を持つ変分自動エンコーダでモデル化する2つの方法の実験を行った。

Neural networks and other machine learning models compute continuous representations, while humans communicate mostly through discrete symbols. Reconciling these two forms of communication is desirable for generating human-readable interpretations or learning discrete latent variable models, while maintaining end-to-end differentiability. Some existing approaches (such as the Gumbel-Softmax transformation) build continuous relaxations that are discrete approximations in the zero-temperature limit, while others (such as sparsemax transformations and the Hard Concrete distribution) produce discrete/continuous hybrids. In this paper, we build rigorous theoretical foundations for these hybrids, which we call "mixed random variables." Our starting point is a new "direct sum" base measure defined on the face lattice of the probability simplex. From this measure, we introduce new entropy and Kullback-Leibler divergence functions that subsume the discrete and differential cases and have interpretations in terms of code optimality. Our framework suggests two strategies for representing and sampling mixed random variables, an extrinsic ("sample-and-project&q uot;) and an intrinsic one (based on face stratification). We experiment with both approaches on an emergent communication benchmark and on modeling MNIST and Fashion-MNIST data with variational auto-encoders with mixed latent variables.
翻訳日:2021-08-06 14:36:13 公開日:2021-08-05
# ASPによる化学療法治療スケジューリング問題の解法

An ASP-based Solution to the Chemotherapy Treatment Scheduling problem ( http://arxiv.org/abs/2108.02637v1 )

ライセンス: Link先を確認
Carmine Dodaro, Giuseppe Galat\`a, Andrea Grioni, Marco Maratea, Marco Mochi, Ivan Porro(参考訳) オンコロジークリニックにおける化学療法治療のスケジューリングの問題は、このソリューションが化学療法治療計画の循環的性質、患者の一定数の維持、治療時間、看護師、薬物などの資源の入手など、いくつかの要件を満たす必要があることを考えると、複雑な問題である。 同時に、満足のいくスケジュールを実現することが、最高の健康結果を得るために最重要となる。 本稿ではまず,イタリアのジェノヴァにあるサン・マルティーノ病院で採用されている問題の具体例を考察し,解集合プログラミング(asp)に基づく問題の解法を提案する。 そこで我々は,S. Martinoでも好まれる,他の病院でよく利用される機能や関連論文で考慮される機能を考慮したASPエンコーディングの問題点と問題点を整理した。 サンマルティーノ病院の実際のデータをもとに行った実験結果から,ASPは,この重要なスケジューリング問題に対しても効果的な解決手法であることが示された。 TPLPの受容についての検討

The problem of scheduling chemotherapy treatments in oncology clinics is a complex problem, given that the solution has to satisfy (as much as possible) several requirements such as the cyclic nature of chemotherapy treatment plans, maintaining a constant number of patients, and the availability of resources, e.g., treatment time, nurses, and drugs. At the same time, realizing a satisfying schedule is of upmost importance for obtaining the best health outcomes. In this paper we first consider a specific instance of the problem which is employed in the San Martino Hospital in Genova, Italy, and present a solution to the problem based on Answer Set Programming (ASP). Then, we enrich the problem and the related ASP encoding considering further features often employed in other hospitals, desirable also in S. Martino, and/or considered in related papers. Results of an experimental analysis, conducted on the real data provided by the San Martino Hospital, show that ASP is an effective solving methodology also for this important scheduling problem. Under consideration for acceptance in TPLP.
翻訳日:2021-08-06 14:35:51 公開日:2021-08-05
# 深層モデル透かしにおける構造整合性の検討

Exploring Structure Consistency for Deep Model Watermarking ( http://arxiv.org/abs/2108.02360v1 )

ライセンス: Link先を確認
Jie Zhang, Dongdong Chen, Jing Liao, Han Fang, Zehua Ma, Weiming Zhang, Gang Hua, Nenghai Yu(参考訳) ディープニューラルネットワーク(DNN)の知的特性(IP)は、代理モデルアタックによって容易に「ストレン」となる。 分類タスクにおいて、DNNモデルのIPを保護するソリューションが大幅に進歩している。 しかし、画像処理タスクにおけるDNNの保護にはほとんど注意が向けられていない。 ある最近の研究は、一貫した見えない空間的透かしを利用して、まず深層画像処理ネットワークのためのモデル透かしを検討し、多くの下流タスクにおいてその有効性を実証した。 それでも、ネットワーク出力に埋め込まれた透かしが一貫したものであるという仮説に大きく依存する。 攻撃者が代理モデルトレーニング中にいくつかの一般的なデータ拡張攻撃(例えば、回転、収穫、再サイズ)を使用すると、基盤となる透かしの一貫性が破壊されるため、完全に失敗する。 この問題を軽減するため,我々は,新しい深層構造整合モデル透かしアルゴリズムを設計した「構造整合性」という新しい透かし手法を提案する。 具体的には、埋め込み透かしは、エッジやセマンティック領域のような物理的に一貫したイメージ構造と整合するように設計されている。 実験により,本手法はモデルIP保護のためのデータ拡張攻撃に対して,ベースライン法よりもはるかに堅牢であることが示された。 さらに,本手法の一般化能力とロバスト性を,幅広い回避攻撃に対してさらに検証する。

The intellectual property (IP) of Deep neural networks (DNNs) can be easily ``stolen'' by surrogate model attack. There has been significant progress in solutions to protect the IP of DNN models in classification tasks. However, little attention has been devoted to the protection of DNNs in image processing tasks. By utilizing consistent invisible spatial watermarks, one recent work first considered model watermarking for deep image processing networks and demonstrated its efficacy in many downstream tasks. Nevertheless, it highly depends on the hypothesis that the embedded watermarks in the network outputs are consistent. When the attacker uses some common data augmentation attacks (e.g., rotate, crop, and resize) during surrogate model training, it will totally fail because the underlying watermark consistency is destroyed. To mitigate this issue, we propose a new watermarking methodology, namely ``structure consistency'', based on which a new deep structure-aligned model watermarking algorithm is designed. Specifically, the embedded watermarks are designed to be aligned with physically consistent image structures, such as edges or semantic regions. Experiments demonstrate that our method is much more robust than the baseline method in resisting data augmentation attacks for model IP protection. Besides that, we further test the generalization ability and robustness of our method to a broader range of circumvention attacks.
翻訳日:2021-08-06 14:35:32 公開日:2021-08-05
# 映像分類のためのトークンシフト変換器

Token Shift Transformer for Video Classification ( http://arxiv.org/abs/2108.02432v1 )

ライセンス: Link先を確認
Hao Zhang, Yanbin Hao, Chong-Wah Ngo(参考訳) Transformerは1次元信号と2次元信号(NLPや画像コンテンツ理解など)の理解において顕著な成功を収めている。 畳み込みニューラルネットワークの潜在的な代替として、強い解釈可能性、ハイパースケールデータに対する高い識別力、および様々な長さ入力を処理する柔軟性のメリットを共有している。 しかし、エンコーダには自然にペアワイズセルフアテンションのような計算集約的な操作が含まれており、複雑な3次元映像信号に適用する際に重い計算負荷が発生する。 本稿では、トランスフォーマーエンコーダ内の時間関係をモデル化するための新しいゼロパラメータ、ゼロフロップス演算子であるトークンシフトモジュール(tokshift)を提案する。 具体的には、tokshiftは、部分[クラス]トークンを、隣り合うフレーム間で前後にほとんどシフトしない。 そして,モジュールをプレーンな2次元映像変換器の各エンコーダに密に接続し,3次元映像表現を学習する。 われわれのtokshiftトランスフォーマーは純粋な畳み込みフリーなビデオトランスフォーマーパイロットであり、ビデオ理解のための計算効率は高い。 標準ベンチマークの実験は、その堅牢性、有効性、効率を検証する。 特に8/12フレームの入力クリップでは、Kinetics-400では79.83%/80.40%、EGTEA-Gaze+では66.56%、UCF-101データセットでは96.80%のSOTA精度を実現している。 私たちのコードは、https://github.com/V ideoNetworks/TokShif t-Transformer.comでオープンソース化されています。

Transformer achieves remarkable successes in understanding 1 and 2-dimensional signals (e.g., NLP and Image Content Understanding). As a potential alternative to convolutional neural networks, it shares merits of strong interpretability, high discriminative power on hyper-scale data, and flexibility in processing varying length inputs. However, its encoders naturally contain computational intensive operations such as pair-wise self-attention, incurring heavy computational burden when being applied on the complex 3-dimensional video signals. This paper presents Token Shift Module (i.e., TokShift), a novel, zero-parameter, zero-FLOPs operator, for modeling temporal relations within each transformer encoder. Specifically, the TokShift barely temporally shifts partial [Class] token features back-and-forth across adjacent frames. Then, we densely plug the module into each encoder of a plain 2D vision transformer for learning 3D video representation. It is worth noticing that our TokShift transformer is a pure convolutional-free video transformer pilot with computational efficiency for video understanding. Experiments on standard benchmarks verify its robustness, effectiveness, and efficiency. Particularly, with input clips of 8/12 frames, the TokShift transformer achieves SOTA precision: 79.83%/80.40% on the Kinetics-400, 66.56% on EGTEA-Gaze+, and 96.80% on UCF-101 datasets, comparable or better than existing SOTA convolutional counterparts. Our code is open-sourced in: https://github.com/V ideoNetworks/TokShif t-Transformer.
翻訳日:2021-08-06 14:35:08 公開日:2021-08-05
# Poison Ink:頑丈で目に見えないバックドア攻撃

Poison Ink: Robust and Invisible Backdoor Attack ( http://arxiv.org/abs/2108.02488v1 )

ライセンス: Link先を確認
Jie zhang, Dongdong Chen, Jing Liao, Qidong Huang, Gang Hua, Weiming Zhang, Nenghai Yu(参考訳) 最近の研究によると、ディープニューラルネットワークは、敵攻撃、データ中毒攻撃、バックドア攻撃など、さまざまなタイプの攻撃に対して脆弱である。 中でもバックドア攻撃は最も厄介な攻撃であり、ディープラーニングパイプラインのほぼすべての段階で起こりうる。 そのため、バックドア攻撃は学界と産業の両方から多くの関心を集めている。 しかし、既存のバックドアアタックメソッドの多くは、一般的なデータ変換のような、無力な事前処理で見えるか脆弱である。 これらの制限に対処するため、我々は ``Poison Ink'' と呼ばれる堅牢で見えないバックドア攻撃を提案する。 具体的には、まず画像構造を標的の中毒領域として利用し、それらを毒インク(情報)で満たしてトリガーパターンを生成する。 画像構造はデータ変換中に意味を保てるため、そのようなトリガーパターンは本質的にデータ変換に対して堅牢である。 次に,このトリガパターンをカバー画像に埋め込み,ステルス性を実現するために,ディープインジェクションネットワークを利用する。 既存の一般的なバックドア攻撃方法と比較して、Poison Inkはステルス性と堅牢性の両方で優れている。 広範な実験を通じて、Poison Inkは異なるデータセットやネットワークアーキテクチャに対して一般的なだけでなく、異なる攻撃シナリオに対して柔軟であることを示す。 また、多くの最先端の防衛技術に対して強い抵抗力を持つ。

Recent research shows deep neural networks are vulnerable to different types of attacks, such as adversarial attack, data poisoning attack and backdoor attack. Among them, backdoor attack is the most cunning one and can occur in almost every stage of deep learning pipeline. Therefore, backdoor attack has attracted lots of interests from both academia and industry. However, most existing backdoor attack methods are either visible or fragile to some effortless pre-processing such as common data transformations. To address these limitations, we propose a robust and invisible backdoor attack called ``Poison Ink''. Concretely, we first leverage the image structures as target poisoning areas, and fill them with poison ink (information) to generate the trigger pattern. As the image structure can keep its semantic meaning during the data transformation, such trigger pattern is inherently robust to data transformations. Then we leverage a deep injection network to embed such trigger pattern into the cover image to achieve stealthiness. Compared to existing popular backdoor attack methods, Poison Ink outperforms both in stealthiness and robustness. Through extensive experiments, we demonstrate Poison Ink is not only general to different datasets and network architectures, but also flexible for different attack scenarios. Besides, it also has very strong resistance against many state-of-the-art defense techniques.
翻訳日:2021-08-06 14:34:35 公開日:2021-08-05
# 広域再局在のためのオブジェクト拡張RGB-D SLAM

Object-Augmented RGB-D SLAM for Wide-Disparity Relocalisation ( http://arxiv.org/abs/2108.02522v1 )

ライセンス: Link先を確認
Yuhang Ming, Xingrui Yang, Andrew Calway(参考訳) 本稿では、一貫したオブジェクトマップを構築し、地図内のオブジェクトのセントロイドに基づいて再局在を行うことができるオブジェクト拡張RGB-D SLAMシステムを提案する。 このアプローチは、ポイント特徴や画像を用いた外観ベースの再局在化手法の視点依存性を克服することを目的としている。 マップ構築中に,事前学習したニューラルネットワークを用いて物体を検出し,rgb-dデータから6dポーズを推定する。 漸進確率モデルは、オブジェクトマップを作成するために時間とともに見積もりを集約するために使用される。 次に、再ローカライゼーションにおいて、同じネットワークを用いて、ロストフレーム内の関心対象を抽出する。 ペアワイズ幾何マッチングは、マップとフレームオブジェクトの対応を見つけ、確率的絶対向き付けに続いて、密密な深度マップとオブジェクトセントリドへの反復的最接近点の適用により再局在化をもたらす。 デスクトップ環境における実験の結果、マップ構築に使用したものとは大きく異なる視点のフレームであっても、非常に高い成功率を示し、2つの外見に基づく手法を著しく上回った。

We propose a novel object-augmented RGB-D SLAM system that is capable of constructing a consistent object map and performing relocalisation based on centroids of objects in the map. The approach aims to overcome the view dependence of appearance-based relocalisation methods using point features or images. During the map construction, we use a pre-trained neural network to detect objects and estimate 6D poses from RGB-D data. An incremental probabilistic model is used to aggregate estimates over time to create the object map. Then in relocalisation, we use the same network to extract objects-of-interest in the `lost' frames. Pairwise geometric matching finds correspondences between map and frame objects, and probabilistic absolute orientation followed by application of iterative closest point to dense depth maps and object centroids gives relocalisation. Results of experiments in desktop environments demonstrate very high success rates even for frames with widely different viewpoints from those used to construct the map, significantly outperforming two appearance-based methods.
翻訳日:2021-08-06 14:34:16 公開日:2021-08-05
# UPDesc:ロバスト登録のための教師なしポイント記述子学習

UPDesc: Unsupervised Point Descriptor Learning for Robust Registration ( http://arxiv.org/abs/2108.02740v1 )

ライセンス: Link先を確認
Lei Li, Hongbo Fu, Maks Ovsjanikov(参考訳) 本研究では,ロバストポイントクラウド登録のためのポイント記述子を学習するための教師なし手法であるUDDescを提案する。 本研究は,最近の3D CNNベースの記述子抽出フレームワークである3DSmoothNet上に構築されている。 よりリッチな局所幾何学情報へのアクセスを制限しうるボキセル化における固定サイズローカルサポートの代わりに,データ駆動方式でサポートサイズを学習することを提案する。 この目的のために、我々は、勾配をサポートサイズ最適化にバックプロパゲートできる微分可能なボクセル化モジュールを設計する。 ディスクリプタの類似性を最適化するために、以前の3d cnnの作業やその他の教師付き手法では、大量の対応ラベルやポイントクラウドのアノテーションが必要となる。 異なる例として,ネットワーク上で幾何学的登録を行うことで記述子類似性の教師なし学習が実現できることを示す。 私たちの学習目的は、監督なしで、ポイントクラウド間の記述的類似性を検討することです。 ポイントクラウド登録ベンチマークに関する広範な実験を通じて、学習したディスクリプタが、既存の教師なしメソッドよりも優れたパフォーマンスをもたらすことを示した。

In this work, we propose UPDesc, an unsupervised method to learn point descriptors for robust point cloud registration. Our work builds upon a recent supervised 3D CNN-based descriptor extraction framework, namely, 3DSmoothNet, which leverages a voxel-based representation to parameterize the surrounding geometry of interest points. Instead of using a predefined fixed-size local support in voxelization, which potentially limits the access of richer local geometry information, we propose to learn the support size in a data-driven manner. To this end, we design a differentiable voxelization module that can back-propagate gradients to the support size optimization. To optimize descriptor similarity, the prior 3D CNN work and other supervised methods require abundant correspondence labels or pose annotations of point clouds for crafting metric learning losses. Differently, we show that unsupervised learning of descriptor similarity can be achieved by performing geometric registration in networks. Our learning objectives consider descriptor similarity both across and within point clouds without supervision. Through extensive experiments on point cloud registration benchmarks, we show that our learned descriptors yield superior performance over existing unsupervised methods.
翻訳日:2021-08-06 14:33:56 公開日:2021-08-05
# フェアラーチェス:チェスで2つの動きを反転させることで白と黒のバランスが生まれる

Fairer Chess: A Reversal of Two Opening Moves in Chess Creates Balance Between White and Black ( http://arxiv.org/abs/2108.02547v1 )

ライセンス: Link先を確認
Steven J. Brams and Mehmet S. Ismail(参考訳) 最適なプレーがドローに繋がるtic-tac-toeやチェッカーとは異なり、チェスにおける最適なプレーがホワイトの勝利、ブラックの勝利、ドローのどちらで終わるかは分かっていない。 しかし、チェスで最初に白が動くと、黒がダブルムーブメント、白がダブルムーブメント、そして交互にプレイされると、白が常にタイやリードをするとは限らないため、プレイはよりバランスが取れます。 ホワイトの(W)最初の動きの後、最初はブラック(B)、次にホワイトは2つの動きを1列に持つ(BBWW)、続いてWから始まる交互の列はWB/BW/WB/WB/WB/WB... と書くことができる。 第3および第4の逆転を除いて、WBからBWへの移動は標準的なチェスシーケンスである。 バランスド・オルタネーションはホワイトを好む標準的なシーケンスとブラックを好む同等のシーケンスの間にあるため、最適なプレイとチェスのフェアアをレンダリングするドローを生成する可能性が極めて高い。 この結論は、チェスのオープニングのコンピュータ分析と、バランス交替の下でどのようにプレーするかによって支持される。

Unlike tic-tac-toe or checkers, in which optimal play leads to a draw, it is not known whether optimal play in chess ends in a win for White, a win for Black, or a draw. But after White moves first in chess, if Black has a double move followed by a double move of White and then alternating play, play is more balanced because White does not always tie or lead in moves. Symbolically, Balanced Alternation gives the following move sequence: After White's (W) initial move, first Black (B) and then White each have two moves in a row (BBWW), followed by the alternating sequence, beginning with W, which altogether can be written as WB/BW/WB/WB/WB... (the slashes separate alternating pairs of moves). Except for reversal of the 3rd and 4th moves from WB to BW, this is the standard chess sequence. Because Balanced Alternation lies between the standard sequence, which favors White, and a comparable sequence that favors Black, it is highly likely to produce a draw with optimal play, rendering chess fairer. This conclusion is supported by a computer analysis of chess openings and how they would play out under Balanced Alternation.
翻訳日:2021-08-06 14:33:15 公開日:2021-08-05
# 非定常条件下におけるDRLを用いたスライス配置

DRL-based Slice Placement Under Non-Stationary Conditions ( http://arxiv.org/abs/2108.02495v1 )

ライセンス: Link先を確認
Jose Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin, Pierre Sens(参考訳) 非定常的なPoissonプロセスに従ってスライス要求が到着すると仮定して,最適ネットワークスライス配置のためのオンライン学習を検討する。 本稿では,Deep Reinforcement Learning(DRL)とヒューリスティックな設計アルゴリズムを組み合わせたフレームワークを提案する。 具体的には、2つの純DRLアルゴリズムと2つのハイブリッドDRLヒューリスティックアルゴリズムを設計する。 それらの性能を検証するため,大規模オペレーターインフラの文脈で広範なシミュレーションを行う。 評価の結果,提案したハイブリッドDRLヒューリスティックアルゴリズムは,純DRLよりも少ない3桁の学習エピソードを必要とすることがわかった。 この結果から,提案手法は実非定常ネットワークシナリオにおいて純粋DRLよりも信頼性が高いことが示唆された。

We consider online learning for optimal network slice placement under the assumption that slice requests arrive according to a non-stationary Poisson process. We propose a framework based on Deep Reinforcement Learning (DRL) combined with a heuristic to design algorithms. We specifically design two pure-DRL algorithms and two families of hybrid DRL-heuristic algorithms. To validate their performance, we perform extensive simulations in the context of a large-scale operator infrastructure. The evaluation results show that the proposed hybrid DRL-heuristic algorithms require three orders of magnitude of learning episodes less than pure-DRL to achieve convergence. This result indicates that the proposed hybrid DRL-heuristic approach is more reliable than pure-DRL in a real non-stationary network scenario.
翻訳日:2021-08-06 14:32:14 公開日:2021-08-05
# スライス配置のための制御深部強化学習のロバスト性について

On the Robustness of Controlled Deep Reinforcement Learning for Slice Placement ( http://arxiv.org/abs/2108.02505v1 )

ライセンス: Link先を確認
Jose Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin, Pierre Sens(参考訳) ソフトウエーズネットワークの管理における機械学習の利用の影響の評価は,複数の研究で検討されている。 さらに,ネットワークスライス配置におけるオンライン学習のロバスト性を評価することを提案する。 本研究の主要な前提は,スライス要求の到着が定常的でないことである。 この文脈では、予測不能なネットワーク負荷変動をシミュレーションし、2つのDeep Reinforcement Learning (DRL)アルゴリズム(純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムとしてヒューリスティックに制御されたDRL)を比較し、これらの予測不可能なトラフィック負荷の変化がアルゴリズム性能に与える影響を評価する。 大規模オペレーターインフラの広範なシミュレーションを行う。 評価結果から,本提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化が発生した場合に,より堅牢で信頼性が高いことを示す。 これらの結果は、提案したハイブリッドDRLヒューリスティックアプローチが、純粋なDRLよりも効率的で、実際のネットワークシナリオに適応可能であることを示す最近の一連の研究のフォローアップである。

The evaluation of the impact of using Machine Learning in the management of softwarized networks is considered in multiple research works. Beyond that, we propose to evaluate the robustness of online learning for optimal network slice placement. A major assumption to this study is to consider that slice request arrivals are non-stationary. In this context, we simulate unpredictable network load variations and compare two Deep Reinforcement Learning (DRL) algorithms: a pure DRL-based algorithm and a heuristically controlled DRL as a hybrid DRL-heuristic algorithm, to assess the impact of these unpredictable changes of traffic load on the algorithms performance. We conduct extensive simulations of a large-scale operator infrastructure. The evaluation results show that the proposed hybrid DRL-heuristic approach is more robust and reliable in case of unpredictable network load changes than pure DRL as it reduces the performance degradation. These results are follow-ups for a series of recent research we have performed showing that the proposed hybrid DRL-heuristic approach is efficient and more adapted to real network scenarios than pure DRL.
翻訳日:2021-08-06 14:32:03 公開日:2021-08-05
# deepscanner - アノテーションによる2dオブジェクトデータセットの自動収集のためのロボットシステム

DeepScanner: a Robotic System for Automated 2D Object Dataset Collection with Annotations ( http://arxiv.org/abs/2108.02555v1 )

ライセンス: Link先を確認
Valery Ilin, Ivan Kalinov, Pavel Karpyshev, Dzmitry Tsetserukou(参考訳) 本研究では,ロボットを用いた自動データセット収集の可能性について述べる。 提案技術は,多角形データセット上の画素誤差の数と2次元オブジェクトの手動ラベリングに要する時間を削減する。 本稿では,新しい自動データセット収集とアノテーションシステムについて述べるとともに,自動および手動のデータセットラベリングの結果を比較した。 提案手法は,データラベリング240倍の速度を向上し,手動ラベリング13倍の精度を向上する。 また、手動で注釈付けされたデータセットと自動収集されたデータセットでニューラルネットワークをトレーニングするためのメトリクスの比較を示す。

In the proposed study, we describe the possibility of automated dataset collection using an articulated robot. The proposed technology reduces the number of pixel errors on a polygonal dataset and the time spent on manual labeling of 2D objects. The paper describes a novel automatic dataset collection and annotation system, and compares the results of automated and manual dataset labeling. Our approach increases the speed of data labeling 240-fold, and improves the accuracy compared to manual labeling 13-fold. We also present a comparison of metrics for training a neural network on a manually annotated and an automatically collected dataset.
翻訳日:2021-08-06 14:31:42 公開日:2021-08-05
# ドローンオーケストレータに接続された自動運転車のフェデレーション学習における不均一性への対処

On Addressing Heterogeneity in Federated Learning for Autonomous Vehicles Connected to a Drone Orchestrator ( http://arxiv.org/abs/2108.02712v1 )

ライセンス: Link先を確認
Igor Donevski, Jimmy Jessen Nielsen, Petar Popovski,(参考訳) 本稿では,自律走行車の性能を向上するために,ドローン交通監視装置 (DTM) を通じてFL(Federated Learning) シナリオを考案し,オーケストレータとして機能する。 非iidデータ分布を想定し、自律走行車の名目操作に影響を及ぼす可能性のある特定の臨界物体(co)の学習を加速する問題に焦点をあてる。 これは、学習者とデータの不均一性に対処するための無線リソースを適切に割り当てることによって実現できる。 そこで本研究では,FLラウンド毎に動的に発生する無線リソースの割り当てに対して,各学習者の一般モデルへの貢献に基づくリアクティブ手法を提案する。 これに加えて、すべてのラウンドで一定である静的メソッドの使用についても検討する。 学習者の部分的な作業が期待できるので,コンピュータビジョンのタスクにおいて,FedProx FLアルゴリズムを用いる。 テストのために、急速に変化する環境を表現するシナリオにおいて、4種類の学習者間でmnistとfmnistデータセットの非iidデータ分布を構築する。 その結果,ネットワーク内での表現不足によるCO授業の学習は,システム精度の向上に有効であり,多目的であることがわかった。 さらに,feedprox強度と資源割当努力のトレードオフを示す実験を行った。 それでも、十分に調整されたFedProxローカルオプティマイザは、特にディープニューラルネットワーク(NN)実装を使用する場合には、全体的な精度をさらに向上する。

In this paper we envision a federated learning (FL) scenario in service of amending the performance of autonomous road vehicles, through a drone traffic monitor (DTM), that also acts as an orchestrator. Expecting non-IID data distribution, we focus on the issue of accelerating the learning of a particular class of critical object (CO), that may harm the nominal operation of an autonomous vehicle. This can be done through proper allocation of the wireless resources for addressing learner and data heterogeneity. Thus, we propose a reactive method for the allocation of wireless resources, that happens dynamically each FL round, and is based on each learner's contribution to the general model. In addition to this, we explore the use of static methods that remain constant across all rounds. Since we expect partial work from each learner, we use the FedProx FL algorithm, in the task of computer vision. For testing, we construct a non-IID data distribution of the MNIST and FMNIST datasets among four types of learners, in scenarios that represent the quickly changing environment. The results show that proactive measures are effective and versatile at improving system accuracy, and quickly learning the CO class when underrepresented in the network. Furthermore, the experiments show a tradeoff between FedProx intensity and resource allocation efforts. Nonetheless, a well adjusted FedProx local optimizer allows for an even better overall accuracy, particularly when using deeper neural network (NN) implementations.
翻訳日:2021-08-06 14:31:18 公開日:2021-08-05
# 教師なし学習による役割ベース横移動検出

Role-based lateral movement detection with unsupervised learning ( http://arxiv.org/abs/2108.02713v1 )

ライセンス: Link先を確認
Brian A. Powell(参考訳) 一般的に妥協の明確な指標が欠けているため、妥協されたアカウントによる敵対的な横動きは、伝統的なルールに基づく防御によって発見することは難しい。 本稿では,企業ネットワークにおける横移動検出手法として,エクスプロイトあるいは認証された接続による汎用横移動と,プロセスインジェクションおよびハイジャックの特定技術を対象とした行動ベースの非教師付きフレームワークを提案する。 最初の方法は、ネットワーク上で実行する機能であるシステムの役割が、接続すべきシステムの役割を決定するという前提に基づいている。 一方、敵はあらゆるシステムの間を移動し、特定のアクセスを促進する異常な役割を持つシステムを探し出すかもしれない。 我々は、教師なし学習を用いて、役割に応じてシステムをクラスタリングし、新しい役割を持つシステムとの接続を潜在的に悪意のあるものとして識別する。 第2の方法は、これらの接続を促進するシステム間プロセスの時間的パターンが関連するシステムの役割に依存するという前提に基づいている。 プロセスが攻撃者によって妥協された場合、これらの通常のパターンは識別可能な方法で破壊される可能性がある。 プロセスシーケンスに頻繁なイテムセットマイニングを適用して,役割に基づくシステム間通信の規則的なパターンを確立し,まれなプロセスシーケンスを潜在的に悪意のあるコネクションのシグナルとして識別する。

Adversarial lateral movement via compromised accounts remains difficult to discover via traditional rule-based defenses because it generally lacks explicit indicators of compromise. We propose a behavior-based, unsupervised framework comprising two methods of lateral movement detection on enterprise networks: one aimed at generic lateral movement via either exploit or authenticated connections, and one targeting the specific techniques of process injection and hijacking. The first method is based on the premise that the role of a system---the functions it performs on the network---determines the roles of the systems it should make connections with. The adversary meanwhile might move between any systems whatever, possibly seeking out systems with unusual roles that facilitate certain accesses. We use unsupervised learning to cluster systems according to role and identify connections to systems with novel roles as potentially malicious. The second method is based on the premise that the temporal patterns of inter-system processes that facilitate these connections depend on the roles of the systems involved. If a process is compromised by an attacker, these normal patterns might be disrupted in discernible ways. We apply frequent-itemset mining to process sequences to establish regular patterns of communication between systems based on role, and identify rare process sequences as signalling potentially malicious connections.
翻訳日:2021-08-06 14:30:53 公開日:2021-08-05
# Mean-Field Multi-Agent Reinforcement Learning: 分散ネットワークアプローチ

Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network Approach ( http://arxiv.org/abs/2108.02731v1 )

ライセンス: Link先を確認
Haotian Gu, Xin Guo, Xiaoli Wei, Renyuan Xu(参考訳) マルチエージェント強化学習(MARL)の課題の1つは、各エージェントがシステム全体の限定的または部分的情報しか持たない大規模システムの効率的な学習アルゴリズムを設計することである。 本システムでは,分散型の政策を学習することが望ましい。 このような分散MARLを解析するための最近で有望なパラダイムは、ネットワーク構造を考慮することである。 分散型のmarlをソーシャルネットワークやチームビデオゲームでよく見られるエージェントのネットワークで分析するエキサイティングな進歩はあったが、国家ネットワークで分散化されたmarlでは理論上ほとんど知られておらず、自動運転車のモデリング、ライドシェアリング、データおよびトラフィックルーティングによく使われている。 本稿では,局部訓練と分散実行というフレームワークを提案し,同質な状態(a.a.a.)でMARLを学習する。 平均フィールド型)エージェント。 局所的な訓練は、エージェントが訓練期間中に隣の州でのみローカル情報を収集する必要があることを意味し、非集中的な実行は、訓練段階の後にエージェントが学習された非集中的なポリシーを実行することを意味する。 鍵となるアイデアは、エージェントの均質性を利用し、それらの状態に応じて再分類することで、エージェントのチームとネットワーク化されたマルコフ決定プロセスを定式化し、局所化された方法でq関数の更新を可能にすることである。 このような枠組みの下で効率的でスケーラブルな強化学習アルゴリズムを設計するために,オーバーパラメータ付きニューラルネットワークを用いたアクター-クリティックアプローチを採用し,エージェントと状態のサイズに対してスケーラブルであることを示すアルゴリズムの収束とサンプル複雑性を確立する。

One of the challenges for multi-agent reinforcement learning (MARL) is designing efficient learning algorithms for a large system in which each agent has only limited or partial information of the entire system. In this system, it is desirable to learn policies of a decentralized type. A recent and promising paradigm to analyze such decentralized MARL is to take network structures into consideration. While exciting progress has been made to analyze decentralized MARL with the network of agents, often found in social networks and team video games, little is known theoretically for decentralized MARL with the network of states, frequently used for modeling self-driving vehicles, ride-sharing, and data and traffic routing. This paper proposes a framework called localized training and decentralized execution to study MARL with network of states, with homogeneous (a.k.a. mean-field type) agents. Localized training means that agents only need to collect local information in their neighboring states during the training phase; decentralized execution implies that, after the training stage, agents can execute the learned decentralized policies, which only requires knowledge of the agents' current states. The key idea is to utilize the homogeneity of agents and regroup them according to their states, thus the formulation of a networked Markov decision process with teams of agents, enabling the update of the Q-function in a localized fashion. In order to design an efficient and scalable reinforcement learning algorithm under such a framework, we adopt the actor-critic approach with over-parameterized neural networks, and establish the convergence and sample complexity for our algorithm, shown to be scalable with respect to the size of both agents and states.
翻訳日:2021-08-06 14:30:35 公開日:2021-08-05
# 円値信号のチコノフ正則化

Tikhonov Regularization of Circle-Valued Signals ( http://arxiv.org/abs/2108.02602v1 )

ライセンス: Link先を確認
Laurent Condat(参考訳) 値が巡回的であり、ラップされた位相、角度、向き、色合いなどの複雑な円上の点として表せるような信号や画像を処理することが一般的である。 任意のグラフ上で定義される円値信号の平滑化や補間を行うためのtikhonov型正則化モデルを考える。 本稿では,この非凸問題を半定値プログラムとして凸緩和し,それを解決する効率的なアルゴリズムを提案する。

It is common to have to process signals or images whose values are cyclic and can be represented as points on the complex circle, like wrapped phases, angles, orientations, or color hues. We consider a Tikhonov-type regularization model to smoothen or interpolate circle-valued signals defined on arbitrary graphs. We propose a convex relaxation of this nonconvex problem as a semidefinite program, and an efficient algorithm to solve it.
翻訳日:2021-08-06 14:30:06 公開日:2021-08-05
# UniCon:ロバストアクティブ話者検出のための統合コンテキストネットワーク

UniCon: Unified Context Network for Robust Active Speaker Detection ( http://arxiv.org/abs/2108.02607v1 )

ライセンス: Link先を確認
Yuanhang Zhang, Susan Liang, Shuang Yang, Xiao Liu, Zhongqin Wu, Shiguang Shan, Xilin Chen(参考訳) 能動的話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。 ASDの従来の方法は、通常、各候補者の顔トラックで個別に動作し、候補者間の関係を十分に考慮していない。 これはパフォーマンスを制限する可能性があり、特に低解像度の顔や複数の候補を持つ挑戦的なシナリオでは。 提案手法は,複数種類のコンテキスト情報を協調的にモデル化することに焦点を当てた,新しい統合された枠組みである。各候補の顔の位置と規模を示す空間コンテキスト,候補者間の視覚的関係を捉える関係コンテキスト,長期的情報収集と局所的不確実性を円滑に行う時間コンテキストである。 このような情報に基づいて,本モデルはロバストで信頼性の高いasdのための統一プロセスにおいて,すべての候補を最適化する。 異なる設定下でいくつかの挑戦的なasdベンチマークで徹底的なアブレーション研究を行う。 特に,提案手法は,2つの挑戦的サブセットにおいて平均精度(mAP)絶対値(平均精度)を約15%の差で上回り,一方は3つの話者,もう一方は64ピクセル以下の顔を持つ。 当社のuniconはいずれも,ava-activespeakerバリデーションセット上で92.0%のマップを達成しています。 プロジェクトウェブサイト: https://unicon-asd.g ithub.io/

We introduce a new efficient framework, the Unified Context Network (UniCon), for robust active speaker detection (ASD). Traditional methods for ASD usually operate on each candidate's pre-cropped face track separately and do not sufficiently consider the relationships among the candidates. This potentially limits performance, especially in challenging scenarios with low-resolution faces, multiple candidates, etc. Our solution is a novel, unified framework that focuses on jointly modeling multiple types of contextual information: spatial context to indicate the position and scale of each candidate's face, relational context to capture the visual relationships among the candidates and contrast audio-visual affinities with each other, and temporal context to aggregate long-term information and smooth out local uncertainties. Based on such information, our model optimizes all candidates in a unified process for robust and reliable ASD. A thorough ablation study is performed on several challenging ASD benchmarks under different settings. In particular, our method outperforms the state-of-the-art by a large margin of about 15% mean Average Precision (mAP) absolute on two challenging subsets: one with three candidate speakers, and the other with faces smaller than 64 pixels. Together, our UniCon achieves 92.0% mAP on the AVA-ActiveSpeaker validation set, surpassing 90% for the first time on this challenging dataset at the time of submission. Project website: https://unicon-asd.g ithub.io/.
翻訳日:2021-08-06 14:29:57 公開日:2021-08-05
# Lyapunov Robust Constrained-MDPs:Sof t-Constrained Robustly Staable Policy Optimization under Model Uncertainty

Lyapunov Robust Constrained-MDPs: Soft-Constrained Robustly Stable Policy Optimization under Model Uncertainty ( http://arxiv.org/abs/2108.02701v1 )

ライセンス: Link先を確認
Reazul Hasan Russel, Mouhacine Benosman, Jeroen Van Baar, Radu Corcodel(参考訳) 安全性とロバスト性は強化学習アルゴリズムに求められる2つの性質である。 CMDPは追加の安全制約を処理でき、RMDPはモデルの不確実性の下でよく機能する。 本稿では,これらの2つのフレームワークを結合させて,堅牢な制約付きMDP(RCMDP)を提案する。 モチベーションは、安全性の制約を満足すると同時に、モデルの不確実性にも堅牢性を提供するフレームワークを開発することである。 我々は,rcmdp 目標を開発し,この目標を最適化するために勾配更新公式を導出し,ポリシー勾配に基づくアルゴリズムを提案する。 また、RCMDPに対するリアプノフに基づく報酬形成を独立に提案し、安定性と収束性を向上する。

Safety and robustness are two desired properties for any reinforcement learning algorithm. CMDPs can handle additional safety constraints and RMDPs can perform well under model uncertainties. In this paper, we propose to unite these two frameworks resulting in robust constrained MDPs (RCMDPs). The motivation is to develop a framework that can satisfy safety constraints while also simultaneously offer robustness to model uncertainties. We develop the RCMDP objective, derive gradient update formula to optimize this objective and then propose policy gradient based algorithms. We also independently propose Lyapunov based reward shaping for RCMDPs, yielding better stability and convergence properties.
翻訳日:2021-08-06 14:28:51 公開日:2021-08-05
# the ai economist: 2段階深層強化学習による最適経済政策設計

The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning ( http://arxiv.org/abs/2108.02755v1 )

ライセンス: Link先を確認
Stephan Zheng, Alexander Trott, Sunil Srinivasa, David C. Parkes, Richard Socher(参考訳) AIと強化学習(RL)は多くの分野で改善されているが、経済政策設計、メカニズム設計、経済全般ではまだ広く採用されていない。 同時に、現在の経済方法論は、偽データ、単純化された行動モデル、政策の実験や行動応答の評価の機会の不足によって制限されている。 ここでは、機械学習に基づく経済シミュレーションが、これらの制限を克服するための強力なポリシーおよびメカニズム設計フレームワークであることを示す。 ai economistは、2段階の深いrlフレームワークで、エージェントとソーシャルプランナーの両方を訓練し、高度に不安定で新しい2段階rlチャレンジの扱いやすいソリューションを提供する。 経済の単純な仕様から、学習したプランナーポリシーに適応し、その逆にも適応する合理的なエージェントの行動を学びます。 最適課税問題に対するai経済学者の有効性を実証する。 単純な一段階の経済では、AIエコノミストは経済理論の最適税制を回復する。 複雑でダイナミックな経済においては、AIエコノミストは実用的社会福祉と、ベースラインよりも平等と生産性のトレードオフの両方を大幅に改善する。 創発的な税収戦略にもかかわらず、エージェントの相互作用や行動の変化を経済理論よりも正確に計算している。 これらの結果は、二段階の深いRLを経済設計理論の理解と補完に利用し、経済政策を理解するための新しい計算学習ベースのアプローチを解き放つことを初めて示している。

AI and reinforcement learning (RL) have improved many areas, but are not yet widely adopted in economic policy design, mechanism design, or economics at large. At the same time, current economic methodology is limited by a lack of counterfactual data, simplistic behavioral models, and limited opportunities to experiment with policies and evaluate behavioral responses. Here we show that machine-learning-bas ed economic simulation is a powerful policy and mechanism design framework to overcome these limitations. The AI Economist is a two-level, deep RL framework that trains both agents and a social planner who co-adapt, providing a tractable solution to the highly unstable and novel two-level RL challenge. From a simple specification of an economy, we learn rational agent behaviors that adapt to learned planner policies and vice versa. We demonstrate the efficacy of the AI Economist on the problem of optimal taxation. In simple one-step economies, the AI Economist recovers the optimal tax policy of economic theory. In complex, dynamic economies, the AI Economist substantially improves both utilitarian social welfare and the trade-off between equality and productivity over baselines. It does so despite emergent tax-gaming strategies, while accounting for agent interactions and behavioral change more accurately than economic theory. These results demonstrate for the first time that two-level, deep RL can be used for understanding and as a complement to theory for economic design, unlocking a new computational learning-based approach to understanding economic policy.
翻訳日:2021-08-06 14:28:38 公開日:2021-08-05
# (参考訳) cybonto: サイバーセキュリティのための人間認知デジタル双子を目指して [全文訳有]

Cybonto: Towards Human Cognitive Digital Twins for Cybersecurity ( http://arxiv.org/abs/2108.00551v2 )

ライセンス: CC BY 4.0
Tam N. Nguyen(参考訳) サイバー防御は反応し、遅い。 平均して、time-to-remedyはtime-to-compromiseの数百倍大きい。 ますます複雑化する脅威の状況に対して、Digital Twins(DT)や、特にHuman Digital Twins(HDT)は、複数の知識ドメインにわたって大規模なシミュレーションを実行する機能を提供する。 シミュレートされた結果は、敵の行動や戦術についての洞察を与え、より積極的なサイバー防衛戦略をもたらす。 本稿では,Cybonto概念フレームワークの提案を通じて,サイバーセキュリティのためのDTとHDTのビジョンを初めて固める。 この論文はシボントオントロジーにも貢献し、20のタイムテスト心理学理論に基づく108の構成要素と数千の認知関連パスを公式に文書化している。 最後に,108構造体の解析に20のネットワーク集中アルゴリズムを適用した。 識別されたトップ10の構成物は、dtの未来に向けて現在のデジタル認知アーキテクチャの拡張を要求する。

Cyber defense is reactive and slow. On average, the time-to-remedy is hundreds of times larger than the time-to-compromise. In response to the expanding ever-more-complex threat landscape, Digital Twins (DTs) and particularly Human Digital Twins (HDTs) offer the capability of running massive simulations across multiple knowledge domains. Simulated results may offer insights into adversaries' behaviors and tactics, resulting in better proactive cyber-defense strategies. For the first time, this paper solidifies the vision of DTs and HDTs for cybersecurity via the Cybonto conceptual framework proposal. The paper also contributes the Cybonto ontology, formally documenting 108 constructs and thousands of cognitive-related paths based on 20 time-tested psychology theories. Finally, the paper applied 20 network centrality algorithms in analyzing the 108 constructs. The identified top 10 constructs call for extensions of current digital cognitive architectures in preparation for the DT future.
翻訳日:2021-08-06 13:18:11 公開日:2021-08-05
# (参考訳) Multispectral Vineyard Segmentation: ディープラーニングアプローチ [全文訳有]

Multispectral Vineyard Segmentation: A Deep Learning approach ( http://arxiv.org/abs/2108.01200v2 )

ライセンス: CC BY 4.0
T. Barros, P. Conde, G. Gon\c{c}alves, C. Premebida, M. Monteiro, C.S.S. Ferreira, U.J. Nunes(参考訳) デジタル農業は、地中海地域の関連作物であるブドウ園を含む農業分野に適用される自動化と計算知能の技術的発展により、ここ数年で大きく発展してきた。 本稿では, 実世界のブドウ畑におけるワイン検出のためのセマンティックセグメンテーションについて, 最先端のディープセグメンテーションネットワークと従来の教師なし手法を探索して検討する。 カメラデータは、高解像度カラーカメラと5バンドマルチスペクトル熱カメラを備えたデュアルイメージングセンサーペイロードを備えた無人航空システム(UAS)を用いて、ブドウ園で収集された。 ポルトガル中部の3つの異なるブドウ畑を表すマルチモーダルデータセットでは、セグメンテーションネットワークと教師なしの方法の広範な実験が行われている。 また,NIRバンドを用いた従来の(ディープでない)アプローチは競争力のある結果を示した。 また, マルチモーダリティはブドウのセグメンテーションの性能をわずかに向上させるが, NIRスペクトルだけではほとんどのデータセットで十分であることがわかった。 コードとデータセットはhttps://github.com/C ybonic/DL_vineyard_s egmentation_study.gi tで公開されている。

Digital agriculture has evolved significantly over the last few years due to the technological developments in automation and computational intelligence applied to the agricultural sector, including vineyards which are a relevant crop in the Mediterranean region. In this paper, a study of semantic segmentation for vine detection in real-world vineyards is presented by exploring state-of-the-art deep segmentation networks and conventional unsupervised methods. Camera data was collected on vineyards using an Unmanned Aerial System (UAS) equipped with a dual imaging sensor payload, namely a high-resolution color camera and a five-band multispectral and thermal camera. Extensive experiments of the segmentation networks and unsupervised methods have been performed on multimodal datasets representing three distinct vineyards located in the central region of Portugal. The reported results indicate that the best segmentation performances are obtained with deep networks, while traditional (non-deep) approaches using the NIR band shown competitive results. The results also show that multimodality slightly improves the performance of vine segmentation but the NIR spectrum alone generally is sufficient on most of the datasets. The code and dataset are publicly available on https://github.com/C ybonic/DL_vineyard_s egmentation_study.gi t
翻訳日:2021-08-06 13:08:51 公開日:2021-08-05
# (参考訳) 意味空間における創発的離散通信 [全文訳有]

Emergent Discrete Communication in Semantic Spaces ( http://arxiv.org/abs/2108.01828v2 )

ライセンス: CC BY 4.0
Mycal Tucker, Huao Li, Siddharth Agrawal, Dana Hughes, Katia Sycara, Michael Lewis, Julie Shah(参考訳) 強化学習設定で訓練された神経エージェントは、個別のトークンを介して自分自身でコミュニケーションを学習し、エージェントが単独ではできないことをチームとして達成する。 しかし、1ホットベクトルを離散的な通信トークンとして使うという現在の標準は、エージェントがゼロショット理解のようなより望ましいコミュニケーションの側面を得るのを妨げている。 自然言語処理からの単語埋め込み技術に着想を得て,学習された連続空間から導出される離散トークンを介して通信可能なニューラルエージェントアーキテクチャを提案する。 決定論的枠組みでは、我々の手法が幅広いシナリオで通信を最適化するのに対し、一方のホットトークンは制限された仮定の下でのみ最適であることを示す。 セルフプレイ実験では、トレーニングされたエージェントがトークンを意味的に測定可能な方法でクラスタ化する方法を学習し、他のテクニックが失敗するノイズの多い環境で通信できることを確認します。 最後に,本手法を用いたエージェントは,新規なヒューマンコミュニケーションに効果的に反応し,人間はラベルなしの創発的エージェントコミュニケーションを理解でき,一方のホットなコミュニケーションよりも優れていることを実証する。

Neural agents trained in reinforcement learning settings can learn to communicate among themselves via discrete tokens, accomplishing as a team what agents would be unable to do alone. However, the current standard of using one-hot vectors as discrete communication tokens prevents agents from acquiring more desirable aspects of communication such as zero-shot understanding. Inspired by word embedding techniques from natural language processing, we propose neural agent architectures that enables them to communicate via discrete tokens derived from a learned, continuous space. We show in a decision theoretic framework that our technique optimizes communication over a wide range of scenarios, whereas one-hot tokens are only optimal under restrictive assumptions. In self-play experiments, we validate that our trained agents learn to cluster tokens in semantically-meaning ful ways, allowing them communicate in noisy environments where other techniques fail. Lastly, we demonstrate both that agents using our method can effectively respond to novel human communication and that humans can understand unlabeled emergent agent communication, outperforming the use of one-hot communication.
翻訳日:2021-08-06 12:21:51 公開日:2021-08-05
# (参考訳) 教師なし3次元行動表現学習のためのスケルトンクラウドカラー化 [全文訳有]

Skeleton Cloud Colorization for Unsupervised 3D Action Representation Learning ( http://arxiv.org/abs/2108.01959v2 )

ライセンス: CC BY 4.0
Siyuan Yang, Jun Liu, Shijian Lu, Meng Hwa Er, Alex C. Kot(参考訳) 骨格に基づく人間の行動認識は近年注目を集めている。 しかし、既存の作品のほとんどが教師付き学習に焦点を合わせており、多くの注釈付きアクションシーケンスを収集するのにしばしば費用がかかる。 骨格行動認識のための教師なし表現学習について検討し、ラベルのない骨格配列データから骨格表現を学習できる新しい骨格雲カラー化手法を設計する。 具体的には、スケルトンアクションシーケンスを3dスケルトンクラウドとして表現し、元の(注釈なし)スケルトンシーケンスの時間順序と空間順序に従って雲の各点を着色する。 色付きスケルトン点雲を活用することで、スケルトン関節の人工色ラベルから空間的特徴を効果的に学習できる自動エンコーダフレームワークを設計する。 我々は,非教師付き,半教師付き,完全教師付きの設定を含む,異なる構成で訓練されたアクション分類器を用いて,スケルトンクラウドのカラー化手法を評価する。 NTU RGB+DおよびNW-UCLAデータセットの大規模な実験により、提案手法は既存の教師なしおよび半教師付き3D動作認識法を大きなマージンで上回り、教師付き3D動作認識における競合性能も達成することを示した。

Skeleton-based human action recognition has attracted increasing attention in recent years. However, most of the existing works focus on supervised learning which requiring a large number of annotated action sequences that are often expensive to collect. We investigate unsupervised representation learning for skeleton action recognition, and design a novel skeleton cloud colorization technique that is capable of learning skeleton representations from unlabeled skeleton sequence data. Specifically, we represent a skeleton action sequence as a 3D skeleton cloud and colorize each point in the cloud according to its temporal and spatial orders in the original (unannotated) skeleton sequence. Leveraging the colorized skeleton point cloud, we design an auto-encoder framework that can learn spatial-temporal features from the artificial color labels of skeleton joints effectively. We evaluate our skeleton cloud colorization approach with action classifiers trained under different configurations, including unsupervised, semi-supervised and fully-supervised settings. Extensive experiments on NTU RGB+D and NW-UCLA datasets show that the proposed method outperforms existing unsupervised and semi-supervised 3D action recognition methods by large margins, and it achieves competitive performance in supervised 3D action recognition as well.
翻訳日:2021-08-06 12:00:33 公開日:2021-08-05
# (参考訳) ノーマライズドフローを用いたマルチアノテーション医用画像分割におけるアレタリック不確実性定量化の改善 [全文訳有]

Improving Aleatoric Uncertainty Quantification in Multi-Annotated Medical Image Segmentation with Normalizing Flows ( http://arxiv.org/abs/2108.02155v2 )

ライセンス: CC BY 4.0
M.M.A. Valiuddin, C.G.A. Viviers, R.J.G. van Sloun, P.H.N. de With, F. van der Sommen(参考訳) 医療画像セグメンテーションの応用における不確実性の定量化は、しばしば重要な意思決定と結びついているため不可欠である。 イメージセグメンテーションアーキテクチャにおける不確実性を定量化するための計算の試みがなされている。 入力画像に条件付けられた密度分割モデルを学ぶ。 この分野の典型的な研究は、これらの学習密度が厳密にガウス的であることを制限している。 本稿では,学習密度をより複雑にし,より正確な不確かさのモデル化を容易にするノーマライズフロー(nfs)を導入することで,より柔軟な手法を提案する。 この仮説を確率的u-netを採用し、nfで後方密度を増強することで証明し、より表現力を高める。 LIDC-IDRIとKvasir-SEGセグメンテーションデータセットの定性および定量的(GEDとIoU)評価は,それぞれ明らかに改善されている。 これは、アレエータ的不確かさの定量化と、最大で14%の予測性能の増加で明らかである。 この結果は、密度モデリングによってセグメンテーションの曖昧さを捉えようとするアーキテクチャにおいて、より柔軟な密度モデルが真剣に検討されるべきことを強く示唆している。 この改良されたモデリングの利点は、アノテーションとセグメンテーションに対する人間の信頼を高め、実際にこの技術を積極的に採用することを可能にします。

Quantifying uncertainty in medical image segmentation applications is essential, as it is often connected to vital decision-making. Compelling attempts have been made in quantifying the uncertainty in image segmentation architectures, e.g. to learn a density segmentation model conditioned on the input image. Typical work in this field restricts these learnt densities to be strictly Gaussian. In this paper, we propose to use a more flexible approach by introducing Normalizing Flows (NFs), which enables the learnt densities to be more complex and facilitate more accurate modeling for uncertainty. We prove this hypothesis by adopting the Probabilistic U-Net and augmenting the posterior density with an NF, allowing it to be more expressive. Our qualitative as well as quantitative (GED and IoU) evaluations on the multi-annotated and single-annotated LIDC-IDRI and Kvasir-SEG segmentation datasets, respectively, show a clear improvement. This is mostly apparent in the quantification of aleatoric uncertainty and the increased predictive performance of up to 14 percent. This result strongly indicates that a more flexible density model should be seriously considered in architectures that attempt to capture segmentation ambiguity through density modeling. The benefit of this improved modeling will increase human confidence in annotation and segmentation, and enable eager adoption of the technology in practice.
翻訳日:2021-08-06 11:42:54 公開日:2021-08-05
# 一般非凸凸ミニマックス問題に対するゼロ次交互ランダム勾配投影アルゴリズム

Zeroth-Order Alternating Randomized Gradient Projection Algorithms for General Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2108.00473v2 )

ライセンス: Link先を確認
Zi Xu, Jingjing Shen, Ziqi Wang, Yuhong Dai(参考訳) 本稿では,近年,機械学習,信号処理,その他多くの分野で注目されている非凸凹ミニマックス問題に対するゼロ次アルゴリズムについて検討する。 本研究では,滑らかな非凸凸型ミニマックス問題に対するゼロ次交互ランダム勾配投影 (zo-agp) アルゴリズムを提案し,その反復複雑性から$\varepsilon$-statio nary pointを得るには$\mathcal{o}(\varepsilon^{-4})$,関数値推定の回数は$\mathcal{o}(d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$である。 さらに,ブロック方向非滑らかな非凸凸凸型ミニマックス最適化問題を解くために,ゼロ次ブロック交互なランダムな近位勾配アルゴリズム (zo-bapg) を提案し,$\varepsilon$-stati onary point を得るための反復複雑性を$\mathcal{o}(\varepsilon^{-4})$ で制限し,各イテレーション当たりの関数値推定数は$\mathcal{o}(k d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$で制限する。 我々の知る限りでは、一般にスムーズかつブロックワイズ非滑らかな非凸凹極小問題を解くため、反復複雑性を保証したゼロ階アルゴリズムが開発されたのはこれが初めてである。 データ中毒攻撃問題の数値結果は,提案アルゴリズムの有効性を検証する。

In this paper, we study zeroth-order algorithms for nonconvex-concave minimax problems, which have attracted widely attention in machine learning, signal processing and many other fields in recent years. We propose a zeroth-order alternating randomized gradient projection (ZO-AGP) algorithm for smooth nonconvex-concave minimax problems, and its iteration complexity to obtain an $\varepsilon$-statio nary point is bounded by $\mathcal{O}(\varepsilon^{-4})$, and the number of function value estimation is bounded by $\mathcal{O}(d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$ per iteration. Moreover, we propose a zeroth-order block alternating randomized proximal gradient algorithm (ZO-BAPG) for solving block-wise nonsmooth nonconvex-concave minimax optimization problems, and the iteration complexity to obtain an $\varepsilon$-statio nary point is bounded by $\mathcal{O}(\varepsilon^{-4})$ and the number of function value estimation per iteration is bounded by $\mathcal{O}(K d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$. To the best of our knowledge, this is the first time that zeroth-order algorithms with iteration complexity gurantee are developed for solving both general smooth and block-wise nonsmooth nonconvex-concave minimax problems. Numerical results on data poisoning attack problem validate the efficiency of the proposed algorithms.
翻訳日:2021-08-06 11:31:04 公開日:2021-08-05
# pro-uigan:オクルードサムネイルによる進行性顔面幻覚

Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails ( http://arxiv.org/abs/2108.00602v3 )

ライセンス: Link先を確認
Yang Zhang, Xin Yu, Xiaobo Lu, Ping Liu(参考訳) 本稿では,隠蔽サムネイルから高分解能顔(HR)を幻覚させる作業について検討する。 本稿では,多段階のプログレッシブアップサンプリングとインペインティングによる生成的敵ネットワーク,pro-uiganを提案する。 Pro-UIGAN は,(1) 低分解能 (LR) 顔の顔形状を推定し,(2) 推定した先行画像に基づいて非閉塞なHR顔画像を取得する。 我々の多段階幻覚ネットワークは、密閉されたLR面を粗い方法で超解像し、塗布することにより、望ましくないぼかしやアーティファクトを著しく低減する。 具体的には,入力面とそのランドマーク特徴をそれぞれクエリとキーとして定式化した,顔先行推定のための新しいクロスモーダルトランスフォーマーモジュールを設計した。 このようなデザインは、入力された顔とランドマークにまたがる共同機能学習を奨励し、深い特徴対応を注意して発見する。 これにより、顔の外観特徴と顔の形状を相互に促進して学習する。 広範な実験により,我々の親uiganは,他の最先端(sota)手法と比較して,下級タスク,すなわち顔のアライメント,顔解析,顔認識,表情分類において優れた性能を達成できることを示した。

In this paper, we study the task of hallucinating an authentic high-resolution (HR) face from an occluded thumbnail. We propose a multi-stage Progressive Upsampling and Inpainting Generative Adversarial Network, dubbed Pro-UIGAN, which exploits facial geometry priors to replenish and upsample (8*) the occluded and tiny faces (16*16 pixels). Pro-UIGAN iteratively (1) estimates facial geometry priors for low-resolution (LR) faces and (2) acquires non-occluded HR face images under the guidance of the estimated priors. Our multi-stage hallucination network super-resolves and inpaints occluded LR faces in a coarse-to-fine manner, thus reducing unwanted blurriness and artifacts significantly. Specifically, we design a novel cross-modal transformer module for facial priors estimation, in which an input face and its landmark features are formulated as queries and keys, respectively. Such a design encourages joint feature learning across the input facial and landmark features, and deep feature correspondences will be discovered by attention. Thus, facial appearance features and facial geometry priors are learned in a mutual promotion manner. Extensive experiments demonstrate that our Pro-UIGAN achieves visually pleasing HR faces, reaching superior performance in downstream tasks, i.e., face alignment, face parsing, face recognition and expression classification, compared with other state-of-the-art (SotA) methods.
翻訳日:2021-08-06 11:30:26 公開日:2021-08-05
# 生成逆ネットを用いたカテゴリー的EHRインプット

Categorical EHR Imputation with Generative Adversarial Nets ( http://arxiv.org/abs/2108.01701v2 )

ライセンス: Link先を確認
Yinchong Yang, Zhiliang Wu, Volker Tresp, Peter A. Fasching(参考訳) 電子健康記録は、しばしばデータ不足に苦しむため、臨床や臨床研究において大きな問題となる。 欠落データを扱うための新しいアプローチとして、画像生成と変換に多大な関心を寄せているgan(generative adversarial nets)がある。 近年、研究者はデータ生成の欠如とEHRデータの計算にGANを適用しようと試みている。 GANベースのカテゴリデータ生成に対する最先端のソリューションは、強化学習か、カテゴリと実際の潜在機能空間の間の双方向マッピングを学習することを含む。 しかし,これらの手法は機能不足の部分集合のみを命令するのではなく,完全な特徴ベクトルを生成するように設計されている。 本稿では,データインプテーションのためのgansに関するこれまでの研究に基づいて,単純かつ効果的なアプローチを提案する。 まず、分類的特徴がある場合、敵対的トレーニングが失敗する理由を議論することで、ソリューションを動機付けます。 そして, カテゴリー的特徴を再コードし, 敵対的訓練を安定させる新しい手法を導出する。 複数の設定を持つ2つの実世界のehrデータを用いた実験に基づいて,従来のデータインプテーション手法に比べて予測精度が大幅に向上することを示す。

Electronic Health Records often suffer from missing data, which poses a major problem in clinical practice and clinical studies. A novel approach for dealing with missing data are Generative Adversarial Nets (GANs), which have been generating huge research interest in image generation and transformation. Recently, researchers have attempted to apply GANs to missing data generation and imputation for EHR data: a major challenge here is the categorical nature of the data. State-of-the-art solutions to the GAN-based generation of categorical data involve either reinforcement learning, or learning a bidirectional mapping between the categorical and the real latent feature space, so that the GANs only need to generate real-valued features. However, these methods are designed to generate complete feature vectors instead of imputing only the subsets of missing features. In this paper we propose a simple and yet effective approach that is based on previous work on GANs for data imputation. We first motivate our solution by discussing the reason why adversarial training often fails in case of categorical features. Then we derive a novel way to re-code the categorical features to stabilize the adversarial training. Based on experiments on two real-world EHR data with multiple settings, we show that our imputation approach largely improves the prediction accuracy, compared to more traditional data imputation approaches.
翻訳日:2021-08-06 11:29:53 公開日:2021-08-05
# 空間的集積と不確かさを伴う多相肝腫瘍分画

Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting ( http://arxiv.org/abs/2108.00911v2 )

ライセンス: Link先を確認
Yue Zhang, Chengtao Peng, Liying Peng, Huimin Huang, Ruofeng Tong, Lanfen Lin, Jingsong Li, Yen-Wei Chen, Qingqing Chen, Hongjie Hu, Zhiyi Peng(参考訳) 多相CT画像は肝腫瘍の正確なセグメンテーション(LiTS)に重要な相補的情報を提供する。 最先端多相LiTS法は通常、位相重み付け和やチャネルアテンションに基づく結合を通じて、相を融合する。 しかし、これらの手法は異なる位相間の空間的(ピクセル単位で)関係を無視し、機能統合が不十分になった。 また, 腫瘍境界領域では特に急激なセグメンテーションにおいて, 既存手法の性能は依然として不確実性に起因している。 本研究では,多相情報を適切に集約し,不確実領域分割を洗練するための新しいLiTS法を提案する。 この目的のために、異なる位相間の画素間相互作用を促進する空間集約モジュール(SAM)を導入し、クロスフェーズ情報を完全に活用する。 さらに,隣接する識別特徴を用いて不確実な画素を精査するための不確実な領域塗装モジュール(URIM)を考案した。 局所肝病変 (mpct-flls) の多相ctデータセットを用いた実験により, 肝腫瘍の分画を有望に達成し, 術式を上回った。

Multi-phase computed tomography (CT) images provide crucial complementary information for accurate liver tumor segmentation (LiTS). State-of-the-art multi-phase LiTS methods usually fused cross-phase features through phase-weighted summation or channel-attention based concatenation. However, these methods ignored the spatial (pixel-wise) relationships between different phases, hence leading to insufficient feature integration. In addition, the performance of existing methods remains subject to the uncertainty in segmentation, which is particularly acute in tumor boundary regions. In this work, we propose a novel LiTS method to adequately aggregate multi-phase information and refine uncertain region segmentation. To this end, we introduce a spatial aggregation module (SAM), which encourages per-pixel interactions between different phases, to make full use of cross-phase information. Moreover, we devise an uncertain region inpainting module (URIM) to refine uncertain pixels using neighboring discriminative features. Experiments on an in-house multi-phase CT dataset of focal liver lesions (MPCT-FLLs) demonstrate that our method achieves promising liver tumor segmentation and outperforms state-of-the-arts.
翻訳日:2021-08-06 11:29:29 公開日:2021-08-05
# 浅いLSTMによるHARの深層学習の改善

Improving Deep Learning for HAR with shallow LSTMs ( http://arxiv.org/abs/2108.00702v2 )

ライセンス: Link先を確認
Marius Bock, Alexander Hoelzemann, Michael Moeller, Kristof Van Laerhoven(参考訳) 近年のHAR(Human Activity Recognition)では,ディープラーニング手法が従来の機械学習アルゴリズムより優れていることが示されている。 HARで人気のあるDeep LearningアーキテクチャはDeepConvLSTMである。 本稿では,DeepConvLSTMアーキテクチャを2層型LSTMではなく1層型LSTMに変更することを提案する。 LSTM層内の様々な隠蔽ユニットを用いて,予測性能と変更の有無を比較して,5つの公開HARデータセット上でのアーキテクチャ変更を検証する。 その結果,F1スコアでは認識性能が最大11.7%向上し,学習可能なパラメータの量が大幅に減少することがわかった。 DeepConvLSTMによるこの改善は、トレーニング時間を最大48%短縮する。 この結果は、シーケンシャルデータを扱う場合、少なくとも2層LSTMが必要であるという信念とは対照的である。 以上の結果から,センサベースHARには適用できない可能性が示唆された。

Recent studies in Human Activity Recognition (HAR) have shown that Deep Learning methods are able to outperform classical Machine Learning algorithms. One popular Deep Learning architecture in HAR is the DeepConvLSTM. In this paper we propose to alter the DeepConvLSTM architecture to employ a 1-layered instead of a 2-layered LSTM. We validate our architecture change on 5 publicly available HAR datasets by comparing the predictive performance with and without the change employing varying hidden units within the LSTM layer(s). Results show that across all datasets, our architecture consistently improves on the original one: Recognition performance increases up to 11.7% for the F1-score, and our architecture significantly decreases the amount of learnable parameters. This improvement over DeepConvLSTM decreases training time by as much as 48%. Our results stand in contrast to the belief that one needs at least a 2-layered LSTM when dealing with sequential data. Based on our results we argue that said claim might not be applicable to sensor-based HAR.
翻訳日:2021-08-06 11:29:08 公開日:2021-08-05