このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210410となっている論文です。

PDF登録状況(公開日: 20210410)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 弱教師付き関係抽出のための表現学習

Representation Learning for Weakly Supervised Relation Extraction ( http://arxiv.org/abs/2105.00815v1 )

ライセンス: CC BY 4.0
Zhuang Li(参考訳) 近年,情報抽出やそのサブタスクであるリレーション抽出が急速に進展している。 関係抽出は文中のエンティティ間の意味関係を検出することができる。 現在、関係抽出タスクに多くの効率的なアプローチが適用されている。 教師付き学習アプローチは特に優れたパフォーマンスを持つ。 しかし、まだ多くの難しい課題がある。 最も深刻な問題の1つは、手動ラベル付きデータを取得するのが難しいことである。 ほとんどの場合、教師付きアプローチの限られたデータは、粗悪なパフォーマンスに等しい。 そこで,本研究では,トレーニングデータに制限のある状況下では,教師なし事前学習による教師ありベースラインシステムの性能向上に注目する。 機能(feature)は、教師付きアプローチを改善する上で重要なコンポーネントの1つです。 伝統的なアプローチは通常手作りの特徴を適用し、専門知識と高価な人的労働を必要とする。 しかし、この種の機能はデータのスパーシティに支障をきたす可能性がある。トレーニングセットのサイズが小さい場合、モデルパラメータは低い推定値になる可能性がある。 本論文では,関係表現の構文・意味的パターンを多用した分散テキスト表現の特徴を学習するための,教師なし事前学習モデルを提案する。 実験により, 従来の手作りの特徴と組み合わせることで, 関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。

Recent years have seen rapid development in Information Extraction, as well as its subtask, Relation Extraction. Relation Extraction is able to detect semantic relations between entities in sentences. Currently, many efficient approaches have been applied to relation extraction tasks. Supervised learning approaches especially have good performance. However, there are still many difficult challenges. One of the most serious problems is that manually labeled data is difficult to acquire. In most cases, limited data for supervised approaches equals lousy performance. Thus here, under the situation with only limited training data, we focus on how to improve the performance of our supervised baseline system with unsupervised pre-training. Feature is one of the key components in improving the supervised approaches. Traditional approaches usually apply hand-crafted features, which require expert knowledge and expensive human labor. However, this type of feature might suffer from data sparsity: when the training set size is small, the model parameters might be poorly estimated. In this thesis, we present several novel unsupervised pre-training models to learn the distributed text representation features, which are encoded with rich syntactic-semantic patterns of relation expressions. The experiments have demonstrated that this type of feature, combine with the traditional hand-crafted features, could improve the performance of the logistic classification model for relation extraction, especially on the classification of relations with only minor training instances.
翻訳日:2021-05-06 07:34:39 公開日:2021-04-10
# 実世界のBCIに向けて:CCSPNet - コンパクトな被写体非依存モータ画像フレームワーク-

Toward Real-World BCI: CCSPNet, A Compact Subject-Independent Motor Imagery Framework ( http://arxiv.org/abs/2012.13567v3 )

ライセンス: Link先を確認
Mahbod Nouri, Faraz Moradi, Hafez Ghaemi, Ali Motie Nasrabadi(参考訳) 従来の脳-コンピュータインタフェース(BCI)は、使用前に各ユーザーに対して完全なデータ収集、トレーニング、校正フェーズを必要とする。 この予備段階は時間がかかり、BCIが適切に機能するための実験室で一般的に技術専門家の監督の下で実施されるべきである。 近年,主観非依存型(SI)BCIが多数開発されている。 しかし、現実のBCIアプリケーションでそれらが使われるのを防ぐには多くの問題がある。 主観依存(sd)アプローチに比べて弱い性能と、比較的多くのモデルパラメータが最も重要なものである。 したがって、現実世界のbciアプリケーションは、ユーザがオンするとすぐに使えるコンパクトなサブジェクト非依存のbciフレームワークから大きな恩恵を受け、iot(internet of things)の新興分野における低消費電力エッジコンピューティングやアプリケーションに適している。 本研究では,2段階のハンドムーブメントmiタスクを行う54名の被験者に対して,400回の試行からなる大規模脳波信号データベースの運動画像(mi)パラダイムに基づいて,ccspnet(convolution al common spatial pattern network)と呼ばれる新しい主題非依存型bciフレームワークを提案する。 提案手法は,ウェーブレット核畳み込みニューラルネットワーク(wkcnn)と時間畳み込みニューラルネットワーク(tcnn)を適用し,脳波信号の多様なスペクトル特性を表現・抽出する。 畳み込み層の出力は、空間特徴抽出のための共通空間パターン(CSP)アルゴリズムを介して行われる。 CSP特徴数は高密度ニューラルネットワークにより減少し、最終クラスラベルは線形判別分析(LDA)により決定される。 CCSPNet フレームワークの評価結果から,SD と SI の両性能を複雑で計算コストのかかるモデルに匹敵する低消費電力のコンパクト BCI を持つことが示唆された。

A conventional brain-computer interface (BCI) requires a complete data gathering, training, and calibration phase for each user before it can be used. This preliminary phase is time-consuming and should be done under the supervision of technical experts commonly in laboratories for the BCI to function properly. In recent years, a number of subject-independent (SI) BCIs have been developed. However, there are many problems preventing them from being used in real-world BCI applications. A weaker performance compared to the subject-dependent (SD) approach and a relatively large number of model parameters are the most important ones. Therefore, a real-world BCI application would greatly benefit from a compact subject-independent BCI framework, ready to be used immediately after the user puts it on, and suitable for low-power edge-computing and applications in the emerging area of internet of things (IoT). In this work, we propose a novel subject-independent BCI framework named CCSPNet (Convolutional Common Spatial Pattern Network) that is trained on the motor imagery (MI) paradigm of a large-scale EEG signals database consisting of 400 trials for every 54 subjects performing two-class hand-movement MI tasks. The proposed framework applies a wavelet kernel convolutional neural network (WKCNN) and a temporal convolutional neural network (TCNN) in order to represent and extract the diverse spectral features of EEG signals. The outputs of the convolutional layers go through a common spatial pattern (CSP) algorithm for spatial feature extraction. The number of CSP features is reduced by a dense neural network, and the final class label is determined by a linear discriminative analysis (LDA). The CCSPNet framework evaluation results show that it is possible to have a low-power compact BCI that achieves both SD and SI performance comparable to complex and computationally expensive models.
翻訳日:2021-04-25 04:36:10 公開日:2021-04-10
# ERNIE-M:単言語コーパスによる言語間セマンティックのアライメントによる多言語表現の強化

ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora ( http://arxiv.org/abs/2012.15674v3 )

ライセンス: Link先を確認
Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 最近の研究では、訓練済みの言語横断モデルが下流の言語横断タスクで印象的な性能を発揮することが示されている。 この改善は、大量の単言語と並列コーパスの学習に起因している。 並列コーパスはモデルの性能向上に重要であると一般に認識されているが、既存の手法は特に低リソース言語では並列コーパスのサイズに制約されることが多い。 本稿では,並列コーパスサイズの制約を破るために,複数の言語表現を単言語コーパスと整合させる新しい学習法であるernie-mを提案する。 私たちの重要な洞察は、事前学習プロセスにバック翻訳のアイデアを統合することです。 単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にし、言語間モデルのセマンティックモデリングを強化する。 実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。 コードと事前訓練されたモデルは公開されます。

Recent studies have demonstrated that pre-trained cross-lingual models achieve impressive performance on downstream cross-lingual tasks. This improvement stems from the learning of a large amount of monolingual and parallel corpora. While it is generally acknowledged that parallel corpora are critical for improving the model performance, existing methods are often constrained by the size of parallel corpora, especially for the low-resource languages. In this paper, we propose ERNIE-M, a new training method that encourages the model to align the representation of multiple languages with monolingual corpora, to break the constraint of parallel corpus size on the model performance. Our key insight is to integrate the idea of back translation in the pre-training process. We generate pseudo-parallel sentences pairs on a monolingual corpus to enable the learning of semantic alignment between different languages, which enhances the semantic modeling of cross-lingual models. Experimental results show that ERNIE-M outperforms existing cross-lingual models and delivers new state-of-the-art results on various cross-lingual downstream tasks. The codes and pre-trained models will be made publicly available.
翻訳日:2021-04-17 17:13:13 公開日:2021-04-10
# (参考訳) auto-validate: データレイクから推定したデータドメインパターンを用いた教師なしデータ検証 [全文訳有]

Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes ( http://arxiv.org/abs/2104.04659v1 )

ライセンス: CC BY 4.0
Jie Song, Yeye He(参考訳) 複雑なデータパイプラインは、BIレポートやMLモデリングといった多様なアプリケーションでますます一般的になっています。 これらのパイプラインは、BIレポートを更新する必要があり、MLモデルを再トレーニングする必要があるため、定期的に再帰することが多い。 しかし、複雑なプロダクションパイプラインでは、上流のデータフィードが予期せぬ方法で変化し、ダウンストリームアプリケーションは解決にコストがかかる静かに壊れてしまうことが広く報告されている。 このように、データ検証は重要なトピックとなり、googleとamazonによる最近の注目すべき取り組みで示されているように、パイプラインでデータ品質の問題が発生すると早期にキャッチすることを目的としている。 しかし,本研究の経験から,文字列値データでは,これらの既存手法は偽陽性率が高く,人的介入が頻繁に必要であることが示唆された。 本研究では,データ品質の問題を最大化しながら偽陽性を最小限に抑える,基礎となるデータドメインを正確に記述する適切なデータバリデーション"パターン"を推測することで,自動検証するコーパス駆動手法を開発した。 実データレイクの生産データを用いた評価は、Auto-Validateが既存の方法よりもかなり効果的であることを示している。 この技術の一部は、 \textsc{Microsoft Azure Purview} の \textsc{Auto-Tag} 機能として出荷される。

Complex data pipelines are increasingly common in diverse applications such as BI reporting and ML modeling. These pipelines often recur regularly (e.g., daily or weekly), as BI reports need to be refreshed, and ML models need to be retrained. However, it is widely reported that in complex production pipelines, upstream data feeds can change in unexpected ways, causing downstream applications to break silently that are expensive to resolve. Data validation has thus become an important topic, as evidenced by notable recent efforts from Google and Amazon, where the objective is to catch data quality issues early as they arise in the pipelines. Our experience on production data suggests, however, that on string-valued data, these existing approaches yield high false-positive rates and frequently require human intervention. In this work, we develop a corpus-driven approach to auto-validate \emph{machine-generated data} by inferring suitable data-validation "patterns" that accurately describe the underlying data-domain, which minimizes false positives while maximizing data quality issues caught. Evaluations using production data from real data lakes suggest that Auto-Validate is substantially more effective than existing methods. Part of this technology ships as an \textsc{Auto-Tag} feature in \textsc{Microsoft Azure Purview}.
翻訳日:2021-04-16 07:55:46 公開日:2021-04-10
# (参考訳) プロンプトを改善するメタチューニング言語モデル [全文訳有]

Meta-tuning Language Models to Answer Prompts Better ( http://arxiv.org/abs/2104.04670v1 )

ライセンス: CC0 1.0
Ruiqi Zhong, Kristy Lee, Zheng Zhang, Dan Klein(参考訳) GPT-3のような大規模な事前訓練された言語モデルは、ゼロショット分類(ZSC)を実行する驚くべき能力を得た。 例えば、レビューの感情を分類するには、レビューで言語モデルを"プロンプト"することができ、"レビューはポジティブか? 文脈として、次の単語が "Yes" か "No" かを予測するように求めます。 しかし、これらのモデルはこれらのプロンプトへの応答に特化していない。 この弱点に対処するために、我々はモデルにプロンプトへの応答を専門に訓練するが、それでも見当たらないタスクに一般化するメタチューニングを提案する。 トレーニングデータを作成するために、43の既存のデータセットを集約し、合計441のラベル記述を注釈付けし、上記の質問応答(QA)フォーマットにまとめました。 メタチューニング後、我々のモデルは、目に見えないタスクでほとんどのラベルに対して同じ大きさのQAモデルより優れており、さらに大きなモデルでは性能が向上すると予想する。 したがって、非特殊化言語モデル上でのZSCパフォーマンスの測定は、その真の能力を過小評価する可能性があり、データセットを集約し、フォーマットを統一するというコミュニティ全体の取り組みは、プロンプトをよりよく理解するモデルを構築するのに役立つ。

Large pretrained language models like GPT-3 have acquired a surprising ability to perform zero-shot classification (ZSC). For example, to classify review sentiments, we can "prompt" the language model with the review and the question "Is the review positive?" as the context, and ask it to predict whether the next word is "Yes" or "No". However, these models are not specialized for answering these prompts. To address this weakness, we propose meta-tuning, which trains the model to specialize in answering prompts but still generalize to unseen tasks. To create the training data, we aggregated 43 existing datasets, annotated 441 label descriptions in total, and unified them into the above question answering (QA) format. After meta-tuning, our model outperforms a same-sized QA model for most labels on unseen tasks, and we forecast that the performance would improve for even larger models. Therefore, measuring ZSC performance on non-specialized language models might underestimate their true capability, and community-wide efforts on aggregating datasets and unifying their formats can help build models that understand prompts better.
翻訳日:2021-04-16 07:26:20 公開日:2021-04-10
# (参考訳) B\'ezier Simplicesの近似ベイズ計算 [全文訳有]

Approximate Bayesian Computation of B\'ezier Simplices ( http://arxiv.org/abs/2104.04679v1 )

ライセンス: CC BY 4.0
Akinori Tanaka, Akiyoshi Sannai, Ken Kobayashi, and Naoki Hamada(参考訳) b\'ezier simplexフィッティングアルゴリズムは、多目的連続最適化問題のパレート集合/フロントを近似するために最近提案されている。 これらの新しい手法は、サンプルポイントがパレートセット/フロント上にある場合、パレートセット/フロントの様々な形状を近似することに成功した。 しかし、もしサンプルポイントがパレートセット/フロントから散乱した場合、これらのメソッドは過剰フィッティングに苦しむことが多い。 本稿では,この問題を克服するために,b\'ezier simplexモデルを確率的モデルに拡張し,wasserstein距離に基づく近似ベイズ計算(abc)の枠組みに当てはまる新しい学習アルゴリズムを提案する。 また、Wasserstein ABCアルゴリズムの収束性についても検討する。 公開問題事例に対する広範な実験的評価は、新しいアルゴリズムが有限標本に収束することを示している。 さらに,ノイズ発生時の決定論的フィッティング法を上回っている。

B\'ezier simplex fitting algorithms have been recently proposed to approximate the Pareto set/front of multi-objective continuous optimization problems. These new methods have shown to be successful at approximating various shapes of Pareto sets/fronts when sample points exactly lie on the Pareto set/front. However, if the sample points scatter away from the Pareto set/front, those methods often likely suffer from over-fitting. To overcome this issue, in this paper, we extend the B\'ezier simplex model to a probabilistic one and propose a new learning algorithm of it, which falls into the framework of approximate Bayesian computation (ABC) based on the Wasserstein distance. We also study the convergence property of the Wasserstein ABC algorithm. An extensive experimental evaluation on publicly available problem instances shows that the new algorithm converges on a finite sample. Moreover, it outperforms the deterministic fitting methods on noisy instances.
翻訳日:2021-04-16 06:29:23 公開日:2021-04-10
# (参考訳) 2Dから学ぶ:3次元事前学習のための画素間知識伝達 [全文訳有]

Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining ( http://arxiv.org/abs/2104.04687v1 )

ライセンス: CC BY 4.0
Yueh-Cheng Liu, Yu-Kai Huang, Hung-Yueh Chiang, Hung-Ting Su, Zhe-Yu Liu, Chin-Tang Chen, Ching-Yu Tseng, Winston H. Hsu(参考訳) 3Dネットワークのほとんどは、大規模なラベル付きデータセットの欠如によって、スクラッチの所有からトレーニングされている。 本稿では,リッチな2次元データセットから学習した2次元ネットワークを利用して,新しい3次元事前学習手法を提案する。 画素レベルの特徴と点レベルの特徴を同じ埋め込み空間にマッピングすることにより、2D情報を効果的に活用するための画素間知識伝達を提案する。 2dネットワークと3dネットワークの異質性から,2dと3dの機能を整合させて転送を可能にするバックプロジェクション機能を導入する。 さらに,高次2次元特徴写像の空間分解能を高めるために,アップサンプリング機能プロジェクション層を考案し,微細な3次元表現の学習を支援する。 事前訓練された2Dネットワークでは、提案した事前学習プロセスでは、追加の2Dまたは3Dラベル付きデータを必要としない。 私たちの知る限りでは、既存の2dトレーニング重みを活用して3d深層ニューラルネットワークを事前トレーニングした最初の例です。 集中的な実験により,2次元知識を事前学習した3dモデルが,実世界のさまざまな3dダウンストリームタスクのパフォーマンスを向上させることが示された。

Most of the 3D networks are trained from scratch owning to the lack of large-scale labeled datasets. In this paper, we present a novel 3D pretraining method by leveraging 2D networks learned from rich 2D datasets. We propose the pixel-to-point knowledge transfer to effectively utilize the 2D information by mapping the pixel-level and point-level features into the same embedding space. Due to the heterogeneous nature between 2D and 3D networks, we introduce the back-projection function to align the features between 2D and 3D to make the transfer possible. Additionally, we devise an upsampling feature projection layer to increase the spatial resolution of high-level 2D feature maps, which helps learning fine-grained 3D representations. With a pretrained 2D network, the proposed pretraining process requires no additional 2D or 3D labeled data, further alleviating the expansive 3D data annotation cost. To the best of our knowledge, we are the first to exploit existing 2D trained weights to pretrain 3D deep neural networks. Our intensive experiments show that the 3D models pretrained with 2D knowledge boost the performances across various real-world 3D downstream tasks.
翻訳日:2021-04-16 05:52:55 公開日:2021-04-10
# (参考訳) すべての注意が必要なものではない [全文訳有]

Not All Attention Is All You Need ( http://arxiv.org/abs/2104.04692v1 )

ライセンス: CC BY 4.0
Hongqiu Wu, Hai Zhao, Min Zhang(参考訳) 自己注意に基づくモデルは自然言語処理において顕著な成功を収めた。 しかし,近年の研究では,自己着脱型ネットワークの設計は,有効性や冗長性が高いため,準最適であると見なされている。 本稿では,タスク固有チューニングに基づく自己計画型学習設計による事前学習言語モデルに焦点を当てる。 その結果,自然言語理解,文書分類,名前付きエンティティ認識,posタグづけなど複数のタスクにおいて,80%近い自己認識層が刈り取られた,より軽量な最先端モデルがさらに優れた結果が得られることを実証した。

Self-attention based models have achieved remarkable success in natural language processing. However, the self-attention network design is questioned as suboptimal in recent studies, due to its veiled validity and high redundancy. In this paper, we focus on pre-trained language models with self-pruning training design on task-specific tuning. We demonstrate that the lighter state-of-the-art models with nearly 80% of self-attention layers pruned, may achieve even better results on multiple tasks, including natural language understanding, document classification, named entity recognition and POS tagging, with nearly twice faster inference.
翻訳日:2021-04-16 05:36:43 公開日:2021-04-10
# (参考訳) MPTP: 宇宙空間におけるナビゲーションのための運動計画型タスクプランニング

MPTP: Motion-Planning-awar e Task Planning for Navigation in Belief Space ( http://arxiv.org/abs/2104.04696v1 )

ライセンス: CC BY 4.0
Antony Thomas, Fulvio Mastrogiovanni, Marco Baglietto(参考訳) 大規模環境におけるナビゲーションのためのタスク移動計画(TMP)フレームワークについて述べる。 近年,TMPの操作に対する関心が高まり,様々なアプローチが増加している。 対照的に、ナビゲーション用のTMPは、かなり注目を集めていない。 現実の複雑なシナリオで動く自律ロボットは、離散的な(タスク)空間と連続的な(動き)空間での計画を必要とする。 知識集約的なドメインでは、ロボットは、取得する対象、取得する領域、取得する領域など、最も高いレベルを推論しなければならない。 これは、モーションプランニング・アウェアタスクプランナーの必要性を示す。 本稿では,このタスクと動作の相互作用を利用して,大規模知識集約領域をナビゲートし,タスクレベルで最適な計画を返す確率論的に完全なアプローチについて論じる。 このフレームワークは、運動中の運動計画と感覚の不確実性を目的としており、これは正式には信仰空間計画として知られている。 基礎となる方法論は、オフィス環境でのシミュレーションで検証され、そのスケーラビリティは、より大きなwillow garageの世界でテストされる。 私たちのアプローチに最も近い作品との合理的な比較も提供されています。 また,ビルディングフロアナビゲーション領域を考慮し,本手法の適応性を示す。 最後に、我々のアプローチの限界についても議論し、改善と今後の作業を提案する。

We present an integrated Task-Motion Planning (TMP) framework for navigation in large-scale environments. Of late, TMP for manipulation has attracted significant interest resulting in a proliferation of different approaches. In contrast, TMP for navigation has received considerably less attention. Autonomous robots operating in real-world complex scenarios require planning in the discrete (task) space and the continuous (motion) space. In knowledge-intensive domains, on the one hand, a robot has to reason at the highest-level, for example, the objects to procure, the regions to navigate to in order to acquire them; on the other hand, the feasibility of the respective navigation tasks have to be checked at the execution level. This presents a need for motion-planning-awar e task planners. In this paper, we discuss a probabilistically complete approach that leverages this task-motion interaction for navigating in large knowledge-intensive domains, returning a plan that is optimal at the task-level. The framework is intended for motion planning under motion and sensing uncertainty, which is formally known as belief space planning. The underlying methodology is validated in simulation, in an office environment and its scalability is tested in the larger Willow Garage world. A reasonable comparison with a work that is closest to our approach is also provided. We also demonstrate the adaptability of our approach by considering a building floor navigation domain. Finally, we also discuss the limitations of our approach and put forward suggestions for improvements and future work.
翻訳日:2021-04-16 05:27:03 公開日:2021-04-10
# (参考訳) DuRIN: 深部展開型スパース反射率インバージョンネットワーク [全文訳有]

DuRIN: A Deep-unfolded Sparse Seismic Reflectivity Inversion Network ( http://arxiv.org/abs/2104.04704v1 )

ライセンス: CC BY 4.0
Swapnil Mache, Praveen Kumar Pokala, Kusala Rajendran and Chandra Sekhar Seelamantula(参考訳) 地下構造を推定する上で欠かせない地震データから界面の位置と反射係数の振幅を復元する反射地震学の問題を考察する。 反射率反転問題は通常、欲求アルゴリズムと反復的手法を用いて解決される。 スパースベイズ学習フレームワーク、さらに最近では、ディープラーニング技術がこの問題を解決するデータ駆動アプローチの可能性を示している。 本稿では,重み付きミニマックス凹型ペナルティ正規化反射率反転式を提案し,モデルベースニューラルネットワークを用いて解いた。 このネットワークはdeep-unfolded reflectivity inversion network (durin) と呼ばれる。 カナダ・ノバスコシア沖のペノブスコット3D調査から得られた2次元マルムーシ2モデルと実データを用いて,合成1次元の地震跡と2次元のウェッジモデルを用いて,提案手法に対する提案手法の有効性を実証した。

We consider the reflection seismology problem of recovering the locations of interfaces and the amplitudes of reflection coefficients from seismic data, which are vital for estimating the subsurface structure. The reflectivity inversion problem is typically solved using greedy algorithms and iterative techniques. Sparse Bayesian learning framework, and more recently, deep learning techniques have shown the potential of data-driven approaches to solve the problem. In this paper, we propose a weighted minimax-concave penalty-regularized reflectivity inversion formulation and solve it through a model-based neural network. The network is referred to as deep-unfolded reflectivity inversion network (DuRIN). We demonstrate the efficacy of the proposed approach over the benchmark techniques by testing on synthetic 1-D seismic traces and 2-D wedge models and validation with the simulated 2-D Marmousi2 model and real data from the Penobscot 3D survey off the coast of Nova Scotia, Canada.
翻訳日:2021-04-16 05:26:02 公開日:2021-04-10
# (参考訳) ManyTypes4Py: 機械学習ベースの型推論のためのベンチマークPythonデータセット [全文訳有]

ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type Inference ( http://arxiv.org/abs/2104.04706v1 )

ライセンス: CC BY-SA 4.0
Amir M. Mir, Evaldas Latoskinas, Georgios Gousios(参考訳) 本稿では機械学習(ML)に基づく型推論のためのPythonデータセットであるMultiTypes4Pyを紹介する。 データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。 重複するソースコードファイルは、重複バイアスの負の効果を排除するために削除された。 MLモデルのトレーニングと評価を容易にするため、データセットはファイルによるトレーニング、検証、テストセットに分割された。 抽象構文木(AST)から型情報を抽出するために、軽量な静的アナライザパイプラインを開発し、データセットを添付する。 このパイプラインを使用して収集したPythonプロジェクトを解析し、AST分析の結果をJSON形式のファイルに格納した。 ManyTypes4Pyデータセットはzenodoで共有されており、そのツールはGitHubで公開されている。

In this paper, we present ManyTypes4Py, a large Python dataset for machine learning (ML)-based type inference. The dataset contains a total of 5,382 Python projects with more than 869K type annotations. Duplicate source code files were removed to eliminate the negative effect of the duplication bias. To facilitate training and evaluation of ML models, the dataset was split into training, validation and test sets by files. To extract type information from abstract syntax trees (ASTs), a lightweight static analyzer pipeline is developed and accompanied with the dataset. Using this pipeline, the collected Python projects were analyzed and the results of the AST analysis were stored in JSON-formatted files. The ManyTypes4Py dataset is shared on zenodo and its tools are publicly available on GitHub.
翻訳日:2021-04-16 05:05:42 公開日:2021-04-10
# (参考訳) セマンティックセグメンテーションに基づく領域認識ポーリングによる顔画像からのBMIの推定 [全文訳有]

Estimation of BMI from Facial Images using Semantic Segmentation based Region-Aware Pooling ( http://arxiv.org/abs/2104.04733v1 )

ライセンス: CC BY 4.0
Nadeem Yousaf, Sarfaraz Hussein, Waqas Sultani(参考訳) Body-Mass-Index (BMI)は、健康や社会経済的状況などの生活に関する重要な情報を伝達する。 BMIの大規模自動推定は、健康、仕事の機会、友情、人気など、いくつかの社会的行動を予測するのに役立つ。 最近の研究では、手作りの幾何学的顔特徴と、face to bmi予測のための顔レベルの深い畳み込みニューラルネットワーク特徴が採用されている。 手作りの幾何学的特徴には一般化性がなく、顔レベルの深い特徴には詳細なローカル情報がない。 有用ではあるが、これらの手法は正確なBMI予測に不可欠な詳細なローカル情報を見逃した。 本稿では, 異なる顔領域(目, 鼻, まぶた, 唇など)からプールされる深い特徴を用いて, 顔領域からの明示的なプーリングが, BMI予測の性能を大幅に向上させることを示す。 高精度かつピクセルレベルの顔領域ローカライゼーションの問題に対処するため,本フレームワークでは顔意味セグメント化を提案する。 さまざまな畳み込みニューラルネットワーク(cnn)バックボーンを使用して、visualbmi、bollywood、vip属性の3つの公開データセットで、facenetとvgg-faceを含む広範な実験が行われている。 実験の結果,vip-attributeでは22.4\%,visualbmiでは3.3\%,bollywoodデータセットでは63.09\%,reg-gapでは22.4\%向上した。

Body-Mass-Index (BMI) conveys important information about one's life such as health and socio-economic conditions. Large-scale automatic estimation of BMIs can help predict several societal behaviors such as health, job opportunities, friendships, and popularity. The recent works have either employed hand-crafted geometrical face features or face-level deep convolutional neural network features for face to BMI prediction. The hand-crafted geometrical face feature lack generalizability and face-level deep features don't have detailed local information. Although useful, these methods missed the detailed local information which is essential for exact BMI prediction. In this paper, we propose to use deep features that are pooled from different face regions (eye, nose, eyebrow, lips, etc.,) and demonstrate that this explicit pooling from face regions can significantly boost the performance of BMI prediction. To address the problem of accurate and pixel-level face regions localization, we propose to use face semantic segmentation in our framework. Extensive experiments are performed using different Convolutional Neural Network (CNN) backbones including FaceNet and VGG-face on three publicly available datasets: VisualBMI, Bollywood and VIP attributes. Experimental results demonstrate that, as compared to the recent works, the proposed Reg-GAP gives a percentage improvement of 22.4\% on VIP-attribute, 3.3\% on VisualBMI, and 63.09\% on the Bollywood dataset.
翻訳日:2021-04-16 04:58:29 公開日:2021-04-10
# (参考訳) MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with Pre-trained Language Models for Toxic Spans Detection [全文訳有]

MIPT-NSU-UTMN at SemEval-2021 Task 5: Ensembling Learning with Pre-trained Language Models for Toxic Spans Detection ( http://arxiv.org/abs/2104.04739v1 )

ライセンス: CC BY 4.0
Mikhail Kotyushev, Anna Glazkova, Dmitry Morozov(参考訳) 本稿では,有害スパンズ検出におけるSemEval-2021 Task 5について述べる。 BERTベースのニューラルネットワークと,トークンをスパンに組み合わせた後処理を用いたアンサンブルモデルを開発した。 各種アンサンブル手法を用いて各種事前学習言語モデルの評価を行い,ベースラインの細調整BERTモデルに対して大幅な改良を行った。 最後に,試験データからf1-scoreの67.55%を得た。

This paper describes our system for SemEval-2021 Task 5 on Toxic Spans Detection. We developed ensemble models using BERT-based neural architectures and post-processing to combine tokens into spans. We evaluated several pre-trained language models using various ensemble techniques for toxic span identification and achieved sizable improvements over our baseline fine-tuned BERT models. Finally, our system obtained a F1-score of 67.55% on test data.
翻訳日:2021-04-16 04:43:19 公開日:2021-04-10
# (参考訳) 自動運転のための車線検出・追尾前処理法 [全文訳有]

Preprocessing Methods of Lane Detection and Tracking for Autonomous Driving ( http://arxiv.org/abs/2104.04755v1 )

ライセンス: CC BY 4.0
Akram Heidarizadeh(参考訳) 過去数年間、高度運転支援システム(ADAS)の研究が、インテリジェントな車両で実施され、展開されてきた。 開発されているシステムは、車線維持支援(LKA)、車線離脱警告(LDW)、車線変更警告(LCW)、適応巡航制御(ACC)など、さまざまなタスクを実行することができる。 real time lane detection and tracking (ldt) は、上記のタスクを実行するための最重要部分の1つである。 映像から抽出された画像には、光度の変化、近くの物体からの影など、ノイズやその他の望ましくない要素が含まれている。 レーンマーキング検出と追跡のための 堅牢な前処理方法が必要です プリプロセッシングは、無関係な画像部分を削除し、興味をそそる特徴を高めるため、その後のステップやリアルタイムパフォーマンスにとって重要な機能である。 本稿では,車線標識検出のための前処理手法と,車線境界をリアルタイムで追跡するシステムについて検討する。

In the past few years, researches on advanced driver assistance systems (ADASs) have been carried out and deployed in intelligent vehicles. Systems that have been developed can perform different tasks, such as lane keeping assistance (LKA), lane departure warning (LDW), lane change warning (LCW) and adaptive cruise control (ACC). Real time lane detection and tracking (LDT) is one of the most consequential parts to performing the above tasks. Images which are extracted from the video, contain noise and other unwanted factors such as variation in lightening, shadow from nearby objects and etc. that requires robust preprocessing methods for lane marking detection and tracking. Preprocessing is critical for the subsequent steps and real time performance because its main function is to remove the irrelevant image parts and enhance the feature of interest. In this paper, we survey preprocessing methods for detecting lane marking as well as tracking lane boundaries in real time focusing on vision-based system.
翻訳日:2021-04-16 04:36:15 公開日:2021-04-10
# (参考訳) 逆向きな非負行列因子化 [全文訳有]

Adversarially-Traine d Nonnegative Matrix Factorization ( http://arxiv.org/abs/2104.04757v1 )

ライセンス: CC BY 4.0
Ting Cai, Vincent Y. F. Tan, C\'edric F\'evotte(参考訳) 本稿では,非負行列分解の逆学習版を考える。 我々の定式化では、攻撃者は与えられたデータ行列に有界ノルムの任意の行列を追加する。 我々は,辞書や係数行列を最適化し,一般化能力を高めた効率的なアルゴリズムを設計する。 合成およびベンチマークデータセットの広範囲なシミュレーションにより,提案手法の行列完了タスクにおける予測性能は,逆行列係数の他の変種を含む最先端の競合よりも優れていた。

We consider an adversarially-traine d version of the nonnegative matrix factorization, a popular latent dimensionality reduction technique. In our formulation, an attacker adds an arbitrary matrix of bounded norm to the given data matrix. We design efficient algorithms inspired by adversarial training to optimize for dictionary and coefficient matrices with enhanced generalization abilities. Extensive simulations on synthetic and benchmark datasets demonstrate the superior predictive performance on matrix completion tasks of our proposed method compared to state-of-the-art competitors, including other variants of adversarial nonnegative matrix factorization.
翻訳日:2021-04-16 04:24:36 公開日:2021-04-10
# (参考訳) MobileStyleGAN:高忠実画像合成のための軽量畳み込みニューラルネットワーク [全文訳有]

MobileStyleGAN: A Lightweight Convolutional Neural Network for High-Fidelity Image Synthesis ( http://arxiv.org/abs/2104.04767v1 )

ライセンス: CC BY 4.0
Sergei Belousov(参考訳) 近年、GAN(Generative Adversarial Networks)の利用は、生成画像モデリングにおいて非常に人気がある。 スタイルベースのganアーキテクチャは最先端の画像合成をもたらすが、計算上は非常に複雑である。 本研究では,スタイルベース生成モデルの性能最適化に焦点をあてる。 そこで我々は,StyleGAN2の最も計算の難しい部分を解析し,エッジデバイスにスタイルベースの生成ネットワークをデプロイ可能にするジェネレータネットワークの変更を提案する。 パラメータがx3.5少ないMobileStyleGANアーキテクチャを導入し、StyleGAN2よりも計算的に複雑で、同等の品質を提供する。

In recent years, the use of Generative Adversarial Networks (GANs) has become very popular in generative image modeling. While style-based GAN architectures yield state-of-the-art results in high-fidelity image synthesis, computationally, they are highly complex. In our work, we focus on the performance optimization of style-based generative models. We analyze the most computationally hard parts of StyleGAN2, and propose changes in the generator network to make it possible to deploy style-based generative networks in the edge devices. We introduce MobileStyleGAN architecture, which has x3.5 fewer parameters and is x9.5 less computationally complex than StyleGAN2, while providing comparable quality.
翻訳日:2021-04-16 04:16:31 公開日:2021-04-10
# (参考訳) UTNLP at SemEval-2021 Task 5: Antention-based, Named Entity Recognition and Ensemble Models を用いた毒性スパン検出の比較解析 [全文訳有]

UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span Detection using Attention-based, Named Entity Recognition, and Ensemble Models ( http://arxiv.org/abs/2104.04770v1 )

ライセンス: CC BY 4.0
Alireza Salemi, Nazanin Sabri, Emad Kebriaei, Behnam Bahrak, Azadeh Shakery(参考訳) 文のどの部分がその文の毒性に寄与するかを検出することは、ヘイトフルネスの文レベルの評価を提供するのではなく、モデルの解釈性を高め、人間のモデレーターがシステムの出力をよりよく理解できるようにする。 本稿では,毒性スパン検出に関するSemEval-2021共有タスク5における,我々のチーム,UTNLP,方法論と結果について述べる。 複数のモデルとコンテキスト埋め込みをテストし、最高の設定を報告します。 実験はキーワードベースのモデルから始まり、アテンションベース、名前付きエンティティベース、トランスフォーマーベース、アンサンブルモデルが続く。 我々の最良のアプローチであるアンサンブルモデルは、競技の評価フェーズにおいて0.684のF1を達成する。

Detecting which parts of a sentence contribute to that sentence's toxicity -- rather than providing a sentence-level verdict of hatefulness -- would increase the interpretability of models and allow human moderators to better understand the outputs of the system. This paper presents our team's, UTNLP, methodology and results in the SemEval-2021 shared task 5 on toxic spans detection. We test multiple models and contextual embeddings and report the best setting out of all. The experiments start with keyword-based models and are followed by attention-based, named entity-based, transformers-based, and ensemble models. Our best approach, an ensemble model, achieves an F1 of 0.684 in the competition's evaluation phase.
翻訳日:2021-04-15 13:01:42 公開日:2021-04-10
# (参考訳) 時系列予測のためのブースト埋め込み [全文訳有]

Boosted Embeddings for Time Series Forecasting ( http://arxiv.org/abs/2104.04781v1 )

ライセンス: CC BY 4.0
Sankeerth Rao Karingula and Nandini Ramanan and Rasool Tahsambi and Mehrnaz Amjadi and Deokwoo Jung and Ricky Si and Charanraj Thimmisetty and Claudionor Nunes Coelho Jr(参考訳) 時系列予測は、さまざまなデータ駆動アプリケーションから発生する基本的なタスクである。 ARIMAのような先進的な自己回帰手法は予測モデルの開発に使われた。 近年,deepar,neuralprophe t,seq2seqなどのディープラーニングを用いた時系列予測手法が研究されている。 本稿では,新しい時系列予測モデルであるDeepGBを提案する。 我々は,弱い学習者が反復よりも漸進的に重みがみられるdnnである勾配ブースティングの変種を定式化し,実装する。 特に,グラデーションブースティング変種を用いた時系列学習モデルの性能を向上させる新しい組込みアーキテクチャを開発した。 我々のモデルは,実世界のセンサデータと公開データセットを用いて,既存の最先端モデルよりも優れていることを示す。

Time series forecasting is a fundamental task emerging from diverse data-driven applications. Many advanced autoregressive methods such as ARIMA were used to develop forecasting models. Recently, deep learning based methods such as DeepAr, NeuralProphet, Seq2Seq have been explored for time series forecasting problem. In this paper, we propose a novel time series forecast model, DeepGB. We formulate and implement a variant of Gradient boosting wherein the weak learners are DNNs whose weights are incrementally found in a greedy manner over iterations. In particular, we develop a new embedding architecture that improves the performance of many deep learning models on time series using Gradient boosting variant. We demonstrate that our model outperforms existing comparable state-of-the-art models using real-world sensor data and public dataset.
翻訳日:2021-04-15 10:54:57 公開日:2021-04-10
# (参考訳) 非教師付きビデオマルチオブジェクトセグメンテーションのためのターゲット認識オブジェクト発見とアソシエーション [全文訳有]

Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation ( http://arxiv.org/abs/2104.04782v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Jianwu Li, Xueyi Li, Ling Shao(参考訳) 本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。 1)事前学習したMask R-CNNを用いてオブジェクト提案を検知し,2)再同定手法を用いて時間的アソシエーションのための一般的な特徴マッチングを行う。 しかし、両方の段階で広く使われている一般的な特徴は、見えない物体を特徴づけるには信頼できないため、一般化は不十分である。 そこで本研究では,より高精度で効率的な時空間分割手法を提案する。 特に,textbf{instance discrimination} に対処するために,前景領域の推定とインスタンスグループ化を一つのネットワークで組み合わせることを提案し,さらに,各フレームのセグメント化のための時間的ガイダンスを導入し,より正確なオブジェクト発見を可能にする。 textbf{temporal association}の場合、現在のビデオオブジェクトのセグメンテーションアーキテクチャを識別的外観モデルで補完し、よりきめ細かいターゲット固有の情報をキャプチャする。 インスタンス識別ネットワークからのオブジェクト提案を前提として,1) メモリ拡張外観モデルを用いたターゲット固有追跡,2) 提案の可能なトラックレットをトレースするターゲット非依存検証,3) 検証されたセグメントを用いた適応メモリ更新という,3つの重要なセグメンテーションが採用されている。 提案手法は, DAVIS$_{17}$とYouTube-VISで評価し, セグメンテーション精度と推論速度の両方において最先端の手法より優れていることを示した。

This paper addresses the task of unsupervised video multi-object segmentation. Current approaches follow a two-stage paradigm: 1) detect object proposals using pre-trained Mask R-CNN, and 2) conduct generic feature matching for temporal association using re-identification techniques. However, the generic features, widely used in both stages, are not reliable for characterizing unseen objects, leading to poor generalization. To address this, we introduce a novel approach for more accurate and efficient spatio-temporal segmentation. In particular, to address \textbf{instance discrimination}, we propose to combine foreground region estimation and instance grouping together in one network, and additionally introduce temporal guidance for segmenting each frame, enabling more accurate object discovery. For \textbf{temporal association}, we complement current video object segmentation architectures with a discriminative appearance model, capable of capturing more fine-grained target-specific information. Given object proposals from the instance discrimination network, three essential strategies are adopted to achieve accurate segmentation: 1) target-specific tracking using a memory-augmented appearance model; 2) target-agnostic verification to trace possible tracklets for the proposal; 3) adaptive memory updating using the verified segments. We evaluate the proposed approach on DAVIS$_{17}$ and YouTube-VIS, and the results demonstrate that it outperforms state-of-the-art methods both in segmentation accuracy and inference speed.
翻訳日:2021-04-15 10:38:54 公開日:2021-04-10
# (参考訳) 単一およびマルチパラメータ持続性のためのスマートベクトル化 [全文訳有]

Smart Vectorizations for Single and Multiparameter Persistence ( http://arxiv.org/abs/2104.04787v1 )

ライセンス: CC BY 4.0
Baris Coskunuzer and CUneyt Gurcan Akcora and Ignacio Segovia Dominguez and Zhiwei Zhen and Murat Kantarcioglu and Yulia R. Gel(参考訳) トポロジカルデータ解析の機械は、異常検出や多様体学習からグラフ分類まで、幅広い機械学習タスクで人気を博している。 ここでは永続的ホモロジーが重要なアプローチの1つであり、スケールパラメータの変化に応じて、データ内の様々な隠れパターンの進化を体系的に評価することができる。 抽出されたパターン(ホモロジー的特徴)は、スケールパラメータのフィルタリングを通して、そのような特徴がどれだけ長く持続するかの情報とともに、健全なデータ特性とデータ組織に関する重要な洞察を伝達する。 本稿では,シングルパラメータとマルチパラメータ持続性のための新しい,容易に解釈可能な2つのトポロジーサマリー,すなわちsaw関数とマルチパーシステンスグリッド関数を導入する。 所定の濾過工程におけるトポロジー的特徴量および/またはその寿命を評価する傾向にある既存のトポロジー的要約と比較して,提案するsawおよびmulti-persistence grid関数は,濾過工程毎に出生数や死亡数といった本質的補完情報を明示的に説明できる。 これらの新しい位相的要約は、濾過によって決定される進化する部分空間の複雑性測度と見なすことができ、グラフ上の永続ホモロジーの応用に特に有用である。 新たなソードとマルチパーシステンスグリッド関数の安定性に関する理論的保証を導出し,グラフ分類タスクへの適用性を示す。

The machinery of topological data analysis becomes increasingly popular in a broad range of machine learning tasks, ranging from anomaly detection and manifold learning to graph classification. Persistent homology is one of the key approaches here, allowing us to systematically assess the evolution of various hidden patterns in the data as we vary a scale parameter. The extracted patterns, or homological features, along with information on how long such features persist throughout the considered filtration of a scale parameter, convey a critical insight into salient data characteristics and data organization. In this work, we introduce two new and easily interpretable topological summaries for single and multi-parameter persistence, namely, saw functions and multi-persistence grid functions, respectively. Compared to the existing topological summaries which tend to assess the numbers of topological features and/or their lifespans at a given filtration step, our proposed saw and multi-persistence grid functions allow us to explicitly account for essential complementary information such as the numbers of births and deaths at each filtration step. These new topological summaries can be regarded as the complexity measures of the evolving subspaces determined by the filtration and are of particular utility for applications of persistent homology on graphs. We derive theoretical guarantees on the stability of the new saw and multi-persistence grid functions and illustrate their applicability for graph classification tasks.
翻訳日:2021-04-15 10:23:35 公開日:2021-04-10
# (参考訳) 多目的ベイズ最適化に有効なスキャスティング関数は何か? [全文訳有]

What Makes an Effective Scalarising Function for Multi-Objective Bayesian Optimisation? ( http://arxiv.org/abs/2104.04790v1 )

ライセンス: CC BY 4.0
Clym Stock-Williams, Tinkle Chugh, Alma Rahat, Wei Yu(参考訳) 目的をスカラー化して多目的ベイズ最適化を行うことで、高価な多次元積分ベース獲得関数の計算を避けることができる。 ここでは、最近導入されたハイパーボリューム改善\textemdashと、マルチサロゲートの予測ハイパーボリューム改善との比較を行った。 得られたパレートフロントのハイパーボリュームの最大化におけるこれらの手法の有効性の相違について検討した。 さらに, サロゲートモデルの平均関数が探索と利用に与える影響について検討し, データ正規化の慎重な選択は, 期待された改善獲得関数でよく使用される探索パラメータに好適であることを示した。 最後に, 風車翼翼翼翼の空力性能と構造剛性の両方に対する最適化という実世界の課題について, 方法論的改善の有効性を実証した。 効果的なスカラー化により、ベイズ最適化は標準設計を強く支配する多数の新しいエアロフォイル形状を発見する。

Performing multi-objective Bayesian optimisation by scalarising the objectives avoids the computation of expensive multi-dimensional integral-based acquisition functions, instead of allowing one-dimensional standard acquisition functions\textemdash such as Expected Improvement\textemda sh to be applied. Here, two infill criteria based on hypervolume improvement\textemda sh one recently introduced and one novel\textemdash are compared with the multi-surrogate Expected Hypervolume Improvement. The reasons for the disparities in these methods' effectiveness in maximising the hypervolume of the acquired Pareto Front are investigated. In addition, the effect of the surrogate model mean function on exploration and exploitation is examined: careful choice of data normalisation is shown to be preferable to the exploration parameter commonly used with the Expected Improvement acquisition function. Finally, the effectiveness of all the methodological improvements defined here is demonstrated on a real-world problem: the optimisation of a wind turbine blade aerofoil for both aerodynamic performance and structural stiffness. With effective scalarisation, Bayesian optimisation finds a large number of new aerofoil shapes that strongly dominate standard designs.
翻訳日:2021-04-15 09:57:20 公開日:2021-04-10
# (参考訳) Swarm Variant for the Schr\odinger Solver [全文訳有]

A Swarm Variant for the Schr\"odinger Solver ( http://arxiv.org/abs/2104.04795v1 )

ライセンス: CC BY 4.0
Urvil Nileshbhai Jivani, Omatharv Bharat Vaidya, Anwesh Bhattacharya, Snehanshu Saha(参考訳) 本稿では, ニューラルネットワークの微分自由最適化手法として, Exponentially Averaged Momentum Particle Swarm Optimization (EM-PSO) を提案する。 探索空間探索や局所最小値に対するロバスト性などのPSOの大きな利点をアダムのような勾配勾配のオプティマイザと比較すると採用している。 勾配最適化を備えたニューラルネットワークベースの解法が微分方程式の解の近似に使われている。 本稿では, 勾配近似におけるem-psoの新規性を示し, 粒子-箱問題に対するschr\"odinger方程式の解法としての性質を活用する。 また,アルゴリズムに適した数学的証明によって支援される最適パラメータセットも提供する。

This paper introduces application of the Exponentially Averaged Momentum Particle Swarm Optimization (EM-PSO) as a derivative-free optimizer for Neural Networks. It adopts PSO's major advantages such as search space exploration and higher robustness to local minima compared to gradient-descent optimizers such as Adam. Neural network based solvers endowed with gradient optimization are now being used to approximate solutions to Differential Equations. Here, we demonstrate the novelty of EM-PSO in approximating gradients and leveraging the property in solving the Schr\"odinger equation, for the Particle-in-a-Box problem. We also provide the optimal set of hyper-parameters supported by mathematical proofs, suited for our algorithm.
翻訳日:2021-04-15 09:43:03 公開日:2021-04-10
# (参考訳) mlとhpcアンサンブルの結合による複雑生物現象の100倍高速シミュレーションの実現 [全文訳有]

Achieving 100X faster simulations of complex biological phenomena by coupling ML to HPC ensembles ( http://arxiv.org/abs/2104.04797v1 )

ライセンス: CC BY 4.0
Alexander Brace, Hyungro Lee, Heng Ma, Anda Trifan, Matteo Turilli, Igor Yaskushin, Todd Munson, Ian Foster, Shantenu Jha and Arvind Ramanathan(参考訳) アンサンブルに基づくシミュレーションを動的に操るML手法は、科学的応用の性能を大幅に向上させる。 本稿では,ML駆動型HPCシミュレーションの多種多様なシナリオのためのツールであるDeepDriveMDを紹介し,ML駆動型アンサンブルベースアプリケーションの科学的性能向上の定量化に利用した。 我々はその設計と性能について論じる。 より高度な物理システムへのさらなる科学的改善と適用可能性によって、シミュレーションと学習方法間のストリームベースの通信をサポートするためにDeepDriveMDの設計を拡張した。 タンパク質を折り畳む100倍のスピードアップを示し、単位時間あたり1.6倍のシミュレーションを実行し、シーケンシャルなフレームワークと比べてリソース利用を改善する。 実験は、リーダーシップクラスプラットフォーム、最大o(1000)ノードのスケール、プロダクションワークロードで行われます。 我々は、ML駆動HPCシミュレーションシナリオの高性能フレームワークとしてDeepDriveMDを確立し、多様なシミュレーションとMLバックエンドをサポートし、時間とスケールのアクセスを改善することで、新たな科学的洞察を可能にする。

The use of ML methods to dynamically steer ensemble-based simulations promises significant improvements in the performance of scientific applications. We present DeepDriveMD, a tool for a range of prototypical ML-driven HPC simulation scenarios, and use it to quantify improvements in the scientific performance of ML-driven ensemble-based applications. We discuss its design and characterize its performance. Motivated by the potential for further scientific improvements and applicability to more sophisticated physical systems, we extend the design of DeepDriveMD to support stream-based communication between simulations and learning methods. It demonstrates a 100x speedup to fold proteins, and performs 1.6x more simulations per unit time, improving resource utilization compared to the sequential framework. Experiments are performed on leadership-class platforms, at scales of up to O(1000) nodes, and for production workloads. We establish DeepDriveMD as a high-performance framework for ML-driven HPC simulation scenarios, that supports diverse simulation and ML back-ends, and which enables new scientific insights by improving length- and time-scale accessed.
翻訳日:2021-04-15 09:31:34 公開日:2021-04-10
# (参考訳) 医用画像分割のための深層学習モデルの2層組 [全文訳有]

Two layer Ensemble of Deep Learning Models for Medical Image Segmentation ( http://arxiv.org/abs/2104.04809v1 )

ライセンス: CC BY 4.0
Truong Dang, Tien Thanh Nguyen, John McCall, Eyad Elyan, Carlos Francisco Moreno-Garc\'ia(参考訳) 近年, 深層学習は医療画像のセグメンテーションの方法として急速になってきている。 UNetのようなディープニューラルネットワーク(DNN)アーキテクチャは、多くの医療データセットで最先端の結果を得た。 セグメンテーションタスクの性能をさらに向上するため,様々なディープラーニングアーキテクチャを組み合わせたアンサンブルシステムを開発した。 医用画像のセグメンテーションのための深層学習モデルの2層アンサンブルを提案する。 第1層の各モデルによって作成された各トレーニング画像画素の予測を、アンサンブルの第2層のトレーニング画像の加算データとして使用する。 次に、各モデルが結合結果に異なる貢献をする重みに基づくスキームを用いて、第2層の予測を組み合わせる。 重みは線形回帰問題を解くことによって見出される。 CAMUS(英語版)とKvasir-SEG(英語版)という2つの一般的な医療データセットで実施された実験により、提案手法はよく知られたベンチマークアルゴリズムと比較して、2つのパフォーマンス指標(Dice Coefficient と Hausdorff の距離)に関してより良い結果が得られることが示された。

In recent years, deep learning has rapidly become a method of choice for the segmentation of medical images. Deep Neural Network (DNN) architectures such as UNet have achieved state-of-the-art results on many medical datasets. To further improve the performance in the segmentation task, we develop an ensemble system which combines various deep learning architectures. We propose a two-layer ensemble of deep learning models for the segmentation of medical images. The prediction for each training image pixel made by each model in the first layer is used as the augmented data of the training image for the second layer of the ensemble. The prediction of the second layer is then combined by using a weights-based scheme in which each model contributes differently to the combined result. The weights are found by solving linear regression problems. Experiments conducted on two popular medical datasets namely CAMUS and Kvasir-SEG show that the proposed method achieves better results concerning two performance metrics (Dice Coefficient and Hausdorff distance) compared to some well-known benchmark algorithms.
翻訳日:2021-04-15 09:09:22 公開日:2021-04-10
# (参考訳) 潜在コードベースの融合:volterraニューラルネットワークアプローチ [全文訳有]

Latent Code-Based Fusion: A Volterra Neural Network Approach ( http://arxiv.org/abs/2104.04829v1 )

ライセンス: CC BY 4.0
Sally Ghanem, Siddharth Roheda, and Hamid Krim(参考訳) 本稿では,最近導入されたVolterra Neural Networks (VNN) を用いた深層構造エンコーダを提案する。 いわゆる自己表現の埋め込みは、同様に構築されたデコードによって駆動される単純な融合をもたらす。 パラメータ複雑性の低減を達成したボルテラフィルタアーキテクチャは、主に一般化されたアクティベーション関数とは対照的に高次畳み込みによって導入された制御された非線形性に起因する。 2つの異なるデータセットの実験結果から、従来の畳み込みニューラルネットワーク(CNN)オートエンコーダよりも、VNNの自動エンコーダのクラスタリング性能が大幅に向上した。 さらに,提案手法は,CNNベースのオートエンコーダに比べて,非常に頑健な分類性能を有する,非常に改良されたサンプル複雑性を示す。

We propose a deep structure encoder using the recently introduced Volterra Neural Networks (VNNs) to seek a latent representation of multi-modal data whose features are jointly captured by a union of subspaces. The so-called self-representation embedding of the latent codes leads to a simplified fusion which is driven by a similarly constructed decoding. The Volterra Filter architecture achieved reduction in parameter complexity is primarily due to controlled non-linearities being introduced by the higher-order convolutions in contrast to generalized activation functions. Experimental results on two different datasets have shown a significant improvement in the clustering performance for VNNs auto-encoder over conventional Convolutional Neural Networks (CNNs) auto-encoder. In addition, we also show that the proposed approach demonstrates a much-improved sample complexity over CNN-based auto-encoder with a superb robust classification performance.
翻訳日:2021-04-15 08:47:35 公開日:2021-04-10
# (参考訳) 分類器予測信頼度に基づくアンサンブル学習とポリプ局所化のための総合学習粒子群最適化 [全文訳有]

Ensemble Learning based on Classifier Prediction Confidence and Comprehensive Learning Particle Swarm Optimisation for polyp localisation ( http://arxiv.org/abs/2104.04832v1 )

ライセンス: CC BY 4.0
Truong Dang, Thanh Nguyen, John McCall, Alan Wee-Chung Liew(参考訳) 大腸癌(crc)は、多くの国で最初の死因である。 crcはポリープと呼ばれる結腸の内側にある小塊の細胞から発生し、時間とともに成長して悪性になる可能性がある。 したがって大腸がんの予防にはポリープの早期検出と除去が不可欠である。 本稿では,医療用ポリープセグメンテーションアルゴリズムのアンサンブルを紹介する。 異なるセグメンテーションアルゴリズムが実例の異なる部分集合に対して、それらが露出しているトレーニングセットの性質と大きさ、およびメソッドインタリンシックな要因によってうまく機能するという観測に基づいて、各アルゴリズムの予測に対する信頼度を測定し、その信頼度が許容できるかどうかをアソシエイトしきい値を用いて判断する。 信頼度が付随しきい値以下であれば、アンサンブルのためにアルゴリズムが選択される。 各セグメンテーションアルゴリズムの最適しきい値は、SwarmインテリジェンスアルゴリズムであるComprehensive Learning Particle Swarm Optimization (CLPSO)を用いて得られる。 画像セグメンテーションの一般的なパフォーマンス指標であるDice係数が適合度基準として使用される。 2つのポリプセグメンテーションデータセットであるmiccai2015とkvasir-segの実験結果は、既知のセグメンテーションアルゴリズムよりも優れた結果が得られることを確認した。

Colorectal cancer (CRC) is the first cause of death in many countries. CRC originates from a small clump of cells on the lining of the colon called polyps, which over time might grow and become malignant. Early detection and removal of polyps are therefore necessary for the prevention of colon cancer. In this paper, we introduce an ensemble of medical polyp segmentation algorithms. Based on an observation that different segmentation algorithms will perform well on different subsets of examples because of the nature and size of training sets they have been exposed to and because of method-intrinsic factors, we propose to measure the confidence in the prediction of each algorithm and then use an associate threshold to determine whether the confidence is acceptable or not. An algorithm is selected for the ensemble if the confidence is below its associate threshold. The optimal threshold for each segmentation algorithm is found by using Comprehensive Learning Particle Swarm Optimization (CLPSO), a swarm intelligence algorithm. The Dice coefficient, a popular performance metric for image segmentation, is used as the fitness criteria. Experimental results on two polyp segmentation datasets MICCAI2015 and Kvasir-SEG confirm that our ensemble achieves better results compared to some well-known segmentation algorithms.
翻訳日:2021-04-15 08:31:34 公開日:2021-04-10
# (参考訳) 衛星マルチイメージ幾何における誤差伝播 [全文訳有]

Error Propagation in Satellite Multi-image Geometry ( http://arxiv.org/abs/2104.04843v1 )

ライセンス: CC BY 4.0
Joseph L Mundy and Hank Theiss(参考訳) 本稿では,複数の衛星画像から構築したデジタル表面モデル(DSM)における地理空間誤差の源泉について述べる。 本研究では、表面形状の不確かさを、表面の絶対位置に影響する大域的誤差と、表面点から表面点へ変化する局所的誤差の2つの空間的成分に分離する。 グローバルエラー成分は、主に画像収集中の衛星の位置と向き(目的)の不確かさによって、衛星画像プロセスの不正確さによって引き起こされる。 この研究の鍵となる結果は、画像収集中の各衛星のポーズ共分散を考慮したdsmの絶対位置を決定する新しいアルゴリズムである。 この共分散情報は、dsmのグローバル位置の計算における各画像からの証拠を測定するために使用される。 共分散情報の利用は、グローバル位置における全体的な不確実性を大幅に減少させる。 また,DSM表面における局所誤差の予測手法についても述べる。 単一ステレオ表面再構成における表面位置の観測値のばらつきは、局所水平誤差を定義する。 単一のdsm位置における複数のステレオペアからの上昇の融合セットの分散は、局所的な垂直誤差を定義する。 これらの精度予測は、同じ地理的領域のLiDARスキャンによって提供される真実と比較される。

This paper describes an investigation of the source of geospatial error in digital surface models (DSMs) constructed from multiple satellite images. In this study the uncertainty in surface geometry is separated into two spatial components; global error that affects the absolute position of the surface, and local error that varies from surface point to surface point. The global error component is caused by inaccuracy in the satellite imaging process, mainly due to uncertainty in the satellite position and orientation (pose) during image collection. A key result of the investigation is a new algorithm for determining the absolute geoposition of the DSM that takes into account the pose covariance of each satellite during image collection. This covariance information is used to weigh the evidence from each image in the computation of the global position of the DSM. The use of covariance information significantly decreases the overall uncertainty in global position. The paper also describes an approach to the prediction of local error in the DSM surface. The observed variance in surface position within a single stereo surface reconstruction defines the local horizontal error. The variance in the fused set of elevations from multiple stereo pairs at a single DSM location defines the local vertical error. These accuracy predictions are compared to ground truth provided by LiDAR scans of the same geographic region of interest.
翻訳日:2021-04-15 08:10:29 公開日:2021-04-10
# (参考訳) 永続的エンタープライズシステムへの移行について [全文訳有]

On migration to Perpetual Enterprise System ( http://arxiv.org/abs/2104.04844v1 )

ライセンス: CC BY-SA 4.0
Manuel Tomas Carrasco Benitez(参考訳) この文書は、組織コンピュータシステムを永久に進化し、組織全体に対処し、統合される新しいシステムに移行するための実践的なアプローチを説明している。 ガバナンスの側面は、純粋に技術的なITの側面と同じくらい重要である。 移行は、グリーンフィールドから始まっていないことを意味する。

This document describes a pragmatic approach on how to migrate an organisation computer system towards a new system that could evolve forever, addresses the whole organisation and it is integrated. Governance aspects are as important, if not more, than purely technical IT aspects: human resources, call for tenders, and similar. Migration implies that one is not starting from a green field.
翻訳日:2021-04-15 07:53:59 公開日:2021-04-10
# (参考訳) グループ分解と強化学習によるグループ同変ニューラルアーキテクチャ探索 [全文訳有]

Group Equivariant Neural Architecture Search via Group Decomposition and Reinforcement Learning ( http://arxiv.org/abs/2104.04848v1 )

ライセンス: CC BY 4.0
Sourya Basu, Akshayaa Magesh, Harshit Yadav, Lav R. Varshney(参考訳) 最近の研究は、帰納的バイアスとしてグループ同分散を含めることで、分類と生成タスクの両方においてニューラルネットワークのパフォーマンスが向上することを示している。 しかし、グループ同変ニューラルネットワークの設計は、グループの関心が大きく、不明な場合には困難である。 さらに、等分散の誘発は、機能サイズが固定されたネットワーク内の独立したパラメータの数を著しく減少させ、全体のパフォーマンスに影響を及ぼす。 我々は、ネットワークが大きな群に同変であることと、それが構成されるより小さな群に対して同変であることを示す同変ニューラルネットワークの文脈において、新たな群論的結果を証明することによって、これらの問題に対処する。 また、計算複雑性を大幅に改善する同変ネットワークを構築するアルゴリズムを設計する。 さらに,この理論的な結果を利用して,自己同値ネットワーク (autoequivariant network, aens) と呼ばれる手法を生かして,性能を最大化するグループ同値ネットワークの探索を行う。 AENを評価するために、我々はそれぞれMNISTとFashion-MNISTの群変換によって得られた新しいベンチマークデータセットG-MNISTとG-Fashion-MNISTを構築し、リリースする。 AEN は群同値とパラメータ数との適切なバランスを見出すことができ、従ってタスク性能が良好であることを示す。

Recent works show that including group equivariance as an inductive bias improves neural network performance for both classification and generation tasks. Designing group-equivariant neural networks is, however, challenging when the group of interest is large and is unknown. Moreover, inducing equivariance can significantly reduce the number of independent parameters in a network with fixed feature size, affecting its overall performance. We address these problems by proving a new group-theoretic result in the context of equivariant neural networks that shows that a network is equivariant to a large group if and only if it is equivariant to smaller groups from which it is constructed. We also design an algorithm to construct equivariant networks that significantly improves computational complexity. Further, leveraging our theoretical result, we use deep Q-learning to search for group equivariant networks that maximize performance, in a significantly reduced search space than naive approaches, yielding what we call autoequivariant networks (AENs). To evaluate AENs, we construct and release new benchmark datasets, G-MNIST and G-Fashion-MNIST, obtained via group transformations on MNIST and Fashion-MNIST respectively. We show that AENs find the right balance between group equivariance and number of parameters, thereby consistently having good task performance.
翻訳日:2021-04-15 07:42:45 公開日:2021-04-10
# (参考訳) 点的部分モジュラリティを超えて:クナップサック制約を受ける非単調適応部分モジュラー最大化 [全文訳有]

Beyond Pointwise Submodularity: Non-Monotone Adaptive Submodular Maximization subject to a Knapsack Constraint ( http://arxiv.org/abs/2104.04853v1 )

ライセンス: CC BY 4.0
Shaojie Tang(参考訳) 本稿では,knapsack制約を受ける非単調適応部分モジュラー最大化問題について検討する。 問題の入力は項目の集合であり、各項目は既知の事前分布から引き出された特定の状態を持つ。 しかしながら、アイテムの状態は当初不明であり、アイテムの状態を明らかにするためにアイテムを選択する必要がある。 さらに、各アイテムには固定コストがある。 アイテムとステートの上に定義されたユーティリティ関数があります。 本研究の目的は,knapsack制約の対象となる実用性を最大化するために,項目群を順次選択することである。 より一般的なマトロイド拘束型適応サブモジュラー最大化と同様に濃度制限された適応サブモジュラー最大化は文献でよく研究されているが、クナプサック拘束適応サブモジュラー最大化問題に対する定数近似解が存在するかどうかは未解決のままである。 このギャップを埋めるために、最初の定数近似解を提案する。 特に,ナップサック制約を受ける適応部分モジュラ関数を最大化するための$\frac{1}{10}$近似を実現するサンプリングに基づくランダム化アルゴリズムの開発に寄与した。

In this paper, we study the non-monotone adaptive submodular maximization problem subject to a knapsack constraint. The input of our problem is a set of items, where each item has a particular state drawn from a known prior distribution. However, the state of an item is initially unknown, one must select an item in order to reveal the state of that item. Moreover, each item has a fixed cost. There is a utility function which is defined over items and states. Our objective is to sequentially select a group of items to maximize the expected utility subject to a knapsack constraint. Although the cardinality-constrai ned, as well as the more general matroid-constrained, adaptive submodular maximization has been well studied in the literature, whether there exists a constant approximation solution for the knapsack-constrained adaptive submodular maximization problem remains an open problem. We fill this gap by proposing the first constant approximation solution. In particular, our main contribution is to develop a sampling-based randomized algorithm that achieves a $\frac{1}{10}$ approximation for maximizing an adaptive submodular function subject to a knapsack constraint.
翻訳日:2021-04-15 07:19:41 公開日:2021-04-10
# (参考訳) ソフトターゲット転送セット合成によるデータフリーな知識蒸留 [全文訳有]

Data-Free Knowledge Distillation with Soft Targeted Transfer Set Synthesis ( http://arxiv.org/abs/2104.04868v1 )

ライセンス: CC BY 4.0
Zi Wang(参考訳) 知識蒸留(kd)は、事前訓練された過パラメータネットワーク(教師)から知識を転送することで、コンパクトネットワーク(学生)を学習するディープニューラルネットワーク圧縮の効果的なアプローチであることが証明されている。 従来のkdでは、転送された知識は通常、教師ネットワークにトレーニングサンプルを供給してクラス確率を得る。 しかし、ストレージコストやプライバシの問題のために、オリジナルのトレーニングデータセットが常に利用できるとは限らない。 本研究では,教師の中間的特徴空間を多変量正規分布でモデル化し,その分布によって生成されたソフトターゲットラベルを用いて擬似サンプルを転送集合として合成し,新しいデータフリーkd手法を提案する。 これらの合成転送セットで訓練されたいくつかの学生ネットワークは、元のトレーニングセットや他のデータフリーkdアプローチで訓練されたネットワークと比較して競争力のある性能を示す。

Knowledge distillation (KD) has proved to be an effective approach for deep neural network compression, which learns a compact network (student) by transferring the knowledge from a pre-trained, over-parameterized network (teacher). In traditional KD, the transferred knowledge is usually obtained by feeding training samples to the teacher network to obtain the class probabilities. However, the original training dataset is not always available due to storage costs or privacy issues. In this study, we propose a novel data-free KD approach by modeling the intermediate feature space of the teacher with a multivariate normal distribution and leveraging the soft targeted labels generated by the distribution to synthesize pseudo samples as the transfer set. Several student networks trained with these synthesized transfer sets present competitive performance compared to the networks trained with the original training set and other data-free KD approaches.
翻訳日:2021-04-15 07:10:11 公開日:2021-04-10
# (参考訳) ソーシャルメディアにおける攻撃的言語識別と分類 [全文訳有]

Identifying and Categorizing Offensive Language in Social Media ( http://arxiv.org/abs/2104.04871v1 )

ライセンス: CC0 1.0
Nikhil Oswal(参考訳) 攻撃的な言葉はソーシャルメディアに広まります。 個人はコンピュータによるコミュニケーションの匿名性をよく利用し、実際の生活において多くの人が考慮しない行動にそれを利用する。 オンライン上での攻撃的コンテンツの自動識別は近年注目を集めている重要な課題である。 このタスクは、攻撃的または攻撃的コンテンツの何らかの形態の存在に関してアノテートされたポストを含むデータセットを使用してシステムが訓練される教師付き分類問題としてモデル化することができる。 本研究の目的は,SemEval-2019 Task 6: OffensEval用に構築された分類システムを記述することである。 このシステムは、ツイートを攻撃的または攻撃的でないもの(サブタスクA)に分類し、さらに攻撃的ツイートをカテゴリ(サブタスクB \&C)に分類する。 私たちは、最良の結果を得るために、機械学習とディープラーニングモデルとデータ前処理とサンプリングテクニックをトレーニングしました。 議論されているモデルには、Naive Bayes、SVM、Logistic Regression、Random Forest、LSTMなどがある。

Offensive language is pervasive in social media. Individuals frequently take advantage of the perceived anonymity of computer-mediated communication, using this to engage in behavior that many of them would not consider in real life. The automatic identification of offensive content online is an important task that has gained more attention in recent years. This task can be modeled as a supervised classification problem in which systems are trained using a dataset containing posts that are annotated with respect to the presence of some form(s) of abusive or offensive content. The objective of this study is to provide a description of a classification system built for SemEval-2019 Task 6: OffensEval. This system classifies a tweet as either offensive or not offensive (Sub-task A) and further classifies offensive tweets into categories (Sub-tasks B \& C). We trained machine learning and deep learning models along with data preprocessing and sampling techniques to come up with the best results. Models discussed include Naive Bayes, SVM, Logistic Regression, Random Forest and LSTM.
翻訳日:2021-04-15 06:54:41 公開日:2021-04-10
# 直交 Procrustes 解析による学習を組み込む高能率知識グラフ

Highly Efficient Knowledge Graph Embedding Learning with Orthogonal Procrustes Analysis ( http://arxiv.org/abs/2104.04676v1 )

ライセンス: Link先を確認
Xutan Peng, Guanyi Chen, Chenghua Lin, Mark Stevenson(参考訳) 知識グラフ埋め込み(KGE)は、広範囲のアプリケーションに対して約束されているため、近年、徹底的に研究されている。 しかし,既存の研究では,実行時間と環境影響の観点から,提案手法の計算コストを考慮せずに最終モデルの性能向上に重点を置いている。 本稿では,最先端の手法と比較してトレーニング時間と炭素フットプリントを桁違いに削減し,競争性能を向上する,シンプルで効果的なKGEフレームワークを提案する。 関係行列によるフルバッチ学習,kgesのクローズドフォーム直交探索分析,非負サンプリングトレーニングの3つの技術革新を強調する。 さらに、エンティティの埋め込みも完全な関係情報を格納する最初のKGE手法として、トレーニングされたモデルはリッチセマンティクスを符号化し、高度に解釈可能である。 13の強いベースラインと2つの標準データセットを含む総合的な実験とアブレーション研究により、アルゴリズムの有効性と効率が検証された。

Knowledge Graph Embeddings (KGEs) have been intensively explored in recent years due to their promise for a wide range of applications. However, existing studies focus on improving the final model performance without acknowledging the computational cost of the proposed approaches, in terms of execution time and environmental impact. This paper proposes a simple yet effective KGE framework which can reduce the training time and carbon footprint by orders of magnitudes compared with state-of-the-art approaches, while producing competitive performance. We highlight three technical innovations: full batch learning via relational matrices, closed-form Orthogonal Procrustes Analysis for KGEs, and non-negative-samplin g training. In addition, as the first KGE method whose entity embeddings also store full relation information, our trained models encode rich semantics and are highly interpretable. Comprehensive experiments and ablation studies involving 13 strong baselines and two standard datasets verify the effectiveness and efficiency of our algorithm.
翻訳日:2021-04-13 14:44:16 公開日:2021-04-10
# ImperfectはRewardも保存する: より良いダイアログ管理のためのマルチレベルおよびシークエンシャルリワードモデリング

Imperfect also Deserves Reward: Multi-Level and Sequential Reward Modeling for Better Dialog Management ( http://arxiv.org/abs/2104.04748v1 )

ライセンス: Link先を確認
Zhengxu Hou, Bang Liu, Ruihui Zhao, Zijing Ou, Yafei Liu, Xi Chen, Yefeng Zheng(参考訳) タスク指向ダイアログシステムでは、RLのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむReinforcement Learning(RL)ベースのダイアログ管理モジュールをトレーニングする場合、RLのトレーニング時に適切な報酬を与えるための多くの戦略が提案されているが、その報酬は解釈可能性に欠け、実際のダイアログにおける状態-動作ペアの分布を正確に見積もることはできない。 本稿では,報酬をドメイン,アクタ,スロットという3つの階層に分解する多段階報酬モデリング手法を提案する。 提案手法は, 逆敵強化学習に基づき, ステートアクションペアに対してより正確かつ説明可能な報奨信号を与えることができ, 拡張的評価により, 幅広い強化学習に基づく対話システムに適用でき, 性能と収束速度が大幅に向上することを示す。

For task-oriented dialog systems, training a Reinforcement Learning (RL) based Dialog Management module suffers from low sample efficiency and slow convergence speed due to the sparse rewards in RL.To solve this problem, many strategies have been proposed to give proper rewards when training RL, but their rewards lack interpretability and cannot accurately estimate the distribution of state-action pairs in real dialogs. In this paper, we propose a multi-level reward modeling approach that factorizes a reward into a three-level hierarchy: domain, act, and slot. Based on inverse adversarial reinforcement learning, our designed reward model can provide more accurate and explainable reward signals for state-action pairs.Extensive evaluations show that our approach can be applied to a wide range of reinforcement learning-based dialog systems and significantly improves both the performance and the speed of convergence.
翻訳日:2021-04-13 14:43:03 公開日:2021-04-10
# 感性に基づくNMT候補選択

Sentiment-based Candidate Selection for NMT ( http://arxiv.org/abs/2104.04840v1 )

ライセンス: Link先を確認
Alex Jones, Derry Tanti Wijaya(参考訳) ユーザ生成コンテンツ(UGC)の爆発など。 ソーシャルメディアの投稿、コメント、レビューは、このような非公式テキストに合わせたNLPアプリケーションの開発を動機付けている。 これらの応用には感情分析と機械翻訳(MT)がある。 UGCが高度に慣用的で感傷的な言語を特徴とする観察に基づいて,自動感情スコアをMT候補選択プロセスに組み込むデコーダ側アプローチを提案する。 英語とスペイン語の感情分類器を分離し,ベースラインmtモデルで生成されたn-best候補をビーム探索で学習し,ソース文の感情スコアと翻訳文の感情スコアとの絶対差を最小化する候補を選択し,人間による評価を行い,生成した翻訳を評価する。 従来の作業と異なり、例えば、ソース文の感情スコアや翻訳を連続的な間隔で考慮することで、この極端に異なる翻訳を選択する。 よりきめ細かい翻訳候補の選択を可能にするバイナリ分類。 人的評価の結果,感情に基づくパイプラインを構築したオープンソースのMTベースラインモデルと比較して,我々のパイプラインは口語,感情重大なソーステキストのより正確な翻訳を生成することがわかった。

The explosion of user-generated content (UGC)--e.g. social media posts, comments, and reviews--has motivated the development of NLP applications tailored to these types of informal texts. Prevalent among these applications have been sentiment analysis and machine translation (MT). Grounded in the observation that UGC features highly idiomatic, sentiment-charged language, we propose a decoder-side approach that incorporates automatic sentiment scoring into the MT candidate selection process. We train separate English and Spanish sentiment classifiers, then, using n-best candidates generated by a baseline MT model with beam search, select the candidate that minimizes the absolute difference between the sentiment score of the source sentence and that of the translation, and perform a human evaluation to assess the produced translations. Unlike previous work, we select this minimally divergent translation by considering the sentiment scores of the source sentence and translation on a continuous interval, rather than using e.g. binary classification, allowing for more fine-grained selection of translation candidates. The results of human evaluations show that, in comparison to the open-source MT baseline model on top of which our sentiment-based pipeline is built, our pipeline produces more accurate translations of colloquial, sentiment-heavy source texts.
翻訳日:2021-04-13 14:42:44 公開日:2021-04-10
# 依存関係解析における高速言語間適応のためのメタラーニング

Meta-learning for fast cross-lingual adaptation in dependency parsing ( http://arxiv.org/abs/2104.04736v1 )

ライセンス: Link先を確認
Anna Langedijk, Verna Dankers, Sander Bos, Bryan Cardenas Guevara, Helen Yannakoudakis, Ekaterina Shutova(参考訳) メタラーニング(meta-learning)は、言語間nlp問題におけるリソース不足を克服するために、新しいタスクへの迅速な適応を可能にするテクニックである。 言語間依存関係解析のタスクにモデル非依存型メタラーニング(maml)を適用する。 我々は、新しい言語に迅速に適応できるパラメータ初期化を学ぶために、多様な言語でモデルを訓練する。 事前学習によるメタラーニングは,多種多様・多種多様・低リソースな言語に対して,言語伝達性能と標準教師あり学習ベースラインを大幅に向上させることができる。

Meta-learning, or learning to learn, is a technique that can help to overcome resource scarcity in cross-lingual NLP problems, by enabling fast adaptation to new tasks. We apply model-agnostic meta-learning (MAML) to the task of cross-lingual dependency parsing. We train our model on a diverse set of languages to learn a parameter initialization that can adapt quickly to new languages. We find that meta-learning with pre-training can significantly improve upon the performance of language transfer and standard supervised learning baselines for a variety of unseen, typologically diverse, and low-resource languages, in a few-shot learning setup.
翻訳日:2021-04-13 14:41:03 公開日:2021-04-10
# FRAKE: 統合リアルタイム自動キーワード抽出

FRAKE: Fusional Real-time Automatic Keyword Extraction ( http://arxiv.org/abs/2104.04830v1 )

ライセンス: Link先を確認
Aidin Zehtab-Salmasi, Mohammad-Reza Feizi-Derakhshi, Mohamad-Ali Balafar(参考訳) キーワード抽出は、テキストの主要な概念を最もよく表す単語やフレーズを識別する。 毎日、そしていつでも、電子インフラを通じて、大量のテキストが作成されています。 したがって、人間がこの大量の文書を研究し管理することは事実上不可能である。 しかし、これらの文書への効率的かつ効果的なアクセスの必要性は、様々な目的において明らかである。 Weblogs、News、およびTechnical Notesはほぼ長いテキストであり、読者は全文を読むためのトピックやキーワードによる概念を理解しようとしている。 この目的のために、グラフ中心性特徴とテクスチャ特徴の2つのモデルからなる組み合わせアプローチを用いる。 提案手法により抽出された候補キーワードの中から最適なキーワードを抽出するために,次に掲げるグラフ中心性(度数,差分,固有ベクトル,近接度中心性)を用いて最適に組み合わせた。 また、キーワードを候補句と区別し、別のキーワードとして考えるアプローチも導入されている。 提案手法を評価するために,semeval2010,semeval 2017,inspec,fao30,th esis100,pak2018,wiki newsの7つのデータセットが用いられ,精度,リコール,f-測度が報告されている。

Keyword extraction is called identifying words or phrases that express the main concepts of texts in best. There is a huge amount of texts that are created every day and at all times through electronic infrastructure. So, it is practically impossible for humans to study and manage this volume of documents. However, the need for efficient and effective access to these documents is evident in various purposes. Weblogs, News, and technical notes are almost long texts, while the reader seeks to understand the concepts by topics or keywords to decide for reading the full text. To this aim, we use a combined approach that consists of two models of graph centrality features and textural features. In the following, graph centralities, such as degree, betweenness, eigenvector, and closeness centrality, have been used to optimally combine them to extract the best keyword among the candidate keywords extracted by the proposed method. Also, another approach has been introduced to distinguishing keywords among candidate phrases and considering them as a separate keyword. To evaluate the proposed method, seven datasets named, Semeval2010, SemEval2017, Inspec, fao30, Thesis100, pak2018 and WikiNews have been used, and results reported Precision, Recall, and F- measure.
翻訳日:2021-04-13 14:40:51 公開日:2021-04-10
# 自動・マーカーレスパーキンソン病評価に向けて:シットスタンドビデオを用いたUPDRSスコアの予測

Towards Automated and Marker-less Parkinson Disease Assessment: Predicting UPDRS Scores using Sit-stand videos ( http://arxiv.org/abs/2104.04650v1 )

ライセンス: Link先を確認
Deval Mehta, Umar Asif, Tian Hao, Erhan Bilal, Stefan Von Cavallar, Stefan Harrer, Jeffrey Rogers(参考訳) 本稿では,クリニックや自宅で使用できるUPDRS(Unified Parkinsons Disease Rating Scale)を評価するための,新たな深層学習型ビデオベース分析フレームワークを提案する。 パーキンソン病(pd)患者32名を対象に, 枠組みの性能と訓練を受けた臨床医の成績を比較した。 訓練された神経学者による対人臨床評価は、我々の枠組みを訓練し、パフォーマンスを比較するための基礎的真実として用いられる。 ブラジキネジア(brady)と姿勢不安定および歩行障害(pigd)のupdrsサブスコアを評価するのに標準のsit-to-stand活動が利用できることがわかった。 bradyの場合、このフレームワークを使ってf1-scoresは0.75、ビデオベースのrater cliniciansは0.50、piddでは0.78、ビデオベースのrater cliniciansは0.45である。 提案手法は,介護施設等の空間におけるPD進行の受動的追跡,在宅自己評価,遠隔医療の強化など,患者や臨床医に負担をかけることなく,より粒度の大きいPD終端点を臨床に許容できる可能性があると考えている。

This paper presents a novel deep learning enabled, video based analysis framework for assessing the Unified Parkinsons Disease Rating Scale (UPDRS) that can be used in the clinic or at home. We report results from comparing the performance of the framework to that of trained clinicians on a population of 32 Parkinsons disease (PD) patients. In-person clinical assessments by trained neurologists are used as the ground truth for training our framework and for comparing the performance. We find that the standard sit-to-stand activity can be used to evaluate the UPDRS sub-scores of bradykinesia (BRADY) and posture instability and gait disorders (PIGD). For BRADY we find F1-scores of 0.75 using our framework compared to 0.50 for the video based rater clinicians, while for PIGD we find 0.78 for the framework and 0.45 for the video based rater clinicians. We believe our proposed framework has potential to provide clinically acceptable end points of PD in greater granularity without imposing burdens on patients and clinicians, which empowers a variety of use cases such as passive tracking of PD progression in spaces such as nursing homes, in-home self-assessment, and enhanced tele-medicine.
翻訳日:2021-04-13 14:39:54 公開日:2021-04-10
# FreSaDa: クロスドメインなSatire検出のためのフランスのSatireデータセット

FreSaDa: A French Satire Data Set for Cross-Domain Satire Detection ( http://arxiv.org/abs/2104.04828v1 )

ライセンス: Link先を確認
Radu Tudor Ionescu, Adrian Gabriel Chifu(参考訳) 本稿では,ニュースドメインの11,570記事からなるフランス語Satire Data SetであるFreSaDaを紹介する。 本研究は,出版元固有の特徴の学習による不当に高い精度の報告を避けるため,本研究のサンプルを,学習・検証・試験に分割し,評価・試験用出版元と区別した。 これにより、クロスドメイン(クロスソース)の風刺検出タスクが発生する。 我々は,新しいデータセットのベースラインとして,低レベル特徴(文字n-gram)に基づく分類法と,高レベル特徴(CamemBERT単語埋め込みの平均値)に基づく分類法を用いる。 追加の貢献として,訓練試料と検証試料とのペアワイズ類似性(ドット積による)を特徴として,教師なしドメイン適応法を提案する。 これらのドメイン固有の機能を含めることで、キャラクタn-gramとCamemBERTの埋め込みの両方で大幅に改善されました。

In this paper, we introduce FreSaDa, a French Satire Data Set, which is composed of 11,570 articles from the news domain. In order to avoid reporting unreasonably high accuracy rates due to the learning of characteristics specific to publication sources, we divided our samples into training, validation and test, such that the training publication sources are distinct from the validation and test publication sources. This gives rise to a cross-domain (cross-source) satire detection task. We employ two classification methods as baselines for our new data set, one based on low-level features (character n-grams) and one based on high-level features (average of CamemBERT word embeddings). As an additional contribution, we present an unsupervised domain adaptation method based on regarding the pairwise similarities (given by the dot product) between the training samples and the validation samples as features. By including these domain-specific features, we attain significant improvements for both character n-grams and CamemBERT embeddings.
翻訳日:2021-04-13 14:38:52 公開日:2021-04-10
# ランダムインターセクションチェーン

Random Intersection Chains ( http://arxiv.org/abs/2104.04714v1 )

ライセンス: Link先を確認
Qiuqiang Lin, Chuanhou Gao(参考訳) いくつかの特徴間の相互作用は、予測タスクにおいて重要な役割を果たすことがある。 しかし、すべての相互作用を考慮に入れると、非常に重い計算負担が発生する。 分類的特徴については、入力が非常に高次元で、ワンホット符号化が適用されればスパースになるので、状況はより複雑になる。 連関規則マイニングに触発されて,ランダム交叉連鎖と呼ばれるカテゴリー特徴の相互作用を選択する手法を提案する。 ランダムな交差点を使って頻繁なパターンを検出し、最も有意義なパターンを選択する。 最初は複数の連鎖が生成され、各ノードは前ノードの交叉であり、ランダムに選択された観測である。 テールノード内のパターンの頻度を最大確率推定により推定し、最も推定頻度の高いパターンを選択する。 その後、彼らの信頼度はベイズの定理によって計算される。 最も自信のあるパターンはRandom Intersection Chainsによって最終的に返される。 連鎖の数と長さが適切に選択された場合、尾ノードのパターンはデータセットの中では最も頻繁なパターンであることを示す。 提案アルゴリズムの計算複雑性を解析し,推定器の収束性を証明する。 一連の実験の結果、アルゴリズムの効率と有効性が検証された。

Interactions between several features sometimes play an important role in prediction tasks. But taking all the interactions into consideration will lead to an extremely heavy computational burden. For categorical features, the situation is more complicated since the input will be extremely high-dimensional and sparse if one-hot encoding is applied. Inspired by association rule mining, we propose a method that selects interactions of categorical features, called Random Intersection Chains. It uses random intersections to detect frequent patterns, then selects the most meaningful ones among them. At first a number of chains are generated, in which each node is the intersection of the previous node and a random chosen observation. The frequency of patterns in the tail nodes is estimated by maximum likelihood estimation, then the patterns with largest estimated frequency are selected. After that, their confidence is calculated by Bayes' theorem. The most confident patterns are finally returned by Random Intersection Chains. We show that if the number and length of chains are appropriately chosen, the patterns in the tail nodes are indeed the most frequent ones in the data set. We analyze the computation complexity of the proposed algorithm and prove the convergence of the estimators. The results of a series of experiments verify the efficiency and effectiveness of the algorithm.
翻訳日:2021-04-13 14:33:55 公開日:2021-04-10
# SGDが不規則に一般化エラーを正規化

SGD Implicitly Regularizes Generalization Error ( http://arxiv.org/abs/2104.04874v1 )

ライセンス: Link先を確認
Daniel A. Roberts(参考訳) 我々は、勾配降下更新による一般化ギャップの変化に対する、単純でモデルに依存しない公式を導出する。 次に,確率勾配降下に対するテスト誤差の変化と等価な勾配降下更新数からのテスト誤差の変化を比較し,確率勾配降下が近傍更新を関連づけることで一般化誤差を正則化することを示す。 これらの計算は、特定の興味を持つモデルに対して容易に測定できる勾配分布の平均と共分散を通してのみモデルの詳細に依存する。 これらの計算のさらなる改善と確率的最適化の可能性について述べる。

We derive a simple and model-independent formula for the change in the generalization gap due to a gradient descent update. We then compare the change in the test error for stochastic gradient descent to the change in test error from an equivalent number of gradient descent updates and show explicitly that stochastic gradient descent acts to regularize generalization error by decorrelating nearby updates. These calculations depends on the details of the model only through the mean and covariance of the gradient distribution, which may be readily measured for particular models of interest. We discuss further improvements to these calculations and comment on possible implications for stochastic optimization.
翻訳日:2021-04-13 14:33:38 公開日:2021-04-10
# ユニバーサルブラックボックス領域適応について

On Universal Black-Box Domain Adaptation ( http://arxiv.org/abs/2104.04665v1 )

ライセンス: Link先を確認
Bin Deng, Yabin Zhang, Hui Tang, Changxing Ding, Kui Jia(参考訳) 本稿では,ターゲットドメインに対してソースモデルのインターフェースのみを利用可能とし,2つのドメイン間のラベル空間関係が異なったり未知になったりする,実用的なデプロイメントの観点から,少なくとも限定的なドメイン適応設定について検討する。 そのような設定をUniversal Black-Box Domain Adaptation (UB$^2$DA) と呼ぶ。 しかしUB$^2$DAが果たす大きな約束は、ドメイン適応は、ソースモデルのインターフェースにアクセスすることで、部分的に重なり合うラベル空間におけるラベルのないターゲットデータの予測にのみ依存するため、大きな学習課題をもたらす。 この課題に対処するために、まず、学習タスクを2つのサブタスクとして in-class\footnote{In this paper, we use in-class (out-class) to describe the class in-class (not observed) in the source black-box model。 識別とクラス外検出は、それぞれモデル蒸留とエントロピー分離によって学習できる。 対象サンプルの局所的近傍における予測の整合性によって正規化された自己学習フレームワークに統一することを提案する。 私たちのフレームワークはシンプルで堅牢で、最適化が容易です。 ドメイン適応ベンチマークの実験は、その効果を示している。 特に、ソースモデルのみのインターフェースにアクセスすることで、我々のフレームワークは、ソースデータや/またはソースモデルを利用する既存のユニバーサルドメイン適応手法をHスコアの新たな(そしてより合理的な)メトリックで上回り、平均的なクラス精度のメトリックと同等に実行します。

In this paper, we study an arguably least restrictive setting of domain adaptation in a sense of practical deployment, where only the interface of source model is available to the target domain, and where the label-space relations between the two domains are allowed to be different and unknown. We term such a setting as Universal Black-Box Domain Adaptation (UB$^2$DA). The great promise that UB$^2$DA makes, however, brings significant learning challenges, since domain adaptation can only rely on the predictions of unlabeled target data in a partially overlapped label space, by accessing the interface of source model. To tackle the challenges, we first note that the learning task can be converted as two subtasks of in-class\footnote{In this paper we use in-class (out-class) to describe the classes observed (not observed) in the source black-box model.} discrimination and out-class detection, which can be respectively learned by model distillation and entropy separation. We propose to unify them into a self-training framework, regularized by consistency of predictions in local neighborhoods of target samples. Our framework is simple, robust, and easy to be optimized. Experiments on domain adaptation benchmarks show its efficacy. Notably, by accessing the interface of source model only, our framework outperforms existing methods of universal domain adaptation that make use of source data and/or source models, with a newly proposed (and arguably more reasonable) metric of H-score, and performs on par with them with the metric of averaged class accuracy.
翻訳日:2021-04-13 14:32:50 公開日:2021-04-10
# ZS-BERT:属性表現学習によるゼロショット関係抽出に向けて

ZS-BERT: Towards Zero-Shot Relation Extraction with Attribute Representation Learning ( http://arxiv.org/abs/2104.04697v1 )

ライセンス: Link先を確認
Chih-Yao Chen, Cheng-Te Li(参考訳) 関係抽出は知識獲得と表現において必須の課題であり、実世界では新たな生成関係が一般的である一方で、訓練段階では観察できない未知の関係を予測しようとする努力は少ない。 本稿では, ゼロショット関係抽出問題を, 目に見えない関係のテキスト記述を取り入れて定式化する。 本研究では,手作りの属性ラベルや複数対の分類を使わずに,目に見えない関係を直接予測する,新しいマルチタスク学習モデルであるゼロショットBERT(ZS-BERT)を提案する。 ZS-BERTは、入力文とそれらの関係の記述からなる訓練例を前提として、文と関係記述を埋め込み空間に投影する2つの関数を、それらの間の距離を最小化し、目に見える関係を分類することによって学習する。 このような2つの機能に基づいて、未知の関係と新しい文の埋め込みを生成することにより、近接探索を用いて未知の関係の予測を得る。 2つのよく知られたデータセットで実施された実験では、ZS-BERTはF1スコアに対して少なくとも13.54 %改善することで既存の手法より優れていることが示されている。

While relation extraction is an essential task in knowledge acquisition and representation, and new-generated relations are common in the real world, less effort is made to predict unseen relations that cannot be observed at the training stage. In this paper, we formulate the zero-shot relation extraction problem by incorporating the text description of seen and unseen relations. We propose a novel multi-task learning model, zero-shot BERT (ZS-BERT), to directly predict unseen relations without hand-crafted attribute labeling and multiple pairwise classifications. Given training instances consisting of input sentences and the descriptions of their relations, ZS-BERT learns two functions that project sentences and relation descriptions into an embedding space by jointly minimizing the distances between them and classifying seen relations. By generating the embeddings of unseen relations and new-coming sentences based on such two functions, we use nearest neighbor search to obtain the prediction of unseen relations. Experiments conducted on two well-known datasets exhibit that ZS-BERT can outperform existing methods by at least 13.54\% improvement on F1 score.
翻訳日:2021-04-13 14:29:02 公開日:2021-04-10
# Selection-Expansion: Motion-Planning and Diversity Search Algorithmの統一フレームワーク

Selection-Expansion: A Unifying Framework for Motion-Planning and Diversity Search Algorithms ( http://arxiv.org/abs/2104.04768v1 )

ライセンス: Link先を確認
Alexandre Chenu, Nicolas Perrin-Gilbert, St\'ephane Doncieux, Olivier Sigaud(参考訳) 強化学習エージェントは、成功政策を学ぶために報酬信号を必要とする。 この信号が粗い場合や、それに対応する勾配が欺かれる場合、報酬に頼らずに探索空間を効率的に探索する専用のメカニズムが必要である。 行動の多様さやMP(Motion Planning)アルゴリズムの使用は、この文脈における2つの選択肢である。 本稿では,これら2つの選択肢間の共通ルーツに基づいて,2つの多様性探索アルゴリズム(ノベルティ探索法と目標探索法)の特性について検討する。 これらのアルゴリズムは、一般的に与えられたタスクにとって重要なものを表現するために手作業で設計された結果空間や行動空間の多様性を探索する。 MPアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさや滑らかさの欠如が、探索効率において重要な役割を果たすことを示している。 特に、マッピングが十分滑らかであれば、すなわち、実証的に示す。 パラメータ空間における2つの密接なポリシーが同様の結果をもたらす場合、多様性アルゴリズムはMPアルゴリズムの探索特性を継承する傾向がある。 対照的に、もしそうでなければ、多様性アルゴリズムはこれらの特性を失い、それらの性能は特定のヒューリスティック、特に検討されたポリシーを廃止するフィルタリング機構に大きく依存する。

Reinforcement learning agents need a reward signal to learn successful policies. When this signal is sparse or the corresponding gradient is deceptive, such agents need a dedicated mechanism to efficiently explore their search space without relying on the reward. Looking for a large diversity of behaviors or using Motion Planning (MP) algorithms are two options in this context. In this paper, we build on the common roots between these two options to investigate the properties of two diversity search algorithms, the Novelty Search and the Goal Exploration Process algorithms. These algorithms look for diversity in an outcome space or behavioral space which is generally hand-designed to represent what matters for a given task. The relation to MP algorithms reveals that the smoothness, or lack of smoothness of the mapping between the policy parameter space and the outcome space plays a key role in the search efficiency. In particular, we show empirically that, if the mapping is smooth enough, i.e. if two close policies in the parameter space lead to similar outcomes, then diversity algorithms tend to inherit exploration properties of MP algorithms. By contrast, if it is not, diversity algorithms lose these properties and their performance strongly depends on specific heuristics, notably filtering mechanisms that discard some of the explored policies.
翻訳日:2021-04-13 14:28:24 公開日:2021-04-10
# ピラミッド貯留層グラフニューラルネットワーク

Pyramidal Reservoir Graph Neural Network ( http://arxiv.org/abs/2104.04710v1 )

ライセンス: Link先を確認
Filippo Maria Bianchi, Claudio Gallicchio, Alessio Micheli(参考訳) 本稿では2種類の層を置換するディープグラフニューラルネットワーク(GNN)モデルを提案する。 最初のタイプはReservoir Computing (RC) にインスパイアされ、固定点に収束するまで非線形マップを繰り返すことで新しい頂点機能を生成する。 第2のタイプのレイヤはグラフプーリング処理を実装し、サポートグラフと頂点の特徴を徐々に減少させ、RCベースのGNNの計算効率をさらに向上させる。 したがって、建築はピラミッド的である。 最後の層では、残りの頂点の特徴を1つのベクトルに結合し、グラフの埋め込みを表す。 本論文で紹介された数学的導出により,グラフプーリングはモデルの計算複雑性を低減し,頂点特徴の動的更新の収束を高速化できることを示す。 RCベースGNNの設計に対する我々の提案したアプローチは、精度と複雑性のトレードオフを有利かつ原則的に提供し、大規模なグラフデータセットの実験において広範囲に実証する。

We propose a deep Graph Neural Network (GNN) model that alternates two types of layers. The first type is inspired by Reservoir Computing (RC) and generates new vertex features by iterating a non-linear map until it converges to a fixed point. The second type of layer implements graph pooling operations, that gradually reduce the support graph and the vertex features, and further improve the computational efficiency of the RC-based GNN. The architecture is, therefore, pyramidal. In the last layer, the features of the remaining vertices are combined into a single vector, which represents the graph embedding. Through a mathematical derivation introduced in this paper, we show formally how graph pooling can reduce the computational complexity of the model and speed-up the convergence of the dynamical updates of the vertex features. Our proposed approach to the design of RC-based GNNs offers an advantageous and principled trade-off between accuracy and complexity, which we extensively demonstrate in experiments on a large set of graph datasets.
翻訳日:2021-04-13 14:26:49 公開日:2021-04-10
# 構造的および合成機能的MRIデータを用いたアルツハイマー病の神経画像信号の深層学習による同定

Deep Learning Identifies Neuroimaging Signatures of Alzheimer's Disease Using Structural and Synthesized Functional MRI Data ( http://arxiv.org/abs/2104.04672v1 )

ライセンス: Link先を確認
Nanyan Zhu, Chen Liu, Xinyang Feng, Dipika Sikka, Sabrina Gjerswold-Selleck, Scott A. Small, Jia Guo(参考訳) 現在の神経イメージング技術は、脳の構造と機能を調べるための経路を提供し、アルツハイマー病(AD)の理解に大きな進歩をもたらした。 しかし、この疾患の調査や理解に広く用いられるグループレベルの分析は、個人の診断には適用できない。 近年,3次元脳画像の大規模複雑なパターンを効率的に解析できる深層学習が,疾患分類の正確かつ自動化により,コンピュータ支援による個人診断の道を開くのに役立っている。 より利用可能な構造的MRIデータに基づいて、ディープラーニングモデルによるADの分類に大きな進歩が見られた。 スケールマッチングされた機能的神経画像データの欠如は、病態の機能的変化を観察することによって、そのようなモデルをさらに改善することを防ぐ。 そこで本研究では,まず脳mriで構造から機能への変換を学習し,大規模構造スキャンから空間的に整合した機能画像の合成を行う。 健常者からAD患者を識別するための計算モデルを構築し, 構造的, 合成された機能的脳像を同一モデルに組み合わせた結果, 性能向上効果が示された。 さらに, 側頭葉を最も予測的構造領域とし, 頭頂頭頂葉を最も予測的機能領域と同定した。 今回我々は,AD分類に影響を及ぼし,ADのニューロイメージング・シグネチャを同定するために,大規模構造と合成MRIを用いたディープラーニングの可能性を示す。

Current neuroimaging techniques provide paths to investigate the structure and function of the brain in vivo and have made great advances in understanding Alzheimer's disease (AD). However, the group-level analyses prevalently used for investigation and understanding of the disease are not applicable for diagnosis of individuals. More recently, deep learning, which can efficiently analyze large-scale complex patterns in 3D brain images, has helped pave the way for computer-aided individual diagnosis by providing accurate and automated disease classification. Great progress has been made in classifying AD with deep learning models developed upon increasingly available structural MRI data. The lack of scale-matched functional neuroimaging data prevents such models from being further improved by observing functional changes in pathophysiology. Here we propose a potential solution by first learning a structural-to-functi onal transformation in brain MRI, and further synthesizing spatially matched functional images from large-scale structural scans. We evaluated our approach by building computational models to discriminate patients with AD from healthy normal subjects and demonstrated a performance boost after combining the structural and synthesized functional brain images into the same model. Furthermore, our regional analyses identified the temporal lobe to be the most predictive structural-region and the parieto-occipital lobe to be the most predictive functional-region of our model, which are both in concordance with previous group-level neuroimaging findings. Together, we demonstrate the potential of deep learning with large-scale structural and synthesized functional MRI to impact AD classification and to identify AD's neuroimaging signatures.
翻訳日:2021-04-13 14:26:35 公開日:2021-04-10
# 沿岸洪水の可視化のための物理的に一貫性のある生成逆ネットワーク

Physically-Consisten t Generative Adversarial Networks for Coastal Flood Visualization ( http://arxiv.org/abs/2104.04785v1 )

ライセンス: Link先を確認
Bj\"orn L\"utjens, Brandon Leshchinskiy, Christian Requena-Mesa, Farrukh Chishtie, Natalia D\'iaz-Rodr\'iguez, Oc\'eane Boulais, Aruna Sankaranarayanan, Aaron Pi\~na, Yarin Gal, Chedy Ra\"issi, Alexander Lavin, Dava Newman(参考訳) 気候変動が自然災害の激しさを増すにつれ、社会は適応のためのより良いツールを必要としている。 例えば、洪水は最も頻繁な自然災害であり、洪水リスクコミュニケーションのためのより良いツールが洪水耐性のあるインフラ開発のサポートを増加させる可能性がある。 本研究の目的は,衛星画像として沿岸洪水モデルの出力を可視化することにより,大規模気候影響のより視覚的なコミュニケーションを可能にすることである。 合成視覚衛星画像の物理的整合性を確保するための,最初のディープラーニングパイプラインを提案する。 我々は,Pix2pixHDと呼ばれる最先端のGANを開発し,NOAA SLOSH(NoAA SLOSH)の出力と物理的に一致した画像を生成する。 物理ベースのフラッドマップと比較して画像を評価することにより,提案手法が物理一貫性とフォトリアリズムの両方においてベースラインモデルを上回ることを見出した。 われわれの研究は、気候変動が私たちの風景をどう形作るかを世界規模で視覚化する第一歩になることを期待している。 この道を進むと,北極海氷の融解を可視化するパイプラインが一般化することを示す。 また,25k以上のラベル付き画像ペアのデータセットを公開し,地球観測における画像間変換の研究を行った。

As climate change increases the intensity of natural disasters, society needs better tools for adaptation. Floods, for example, are the most frequent natural disaster, and better tools for flood risk communication could increase the support for flood-resilient infrastructure development. Our work aims to enable more visual communication of large-scale climate impacts via visualizing the output of coastal flood models as satellite imagery. We propose the first deep learning pipeline to ensure physical-consistency in synthetic visual satellite imagery. We advanced a state-of-the-art GAN called pix2pixHD, such that it produces imagery that is physically-consisten t with the output of an expert-validated storm surge model (NOAA SLOSH). By evaluating the imagery relative to physics-based flood maps, we find that our proposed framework outperforms baseline models in both physical-consistency and photorealism. We envision our work to be the first step towards a global visualization of how climate change shapes our landscape. Continuing on this path, we show that the proposed pipeline generalizes to visualize arctic sea ice melt. We also publish a dataset of over 25k labelled image-pairs to study image-to-image translation in Earth observation.
翻訳日:2021-04-13 14:26:09 公開日:2021-04-10
# 深度監視型位置決め

Deep Weakly Supervised Positioning ( http://arxiv.org/abs/2104.04866v1 )

ライセンス: Link先を確認
Ruoyu Wang, Xuchu Xu, Li Ding, Yang Huang, Chen Feng(参考訳) PoseNetは、写真を撮影位置にマッピングすることができる。 しかし、PoseNetのトレーニングには完全な監督が必要である。 PoseNetは各観測の真理位置を知らずにトレーニングできますか? 制約ベースの弱いスーパービジョンによって実現可能であることを示し、提案したフレームワークであるDeepGPSに導いた。 特に、PoseNet出力間の制約として、ランダムな直線セグメントに沿ってロボットが移動した車輪エンコーダ推定距離を用いて、DeepGPSは相対的な位置決め誤差を2%未満で達成できる。 さらに、DeepGPSのトレーニングは、人間の参加がほとんどない自動校正(auto-calibration)として行うことができ、通常は注意と専門家レベルの手動校正を必要とする競合する手法よりも魅力的である。 我々は,DeepGPSの汎用性,有効性,精度を実証するために,シミュレーションおよび実データを用いた様々な実験を行い,その堅牢性に関する包括的解析を行った。 私たちのコードはhttps://ai4ce.github .io/DeepGPS/で利用可能です。

PoseNet can map a photo to the position where it is taken, which is appealing in robotics. However, training PoseNet requires full supervision, where ground truth positions are non-trivial to obtain. Can we train PoseNet without knowing the ground truth positions for each observation? We show that this is possible via constraint-based weak-supervision, leading to the proposed framework: DeepGPS. Particularly, using wheel-encoder-estima ted distances traveled by a robot along random straight line segments as constraints between PoseNet outputs, DeepGPS can achieve a relative positioning error of less than 2%. Moreover, training DeepGPS can be done as auto-calibration with almost no human attendance, which is more attractive than its competing methods that typically require careful and expert-level manual calibration. We conduct various experiments on simulated and real datasets to demonstrate the general applicability, effectiveness, and accuracy of DeepGPS, and perform a comprehensive analysis of its robustness. Our code is available at https://ai4ce.github .io/DeepGPS/.
翻訳日:2021-04-13 14:25:50 公開日:2021-04-10
# Fool Me Twice: Wikipediaのゲーミフィケーションからのヒント

Fool Me Twice: Entailment from Wikipedia Gamification ( http://arxiv.org/abs/2104.04725v1 )

ライセンス: Link先を確認
Julian Martin Eisenschlos, Bhuwan Dhingra, Jannis Bulian, Benjamin B\"orschinger, Jordan Boyd-Graber(参考訳) foolmetwice (fm2:略してfm2)は、楽しいマルチプレイヤーゲームを通じて収集された、挑戦的な包括ペアの大規模なデータセットである。 ゲーミフィケーションは逆の例を奨励し、「ショートカット」を使って解決できる例の数を他の一般的な補足データセットと比較して劇的に削減する。 プレイヤーには2つの課題がある。 最初のタスクは、ウィキペディアページからの証拠に基づいて、プレイヤに妥当なクレームを書くように要求する。 2つ目は、他のプレイヤーが書いた2つの正当な主張を示し、そのうちの1つは虚偽であり、ゴールは時間が切れる前にそれを識別することである。 プレイヤーは証拠プールから得られた手がかりを見るために「支払う」:プレイヤーが必要とする証拠が増えるほど、クレームが難しくなる。 モチベーションのあるプレイヤー間のゲームプレイは、時間的推論や無関係なエビデンスへの分岐など、クレームを作るための多様な戦略をもたらし、エンテーメントとエビデンス検索タスクの質の高いデータをもたらす。 私たちはデータセットとゲームコードをオープンソース化します。

We release FoolMeTwice (FM2 for short), a large dataset of challenging entailment pairs collected through a fun multi-player game. Gamification encourages adversarial examples, drastically lowering the number of examples that can be solved using "shortcuts" compared to other popular entailment datasets. Players are presented with two tasks. The first task asks the player to write a plausible claim based on the evidence from a Wikipedia page. The second one shows two plausible claims written by other players, one of which is false, and the goal is to identify it before the time runs out. Players "pay" to see clues retrieved from the evidence pool: the more evidence the player needs, the harder the claim. Game-play between motivated players leads to diverse strategies for crafting claims, such as temporal inference and diverting to unrelated evidence, and results in higher quality data for the entailment and evidence retrieval tasks. We open source the dataset and the game code.
翻訳日:2021-04-13 14:23:20 公開日:2021-04-10
# NLI Data Sanity Check: データ破壊がモデルパフォーマンスに与える影響を評価する

NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model Performance ( http://arxiv.org/abs/2104.04751v1 )

ライセンス: Link先を確認
Aarne Talman, Marianna Apidianaki, Stergios Chatzikyriakidis, J\"org Tiedemann(参考訳) 事前学習されたニューラルネットワークモデルは、自然言語推論(NLI)タスクに高いパフォーマンスを与える。 しかし、実際に処理された配列の意味を理解するかどうかは不明だ。 本稿では,データセットがモデルの意味理解能力を評価するための優れたテストベッドを構成するかどうかを評価するための新しい診断テストスイートを提案する。 特に,広く使用されているベンチマーク (MNLI と ANLI) に制御汚職変換を適用し,単語のクラス全体を取り除き,非意味な文対につながることが多い。 破損したデータのモデル精度が高ければ、データセットは予測を導く統計バイアスとアーティファクトを含む可能性が高い。 逆に、モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な課題をもたらすことを示している。 したがって,提案する制御は,nliタスクの高品質データ開発のためのクラッシュテストとして機能する。

Pre-trained neural language models give high performance on natural language inference (NLI) tasks. But whether they actually understand the meaning of the processed sequences remains unclear. We propose a new diagnostics test suite which allows to assess whether a dataset constitutes a good testbed for evaluating the models' meaning understanding capabilities. We specifically apply controlled corruption transformations to widely used benchmarks (MNLI and ANLI), which involve removing entire word classes and often lead to non-sensical sentence pairs. If model accuracy on the corrupted data remains high, then the dataset is likely to contain statistical biases and artefacts that guide prediction. Inversely, a large decrease in model accuracy indicates that the original dataset provides a proper challenge to the models' reasoning capabilities. Hence, our proposed controls can serve as a crash test for developing high quality data for NLI tasks.
翻訳日:2021-04-13 14:23:01 公開日:2021-04-10
# 重複しないマルチカメラシステムを用いた大規模屋内空間における人体移動

Unveiling personnel movement in a larger indoor area with a non-overlapping multi-camera system ( http://arxiv.org/abs/2104.04662v1 )

ライセンス: Link先を確認
Ping Zhang, Zhenxiang Tao, Wenjie Yang, Minze Chen, Shan Ding, Xiaodong Liu, Rui Yang, Hui Zhang(参考訳) サーベイランスカメラは、エネルギー管理と社会保障を構築するのに役立つ屋内占有率測定と人間の運動知覚に広く応用されている。 本研究では,カメラ間コラボレーションの欠如に加えて,単一カメラの視野角の制限という課題に対処するため,監視領域を拡大する非重複マルチカメラシステムを提案し,異なるカメラビューから同一人物を検索することに専念する。 システムはオフィスビルに展開され、4日間のビデオが収集される。 深層畳み込みニューラルネットワークを訓練することにより,提案するシステムは,まず,異なるカメラから検出された各個人画像の出現特徴埋め込みを,類似性比較のために抽出する。 そして、確率的カメラ間遷移行列を外観特徴に関連付けて人物再識別ランキング結果をさらに改善する。 最後に、マッチング改善を分析するためにノイズ抑制説明を行う。 本稿では,重複しない複数のカメラを用いた室内運動知覚のスコープを拡大し,センサの追加を必要とせず,歩行者再識別の精度を向上させる。

Surveillance cameras are widely applied for indoor occupancy measurement and human movement perception, which benefit for building energy management and social security. To address the challenges of limited view angle of single camera as well as lacking of inter-camera collaboration, this study presents a non-overlapping multi-camera system to enlarge the surveillance area and devotes to retrieve the same person appeared from different camera views. The system is deployed in an office building and four-day videos are collected. By training a deep convolutional neural network, the proposed system first extracts the appearance feature embeddings of each personal image, which detected from different cameras, for similarity comparison. Then, a stochastic inter-camera transition matrix is associated with appearance feature for further improving the person re-identification ranking results. Finally, a noise-suppression explanation is given for analyzing the matching improvements. This paper expands the scope of indoor movement perception based on non-overlapping multiple cameras and improves the accuracy of pedestrian re-identification without introducing additional types of sensors.
翻訳日:2021-04-13 14:16:58 公開日:2021-04-10
# 未確認ビデオオブジェクト:密集したオープンワールドセグメンテーションのためのベンチマーク

Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation ( http://arxiv.org/abs/2104.04691v1 )

ライセンス: Link先を確認
Weiyao Wang, Matt Feiszli, Heng Wang, Du Tran(参考訳) 現在の最先端のオブジェクト検出とセグメンテーション手法は、クローズドワールドの仮定の下でうまく機能する。 このクローズドワールド設定は、トレーニングとデプロイメントの間にオブジェクトカテゴリのリストが利用可能であることを前提としている。 しかし、現実世界の多くのアプリケーションは、新しいオブジェクトを検知またはセグメント化する必要がある。 本稿では,ビデオにおけるオープンワールドクラス非依存オブジェクトセグメンテーションのための新しいベンチマーク uvo (unidentified video objects) を提案する。 問題の焦点をオープンワールドにシフトするだけでなく、UVOははるかに大きく、DAVISの約8倍のビデオを提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。 UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。 我々は,オープンワールドオブジェクトセグメンテーション以外に,オブジェクトトラッキングやスーパーボクセルセグメンテーションなど,他のアプリケーションにもUVOが利用できることを示した。 UVoは、オープンワールドのクラスに依存しないオブジェクトセグメンテーションのための新しいアプローチを開発するための、汎用的なテストベッドであると考えています。

Current state-of-the-art object detection and segmentation methods work well under the closed-world assumption. This closed-world setting assumes that the list of object categories is available during training and deployment. However, many real-world applications require detecting or segmenting novel objects, i.e., object categories never seen during training. In this paper, we present, UVO (Unidentified Video Objects), a new benchmark for open-world class-agnostic object segmentation in videos. Besides shifting the problem focus to the open-world setup, UVO is significantly larger, providing approximately 8 times more videos compared with DAVIS, and 7 times more mask (instance) annotations per video compared with YouTube-VOS and YouTube-VIS. UVO is also more challenging as it includes many videos with crowded scenes and complex background motions. We demonstrated that UVO can be used for other applications, such as object tracking and super-voxel segmentation, besides open-world object segmentation. We believe that UVo is a versatile testbed for researchers to develop novel approaches for open-world class-agnostic object segmentation, and inspires new research directions towards a more comprehensive video understanding beyond classification and detection.
翻訳日:2021-04-13 14:16:41 公開日:2021-04-10
# 未知の動作の分類と局所化のためのオブジェクト優先

Object Priors for Classifying and Localizing Unseen Actions ( http://arxiv.org/abs/2104.04715v1 )

ライセンス: Link先を確認
Pascal Mettes, William Thong, Cees G. M. Snoek(参考訳) この研究は、ラベル付きビデオトレーニングの例を必要とせずに、ビデオ内の人間の行動の分類とローカライズに努めている。 既存の作業がグローバル属性やオブジェクト情報を目に見えないアクションビデオに転送することに依存している場合、画像ベースのオブジェクト情報のみから、未認識のアクションを分類し、時空間的にローカライズすることを目指している。 本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。 上述の3つのセマンティックオブジェクト先行処理は、単語埋め込みによるセマンティックマッチングを拡張し、セマンティックなあいまいさ、オブジェクトの識別、オブジェクトの命名に対処する3つの単純な機能を持つ。 ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。 ユーザが指定したオブジェクト、空間関係、およびオブジェクトサイズに基づいて、ビデオコレクション内のアクションチューブを検索する新しいビデオ検索タスクを導入することができる。 5つのアクションデータセットの実験的評価は、未知のアクションに対する空間的および意味的オブジェクト優先の重要性を示している。 複数の言語と単純なオブジェクトフィルタリングを使用することで、意味マッチングが直接改善される一方で、人間とオブジェクトは、未認識のアクションのローカライゼーションとローカライゼーションの両方において最先端の結果をもたらす。

This work strives for the classification and localization of human actions in videos, without the need for any labeled video training examples. Where existing work relies on transferring global attribute or object information from seen to unseen action videos, we seek to classify and spatio-temporally localize unseen actions in videos from image-based object information only. We propose three spatial object priors, which encode local person and object detectors along with their spatial relations. On top we introduce three semantic object priors, which extend semantic matching through word embeddings with three simple functions that tackle semantic ambiguity, object discrimination, and object naming. A video embedding combines the spatial and semantic object priors. It enables us to introduce a new video retrieval task that retrieves action tubes in video collections based on user-specified objects, spatial relations, and object size. Experimental evaluation on five action datasets shows the importance of spatial and semantic object priors for unseen actions. We find that persons and objects have preferred spatial relations that benefit unseen action localization, while using multiple languages and simple object filtering directly improves semantic matching, leading to state-of-the-art results for both unseen action classification and localization.
翻訳日:2021-04-13 14:16:19 公開日:2021-04-10
# われわれは、複数の人からビデオへ転送する。

Do as we do: Multiple Person Video-To-Video Transfer ( http://arxiv.org/abs/2104.04721v1 )

ライセンス: Link先を確認
Mickael Cormier, Houraalsadat Mortazavi Moshkenan, Franz L\"orch, J\"urgen Metzler, J\"urgen Beyerer(参考訳) 私たちのゴールは、実際の人の動きをソースビデオからリアルな結果のターゲットビデオに転送することです。 最近の進歩は画像から画像への翻訳を大幅に改善したが、身体の動きと時間的一貫性を考慮に入れた作品はほとんどない。 ただし、ビデオの再ターゲティングはシングルアクター/シングルアクターのみに焦点を当てている。 本研究では,ポーズを中間表現として用いたマルチ対人ビデオ転送のためのマーカーレス手法を提案する。 複数の人が踊ったりワークアウトしたりするソースビデオが与えられると、この方法はすべての俳優の体の動きを別のビデオ内の新しい俳優群に転送する。 近年の"do as i do"方式とは違って,複数の人物を同時に転送し,関連するアイデンティティスイッチ問題に取り組むことに注力している。 本手法は,床に触れた足や被写体の相対位置など,対象映像の特定の特徴を保ちながら,身体運動を対象映像に説得的に伝達することができる。 評価は、所有者の許可を得た公開ビデオを使用して、視覚品質と外観の指標で行われる。

Our goal is to transfer the motion of real people from a source video to a target video with realistic results. While recent advances significantly improved image-to-image translations, only few works account for body motions and temporal consistency. However, those focus only on video re-targeting for a single actor/ for single actors. In this work, we propose a marker-less approach for multiple-person video-to-video transfer using pose as an intermediate representation. Given a source video with multiple persons dancing or working out, our method transfers the body motion of all actors to a new set of actors in a different video. Differently from recent "do as I do" methods, we focus specifically on transferring multiple person at the same time and tackle the related identity switch problem. Our method is able to convincingly transfer body motion to the target video, while preserving specific features of the target video, such as feet touching the floor and relative position of the actors. The evaluation is performed with visual quality and appearance metrics using publicly available videos with the permission of their owners.
翻訳日:2021-04-13 14:15:56 公開日:2021-04-10
# 咬合誘導型3次元点雲上の自己教師付きシーンフロー推定

Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point Clouds ( http://arxiv.org/abs/2104.04724v1 )

ライセンス: Link先を確認
Bojun Ouyang, Dan Raviv(参考訳) 2つの連続する時間フレーム間のスパースサンプリングポイントの3次元空間でのフローを理解することは、VR/AR、ロボティクス、自律運転といった現代の幾何学駆動システムのコアストーンである。 このタスクの実際の、非シミュレートされたラベル付きデータの欠如は、自己や教師なしのディープアーキテクチャの重要性を強調する。 本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。 ここでは,流れ予測と閉塞検出のスマートな多層融合が,オクルードおよび非オクルードシナリオに対して,従来のアーキテクチャよりも大きなマージンを持つことを示す。 我々はflyingthings3dとkittiデータセットの教師付きおよび自己教師付きトレーニングにおける最新結果について報告する。

Understanding the flow in 3D space of sparsely sampled points between two consecutive time frames is the core stone of modern geometric-driven systems such as VR/AR, Robotics, and Autonomous driving. The lack of real, non-simulated, labeled data for this task emphasizes the importance of self- or un-supervised deep architectures. This work presents a new self-supervised training method and an architecture for the 3D scene flow estimation under occlusions. Here we show that smart multi-layer fusion between flow prediction and occlusion detection outperforms traditional architectures by a large margin for occluded and non-occluded scenarios. We report state-of-the-art results on Flyingthings3D and KITTI datasets for both the supervised and self-supervised training.
翻訳日:2021-04-13 14:15:40 公開日:2021-04-10
# 低ランクタッカーALSと3D-HEVCに基づくマルチ露光ステレオ符号化の統一モデル

A Novel Unified Model for Multi-exposure Stereo Coding Based on Low Rank Tucker-ALS and 3D-HEVC ( http://arxiv.org/abs/2104.04726v1 )

ライセンス: Link先を確認
Mansi Sharma, Aditya Wadaskar(参考訳) ディスプレイ技術はハイダイナミックレンジ(hdr)のコントラストに基づく奥行き誘導と3次元パーソナライズを同時に提供する必要がある。 HDRステレオデータを効率よく圧縮するアルゴリズムが重要である。 HDRカメラのコストと不足のため、HDRコンテンツの直接キャプチャは複雑である。 HDR 3D画像は、様々な露出設定のステレオカメラを用いて取得した低ダイナミックレンジ(LDR)画像を融合することにより、低コストで生成することができる。 本稿では,テンソル低ランク近似に基づくマルチ露光ステレオ画像の効率的な符号化手法を提案する。 マルチ露光融合により、デコーダでHDRステレオ出力を生成し、現実性を高め、双眼3D奥行きを誇張することができる。 LDRステレオ画像における空間冗長性を利用するために、マルチ露光ステレオ画像のスタックを、最小二乗タッカー分解モデルに従って投影行列とコアテンソルのセットに分解する。 シーンのコンパクトで低ランクな表現は、高効率ビデオ符号化規格の3D拡張によりさらに処理される。 3d-hevcを用いた符号化は, フレーム内, ビュー間および部品間冗長性を低ランク近似表現で活用することにより, 提案手法の効率を高める。 我々は、IPTおよびY'CbCr色空間の輝度特性を正確に近似し、符号化歪みを知覚的に最小化するために検討する。 さらに,提案手法は,コアテンソルのランクと量子化を変化させることで,テンソル潜在成分のビットレートを柔軟に調整する。 自然界における大規模な実験により,提案手法は最先端のJPEG-XTと3D-HEVC範囲の符号化基準より優れていることが示された。

Display technology must offer high dynamic range (HDR) contrast-based depth induction and 3D personalization simultaneously. Efficient algorithms to compress HDR stereo data is critical. Direct capturing of HDR content is complicated due to the high expense and scarcity of HDR cameras. The HDR 3D images could be generated in low-cost by fusing low-dynamic-range (LDR) images acquired using a stereo camera with various exposure settings. In this paper, an efficient scheme for coding multi-exposure stereo images is proposed based on a tensor low-rank approximation scheme. The multi-exposure fusion can be realized to generate HDR stereo output at the decoder for increased realism and exaggerated binocular 3D depth cues. For exploiting spatial redundancy in LDR stereo images, the stack of multi-exposure stereo images is decomposed into a set of projection matrices and a core tensor following an alternating least squares Tucker decomposition model. The compact, low-rank representation of the scene, thus, generated is further processed by 3D extension of High Efficiency Video Coding standard. The encoding with 3D-HEVC enhance the proposed scheme efficiency by exploiting intra-frame, inter-view and the inter-component redundancies in low-rank approximated representation. We consider constant luminance property of IPT and Y'CbCr color space to precisely approximate intensity prediction and perceptually minimize the encoding distortion. Besides, the proposed scheme gives flexibility to adjust the bitrate of tensor latent components by changing the rank of core tensor and its quantization. Extensive experiments on natural scenes demonstrate that the proposed scheme outperforms state-of-the-art JPEG-XT and 3D-HEVC range coding standards.
翻訳日:2021-04-13 14:15:29 公開日:2021-04-10
# 外部ビセムデコードを用いた唇読解法

Lip reading using external viseme decoding ( http://arxiv.org/abs/2104.04784v1 )

ライセンス: Link先を確認
Javad Peymanfard, Mohammad Reza Mohammadi, Hossein Zeinali and Nasser Mozayani(参考訳) 唇読みは唇の動きから発声を認識する操作である。 これは、単語を発音する際の唇の動きが類似しているため、難しい作業である。 visemeは会話中の唇の動きを記述するのに使われる。 本稿では,ビデオからキャラクタへの変換を2段階に分割し,ビセメから文字への変換を別モデルで行うことにより,外部テキストデータ(ビセメからキャラクタへのマッピング)の活用方法を示す。 提案手法は, bbc-oxford lip reading sentences 2 (lrs2) データセットにおいて, 単語誤り率を正規列と比較して4\%向上させる。

Lip-reading is the operation of recognizing speech from lip movements. This is a difficult task because the movements of the lips when pronouncing the words are similar for some of them. Viseme is used to describe lip movements during a conversation. This paper aims to show how to use external text data (for viseme-to-character mapping) by dividing video-to-character into two stages, namely converting video to viseme, and then converting viseme to character by using separate models. Our proposed method improves word error rate by 4\% compared to the normal sequence to sequence lip-reading model on the BBC-Oxford Lip Reading Sentences 2 (LRS2) dataset.
翻訳日:2021-04-13 14:15:00 公開日:2021-04-10
# 仮想現実のためのロバストなエゴセントリックフォトリアリスティックな表情伝達

Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual Reality ( http://arxiv.org/abs/2104.04794v1 )

ライセンス: Link先を確認
Amin Jourabloo, Fernando De la Torre, Jason Saragih, Shih-En Wei, Te-Li Wang, Stephen Lombardi, Danielle Belko, Autumn Trimble, Hernan Badino(参考訳) ソーシャルな存在感は、現実の人といるという感覚が、バーチャルリアリティ(vr)でデジタル人間によって駆動される次世代のコミュニケーションシステムを刺激する。 最高の3dビデオリアルなvrアバターは、人固有の(ps)モデルに依存している。 しかし、これらのPSモデルは構築に時間がかかり、典型的には限られたデータ可変性で訓練される。 表情伝達アルゴリズムの精度に影響を与える変数の主な要因は、異なるVRヘッドセット(例えば、カメラの設定、ヘッドセットの傾斜)の使用、時間の経過とともに顔の外観の変化(例えば、ひげ、メイクアップ)、環境要因(例えば、照明、背景)である。 これは、VRにおけるこれらのモデルのスケーラビリティの大きな欠点である。 本稿では,拡張戦略を訓練したエンドツーエンドのマルチアイデンティティアーキテクチャ(MIA)を提案することにより,これらの制限を克服する。 MIAは、最小限のパーソナライズされた情報(中性3Dメッシュ形状)を用いて、VRヘッドセット(2つの目と1つの口)の3つのカメラからアバターの形状成分を訓練されていない被験者に駆動する。 同様に、PSテクスチャデコーダが利用可能であれば、MIAは挑戦的なシナリオでPSモデルより頑丈に優れたフルアバター(シェープ+テクスチャ)を駆動することができる。 頑健さと一般化を改善するための重要な貢献は、我々の手法が、無監督の方法で、迷惑要因(例えばヘッドセット、環境、顔の外観)から顔の表情を暗黙的に分離することです。 種々の実験において,提案手法と最先端PS手法の優れた性能とロバスト性を示す。

Social presence, the feeling of being there with a real person, will fuel the next generation of communication systems driven by digital humans in virtual reality (VR). The best 3D video-realistic VR avatars that minimize the uncanny effect rely on person-specific (PS) models. However, these PS models are time-consuming to build and are typically trained with limited data variability, which results in poor generalization and robustness. Major sources of variability that affects the accuracy of facial expression transfer algorithms include using different VR headsets (e.g., camera configuration, slop of the headset), facial appearance changes over time (e.g., beard, make-up), and environmental factors (e.g., lighting, backgrounds). This is a major drawback for the scalability of these models in VR. This paper makes progress in overcoming these limitations by proposing an end-to-end multi-identity architecture (MIA) trained with specialized augmentation strategies. MIA drives the shape component of the avatar from three cameras in the VR headset (two eyes, one mouth), in untrained subjects, using minimal personalized information (i.e., neutral 3D mesh shape). Similarly, if the PS texture decoder is available, MIA is able to drive the full avatar (shape+texture) robustly outperforming PS models in challenging scenarios. Our key contribution to improve robustness and generalization, is that our method implicitly decouples, in an unsupervised manner, the facial expression from nuisance factors (e.g., headset, environment, facial appearance). We demonstrate the superior performance and robustness of the proposed method versus state-of-the-art PS approaches in a variety of experiments.
翻訳日:2021-04-13 14:14:50 公開日:2021-04-10
# ShadowGNN: テキストからSQLへのパーサのためのグラフ投影ニューラルネットワーク

ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser ( http://arxiv.org/abs/2104.04689v1 )

ライセンス: Link先を確認
Zhi Chen, Lu Chen, Yanbin Zhao, Ruisheng Cao, Zihan Xu, Su Zhu and Kai Yu(参考訳) データベーススキーマが与えられたら、Text-to-SQLは自然言語の質問を対応するSQLクエリに変換することを目的としている。 クロスドメインの設定下では、従来の意味構文解析モデルは、未認識のデータベーススキーマへの適応に苦しむ。 稀かつ未確認なスキーマのモデル一般化機能を改善するために,抽象的および意味的なレベルでスキーマを処理する新しいアーキテクチャであるShadowGNNを提案する。 データベース内の意味項目の名前を無視して、よく設計されたグラフ投影ニューラルネットワークで抽象スキーマを活用し、疑問とスキーマの語彙化表現を得る。 ドメインに依存しない表現に基づいて、関係認識変換器を用いて質問とスキーマの間の論理的リンクをさらに抽出する。 最後に、文脈自由文法を持つSQLデコーダを適用する。 挑戦的なText-to-SQLベンチマークのSpiderでは、実験的な結果として、ShadowGNNが最先端モデルを上回っていることが示されている。 注釈付きデータが極端に制限された場合(トレーニングセットは10\%)、shadowgnnは絶対的な5\%性能向上を達成し、強力な一般化能力を示す。 我々の実装は、 \url{https://github.com/W owCZ/shadowgnn} でオープンソース化されます。

Given a database schema, Text-to-SQL aims to translate a natural language question into the corresponding SQL query. Under the setup of cross-domain, traditional semantic parsing models struggle to adapt to unseen database schemas. To improve the model generalization capability for rare and unseen schemas, we propose a new architecture, ShadowGNN, which processes schemas at abstract and semantic levels. By ignoring names of semantic items in databases, abstract schemas are exploited in a well-designed graph projection neural network to obtain delexicalized representation of question and schema. Based on the domain-independent representations, a relation-aware transformer is utilized to further extract logical linking between question and schema. Finally, a SQL decoder with context-free grammar is applied. On the challenging Text-to-SQL benchmark Spider, empirical results show that ShadowGNN outperforms state-of-the-art models. When the annotated data is extremely limited (only 10\% training set), ShadowGNN gets over absolute 5\% performance gain, which shows its powerful generalization ability. Our implementation will be open-sourced at \url{https://github.com/W owCZ/shadowgnn}.
翻訳日:2021-04-13 14:03:17 公開日:2021-04-10
# ニューラルネットワーク学習のための知識キャリアとしての変成関係の利用

Use of Metamorphic Relations as Knowledge Carriers to Train Deep Neural Networks ( http://arxiv.org/abs/2104.04718v1 )

ライセンス: Link先を確認
Tsong Yueh Chen, Pak-Lok Poon, Kun Qiu, Zheng Zheng, Jinyi Zhou(参考訳) 多層深層ニューラルネットワーク(dnn)のトレーニングは難しい。 多数のサンプルをトレーニングに使用する標準的なプラクティスは、DNNのパフォーマンスを満足のいくレベルに改善しないことが多い。 したがって、体系的なトレーニングアプローチが必要となる。 このニーズに対処するため、我々はDNNの訓練にメタモルフィックリレーション(MR)を「知識キャリア」として利用する革新的なアプローチを導入する。 メタモルフィックテストとMR(ソフトウェアテストにおけるテストオラクルの役割を担う)の概念に基づいて、私たちは、メタモルフィックなグループの入力を(知識の抽象化である)MRの具体例として利用して、DNNを体系的かつ効果的な方法で訓練します。 我々は,mrsとmrsで訓練した2つのdnnの性能を比較する予備実験を行い,mrsで訓練した2つのdnnの性能を比較したところ,mrsで訓練されたdnnの方が優れた性能を得られており,mrsを知識キャリアとして使用するアプローチが有望であることを確認した。 しかし、このアプローチを固め、活用し、効果的なDNNトレーニングに広範な影響を及ぼすためには、より多くの研究と研究が必要である。

Training multiple-layered deep neural networks (DNNs) is difficult. The standard practice of using a large number of samples for training often does not improve the performance of a DNN to a satisfactory level. Thus, a systematic training approach is needed. To address this need, we introduce an innovative approach of using metamorphic relations (MRs) as "knowledge carriers" to train DNNs. Based on the concept of metamorphic testing and MRs (which play the role of a test oracle in software testing), we make use of the notion of metamorphic group of inputs as concrete instances of MRs (which are abstractions of knowledge) to train a DNN in a systematic and effective manner. To verify the viability of our training approach, we have conducted a preliminary experiment to compare the performance of two DNNs: one trained with MRs and the other trained without MRs. We found that the DNN trained with MRs has delivered a better performance, thereby confirming that our approach of using MRs as knowledge carriers to train DNNs is promising. More work and studies, however, are needed to solidify and leverage this approach to generate widespread impact on effective DNN training.
翻訳日:2021-04-13 14:02:01 公開日:2021-04-10
# エンラクシアル層厚計算のための回帰ネットワーク

Regression Networks For Calculating Englacial Layer Thickness ( http://arxiv.org/abs/2104.04654v1 )

ライセンス: Link先を確認
Debvrat Varshney, Maryam Rahnemoonfar, Masoud Yari, and John Paden(参考訳) 氷厚推定は氷床研究の重要な側面である。 本研究では、複数の出力ノードを持つ畳み込みニューラルネットワークを用いて、グリーンランド北西部で収集されたSnow Radar画像の内部氷層厚の回帰と学習を行う。 ResNet50の残差接続により、テストセット上で平均1.251ピクセルの絶対誤差を実現することができる。 このような回帰ベースのネットワークは、手動アノテーションの要求を減らすために、ドメイン知識とレーダ情報をニューラルネットワークに埋め込むことにより、さらに改善することができる。

Ice thickness estimation is an important aspect of ice sheet studies. In this work, we use convolutional neural networks with multiple output nodes to regress and learn the thickness of internal ice layers in Snow Radar images collected in northwest Greenland. We experiment with some state-of-the-art networks and find that with the residual connections of ResNet50, we could achieve a mean absolute error of 1.251 pixels over the test set. Such regression-based networks can further be improved by embedding domain knowledge and radar information in the neural network in order to reduce the requirement of manual annotations.
翻訳日:2021-04-13 13:59:45 公開日:2021-04-10
# BERTを用いた非自己回帰変換器を用いたエンドツーエンドASR

Non-autoregressive Transformer-based End-to-end ASR using BERT ( http://arxiv.org/abs/2104.04805v1 )

ライセンス: Link先を確認
Fu-Hao Yu and Kuan-Yu Chen(参考訳) トランスフォーマーベースのモデルは、音声処理、自然言語処理、コンピュータビジョンなど、様々な古典的および実践的な分野において大きな革新をもたらした。 変換器上には,近年,注目に基づくエンドツーエンド音声認識(ASR)モデルが普及している。 具体的には、従来の自己回帰手法と比較して高速な推論速度と同等の性能を達成できる非自己回帰モデリングは、創発的な研究トピックである。 自然言語処理の文脈において、トランスフォーマ(bert)モデルからの双方向エンコーダ表現は、コンテキスト化された単語表現を推論し、単純な微調整のみを行うことで下流タスクの優れた性能を得る能力によって、広く注目されている。 本稿では、非自己回帰的ASRモデリングの利点を継承するだけでなく、事前学習された言語モデル(例えばBERT)の恩恵を受けるために、BERTに基づく非自己回帰的トランスフォーマーに基づくエンドツーエンドASRモデルを提案する。 AISHELL-1データセットで実施された一連の実験は、最先端のASRシステムと比較して、提案モデルの競争力や優れた結果を示す。

Transformer-based models have led to a significant innovation in various classic and practical subjects, including speech processing, natural language processing, and computer vision. On top of the transformer, the attention-based end-to-end automatic speech recognition (ASR) models have become a popular fashion in recent years. Specifically, the non-autoregressive modeling, which can achieve fast inference speed and comparable performance when compared to conventional autoregressive methods, is an emergent research topic. In the context of natural language processing, the bidirectional encoder representations from transformers (BERT) model has received widespread attention, partially due to its ability to infer contextualized word representations and to obtain superior performances of downstream tasks by performing only simple fine-tuning. In order to not only inherit the advantages of non-autoregressive ASR modeling, but also receive benefits from a pre-trained language model (e.g., BERT), a non-autoregressive transformer-based end-to-end ASR model based on BERT is presented in this paper. A series of experiments conducted on the AISHELL-1 dataset demonstrates competitive or superior results of the proposed model when compared to state-of-the-art ASR systems.
翻訳日:2021-04-13 13:58:18 公開日:2021-04-10
# ALOS-2衛星SAR画像からの海岸線抽出

Coastline extraction from ALOS-2 satellite SAR images ( http://arxiv.org/abs/2104.04722v1 )

ライセンス: Link先を確認
Petr Hurtik and Marek Vajgl(参考訳) 海岸の継続的監視は、侵食に対する海岸保護戦略の設計において重要な役割を担っている。 雲や日光の影響を避けるため、合成開口レーダーを用いた衛星画像を用いて必要なデータを提供する。 本研究では, 深層学習に基づく手法により, 最先端の手法を用いて, 海岸線の位置を検出できることを示す。 プロセスをデータ読み取り、データ前処理、モデルトレーニング、推論、センスリング、後処理に分割し、各部分の最高のテクニックを説明します。 最後に,人間の認識が得られなくても,海岸線を画像から正確に抽出できる独自の解を提案する。 私たちのソリューションは、Signateのコンペの間、世界中の109チームの中で、海岸線の実際のGPS位置に対して検証されました。

The continuous monitoring of a shore plays an essential role in designing strategies for shore protection against erosion. To avoid the effect of clouds and sunlight, satellite-based imagery with synthetic aperture radar is used to provide the required data. We show how such data can be processed using state-of-the-art methods, namely, by a deep-learning-based approach, to detect the coastline location. We split the process into data reading, data preprocessing, model training, inference, ensembling, and postprocessing, and describe the best techniques for each of the parts. Finally, we present our own solution that is able to precisely extract the coastline from an image even if it is not recognizable by a human. Our solution has been validated against the real GPS location of the coastline during Signate's competition, where it was runner-up among 109 teams across the whole world.
翻訳日:2021-04-13 13:56:12 公開日:2021-04-10
# メタ学習双方向更新ルール

Meta-Learning Bidirectional Update Rules ( http://arxiv.org/abs/2104.04657v1 )

ライセンス: Link先を確認
Mark Sandler and Max Vladymyrov and Andrey Zhmoginov and Nolan Miller and Andrew Jackson and Tom Madams and Blaise Aguera y Arcas(参考訳) 本稿では,ニューロンとシナプスが複数の状態を維持する新しいタイプの一般化ニューラルネットワークを提案する。 ニューラルネットワークにおける古典的勾配に基づくバックプロパゲーションは,1つの状態がアクティベーションに,もう1つの状態が勾配に使用される2状態ネットワークの特別な場合と見なすことができる。 我々の一般的なフレームワークでは、ネットワークは勾配の明示的な概念も受け取らない。 シナプスとニューロンは、共有低次元「遺伝子」によってパラメータ化された双方向のhebbスタイルの更新規則を用いて更新される。 このようなゲノムは、従来の最適化手法やCMA-ESのような進化戦略を用いて、ゼロからメタ学習できることを示す。 結果、更新ルールは未認識のタスクに一般化し、いくつかの標準的なコンピュータビジョンと合成タスクの勾配降下に基づくオプティマイザよりも高速にトレーニングする。

In this paper, we introduce a new type of generalized neural network where neurons and synapses maintain multiple states. We show that classical gradient-based backpropagation in neural networks can be seen as a special case of a two-state network where one state is used for activations and another for gradients, with update rules derived from the chain rule. In our generalized framework, networks have neither explicit notion of nor ever receive gradients. The synapses and neurons are updated using a bidirectional Hebb-style update rule parameterized by a shared low-dimensional "genome". We show that such genomes can be meta-learned from scratch, using either conventional optimization techniques, or evolutionary strategies, such as CMA-ES. Resulting update rules generalize to unseen tasks and train faster than gradient descent based optimizers for several standard computer vision and synthetic tasks.
翻訳日:2021-04-13 13:51:33 公開日:2021-04-10
# 関係ルールマイニングに基づくカテゴリー主体と相互作用効果の発見

Discovering Categorical Main and Interaction Effects Based on Association Rule Mining ( http://arxiv.org/abs/2104.04728v1 )

ライセンス: Link先を確認
Qiuqiang Lin, Chuanhou Gao(参考訳) データセットのサイズが大きくなるにつれて、機能の選択がますます重要になる。 オリジナルの特徴の相互作用を考慮に入れると、特に特徴がカテゴリー化され、1つのホットエンコーディングが適用される場合に、非常に高い次元がもたらされる。 これにより、有用な機能やインタラクションをマイニングする価値が高まる。 アソシエーションルールマイニングはアイテム間の興味深い相関関係を抽出することを目的としているが、ルールを資格分類器自身として使用するのは困難である。 関連ルールマイニングから着想を得て,関連ルールを用いて特徴と相互作用を選択し,そのアルゴリズムを実用的問題に修正する手法を考案した。 提案アルゴリズムの計算複雑性を分析し,その効率性を示す。 そして、一連の実験の結果からアルゴリズムの有効性が検証された。

With the growing size of data sets, feature selection becomes increasingly important. Taking interactions of original features into consideration will lead to extremely high dimension, especially when the features are categorical and one-hot encoding is applied. This makes it more worthwhile mining useful features as well as their interactions. Association rule mining aims to extract interesting correlations between items, but it is difficult to use rules as a qualified classifier themselves. Drawing inspiration from association rule mining, we come up with a method that uses association rules to select features and their interactions, then modify the algorithm for several practical concerns. We analyze the computational complexity of the proposed algorithm to show its efficiency. And the results of a series of experiments verify the effectiveness of the algorithm.
翻訳日:2021-04-13 13:51:18 公開日:2021-04-10
# 物理インフォームド科学機械学習の地下科学への応用:サーベイ

Applications of physics-informed scientific machine learning in subsurface science: A survey ( http://arxiv.org/abs/2104.04764v1 )

ライセンス: Link先を確認
Alexander Y. Sun, Hongkyu Yoon, Chung-Yan Shih, Zhi Zhong(参考訳) 地質構造は、化石エネルギー探査、廃棄物処理、地質炭素隔離、再生可能エネルギー生成といった人間の活動によって変化する地質構造である。 地球系はまた、地球規模の水エネルギーnexusにおいて重要なリンクであり、気候変動や変化に社会的な適応を可能にするための源泉と緩衝機構を提供する。 したがって、ジオシステムの利用と探索は、効率的なモニタリング、リスクアセスメント、そして実用的な実装のための意思決定支援ツールに依存するジオシステムガバナンスにとって重要である。 近年、機械学習(ml)アルゴリズムと新しいセンシング技術が急速に進歩し、地下研究コミュニティがジオシステムガバナンスの有効性と透明性を向上させる新しい機会がもたらされた。 近年の研究では、科学的ML(SciML)モデルに大きな可能性を示しているが、多角性、高次元性、データ分解の不均一性に代表されるジオシステムの管理において、どのようにMLを最大限に活用するかという疑問が残る。 本調査は,SciMLの地層研究における最近の発展と応用について,その正確性,解釈可能性,拡張性,信頼性,一般化のスキルを改良して,地質学的コミュニティに役立てる方法について,体系的なレビューを行う。

Geosystems are geological formations altered by humans activities such as fossil energy exploration, waste disposal, geologic carbon sequestration, and renewable energy generation. Geosystems also represent a critical link in the global water-energy nexus, providing both the source and buffering mechanisms for enabling societal adaptation to climate variability and change. The responsible use and exploration of geosystems are thus critical to the geosystem governance, which in turn depends on the efficient monitoring, risk assessment, and decision support tools for practical implementation. Fast advances in machine learning (ML) algorithms and novel sensing technologies in recent years have presented new opportunities for the subsurface research community to improve the efficacy and transparency of geosystem governance. Although recent studies have shown the great promise of scientific ML (SciML) models, questions remain on how to best leverage ML in the management of geosystems, which are typified by multiscality, high-dimensionality, and data resolution inhomogeneity. This survey will provide a systematic review of the recent development and applications of domain-aware SciML in geosystem researches, with an emphasis on how the accuracy, interpretability, scalability, defensibility, and generalization skill of ML approaches can be improved to better serve the geoscientific community.
翻訳日:2021-04-13 13:51:07 公開日:2021-04-10
# 統一ソースフィルタgan:準周期並列ウェーブガンの因子分解に基づく統一ソースフィルタネットワーク

Unified Source-Filter GAN: Unified Source-filter Network Based On Factorization of Quasi-Periodic Parallel WaveGAN ( http://arxiv.org/abs/2104.04668v1 )

ライセンス: Link先を確認
Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda(参考訳) 音源フィルタモデルの柔軟性を維持しながら、高品質な合成音声波形を生成できるニューラルボコーダを開発するために、単一ニューラルネットワークを用いたデータ駆動音源フィルタモデリングに統一的なアプローチを提案する。 今回提案するunified source-filter generative adversarial network (usfgan) と呼ばれるネットワークは,単一のニューラルネットワークに基づくニューラルボコーダの1つである準周期並列ウェーブガン (qppwg) を,音源励振生成ネットワークと声道共鳴フィルタリングネットワークに分解し,さらに正規化損失を実装した。 さらに、ニューラルソースフィルタ(NSF)にインスパイアされた正弦波波形のみが、ソースフィルタモデルにおける近似の影響を最小限に抑えつつ、周期的なソース励起波形を生成するための最も簡単な手がかりとして用いられる。 実験の結果,uSFGANはQPPWGやNSFといった従来のニューラルボコーダよりも音声品質とピッチ制御性に優れていた。

We propose a unified approach to data-driven source-filter modeling using a single neural network for developing a neural vocoder capable of generating high-quality synthetic speech waveforms while retaining flexibility of the source-filter model to control their voice characteristics. Our proposed network called unified source-filter generative adversarial networks (uSFGAN) is developed by factorizing quasi-periodic parallel WaveGAN (QPPWG), one of the neural vocoders based on a single neural network, into a source excitation generation network and a vocal tract resonance filtering network by additionally implementing a regularization loss. Moreover, inspired by neural source filter (NSF), only a sinusoidal waveform is additionally used as the simplest clue to generate a periodic source excitation waveform while minimizing the effect of approximations in the source filter model. The experimental results demonstrate that uSFGAN outperforms conventional neural vocoders, such as QPPWG and NSF in both speech quality and pitch controllability.
翻訳日:2021-04-13 13:46:25 公開日:2021-04-10
# 制約満足度問題としてのディープラーニング加速器のプログラミング

The Programming of Deep Learning Accelerators as a Constraint Satisfaction Problem ( http://arxiv.org/abs/2104.04731v1 )

ライセンス: Link先を確認
Dennis Rieber, Axel Acosta, Holger Fr\"oning(参考訳) 多くのドメインでDeep Artificial Neural Networks(DNN)の成功は、計算集約型DNNオペレーターのためのハードウェアアクセラレーターに関する豊富な研究を生み出した。 しかし、行列乗算のような複雑な命令を効率的に実装することは、まだ適切に自動化されていない課題である。 この問題を解決するには、しばしば複雑なプログラムとメモリレイアウト変換が必要である。 この問題に対する最初の解決策として、tvmやisamirが提案されており、オペレータのループレベルの表現に取り組み、オペレータへの命令が実行される前にプログラムを書き換える。 このトップダウンアプローチは、探索範囲と検索空間の複雑さの間の緊張関係を生み出す。 本研究では,この問題に対する新しいアプローチを提案する。 我々は,アクセラレータの命令セットに基づいて直接実装を生成できるボトムアップ手法を開発した。 スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。 さらなる制約を加えることで、解法は好ましい解のサブセットを生成することができる。 % 計算された埋め込みの情報から実装を生成することができる。 baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動的に生成し、さらにメモリレイアウトの柔軟性が全体的なパフォーマンスに有益であることを示しています。 参照実装は, 固定埋込戦略によりハードウェア利用率が極めて低いが, ジオ平均速度は x2.49 まで向上し, 個々の演算子は x238 まで改善できる。

The success of Deep Artificial Neural Networks (DNNs) in many domains created a rich body of research concerned with hardware accelerators for compute-intensive DNN operators. However, implementing such operators efficiently with complex instructions such as matrix multiply is a task not yet automated gracefully. Solving this task often requires complex program and memory layout transformations. First solutions to this problem have been proposed, such as TVM or ISAMIR, which work on a loop-level representation of operators and rewrite the program before an instruction embedding into the operator is performed. This top-down approach creates a tension between exploration range and search space complexity. In this work, we propose a new approach to this problem. We have created a bottom-up method that allows the direct generation of implementations based on an accelerator's instruction set. By formulating the embedding as a constraint satisfaction problem over the scalar dataflow, every possible embedding solution is contained in the search space. By adding additional constraints, a solver can produce the subset of preferable solutions. %From the information in a computed embedding, an implementation can be generated. A detailed evaluation using the VTA hardware accelerator with the Baidu DeepBench inference benchmark suite shows that our approach can automatically generate code competitive to reference implementations, and furthermore that memory layout flexibilty can be beneficial for overall performance. While the reference implementation achieves very low hardware utilization due to its fixed embedding strategy, we achieve a geomean speedup of up to x2.49, while individual operators can improve as much as x238.
翻訳日:2021-04-13 13:46:04 公開日:2021-04-10
# DCT-Domain Deep BiLSTM Network を用いたQ行列の二重JPEG検出

Q-matrix Unaware Double JPEG Detection using DCT-Domain Deep BiLSTM Network ( http://arxiv.org/abs/2104.04765v1 )

ライセンス: Link先を確認
Vinay Verma, Deepak Singh, and Nitin Khanna(参考訳) 近年、JPEG圧縮検出が注目されているのは、最も広く使われているJPEGファイルフォーマットの法医学ツールとしての利用性である。 既存のcnnベースの手法では、全ての周波数のヒストグラムを使用するか、特定の低周波のヒストグラムを選択するヒューリスティックスに依存している。 しかし、二重圧縮画像/パッチの低い周波数でも、すべての周波数のヒストグラムは単一の圧縮画像と区別できる特徴を持っていない。 本稿では,JPEG画像からの量子化DCT係数を直接抽出し,すべてのAC周波数のヒストグラムを取得し,各ヒストグラムと対応するq-要素の固有関係を学習するために1\times 1$ depth-wise convolutionsに基づくモジュールを用いて,これらの特徴ベクトル列を選択的に符号化するためにテーラーメイドのBiLSTMネットワークを利用する。 提案手法は, 比較的大規模かつ多種多様な公開データセットにおいて, 単一および二重圧縮パッチのベースラインメソッドを上回っている。 単一のJPEG圧縮検出システムにおけるもうひとつの重要な側面は、テストパッチがトレーニング中に使用するものと全く異なる量子化行列(Q-行列)で圧縮されるシナリオを扱うことだ。 一連の広範な実験により、単一のデータセットでトレーニングされたシステムは、完全に未知の量子化行列で圧縮された他のデータセットによく一般化し、観測および未検出の量子化行列のシナリオにおいて最先端の方法を上回ることが示されている。

The double JPEG compression detection has received much attention in recent years due to its applicability as a forensic tool for the most widely used JPEG file format. Existing state-of-the-art CNN-based methods either use histograms of all the frequencies or rely on heuristics to select histograms of specific low frequencies to classify single and double compressed images. However, even amidst lower frequencies of double compressed images/patches, histograms of all the frequencies do not have distinguishable features to separate them from single compressed images. This paper directly extracts the quantized DCT coefficients from the JPEG images without decompressing them in the pixel domain, obtains all AC frequencies' histograms, uses a module based on $1\times 1$ depth-wise convolutions to learn the inherent relation between each histogram and corresponding q-factor, and utilizes a tailor-made BiLSTM network for selectively encoding these feature vector sequences. The proposed system outperforms several baseline methods on a relatively large and diverse publicly available dataset of single and double compressed patches. Another essential aspect of any single vs. double JPEG compression detection system is handling the scenario where test patches are compressed with entirely different quantization matrices (Q-matrices) than those used while training; different camera manufacturers and image processing software generally utilize their customized quantization matrices. A set of extensive experiments shows that the proposed system trained on a single dataset generalizes well on other datasets compressed with completely unseen quantization matrices and outperforms the state-of-the-art methods in both seen and unseen quantization matrices scenarios.
翻訳日:2021-04-13 13:45:41 公開日:2021-04-10
# 電力系統安定性評価のための量子機械学習

Quantum Machine Learning for Power System Stability Assessment ( http://arxiv.org/abs/2104.04855v1 )

ライセンス: Link先を確認
Yifan Zhou and Peng Zhang(参考訳) 過渡安定度評価(TSA)は、今日の相互接続電力網のレジリエントな運用の基盤であり、電力系統の創始以来、未解決の課題である。 本稿では,量子コンピューティング,データサイエンス,機械学習の融合により,高次元,非線形性,不確実性によって生じる課題を解決する。 バルク電力系統におけるスケーラブルで効率的なデータ駆動過渡安定予測を実現するために,量子tsa(quantum tsa)法(low-depth, high expressibility quantum neural network)を考案した。 qTSAは、ヒルベルト空間において難易度の高いTSAを単純かつ無力に表現し、かつてないほどレジリエンスでセキュアな電力システム操作を可能にする豊富な情報を提供する。 量子シミュレータと実量子コンピュータに関する大規模な実験は、qTSAの精度、雑音耐性、拡張性、普遍性を検証する。 qtsaは量子可能で超レジリエントな電力網の基礎を固めており、人々だけでなく、様々な商業部門や産業部門にも利益をもたらすだろう。

Transient stability assessment (TSA), a cornerstone for resilient operations of today's interconnected power grids, is a grand challenge yet to be addressed since the genesis of electric power systems. This paper is a confluence of quantum computing, data science and machine learning to potentially resolve the aforementioned challenge caused by high dimensionality, non-linearity and uncertainty. We devise a quantum TSA (qTSA) method, a low-depth, high expressibility quantum neural network, to enable scalable and efficient data-driven transient stability prediction for bulk power systems. qTSA renders the intractable TSA straightforward and effortless in the Hilbert space, and provides rich information that enables unprecedentedly resilient and secure power system operations. Extensive experiments on quantum simulators and real quantum computers verify the accuracy, noise-resilience, scalability and universality of qTSA. qTSA underpins a solid foundation of a quantum-enabled, ultra-resilient power grid which will benefit the people as well as various commercial and industrial sectors.
翻訳日:2021-04-13 13:45:10 公開日:2021-04-10
# 誰が先に行くの? 分類向上のための自己監督型概念ソーティングモデル

Who Should Go First? A Self-Supervised Concept Sorting Model for Improving Taxonomy Expansion ( http://arxiv.org/abs/2104.03682v2 )

ライセンス: Link先を確認
Xiangchen Song, Jiaming Shen, Jieyu Zhang, and Jiawei Han(参考訳) 分類法は様々な機械学習やテキストマイニングシステムで広く使われ、知識を整理し、下流の作業を容易にする。 重要な課題の1つは、データとビジネスのスコープが実際のアプリケーションで大きくなるにつれて、既存の分類体系を拡大して新しい概念を組み込む必要があることである。 分類の展開過程に関する以前の研究は、新しい概念を独立かつ同時に独立に展開し、それらの間の潜在的な関係と挿入操作の適切な順序を無視した。 しかし、実際には、新しい概念は相互に相関し、局所的なハイパーニム・ハイポニム構造を形成する傾向がある。 このようなシナリオでは、新しい概念の依存関係を無視し、挿入順序がエラー伝搬を引き起こす可能性がある。 例えば、既存の分類学拡張システムは、そのハイパーネムの前に既存の分類学に仮説を挿入する可能性がある。 既存の分類体系を補完するために,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。 分類体系は任意の分類体系に直接接続でき、拡張された分類体系の品質を向上させることができる。 実世界のデータセットを用いた実験は、分類学拡張システムを強化するためのTaxoOrderの有効性を検証し、様々な評価基準の下でのベースラインと比較して、より良い分類基準をもたらす。

Taxonomies have been widely used in various machine learning and text mining systems to organize knowledge and facilitate downstream tasks. One critical challenge is that, as data and business scope grow in real applications, existing taxonomies need to be expanded to incorporate new concepts. Previous works on taxonomy expansion process the new concepts independently and simultaneously, ignoring the potential relationships among them and the appropriate order of inserting operations. However, in reality, the new concepts tend to be mutually correlated and form local hypernym-hyponym structures. In such a scenario, ignoring the dependencies of new concepts and the order of insertion may trigger error propagation. For example, existing taxonomy expansion systems may insert hyponyms to existing taxonomies before their hypernym, leading to sub-optimal expanded taxonomies. To complement existing taxonomy expansion systems, we propose TaxoOrder, a novel self-supervised framework that simultaneously discovers the local hypernym-hyponym structure among new concepts and decides the order of insertion. TaxoOrder can be directly plugged into any taxonomy expansion system and improve the quality of expanded taxonomies. Experiments on the real-world dataset validate the effectiveness of TaxoOrder to enhance taxonomy expansion systems, leading to better-resulting taxonomies with comparison to baselines under various evaluation metrics.
翻訳日:2021-04-13 10:34:21 公開日:2021-04-10