このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210706)

# PhotoChat: 共同画像テキストモデリングのための写真共有行動付き人文対話データセット

PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling ( http://arxiv.org/abs/2108.01453v1 )

ライセンス: Link先を確認
Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen(参考訳) そこで本研究では,onlinemessagingにおける写真共有行動に光をあてる最初のデータセットであるphotochatを提案する。 PhotoChatには12kの対話があり、それぞれが会話中に共有されるユーザー写真とペアリングされる。 本データセットでは,次の会話で写真を共有するかどうかを予測する写真共有意図予測タスクと,対話状況に応じて最も関連性の高い写真を検索する写真検索タスクという,画像テキストモデリングの研究を容易にする2つのタスクを提案する。 さらに,両タスクに最先端モデルを用いたベースラインモデルを提供し,ベンチマーク性能を報告する。 最高の画像検索モデルは10.4%のリコール@1(1000人の候補者のうち)を達成し、最高の写真意図予測モデルは58.1%のF1スコアを達成した。 私たちはPhotoChatをリリースし、コミュニティ間の将来の研究作業を促進します。

We present a new human-human dialogue dataset - PhotoChat, the first dataset that casts light on the photo sharing behavior in onlin emessaging. PhotoChat contains 12k dialogues, each of which is paired with a user photo that is shared during the conversation. Based on this dataset, we propose two tasks to facilitate research on image-text modeling: a photo-sharing intent prediction task that predicts whether one intends to share a photo in the next conversation turn, and a photo retrieval task that retrieves the most relevant photo according to the dialogue context. In addition, for both tasks, we provide baseline models using the state-of-the-art models and report their benchmark performances. The best image retrieval model achieves 10.4% recall@1 (out of 1000 candidates) and the best photo intent prediction model achieves 58.1% F1 score, indicating that the dataset presents interesting yet challenging real-world problems. We are releasing PhotoChat to facilitate future research work among the community.
翻訳日:2021-08-08 11:01:37 公開日:2021-07-06
# 原子炉設計のための非同期型マスター・ワーカーEAの調整に関するランドスケープビュー

A Fitness Landscape View on the Tuning of an Asynchronous Master-Worker EA for Nuclear Reactor Design ( http://arxiv.org/abs/2107.11201v1 )

ライセンス: Link先を確認
Mathieu Muniglia, S\'ebastien Verel (LISIC), Jean-Charles Le Pallec, Jean-Michel Do(参考訳) 断続的な再生可能エネルギーの導入の文脈において,原子力発電所の制御棒の主変数を最適化し,負荷追従能力を向上させることを提案する。 設計問題は、マルチフィジカルシミュレータに基づく高価な評価を伴うブラックボックス組合せ最適化問題である。 したがって、並列非同期マスタ-ワーカー進化アルゴリズムを用いて、1000台までの計算ユニットをスケールする。 主な問題は、アルゴリズムパラメータのチューニングである。 この高価な実世界の問題に対して、フィットネスランドスケープ分析を行い、フィットネスランドスケープの特徴を低コストで見積もって、変異パラメータを調整可能であることを示す。

In the context of the introduction of intermittent renewable energies, we propose to optimize the main variables of the control rods of a nuclear power plant to improve its capability to load-follow. The design problem is a black-box combinatorial optimization problem with expensive evaluation based on a multi-physics simulator. Therefore, we use a parallel asynchronous master-worker Evolutionary Algorithm scaling up to thousand computing units. One main issue is the tuning of the algorithm parameters. A fitness landscape analysis is conducted on this expensive real-world problem to show that it would be possible to tune the mutation parameters according to the low-cost estimation of the fitness landscape features.
翻訳日:2021-08-01 11:01:09 公開日:2021-07-06
# 商品の差別化としての形状:フォント市場分析に埋め込まれたニューラルネットワーク

Shapes as Product Differentiation: Neural Network Embedding in the Analysis of Markets for Fonts ( http://arxiv.org/abs/2107.02739v1 )

ライセンス: Link先を確認
Sukjin Han, Eric H. Schulman, Kristen Grauman, and Santhosh Ramakrishnan(参考訳) 多くの差別化された製品には、非構造化で高次元(例えば、設計、テキスト)のキー属性がある。 経済モデルにおいて、非構造化属性を観測不能として扱う代わりに、それらを定量化することは、興味深い経済問題に答えることが重要である。 本報告では, このタイプの製品について, 最もシンプルなデザイン製品であるフォントについて考察し, 世界最大のオンラインフォントマーケットプレースからのオリジナルデータセットを用いて, 統合と製品分化について検討する。 深層畳み込みニューラルネットワークから埋め込みを構成することでフォント形状を定量化する。 各埋め込みはフォントの形状を低次元ベクトルにマッピングする。 結果として得られる製品領域では、デザイナーはホテル型空間競技に参加すると仮定される。 画像埋め込みから、デザインの差別化の度合いを捉える2つの代替手段を構築する。 次に,合併の因果関係が合併企業の創造的意思決定に及ぼす影響を,合成制御法を用いて検討した。 合併により、合併会社はフォントデザインの視覚的多様性を増すことになる。 特に、構造化データから構築された製品提供(仕様や製品数など)の伝統的な尺度を使用する場合、このような効果は捉えられません。

Many differentiated products have key attributes that are unstructured and thus high-dimensional (e.g., design, text). Instead of treating unstructured attributes as unobservables in economic models, quantifying them can be important to answer interesting economic questions. To propose an analytical framework for this type of products, this paper considers one of the simplest design products -- fonts -- and investigates merger and product differentiation using an original dataset from the world's largest online marketplace for fonts. We quantify font shapes by constructing embeddings from a deep convolutional neural network. Each embedding maps a font's shape onto a low-dimensional vector. In the resulting product space, designers are assumed to engage in Hotelling-type spatial competition. From the image embeddings, we construct two alternative measures that capture the degree of design differentiation. We then study the causal effects of a merger on the merging firm's creative decisions using the constructed measures in a synthetic control method. We find that the merger causes the merging firm to increase the visual variety of font design. Notably, such effects are not captured when using traditional measures for product offerings (e.g., specifications and the number of products) constructed from structured data.
翻訳日:2021-07-25 11:55:01 公開日:2021-07-06
# (参考訳) 3相セマンティックwebマッチメーカ [全文訳有]

A Three Phase Semantic Web Matchmaker ( http://arxiv.org/abs/2107.05368v1 )

ライセンス: CC BY 4.0
Golsa Heidari, Kamran Zamanifar(参考訳) サービス指向アーキテクチャに従って構築された環境を使うので、より効果的で動的なアプリケーションがあります。 セマンティックマッチングプロセスは、置換のための価値のあるサービス候補を見つけつつある。 これはセマンティックWebサービスを使う上で非常に重要な側面です。 提案アルゴリズムは,セマンティックWebサービスマッチングの入力記述と出力記述に基づいて,Webサービスのセマンティックマッチングを実行する。 この手法はグラフ構造とフローネットワークの利点を生かしている。 提案手法では,マッチメイキングスコアを入力のセマンティクスに割り当て,パラメータとその型を出力する。 エッジの重みをこれらのスコアとするフローネットワークを構築し,fordfulkersonアルゴリズムを用いて2つのwebサービスのマッチングレートを求める。 したがって、すべてのサービスは、同じオントロジーWeb言語で記述されるべきです。 これらの候補のうち、最も良い候補が実行失敗の場合の置換のために選ばれる。 提案手法では,両部マッチングに使用可能な他のすべての中で,実行時間が少ないアルゴリズムを用いる。 問題の重要性は、実システムでは、遅い応答によって多くの根本的な問題が発生することである。 したがって、Systemのサービスは常時オンでなければならないし、そのうちの1つがクラッシュしたら、すぐに置き換えられる。 semantic web matchmakerはこのプロセスを簡単にする。

Since using environments that are made according to the service oriented architecture, we have more effective and dynamic applications. Semantic matchmaking process is finding valuable service candidates for substitution. It is a very important aspect of using semantic Web Services. Our proposed matchmaker algorithm performs semantic matching of Web Services on the basis of input and output descriptions of semantic Web Services matching. This technique takes advantages from a graph structure and flow networks. Our novel approach is assigning matchmaking scores to semantics of the inputs and outputs parameters and their types. It makes a flow network in which the weights of the edges are these scores, using FordFulkerson algorithm, we find matching rate of two web services. So, all services should be described in the same Ontology Web Language. Among these candidates, best one is chosen for substitution in the case of an execution failure. Our approach uses the algorithm that has the least running time among all others that can be used for bipartite matching. The importance of problem is that in real systems, many fundamental problems will occur by late answering. So system`s service should always be on and if one of them crashes, it would be replaced fast. Semantic web matchmaker eases this process.
翻訳日:2021-07-18 14:24:50 公開日:2021-07-06
# (参考訳) セマンティックWebマッチングの新しいアプローチ [全文訳有]

A New Approach for Semantic Web Matching ( http://arxiv.org/abs/2107.06083v1 )

ライセンス: CC BY 4.0
Kamran Zamanifar, Golsa Heidari, Naser Nematbakhsh, Farhad Mardookhi(参考訳) 本稿では,Web サービス置換の性能を向上させるために,セマンティック Web マッチングのための新しいアプローチを提案する。 自動システムでは、自己修復、自己設定、自己最適化、自己管理を確実にする必要があるので、すべてのサービスが常に利用可能で、そのうちの1つがクラッシュした場合、最も類似したものに置き換えるべきです。 候補サービスはUniversal Description, Discovery and Integration (UDDI)で、すべてWeb Ontology Language (OWL)で宣伝されている。 二部グラフの助けを借りて、クラッシュしたサービスと候補サービスとのマッチングを行いました。 そして、最高のサービスを選択しました。 実際、2つのサービス`の機能と能力を比較して、それらがどれだけ一致しているかを確認します。 2つのWebサービスをマッチングする最善の方法は、それらの機能を比較することです。

In this work we propose a new approach for semantic web matching to improve the performance of Web Service replacement. Because in automatic systems we should ensure the self-healing, self-configuration, self-optimization and self-management, all services should be always available and if one of them crashes, it should be replaced with the most similar one. Candidate services are advertised in Universal Description, Discovery and Integration (UDDI) all in Web Ontology Language (OWL). By the help of bipartite graph, we did the matching between the crashed service and a Candidate one. Then we chose the best service, which had the maximum rate of matching. In fact we compare two services` functionalities and capabilities to see how much they match. We found that the best way for matching two web services, is comparing the functionalities of them.
翻訳日:2021-07-18 14:12:07 公開日:2021-07-06
# (参考訳) 人工知能とcopulaを用いた風速予測モデル

Predictive models for wind speed using artificial intelligence and copula ( http://arxiv.org/abs/2107.06182v1 )

ライセンス: CC BY 4.0
Md Amimul Ehsan(参考訳) 化石燃料を燃やすことによる発電は地球温暖化の主な要因の1つである。 再生可能エネルギー源は、電力を生産し、電力産業からの排出を減らすための代替手段である。 これらのエネルギー源は、すべて異なる特性を持つ緑のエネルギーの構成要素である。 その有効性は地理的な場所やその他のパラメータによっても多様である。 実装コストの低さと世界中の分散可用性は、彼らの人気を指数関数的に高めている。 そのため、消費者が電気を現地で生産し、現場で使用する機会を開放し、中央集権企業への依存を減らした。 この研究は、風速予測と風力発電計画の簡素化と実現可能性研究の2つの主な目的を考察している。 第二に、複数の離れた場所の風速の依存性構造を理解する必要がある。 最初の目的に対処するために、12の人工知能アルゴリズムが、気象パラメータの収集から風速予測に使用された。 風速予測精度を決定するために, モデル性能を比較した。 その結果、長期記憶(LSTM)は97.8%の精度で他のモデルより優れていることが判明した。 多変量累積分布関数であるCopulaを用いて,2つ以上の風速の連成分布を推定し,その後にケーススタディを行った。 その結果, 適切なコプラ族とパラメータは, 距離によって異なることがわかった。 ケーススタディでは、Joe-Frank(BB8)コプラは標準誤差0.0094の風速対に適した効率的な関節分布を示す。 最後に,風速依存性の不確実性について考察した。

Electricity generation from burning fossil fuels is one of the major contributors to global warming. Renewable energy sources are a viable alternative to produce electrical energy and to reduce the emission from the power industry. These energy sources are the building blocks of green energy, which all have different characteristics. Their availabilities are also diverse, depending on geographical locations and other parameters. Low implementation cost and distributed availability all over the world uplifts their popularity exponentially. Therefore, it has unlocked opportunities for consumers to produce electricity locally and use it on-site, which reduces dependency on centralized utility companies. The research considers two main objectives: the prediction of wind speed that simplifies wind farm planning and feasibility study. Secondly, the need to understand the dependency structure of the wind speeds of multiple distant locations. To address the first objective, twelve artificial intelligence algorithms were used for wind speed prediction from collected meteorological parameters. The model performances were compared to determine the wind speed prediction accuracy. The results show a deep learning approach, long short-term memory (LSTM) outperforms other models with the highest accuracy of 97.8%. For dependency, a multivariate cumulative distribution function, Copula, was used to find the joint distribution of two or more distant location wind speeds, followed by a case study. We found that the appropriate copula family and the parameters vary based on the distance in between. For the case study, Joe-Frank (BB8) copula shows an efficient joint distribution fit for a wind speed pair with a standard error of 0.0094. Finally, some insights about the uncertainty aspects of wind speed dependency were addressed.
翻訳日:2021-07-18 14:07:22 公開日:2021-07-06
# (参考訳) 次元リダクションを用いたマイズショット学習における重要な特徴の探索 [全文訳有]

Finding Significant Features for Few-Shot Learning using Dimensionality Reduction ( http://arxiv.org/abs/2107.06992v1 )

ライセンス: CC BY 4.0
Mauricio Mendez-Ruiz, Ivan Garcia Jorge Gonzalez-Zapata, Gilberto Ochoa-Ruiz, Andres Mendez-Vazquez(参考訳) 少数ショット学習は、データ量が少ない問題に特化した、比較的新しいテクニックです。 これらの方法の目標は、これまで見たことのないカテゴリをほんの一握りのサンプルで分類することである。 計量学習のような最近のアプローチでは、エピソードなタスクがデータとクエリ(テスト)データのサポート(トレーニング)に適合するメタラーニング戦略を採用している。 メタラーニング手法は,類似度関数を学習して,サポートとクエリデータを比較することで,単純なモデルで優れた性能が得られることを示した。 しかしながら、与えられたメトリック学習アプローチによって学習される機能空間は、特定のマイナショットタスクによって与えられる情報を活用できないかもしれない。 そこで本研究では,課題に重要な特徴を見出す手法として,次元削減技術の利用について検討する。 クラス内およびクラス間距離に基づいてスコアを割り当て、異なるクラスのインスタンスが遠く、同じクラスのインスタンスが近くにある特徴量削減方法を選択することにより、削減された特徴量の性能を測定する。 このモジュールは、メトリック学習法によって与えられた類似度関数が分類のより識別的な特徴を持つようにすることで、精度を向上させるのに役立つ。 提案手法は,MiniImageNetデータセットにおけるメトリック学習ベースラインの精度を約2%向上させる。

Few-shot learning is a relatively new technique that specializes in problems where we have little amounts of data. The goal of these methods is to classify categories that have not been seen before with just a handful of samples. Recent approaches, such as metric learning, adopt the meta-learning strategy in which we have episodic tasks conformed by support (training) data and query (test) data. Metric learning methods have demonstrated that simple models can achieve good performance by learning a similarity function to compare the support and the query data. However, the feature space learned by a given metric learning approach may not exploit the information given by a specific few-shot task. In this work, we explore the use of dimension reduction techniques as a way to find task-significant features helping to make better predictions. We measure the performance of the reduced features by assigning a score based on the intra-class and inter-class distance, and selecting a feature reduction method in which instances of different classes are far away and instances of the same class are close. This module helps to improve the accuracy performance by allowing the similarity function, given by the metric learning method, to have more discriminative features for the classification. Our method outperforms the metric learning baselines in the miniImageNet dataset by around 2% in accuracy performance.
翻訳日:2021-07-18 14:05:58 公開日:2021-07-06
# (参考訳) インテリジェント取引に基づくクラスタリングとアテンションモデル

Clustering and attention model based for Intelligent Trading ( http://arxiv.org/abs/2107.06782v1 )

ライセンス: CC BY 4.0
Mimansa Rana, Nanxiang Mao, Ming Ao, Xiaohui Wu, Poning Liang and Matloob Khushi(参考訳) 外国為替市場は世界金融市場で重要な役割を担ってきた。 外国為替トレーディングは高利回りの機会を投資家にもたらす一方で、一定のリスクをもたらす。 20世紀に外国為替市場が成立して以来、為替レート予測は世界中の学者によって研究されているホットな問題となっている。 外国為替市場に影響を与える要因の複雑さと多さから、技術的分析は行政介入や予期せぬ出来事に対応できない。 当社のチームは、いくつかの対外通貨履歴データを選択し、2005年から2021年までの技術指標をデータセットとして導出し、オーバーsoldシナリオのイベント駆動価格予測のための異なる機械学習モデルを確立した。

The foreign exchange market has taken an important role in the global financial market. While foreign exchange trading brings high-yield opportunities to investors, it also brings certain risks. Since the establishment of the foreign exchange market in the 20th century, foreign exchange rate forecasting has become a hot issue studied by scholars from all over the world. Due to the complexity and number of factors affecting the foreign exchange market, technical analysis cannot respond to administrative intervention or unexpected events. Our team chose several pairs of foreign currency historical data and derived technical indicators from 2005 to 2021 as the dataset and established different machine learning models for event-driven price prediction for oversold scenario.
翻訳日:2021-07-18 13:57:06 公開日:2021-07-06
# (参考訳) 新興デバイス・インメモリ・ニューラル・アクセラレーターの不確実性モデリングとニューラル・アーキテクチャ・サーチへの応用 [全文訳有]

Uncertainty Modeling of Emerging Device-based Computing-in-Memory Neural Accelerators with Application to Neural Architecture Search ( http://arxiv.org/abs/2107.06871v1 )

ライセンス: CC BY-SA 4.0
Zheyu Yan, Da-Cheng Juan, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 新興デバイスベースのコンピューティングインメモリ(CiM)は、高エネルギー効率ディープニューラルネットワーク(DNN)計算において有望な候補であることが証明されている。 しかし、殆どの新興デバイスは不確実性に苦しんでおり、実際のデータとそれが設計される重み値の差が生じている。 これにより、トレーニングされたモデルから実際にデプロイされたプラットフォームに精度が低下する。 本研究では,DNNモデルにおける不確実性による変化の影響を詳細に分析する。 デバイス不確実性の影響を低減するため,デバイス不確実性に対して正確かつ堅牢なDNNモデルを特定するための不確実性を考慮したニューラルネットワーク探索手法であるUAEを提案する。

Emerging device-based Computing-in-memory (CiM) has been proved to be a promising candidate for high-energy efficiency deep neural network (DNN) computations. However, most emerging devices suffer uncertainty issues, resulting in a difference between actual data stored and the weight value it is designed to be. This leads to an accuracy drop from trained models to actually deployed platforms. In this work, we offer a thorough analysis of the effect of such uncertainties-induce d changes in DNN models. To reduce the impact of device uncertainties, we propose UAE, an uncertainty-aware Neural Architecture Search scheme to identify a DNN model that is both accurate and robust against device uncertainties.
翻訳日:2021-07-18 13:56:08 公開日:2021-07-06
# 信頼条件付き知識蒸留

Confidence Conditioned Knowledge Distillation ( http://arxiv.org/abs/2107.06993v1 )

ライセンス: Link先を確認
Sourav Mishra and Suresh Sundaram(参考訳) 本稿では,教師モデルから学生モデルへ知識を伝達するための新しい信頼性条件付き知識蒸留(CCKD)手法を提案する。 既存の最先端の手法では、この目的のために固定損失関数を使用し、異なるサンプルに転送する必要がある異なるレベルの情報を無視している。 加えて、これらの手法はデータ利用の点で非効率である。 CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに活用して、サンプル固有損失関数(CCKD-L)とターゲット(CCKD-T)を考案する。 さらに、CCKDは自己規制を用いて、学生モデルがより速く学習する蒸留プロセスに参加するのを防ぐことにより、データ効率を向上させる。 いくつかのベンチマークデータセットの実証評価では、CCKD法は、そのプロセスでデータ効率を保ちながら、他の最先端手法と同等以上の一般化性能を達成している。 CCKD法で訓練された学生モデルは、トレーニングセット上の教師モデルによって実行される誤分類の大部分を保持していない。 CCKD法による蒸留により,従来のKD法と比較して,生徒モデルの逆攻撃に対するレジリエンスが向上する。 実験では、MNISTとFashion MNISTデータセットの敵攻撃に対する少なくとも3%のパフォーマンスが増加し、CIFAR10データセットの少なくとも6%が増加した。

In this paper, a novel confidence conditioned knowledge distillation (CCKD) scheme for transferring the knowledge from a teacher model to a student model is proposed. Existing state-of-the-art methods employ fixed loss functions for this purpose and ignore the different levels of information that need to be transferred for different samples. In addition to that, these methods are also inefficient in terms of data usage. CCKD addresses these issues by leveraging the confidence assigned by the teacher model to the correct class to devise sample-specific loss functions (CCKD-L formulation) and targets (CCKD-T formulation). Further, CCKD improves the data efficiency by employing self-regulation to stop those samples from participating in the distillation process on which the student model learns faster. Empirical evaluations on several benchmark datasets show that CCKD methods achieve at least as much generalization performance levels as other state-of-the-art methods while being data efficient in the process. Student models trained through CCKD methods do not retain most of the misclassifications commited by the teacher model on the training set. Distillation through CCKD methods improves the resilience of the student models against adversarial attacks compared to the conventional KD method. Experiments show at least 3% increase in performance against adversarial attacks for the MNIST and the Fashion MNIST datasets, and at least 6% increase for the CIFAR10 dataset.
翻訳日:2021-07-18 12:35:22 公開日:2021-07-06
# 多レベル蒸留による組み込み機器の高精度ヒューマンアクティビティ認識のモデル化

Modeling Accurate Human Activity Recognition for Embedded Devices Using Multi-level Distillation ( http://arxiv.org/abs/2107.07331v1 )

ライセンス: Link先を確認
Runze Chen and Haiyong Luo and Fang Zhao and Xuechun Meng and Zhiqing Xie and Yida Zhu(参考訳) IMUセンサに基づくヒューマンアクティビティ認識(HAR)はユビキタスコンピューティングにおいて不可欠な分野である。 人工知能をIoTデバイスやスマートフォンにデプロイする傾向が改善されているため、より多くの研究者が組み込みデバイス用のHARモデルを設計している。 組込みデバイスをネイティブにサポートした深部畳み込み型HARモデルを構築するために,多層蒸留を用いたプラグアンドプレイHARモデリングパイプラインを提案する。 SMLDistは、深層モデルのすべての情報の流れをカバーする、ステージ蒸留、メモリ蒸留、ロジット蒸留からなる。 ステージ蒸留は中間的特徴の学習方向を制約する。 メモリ蒸留は、ホップフィールドネットワークに基づく高次元特徴間の内部関係の説明と保存方法を学生モデルに教える。 ロジット蒸留は、可算分布を維持し、ソフトターゲットの正確性を向上させるために、滑らかな条件規則で蒸留ロジットを構成する。 SMLDistによって構築されたMobileNet V3モデルを用いて,様々な最先端HARフレームワークの組込みプラットフォームにおける精度,F1マクロスコア,エネルギーコストを比較した。 生成したモデルは、堅牢性、効率、精度とのバランスが良好である。 SMLDistは、7つの公開データセット上の他の最先端知識蒸留法と同等な圧縮速度で、小さな性能損失でモデルを圧縮することもできる。

Human activity recognition (HAR) based on IMU sensors is an essential domain in ubiquitous computing. Because of the improving trend to deploy artificial intelligence into IoT devices or smartphones, more researchers design the HAR models for embedded devices. We propose a plug-and-play HAR modeling pipeline with multi-level distillation to build deep convolutional HAR models with native support of embedded devices. SMLDist consists of stage distillation, memory distillation, and logits distillation, which covers all the information flow of the deep models. Stage distillation constrains the learning direction of the intermediate features. Memory distillation teaches the student models how to explain and store the inner relationship between high-dimensional features based on Hopfield networks. Logits distillation constructs distilled logits by a smoothed conditional rule to keep the probable distribution and improve the correctness of the soft target. We compare the performance of accuracy, F1 macro score, and energy cost on the embedded platform of various state-of-the-art HAR frameworks with a MobileNet V3 model built by SMLDist. The produced model has well balance with robustness, efficiency, and accuracy. SMLDist can also compress the models with minor performance loss in an equal compression rate than other state-of-the-art knowledge distillation methods on seven public datasets.
翻訳日:2021-07-18 12:33:17 公開日:2021-07-06
# sangrahaka: ナレッジグラフの注釈とクエリを行うツール

Sangrahaka: A Tool for Annotating and Querying Knowledge Graphs ( http://arxiv.org/abs/2107.02782v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar, Arnab Bhattacharya(参考訳) 本研究では,WebベースのアノテーションとクエリツールSangrahakaを紹介する。 テキストコーパスからエンティティや関係を注釈し、知識グラフ(KG)を構築する。 kgはテンパライズド自然言語クエリを用いてクエリされる。 アプリケーションは言語やコーパスに依存しないが、特定の言語やコーパスの特別なニーズに合わせて調整することができる。 フレームワークのカスタマイズバージョンは2つのアノテーションタスクで使用されている。 アプリケーションはダウンロードとインストールが可能だ。 ユーザフレンドリなインターフェースを持つだけでなく、高速で、カスタマイズをサポートし、クライアントとサーバの両方でフォールトトレラントである。 コードはhttps://github.com/h rishikeshrt/sangraha kaで、デモ付きプレゼンテーションはhttps://youtu.be/nw9 GFLVZMMoで公開されている。

In this work, we present a web-based annotation and querying tool Sangrahaka. It annotates entities and relationships from text corpora and constructs a knowledge graph (KG). The KG is queried using templatized natural language queries. The application is language and corpus agnostic, but can be tuned for special needs of a specific language or a corpus. A customized version of the framework has been used in two annotation tasks. The application is available for download and installation. Besides having a user-friendly interface, it is fast, supports customization, and is fault tolerant on both client and server side. The code is available at https://github.com/h rishikeshrt/sangraha ka and the presentation with a demo is available at https://youtu.be/nw9 GFLVZMMo.
翻訳日:2021-07-18 12:32:25 公開日:2021-07-06
# フォークリフトリチウムイオン電池パックの健康時系列予測のための7つの方法の比較

Comparing seven methods for state-of-health time series prediction for the lithium-ion battery packs of forklifts ( http://arxiv.org/abs/2107.05489v1 )

ライセンス: Link先を確認
Matti Huotari, Shashank Arora, Avleen Malhi, Kary Fr\"amling(参考訳) フォークリフトの重要な側面は、故障しない電源の安全性と信頼性を確保するための健康状態評価(SoH)である。 電池SoH井戸の予測は、予防メンテナンスを可能にするために必須であり、したがってコストを低減させる。 本稿では,電池に関する事前情報が少ない状況下でのsoh時系列予測のための勾配昇降回帰の能力を示す。 勾配ブースティング法を,光勾配ブースティング,余分な木,極端な勾配ブースティング,ランダム森林,長期短期記憶ネットワーク,畳み込みニューラルネットワークと長期短期記憶ネットワークの併用法と比較した。 複数の予測器と遅延目標信号分解結果を追加予測器として使用し,得られた予測結果を各予測器の異なるセットと比較した。 この研究のために私たちは、データに大きなバリエーションを持つ45個のリチウムイオンバッテリーパックのユニークなデータセットを所有しています。 提案手法は,予測のためのポイントワイズ信頼区間を計算する新しいウォークフォワードアルゴリズムによって検証され,予測のための合理的な予測と信頼区間が得られた。 さらに,このモデルを他のリチウムイオン電池パック5台に対して検証した。 最終モデルに関する結果から,先行したモデルに関して結果が向上したことが示唆された。 さらに, 市販ニッケルコバルトマンガン(nmc)セルのサイクル寿命に相当する10年周期で3000サイクル程度の電池パックを完成させ, 新たなフォークリフトのデータを用いて, これまでの研究で提示されたサイクル数を抽出するモデルをさらに検証した。

A key aspect for the forklifts is the state-of-health (SoH) assessment to ensure the safety and the reliability of uninterrupted power source. Forecasting the battery SoH well is imperative to enable preventive maintenance and hence to reduce the costs. This paper demonstrates the capabilities of gradient boosting regression for predicting the SoH timeseries under circumstances when there is little prior information available about the batteries. We compared the gradient boosting method with light gradient boosting, extra trees, extreme gradient boosting, random forests, long short-term memory networks and with combined convolutional neural network and long short-term memory networks methods. We used multiple predictors and lagged target signal decomposition results as additional predictors and compared the yielded prediction results with different sets of predictors for each method. For this work, we are in possession of a unique data set of 45 lithium-ion battery packs with large variation in the data. The best model that we derived was validated by a novel walk-forward algorithm that also calculates point-wise confidence intervals for the predictions; we yielded reasonable predictions and confidence intervals for the predictions. Furthermore, we verified this model against five other lithium-ion battery packs; the best model generalised to greater extent to this set of battery packs. The results about the final model suggest that we were able to enhance the results in respect to previously developed models. Moreover, we further validated the model for extracting cycle counts presented in our previous work with data from new forklifts; their battery packs completed around 3000 cycles in a 10-year service period, which corresponds to the cycle life for commercial Nickel-Cobalt-Mangan ese (NMC) cells.
翻訳日:2021-07-18 12:31:35 公開日:2021-07-06
# HCGR:セッションベース推薦のためのハイパーボリックコントラストグラフ表現学習

HCGR: Hyperbolic Contrastive Graph Representation Learning for Session-based Recommendation ( http://arxiv.org/abs/2107.05366v1 )

ライセンス: Link先を確認
Naicheng Guo and Xiaolei Liu and Shaoshuai Li and Qiongxu Ma and Yunan Zhao and Bing Han and Lin Zheng and Kaixin Gao and Xiaobo Guo(参考訳) セッションベースレコメンデーション(SBR)は、ユーザの行動の進化から短期的および連続的なパターンをキャプチャすることで、ユーザの好みを学習する。 SBR分野の研究の中で、グラフベースのアプローチは比較的強力な方法であり、一般にユークリッド空間の下でのメッセージアグリゲーションによってアイテム情報を抽出する。 しかし,このような手法は,ユーザの嗜好を表現する上で重要であるセッションの連続項目に含まれる階層情報を効果的に抽出することはできない。 本稿では,ローレンツ双曲空間を包含するセッションベース推薦フレームワークである,双曲型コントラストグラフ推薦器(HCGR)について述べる。 このフレームワークでは,各ユーザの好みのグラフメッセージをセッションベースの行動系列に集約するために,適応的双曲的注意計算を新たに設計する。 さらに,双曲空間における正と負のサンプル間の測地距離を考慮し,項目表現の最適化にコントラスト学習を利用する。 4つの実世界のデータセットに対する大規模な実験によると、HCGRは、HitRate$、$NDCG$、$MRR$という観点で、最先端のベースラインを一貫して0.43$\%$-28.84$\%$で上回る。

Session-based recommendation (SBR) learns users' preferences by capturing the short-term and sequential patterns from the evolution of user behaviors. Among the studies in the SBR field, graph-based approaches are a relatively powerful kind of way, which generally extract item information by message aggregation under Euclidean space. However, such methods can't effectively extract the hierarchical information contained among consecutive items in a session, which is critical to represent users' preferences. In this paper, we present a hyperbolic contrastive graph recommender (HCGR), a principled session-based recommendation framework involving Lorentz hyperbolic space to adequately capture the coherence and hierarchical representations of the items. Within this framework, we design a novel adaptive hyperbolic attention computation to aggregate the graph message of each user's preference in a session-based behavior sequence. In addition, contrastive learning is leveraged to optimize the item representation by considering the geodesic distance between positive and negative samples in hyperbolic space. Extensive experiments on four real-world datasets demonstrate that HCGR consistently outperforms state-of-the-art baselines by 0.43$\%$-28.84$\%$ in terms of $HitRate$, $NDCG$ and $MRR$.
翻訳日:2021-07-18 12:30:06 公開日:2021-07-06
# AIイノベーションのドライバシートに放射線科医を配置するオーケストレーションプラットフォーム:方法論的アプローチ

An Orchestration Platform that Puts Radiologists in the Driver's Seat of AI Innovation: A Methodological Approach ( http://arxiv.org/abs/2107.04409v1 )

ライセンス: Link先を確認
Raphael Y. Cohen, Aaron D. Sodickson(参考訳) 放射線学における現在のAI駆動の研究は、しばしば小規模で資源に制限された研究室にアクセスできないリソースと専門知識を必要とする。 AI研究に参加することができる臨床医は、しばしば資金が豊富で、資金が潤沢で、AIやコンピューティングで重要な経験を持つか、同僚や施設にアクセスすることができる。 現在の画像データは臨床向きであり、機械学習のイニシアチブに容易に適応できないため、データエンジニアや機械学習科学者の乗組員に依存する非効率、時間的消費、コストのかかる努力が生まれ、放射線科医がai研究やイノベーションを推進することを妨げることが多い。 インフラやプラットフォームのニーズに対応するために開発したシステムや方法論について述べるとともに、導入する人員やリソースの障壁を減らす。 我々は、AI開発とデプロイメントプロセスを合理化しつつ、新しいAIイノベーションの原動力となるように、放射線学者に効率的で親しみやすいインターフェースを提供する、データファーストでモジュラーなアプローチを強調します。

Current AI-driven research in radiology requires resources and expertise that are often inaccessible to small and resource-limited labs. The clinicians who are able to participate in AI research are frequently well-funded, well-staffed, and either have significant experience with AI and computing, or have access to colleagues or facilities that do. Current imaging data is clinician-oriented and is not easily amenable to machine learning initiatives, resulting in inefficient, time consuming, and costly efforts that rely upon a crew of data engineers and machine learning scientists, and all too often preclude radiologists from driving AI research and innovation. We present the system and methodology we have developed to address infrastructure and platform needs, while reducing the staffing and resource barriers to entry. We emphasize a data-first and modular approach that streamlines the AI development and deployment process while providing efficient and familiar interfaces for radiologists, such that they can be the drivers of new AI innovations.
翻訳日:2021-07-18 12:29:11 公開日:2021-07-06
# IGrow: 自律的な温室管理のためのスマート農業ソリューション

IGrow: A Smart Agriculture Solution to Autonomous Greenhouse Control ( http://arxiv.org/abs/2107.05464v1 )

ライセンス: Link先を確認
Xiaoyan Cao, Yao Yao, Lanqing Li, Wanpeng Zhang, Zhicheng An, Zhong Zhang, Shihui Guo, Li Xiao, Xiaoyu Cao, and Dijun Luo(参考訳) 農業は人類文明の基礎である。 しかし、世界人口の急速な増加と高齢化は、健康で新鮮な食品を求めることで、この基盤に課題をもたらす。 モノのインターネット(IoT)技術は、現代の自律型温室を食料生産の実用的で信頼性の高いエンジンにする。 しかし、ハイテクな温室を監督できる教育と熟練の労働力は乏しい。 人工知能(AI)とクラウドコンピューティング技術は、これらの制御環境での精度制御と高効率生産のための有望なソリューションである。 In this paper, we propose a smart agriculture solution, namely iGrow: (1) we use IoT and cloud computing technologies to measure, collect, and manage growing data, to support iteration of our decision-making AI module, which consists of an incremental model and an optimization algorithm; (2) we propose a three-stage incremental model based on accumulating data, enabling growers/central computers to schedule control strategies conveniently and at low cost; (3) we propose a model-based iterative optimization algorithm, which can dynamically optimize the greenhouse control strategy in real-time production. シミュレーション実験では, インクリメンタルモデルの精度は高度トマトシミュレータに匹敵するが, 最適化アルゴリズムは第2回自律温室チャレンジのチャンピオンを破ることができる。 実地温室におけるA/B試験の結果, 生産量(商業販売可能な果実)が10.15%以上, 純利益が87.07%以上であり, 植林専門家と比較して統計的に有意な増加が見られた。

Agriculture is the foundation of human civilization. However, the rapid increase and aging of the global population pose challenges on this cornerstone by demanding more healthy and fresh food. Internet of Things (IoT) technology makes modern autonomous greenhouse a viable and reliable engine of food production. However, the educated and skilled labor capable of overseeing high-tech greenhouses is scarce. Artificial intelligence (AI) and cloud computing technologies are promising solutions for precision control and high-efficiency production in such controlled environments. In this paper, we propose a smart agriculture solution, namely iGrow: (1) we use IoT and cloud computing technologies to measure, collect, and manage growing data, to support iteration of our decision-making AI module, which consists of an incremental model and an optimization algorithm; (2) we propose a three-stage incremental model based on accumulating data, enabling growers/central computers to schedule control strategies conveniently and at low cost; (3) we propose a model-based iterative optimization algorithm, which can dynamically optimize the greenhouse control strategy in real-time production. In the simulated experiment, evaluation results show the accuracy of our incremental model is comparable to an advanced tomato simulator, while our optimization algorithms can beat the champion of the 2nd Autonomous Greenhouse Challenge. Compelling results from the A/B test in real greenhouses demonstrate that our solution significantly increases production (commercially sellable fruits) (+ 10.15%) and net profit (+ 87.07%) with statistical significance compared to planting experts.
翻訳日:2021-07-18 12:28:52 公開日:2021-07-06
# 記号回帰を用いた力学系の同定

Identification of Dynamical Systems using Symbolic Regression ( http://arxiv.org/abs/2107.06131v1 )

ライセンス: Link先を確認
Gabriel Kronberger, Lukas Kammerer, Michael Kommenda(参考訳) 本稿では,観測データから動的システムのモデルを特定する手法について述べる。 この手法は記号回帰の概念に基づいており、遺伝的プログラミングを用いて常微分方程式(ODE)の体系を進化させる。 新しくなったのは、ODEパラメータの勾配に基づく最適化のステップを追加することです。 本研究では,初期値問題(IVP)に対する解の感度を自動微分を用いて算出する。 提案手法は,シミュレーションシステムからのデータセットと機械システムから取得したデータセットを含む,文献から取られた19の問題インスタンスのセットで検証した。 パラメータの勾配に基づく最適化はモデルの予測精度を向上させる。 その結果、まず個々の方程式を数値差に適合させ、次にIPP解を観測変数値に適合させてパラメータ値を微調整すると、最もよい結果が得られる。

We describe a method for the identification of models for dynamical systems from observational data. The method is based on the concept of symbolic regression and uses genetic programming to evolve a system of ordinary differential equations (ODE). The novelty is that we add a step of gradient-based optimization of the ODE parameters. For this we calculate the sensitivities of the solution to the initial value problem (IVP) using automatic differentiation. The proposed approach is tested on a set of 19 problem instances taken from the literature which includes datasets from simulated systems as well as datasets captured from mechanical systems. We find that gradient-based optimization of parameters improves predictive accuracy of the models. The best results are obtained when we first fit the individual equations to the numeric differences and then subsequently fine-tune the identified parameter values by fitting the IVP solution to the observed variable values.
翻訳日:2021-07-18 12:28:30 公開日:2021-07-06
# 因果的仮定に基づく実世界のジェノタイピングデータからの抗菌抵抗の予測における推定バイアスの評価

Assessing putative bias in prediction of anti-microbial resistance from real-world genotyping data under explicit causal assumptions ( http://arxiv.org/abs/2107.03383v1 )

ライセンス: Link先を確認
Mattia Prosperi, Simone Marini, Christina Boucher, Jiang Bian(参考訳) ゲノムシークエンシング(WGS)は、抵抗性や病原体の移動を誘導する遺伝子やメカニズムに関する高分解能情報を得る能力から、抗生物質耐性(AMR)を識別するための慣習的な手段となりつつある。 対照的に、従来の表現型(アンチバイオグラム)検査はそのような情報を容易に解明できない。 しかし、サンプリングが非ランダム化されているため、ジェノタイプフェノタイプデータからのAMR予測ツールの開発には偏りがある。 サンプルの出芽、採集期間、種表象は、遺伝形質とAMRの関連を解明することができる。 このように、予測モデルはサンプリング分布シフトを伴う新しいデータに対して不適切な処理を行うことができる。 本研究では,PATRIC(Pathosystems Resource Integration Center, PATRIC)の遺伝子型AMRデータを用いたAMR予測において, 相対性に基づく再バランスと整合性調整の有効性を評価する。 細菌の遺伝子型(k-merシグネチャとしてコードされる)を選択する。 長さkのdna断片)、国、年、種、amrの表現型(テトラサイクリン系薬物の分類)は、1つの国からの最近のゲノムでテストデータを準備する。 偏りを伴わずに,ロジスティック回帰(BLR)とランダム森林(RF)を試験した。 10,936例において,AMR表現型に対する種,位置,年不均衡の証拠が発見された。 amrに対する遺伝的シグネチャの効果の粗さとバイアス調整による変化は、適度にしか変化しない(4000万以上のk-merのうち上位2万が選択される)。 RF(0.95)の受信動作特性(AUROC)の下の領域は、ブートストラップと外部テスト(n=1,085)の両方でBLR(0.94)と同等であり、AUROCは減少しない。 遺伝的シグネチャの単独使用と比較して,AUROCの1%-5%の利得をバイアスハンドリングで観察した。 ...

Whole genome sequencing (WGS) is quickly becoming the customary means for identification of antimicrobial resistance (AMR) due to its ability to obtain high resolution information about the genes and mechanisms that are causing resistance and driving pathogen mobility. By contrast, traditional phenotypic (antibiogram) testing cannot easily elucidate such information. Yet development of AMR prediction tools from genotype-phenotype data can be biased, since sampling is non-randomized. Sample provenience, period of collection, and species representation can confound the association of genetic traits with AMR. Thus, prediction models can perform poorly on new data with sampling distribution shifts. In this work -- under an explicit set of causal assumptions -- we evaluate the effectiveness of propensity-based rebalancing and confounding adjustment on AMR prediction using genotype-phenotype AMR data from the Pathosystems Resource Integration Center (PATRIC). We select bacterial genotypes (encoded as k-mer signatures, i.e. DNA fragments of length k), country, year, species, and AMR phenotypes for the tetracycline drug class, preparing test data with recent genomes coming from a single country. We test boosted logistic regression (BLR) and random forests (RF) with/without bias-handling. On 10,936 instances, we find evidence of species, location and year imbalance with respect to the AMR phenotype. The crude versus bias-adjusted change in effect of genetic signatures on AMR varies but only moderately (selecting the top 20,000 out of 40+ million k-mers). The area under the receiver operating characteristic (AUROC) of the RF (0.95) is comparable to that of BLR (0.94) on both out-of-bag samples from bootstrap and the external test (n=1,085), where AUROCs do not decrease. We observe a 1%-5% gain in AUROC with bias-handling compared to the sole use of genetic signatures. ...
翻訳日:2021-07-09 13:23:47 公開日:2021-07-06
# (参考訳) 知識蒸留のための等速データ拡張 [全文訳有]

Isotonic Data Augmentation for Knowledge Distillation ( http://arxiv.org/abs/2107.01412v2 )

ライセンス: CC BY 4.0
Wanyun Cui, Sen Yan(参考訳) 知識蒸留は教師モデルによって予測される本物のハードラベルとソフトラベルの両方を監督する。 直感的には、ソフトラベルとハードラベルはw.r.t.と一致している。 確率の命令だ しかし,拡張サンプルでは,ハードラベルとソフトラベルの臨界順序違反が確認された。 例えば、$x=0.7*panda+0.3*cat$の場合、意味のあるソフトラベルの順序は$P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$と期待する。 しかし、実際のソフトレーベルは通常、注文に違反する。 P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$ これは教師の満足のいく一般化能力に起因し、強化サンプルの予測誤差につながる。 経験的に、違反は一般的であり、知識伝達を損なうことがわかりました。 本稿では,isotonic data augmentation (ida) と表記される知識蒸留のためのデータ拡張に関する順序制限を導入する。 isotonic regression (ir) -- 統計学の古典的なテクニック -- を使用して、順序違反を排除します。 IDAは木構造IR問題としてモデル化可能であることを示す。 したがって、従来のIRT-BINアルゴリズムを$O(c \log c)$時間複雑性の最適解に適用し、$c$はラベルの数である。 時間複雑性をさらに低減するために,線形時間複雑性を持つGPUフレンドリな近似も提案する。 提案するidaアルゴリズムが, ランク違反を除去し, 知識蒸留の精度を効果的に向上させることを示す, 変種データセットとデータ拡張手法について検証した。

Knowledge distillation uses both real hard labels and soft labels predicted by teacher models as supervision. Intuitively, we expect the soft labels and hard labels to be concordant w.r.t. their orders of probabilities. However, we found critical order violations between hard labels and soft labels in augmented samples. For example, for an augmented sample $x=0.7*panda+0.3*cat$, we expect the order of meaningful soft labels to be $P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$. But real soft labels usually violate the order, e.g. $P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$. We attribute this to the unsatisfactory generalization ability of the teacher, which leads to the prediction error of augmented samples. Empirically, we found the violations are common and injure the knowledge transfer. In this paper, we introduce order restrictions to data augmentation for knowledge distillation, which is denoted as isotonic data augmentation (IDA). We use isotonic regression (IR) -- a classic technique from statistics -- to eliminate the order violations. We show that IDA can be modeled as a tree-structured IR problem. We thereby adapt the classical IRT-BIN algorithm for optimal solutions with $O(c \log c)$ time complexity, where $c$ is the number of labels. In order to further reduce the time complexity, we also propose a GPU-friendly approximation with linear time complexity. We have verified on variant datasets and data augmentation techniques that our proposed IDA algorithms effectively increases the accuracy of knowledge distillation by eliminating the rank violations.
翻訳日:2021-07-09 06:08:37 公開日:2021-07-06
# (参考訳) 絡み合いとニューラルネットワークの飛躍:量子サーベイ

A Leap among Entanglement and Neural Networks: A Quantum Survey ( http://arxiv.org/abs/2107.03313v1 )

ライセンス: CC BY 4.0
Fabio Valerio Massoli, Lucia Vadicamo, Giuseppe Amato, Fabrizio Falchi(参考訳) 近年、Quantum Computingはリソースの可用性とアルゴリズム開発の両面で大幅な改善をみせた。 量子現象を利用して計算問題を解決する能力は、80年代後半から科学界の関心を引き起こしてきた長年の夢である。 このような状況において、私たちは貢献します。 まず,量子計算に関する基本概念を紹介し,ゲートモデルとアディアバティック量子コンピューティングのパラダイムを実装した技術の中核機能について説明する。 最後に、量子パーセプトロンと量子ニューラルネットワークの実装に関する現状を収集、比較、分析する。

In recent years, Quantum Computing witnessed massive improvements both in terms of resources availability and algorithms development. The ability to harness quantum phenomena to solve computational problems is a long-standing dream that has drawn the scientific community's interest since the late '80s. In such a context, we pose our contribution. First, we introduce basic concepts related to quantum computations, and then we explain the core functionalities of technologies that implement the Gate Model and Adiabatic Quantum Computing paradigms. Finally, we gather, compare and analyze the current state-of-the-art concerning Quantum Perceptrons and Quantum Neural Networks implementations.
翻訳日:2021-07-09 05:08:55 公開日:2021-07-06
# (参考訳) Plot2Spectra:自動スペクトル抽出ツール [全文訳有]

Plot2Spectra: an Automatic Spectra Extraction Tool ( http://arxiv.org/abs/2107.02827v1 )

ライセンス: CC BY 4.0
Weixin Jiang, Eric Schwenker, Trevor Spreadbury, Kai Li, Maria K.Y. Chan, Oliver Cossairt(参考訳) XANES (X-ray absorption near edge structure) やラマン分光法 (Raman spectroscopy) のような様々な種類の分光学は、異なる物質の特性を分析する上で非常に重要な役割を果たす。 科学文献では、xanes/ramanデータは、通常は線グラフにプロットされるが、これは、エンドユーザーが人間の読み手であるときに情報を視覚的に適切な方法で表現する。 しかし、そのようなグラフは自動ツールの欠如のため、直接プログラム解析には向いていない。 本稿では,Plot2Spectraというプロットデジタイザを開発し,分光グラフ画像からデータポイントを自動抽出し,大規模データ取得と解析を可能にする。 具体的には、プロットデジタイザは2段階のフレームワークである。 第1軸アライメント段階では、プロット領域を検出するためにアンカーフリー検出器を採用し、検出された境界ボックスをエッジベースの制約で洗練し、2つの軸の位置を特定する。 また,シーンテキスト検出器を用いて,x軸下の全てのダニ情報を抽出・解釈する。 第2プロットデータ抽出段階では、まず、背景からプロット線に属する画素を分離するためにセマンティックセグメンテーションを使用し、そこからプロット線に光フロー制約を加えて、それらを符号化した適切な線(データ例)に割り当てる。 提案するプロットデジタイザの有効性を検証するために広範な実験が行われ、そのようなツールが材料特性の発見と機械学習の促進に役立つことを示した。

Different types of spectroscopies, such as X-ray absorption near edge structure (XANES) and Raman spectroscopy, play a very important role in analyzing the characteristics of different materials. In scientific literature, XANES/Raman data are usually plotted in line graphs which is a visually appropriate way to represent the information when the end-user is a human reader. However, such graphs are not conducive to direct programmatic analysis due to the lack of automatic tools. In this paper, we develop a plot digitizer, named Plot2Spectra, to extract data points from spectroscopy graph images in an automatic fashion, which makes it possible for large scale data acquisition and analysis. Specifically, the plot digitizer is a two-stage framework. In the first axis alignment stage, we adopt an anchor-free detector to detect the plot region and then refine the detected bounding boxes with an edge-based constraint to locate the position of two axes. We also apply scene text detector to extract and interpret all tick information below the x-axis. In the second plot data extraction stage, we first employ semantic segmentation to separate pixels belonging to plot lines from the background, and from there, incorporate optical flow constraints to the plot line pixels to assign them to the appropriate line (data instance) they encode. Extensive experiments are conducted to validate the effectiveness of the proposed plot digitizer, which shows that such a tool could help accelerate the discovery and machine learning of materials properties.
翻訳日:2021-07-09 05:07:46 公開日:2021-07-06
# (参考訳) 分類におけるロジットに基づく不確実性測定 [全文訳有]

Logit-based Uncertainty Measure in Classification ( http://arxiv.org/abs/2107.02845v1 )

ライセンス: CC BY 4.0
Huiyu Wu and Diego Klabjan(参考訳) 我々は,ロジット不確実性と呼ばれる分類タスクに対して,新たに信頼性の高い不確実性尺度を導入する。 これはニューラルネットワークのロジット出力に基づいている。 特に, この新たな不確実性尺度は, サンプル検出や誤予測など, 様々なタスクにおける既存の不確実性対策に比べ, 優れた性能を示すことを示す。 測定の理論的基礎を分析し,高密度領域との関係を探究する。 また、生成的対向ネットワークのトレーニングにおいて中間出力を用いて不確実性をテストする方法を示す。 実世界のアプリケーションにおいてロジットに基づく不確実性を利用するための2つの潜在的方法を提案する。

We introduce a new, reliable, and agnostic uncertainty measure for classification tasks called logit uncertainty. It is based on logit outputs of neural networks. We in particular show that this new uncertainty measure yields a superior performance compared to existing uncertainty measures on different tasks, including out of sample detection and finding erroneous predictions. We analyze theoretical foundations of the measure and explore a relationship with high density regions. We also demonstrate how to test uncertainty using intermediate outputs in training of generative adversarial networks. We propose two potential ways to utilize logit-based uncertainty in real world applications, and show that the uncertainty measure outperforms.
翻訳日:2021-07-09 04:55:02 公開日:2021-07-06
# (参考訳) ニューラルネットワーク翻訳とエンティティリンクによる知識グラフに関する質問応答 [全文訳有]

Question Answering over Knowledge Graphs with Neural Machine Translation and Entity Linking ( http://arxiv.org/abs/2107.02865v1 )

ライセンス: CC BY 4.0
Daniel Diomedi, Aidan Hogan(参考訳) 知識グラフに関する質問回答(KGQA)の目的は、知識グラフ上の自然言語質問に対する回答を見つけることである。 最近のKGQAアプローチでは、自然言語質問を構造化クエリ言語に変換するニューラルネットワーク翻訳(NMT)アプローチを採用している。 しかし、NMTは語彙外問題に悩まされており、ある質問の語句は訓練中に見られず、翻訳を妨げている。 この問題は、大きな知識グラフが記述する数百万のエンティティにとって特に問題となる。 我々はむしろ、エンティティの処理をエンティティリンク(el)システムに委譲するkgqaアプローチを提案する。 NMTは、ELフェーズで識別されたエンティティで満たされたプレースホルダーによるクエリテンプレートを作成するために使用される。 スロット充填は、どのエンティティがどのプレースホルダーを満たしているかを決定するために使用される。 Wikidata上のQA実験では、我々のアプローチは純粋なNMTよりも優れており、トレーニング中に類似したクエリテンプレートを見たことへの強い依存はありますが、エンティティに関するエラーは大幅に減少しています。

The goal of Question Answering over Knowledge Graphs (KGQA) is to find answers for natural language questions over a knowledge graph. Recent KGQA approaches adopt a neural machine translation (NMT) approach, where the natural language question is translated into a structured query language. However, NMT suffers from the out-of-vocabulary problem, where terms in a question may not have been seen during training, impeding their translation. This issue is particularly problematic for the millions of entities that large knowledge graphs describe. We rather propose a KGQA approach that delegates the processing of entities to entity linking (EL) systems. NMT is then used to create a query template with placeholders that are filled by entities identified in an EL phase. Slot filling is used to decide which entity fills which placeholder. Experiments for QA over Wikidata show that our approach outperforms pure NMT: while there remains a strong dependence on having seen similar query templates during training, errors relating to entities are greatly reduced.
翻訳日:2021-07-09 04:42:11 公開日:2021-07-06
# (参考訳) Kosp2e:韓国語から英訳へ [全文訳有]

Kosp2e: Korean Speech to English Translation Corpus ( http://arxiv.org/abs/2107.02875v1 )

ライセンス: CC BY-SA 4.0
Won Ik Cho, Seok Min Kim, Hyunchang Cho, Nam Soo Kim(参考訳) ほとんどのS2T翻訳研究は英語を情報源として利用しており、非英語話者がS2T技術を利用するのが困難である。 一部の言語では、この問題はコーパスの構築を通じて取り組まれていたが、言語的に英語から遠ざかるほど、その不足と表現不足はより重要になる。 本稿では,韓国語をエンドツーエンドで英文に翻訳可能なコーパスであるkosp2e(kospi)を紹介する。 我々は、オープンライセンス音声認識コーパス、翻訳コーパス、音声言語コーパスを採用し、データセットを自由に公開し、パイプラインおよびトレーニングベースのアプローチでパフォーマンスを確認する。 パイプラインと様々なエンドツーエンドスキームを用いて、英語の仮説に基づいてそれぞれ21.3と18.0の最高BLEUを取得し、データの有効性を検証する。 今後,コミュニティからのコントリビューションを通じて,他のターゲット言語へのアノテーションを補完する予定です。

Most speech-to-text (S2T) translation studies use English speech as a source, which makes it difficult for non-English speakers to take advantage of the S2T technologies. For some languages, this problem was tackled through corpus construction, but the farther linguistically from English or the more under-resourced, this deficiency and underrepresentedness becomes more significant. In this paper, we introduce kosp2e (read as `kospi'), a corpus that allows Korean speech to be translated into English text in an end-to-end manner. We adopt open license speech recognition corpus, translation corpus, and spoken language corpora to make our dataset freely available to the public, and check the performance through the pipeline and training-based approaches. Using pipeline and various end-to-end schemes, we obtain the highest BLEU of 21.3 and 18.0 for each based on the English hypothesis, validating the feasibility of our data. We plan to supplement annotations for other target languages through community contributions in the future.
翻訳日:2021-07-09 04:21:56 公開日:2021-07-06
# (参考訳) 連続時間マルコフ連鎖のスケールアップは、アンダーシグメンテーションの解決に役立つ [全文訳有]

Scaling up Continuous-Time Markov Chains Helps Resolve Underspecification ( http://arxiv.org/abs/2107.02911v1 )

ライセンス: CC BY 4.0
Alkis Gotovos, Rebekka Burkholz, John Quackenbush, and Stefanie Jegelka(参考訳) 離散的な項目集合(例えば遺伝子変異)の時間発展のモデル化は、多くの生物医学的応用において根本的な問題である。 我々は, 連続時間マルコフ連鎖のレンズを通してこの問題にアプローチし, 学習課題が通常, 横断的データの設定において過小評価されていることを示す。 他にも多くの独立した項目が加わり、時間順の決定に役立ち、したがって過度な指定の解消に役立ちます。 これは、分析を関連する項目の小さなサブセットに限定するという一般的な慣習とは対照的であり、これは主に既存のメソッドのスケーリングが不十分なためである。 理論的な考察を実践するために,我々は,数百項目までスケール可能で,従来の手法よりも桁違いに高速である連続時間マルコフ連鎖を学習するための近似的最大化法を開発した。 合成および実がんデータに対するアプローチの有効性を実証する。

Modeling the time evolution of discrete sets of items (e.g., genetic mutations) is a fundamental problem in many biomedical applications. We approach this problem through the lens of continuous-time Markov chains, and show that the resulting learning task is generally underspecified in the usual setting of cross-sectional data. We explore a perhaps surprising remedy: including a number of additional independent items can help determine time order, and hence resolve underspecification. This is in sharp contrast to the common practice of limiting the analysis to a small subset of relevant items, which is followed largely due to poor scaling of existing methods. To put our theoretical insight into practice, we develop an approximate likelihood maximization method for learning continuous-time Markov chains, which can scale to hundreds of items and is orders of magnitude faster than previous methods. We demonstrate the effectiveness of our approach on synthetic and real cancer data.
翻訳日:2021-07-09 04:09:58 公開日:2021-07-06
# (参考訳) 深い生成優先を伴う物理ベースのベイズ逆問題の解法 [全文訳有]

Solution of Physics-based Bayesian Inverse Problems with Deep Generative Priors ( http://arxiv.org/abs/2107.02926v1 )

ライセンス: CC BY 4.0
Dhruv V Patel, Deep Ray, Assad A Oberai(参考訳) 逆問題は非常に解決が難しいのは、解がない、複数の解がある、あるいは測定の小さな摂動に応答して大きく変化する解があるからである。 確率的推論問題として逆問題を引き起こすベイズ推論は、これらの困難に対処し、推論された場と関連する不確実性の定量的推定を提供する。 しかし、大きな次元のベクトルを推測する場合や、以前に取得したサンプルから事前情報が得られる場合、利用は困難である。 本稿では,ベイズ推定における先行分布を表現し,これらの課題を克服するために,深層生成逆数ネットワークをどのように利用できるかを説明する。 これらの概念を,物理原理,事前知識の源泉,測定の種類,測定ノイズに関する利用可能な情報量といった観点で多様な逆問題に適用する。 いずれの場合においても,提案手法を適用し,不確実性の最も可能性の高い解と定量的な推定を行う。

Inverse problems are notoriously difficult to solve because they can have no solutions, multiple solutions, or have solutions that vary significantly in response to small perturbations in measurements. Bayesian inference, which poses an inverse problem as a stochastic inference problem, addresses these difficulties and provides quantitative estimates of the inferred field and the associated uncertainty. However, it is difficult to employ when inferring vectors of large dimensions, and/or when prior information is available through previously acquired samples. In this paper, we describe how deep generative adversarial networks can be used to represent the prior distribution in Bayesian inference and overcome these challenges. We apply these ideas to inverse problems that are diverse in terms of the governing physical principles, sources of prior knowledge, type of measurement, and the extent of available information about measurement noise. In each case we apply the proposed approach to infer the most likely solution and quantitative estimates of uncertainty.
翻訳日:2021-07-09 03:47:29 公開日:2021-07-06
# (参考訳) 医用画像分割のための画像複雑性誘導ネットワーク圧縮 [全文訳有]

Image Complexity Guided Network Compression for Biomedical Image Segmentation ( http://arxiv.org/abs/2107.02927v1 )

ライセンス: CC BY 4.0
Suraj Mishra, Danny Z. Chen, X. Sharon Hu(参考訳) 圧縮は、畳み込みニューラルネットワーク(CNN)を特定のコンピューティングリソース制約に準拠させる標準的な手順である。 しかしながら、圧縮アーキテクチャの探索は通常、ネットワークサイズとパフォーマンスの正確さのよい妥協点を決定するために、一連の時間を要するトレーニング/検証実験を伴う。 そこで本研究では,バイオメディカルイメージセグメンテーションのための画像複雑化誘導型ネットワーク圧縮手法を提案する。 リソースの制約を考慮に入れれば、我々のフレームワークはデータ複雑性とネットワークアーキテクチャを利用して、ネットワークトレーニングを必要としない圧縮モデルを素早く見積もる。 具体的には、データセットの複雑さを圧縮によるターゲットネットワークの精度劣化にマップする。 このようなマッピングにより、計算されたデータセットの複雑さに基づいて、異なるネットワークサイズの最終的な精度を予測することができる。 したがって、ネットワークサイズとセグメンテーション精度の要件の両方を満たすソリューションを選択することができる。 最後に、このマッピングを用いて、圧縮ネットワークを生成する畳み込み層ワイド乗算因子を決定する。 5つのデータセットを用いて実験を行い,生体画像セグメンテーションのための3種類のcnnアーキテクチャを代表ネットワークとして用いた。 提案手法は,圧縮セグメンテーションネットワークの生成に有効であり,フルサイズのネットワークセグメンテーション精度を最大$\approx 95\%,フルサイズのネットワークのトレーニング可能な重量(平均減量)を$$\approx 32x$に抑えることができる。

Compression is a standard procedure for making convolutional neural networks (CNNs) adhere to some specific computing resource constraints. However, searching for a compressed architecture typically involves a series of time-consuming training/validation experiments to determine a good compromise between network size and performance accuracy. To address this, we propose an image complexity-guided network compression technique for biomedical image segmentation. Given any resource constraints, our framework utilizes data complexity and network architecture to quickly estimate a compressed model which does not require network training. Specifically, we map the dataset complexity to the target network accuracy degradation caused by compression. Such mapping enables us to predict the final accuracy for different network sizes, based on the computed dataset complexity. Thus, one may choose a solution that meets both the network size and segmentation accuracy requirements. Finally, the mapping is used to determine the convolutional layer-wise multiplicative factor for generating a compressed network. We conduct experiments using 5 datasets, employing 3 commonly-used CNN architectures for biomedical image segmentation as representative networks. Our proposed framework is shown to be effective for generating compressed segmentation networks, retaining up to $\approx 95\%$ of the full-sized network segmentation accuracy, and at the same time, utilizing $\approx 32x$ fewer network trainable weights (average reduction) of the full-sized networks.
翻訳日:2021-07-09 03:44:20 公開日:2021-07-06
# 情報基準に基づく特徴選択における伝達学習

Transfer Learning in Information Criteria-based Feature Selection ( http://arxiv.org/abs/2107.02847v1 )

ライセンス: Link先を確認
Shaohan Chen, Nikolaos V. Sahinidis and Chuanhou Gao(参考訳) 本稿では,MallowsのCpに基づく移動学習の有効性について検討する。 本稿では,伝達学習をMallowsのCp(TLCp)と組み合わせることで,従来のMallowsのCp基準よりも精度と安定性が高いことを示す手法を提案する。 理論的には, 対象領域の任意のサンプルサイズに対して, 提案したTLCp推定器は, 直交予測器の場合の平均二乗誤差(MSE)メートル法によりCp推定器よりも優れており, ソース領域と対象領域とのタスクの相似性が小さく, 手順パラメータ(複素性ペナルティ)が一定の規則に従って調整されていることを示唆している。 さらに,我々のトランスファー学習フレームワークは,ベイズ情報基準などの他の特徴選択基準にも拡張可能であることを示す。 直交化されたCpの解を解析することにより、非直交予測器の場合のCp基準の解を漸近的に近似する推定器を同定する。 非直交性TLCpについても同様の結果が得られた。 最後に,実データを用いたシミュレーション研究と応用により,tlcpの有用性が示された。

This paper investigates the effectiveness of transfer learning based on Mallows' Cp. We propose a procedure that combines transfer learning with Mallows' Cp (TLCp) and prove that it outperforms the conventional Mallows' Cp criterion in terms of accuracy and stability. Our theoretical results indicate that, for any sample size in the target domain, the proposed TLCp estimator performs better than the Cp estimator by the mean squared error (MSE) metric in the case of orthogonal predictors, provided that i) the dissimilarity between the tasks from source domain and target domain is small, and ii) the procedure parameters (complexity penalties) are tuned according to certain explicit rules. Moreover, we show that our transfer learning framework can be extended to other feature selection criteria, such as the Bayesian information criterion. By analyzing the solution of the orthogonalized Cp, we identify an estimator that asymptotically approximates the solution of the Cp criterion in the case of non-orthogonal predictors. Similar results are obtained for the non-orthogonal TLCp. Finally, simulation studies and applications with real data demonstrate the usefulness of the TLCp scheme.
翻訳日:2021-07-08 14:14:24 公開日:2021-07-06
# AI/MLモデルの性能とロバスト性評価の原則

Principles for Evaluation of AI/ML Model Performance and Robustness ( http://arxiv.org/abs/2107.02868v1 )

ライセンス: Link先を確認
Olivia Brown, Andrew Curtis, Justin Goodwin(参考訳) 国防総省(DoD)は、国家安全保障のニーズに対処する人工知能と機械学習(AI/ML)の能力の設計、評価、展開への投資を大幅に増やした。 学術分野や商業分野ではAI/MLの成功は多いが、これらのシステムの多くは脆く非破壊的であることも示されている。 複雑で絶え間なく変化する国家安全保障環境では、これらの新しい機能がフィールドにデプロイされる前に、ai/mlモデルのパフォーマンスと堅牢性を評価するための健全で方法論的なプロセスを確立することが不可欠である。 本稿では、AI/ML開発プロセスをレビューし、AI/MLモデル評価の一般的なベストプラクティスを強調し、国家のセキュリティニーズに対する堅牢なAI/ML機能のデプロイを保証するため、DoD評価者に推奨する。

The Department of Defense (DoD) has significantly increased its investment in the design, evaluation, and deployment of Artificial Intelligence and Machine Learning (AI/ML) capabilities to address national security needs. While there are numerous AI/ML successes in the academic and commercial sectors, many of these systems have also been shown to be brittle and nonrobust. In a complex and ever-changing national security environment, it is vital that the DoD establish a sound and methodical process to evaluate the performance and robustness of AI/ML models before these new capabilities are deployed to the field. This paper reviews the AI/ML development process, highlights common best practices for AI/ML model evaluation, and makes recommendations to DoD evaluators to ensure the deployment of robust AI/ML capabilities for national security needs.
翻訳日:2021-07-08 14:14:03 公開日:2021-07-06
# デモによるベイズ仕様の教師付き推論

Supervised Bayesian Specification Inference from Demonstrations ( http://arxiv.org/abs/2107.02912v1 )

ライセンス: Link先を確認
Ankit Shah, Pritish Kamath, Shen Li, Patrick Craven, Kevin Landers, Kevin Oden, Julie Shah(参考訳) タスクのデモンストレーションを観察する際、人間の見習いは、そのタスクを実際に実行する専門知識を得る前に、与えられたタスクが正しく実行されるかどうかを特定できる。 実証から学ぶこと(LfD)に関する以前の研究は、タスクの実行の受け入れ可能性というこの概念を捉えられなかったが、一方で時間論理はタスク仕様を表現するための柔軟な言語を提供する。 そこで本研究では,タスク仕様を時相論理式として推定する確率モデルであるベイズ仕様推論を提案する。 我々は,確率的プログラミングの手法を事前定義に取り入れ,サンプリングに基づく推論を可能にするために,ドメインに依存しない確率関数を組み込んだ。 提案手法は,合成領域内と実世界のテーブル設定タスク中の両方において,推論された仕様と基礎的真理との間に90%以上の類似性が観察された仕様を推定するためのモデルの有効性を示す。

When observing task demonstrations, human apprentices are able to identify whether a given task is executed correctly long before they gain expertise in actually performing that task. Prior research into learning from demonstrations (LfD) has failed to capture this notion of the acceptability of a task's execution; meanwhile, temporal logics provide a flexible language for expressing task specifications. Inspired by this, we present Bayesian specification inference, a probabilistic model for inferring task specification as a temporal logic formula. We incorporate methods from probabilistic programming to define our priors, along with a domain-independent likelihood function to enable sampling-based inference. We demonstrate the efficacy of our model for inferring specifications, with over 90% similarity observed between the inferred specification and the ground truth, both within a synthetic domain and during a real-world table setting task.
翻訳日:2021-07-08 14:11:48 公開日:2021-07-06
# 基礎物理学からの集団異常検出のための新しい手法とデータセット

New Methods and Datasets for Group Anomaly Detection From Fundamental Physics ( http://arxiv.org/abs/2107.02821v1 )

ライセンス: Link先を確認
Gregor Kasieczka, Benjamin Nachman, David Shih(参考訳) グループや集合的異常検出など、データ内の異常過剰度を識別することは、多数の実世界の応用において豊富な問題である。 しかし、より広範なMLコミュニティでは、ポイント異常やその他のタイプの単一インスタンスの異常値と比較して、あまり注目されていない。 この理由のひとつは、強力なベンチマークデータセットがないことだ。 本稿では, ノーベル賞を受賞したヒッグス粒子の発見後, 教師なし群異常検出が基礎物理学の新たなフロンティア(新たな粒子と力の発見が動機である)となったことを最初に説明した。 次に,グループ異常検出アルゴリズムの開発のために,現実的な合成ベンチマークデータセット(lhco2020)を提案する。 最後に,教師なし群異常検出のための既存の統計学的手法をいくつか比較し,lhco2020データセット上での性能を示す。

The identification of anomalous overdensities in data - group or collective anomaly detection - is a rich problem with a large number of real world applications. However, it has received relatively little attention in the broader ML community, as compared to point anomalies or other types of single instance outliers. One reason for this is the lack of powerful benchmark datasets. In this paper, we first explain how, after the Nobel-prize winning discovery of the Higgs boson, unsupervised group anomaly detection has become a new frontier of fundamental physics (where the motivation is to find new particles and forces). Then we propose a realistic synthetic benchmark dataset (LHCO2020) for the development of group anomaly detection algorithms. Finally, we compare several existing statistically-sound techniques for unsupervised group anomaly detection, and demonstrate their performance on the LHCO2020 dataset.
翻訳日:2021-07-08 14:11:24 公開日:2021-07-06
# ヴォイニヒ写本における話題モデリング

Topic Modeling in the Voynich Manuscript ( http://arxiv.org/abs/2107.02858v1 )

ライセンス: Link先を確認
Rachel Sterneck, Annie Polish, Claire Bowern(参考訳) 本稿では,Voynich Manuscript(Beinecke MS408)のトピックモデリングによる調査結果について述べる。 トピックモデリング(英: Topic Modeling)は、テキスト内の対象のクラスタを識別する計算手法の集合である。 我々は,voynich ページを ‘topics' に分類するために,潜在ディリクレ割り当て,潜在意味解析,非負行列分解を用いる。 次に,計算モデルから得られたトピックを,ヴォイニッヒの挿絵と古図解析から得られたクラスターと比較する。 計算によって導出されたクラスターは、(図面によれば)書式と主題の結合と密接に一致し、ヴォイニッヒ写本が意味のあるテキストを含んでいるというさらなる証拠を与える。

This article presents the results of investigations using topic modeling of the Voynich Manuscript (Beinecke MS408). Topic modeling is a set of computational methods which are used to identify clusters of subjects within text. We use latent dirichlet allocation, latent semantic analysis, and nonnegative matrix factorization to cluster Voynich pages into `topics'. We then compare the topics derived from the computational models to clusters derived from the Voynich illustrations and from paleographic analysis. We find that computationally derived clusters match closely to a conjunction of scribe and subject matter (as per the illustrations), providing further evidence that the Voynich Manuscript contains meaningful text.
翻訳日:2021-07-08 14:09:33 公開日:2021-07-06
# ポリNL-リニア複素非局所層とポリノミアル

Poly-NL: Linear Complexity Non-local Layers with Polynomials ( http://arxiv.org/abs/2107.02859v1 )

ライセンス: Link先を確認
Francesca Babiloni, Ioannis Marras, Filippos Kokkinos, Jiankang Deng, Grigorios Chrysos, Stefanos Zafeiriou(参考訳) 空間的自己注意層は、非局所ブロックの形で、あらゆる可能な位置のペアの類似性を計算することによって、畳み込みニューラルネットワークに長距離依存を導入する。 このようなペアワイズ関数は非局所層の有効性を裏付けるだけでなく、空間と時間の両方で入力サイズに関して二次的にスケールする複雑性も決定する。 これは、局所的でないブロックが中程度の大きさの入力に適用できることを事実上阻害する深刻な制限要因である。 従来の研究は、基礎となる行列操作を変更することで複雑さを減らすことに重点を置いていたが、本研究では、複雑性を線形に保ちながら非局所層の完全な表現性を維持することを目的としている。 3次多項式関数の特別な場合とすることで、非局所ブロックの効率限界を克服する。 この事実により、ペアワイズ類似性の直接計算を要素ワイズ乗算に置き換えることで、新しい高速非局所ブロックを定式化し、性能を損なうことなく二次から線形への複雑さを低減できる。 提案手法は「poly-nl」と呼ばれ,画像認識,インスタンスセグメンテーション,顔検出タスクにおける最先端の性能と競合するが,計算オーバーヘッドは極めて少ない。

Spatial self-attention layers, in the form of Non-Local blocks, introduce long-range dependencies in Convolutional Neural Networks by computing pairwise similarities among all possible positions. Such pairwise functions underpin the effectiveness of non-local layers, but also determine a complexity that scales quadratically with respect to the input size both in space and time. This is a severely limiting factor that practically hinders the applicability of non-local blocks to even moderately sized inputs. Previous works focused on reducing the complexity by modifying the underlying matrix operations, however in this work we aim to retain full expressiveness of non-local layers while keeping complexity linear. We overcome the efficiency limitation of non-local blocks by framing them as special cases of 3rd order polynomial functions. This fact enables us to formulate novel fast Non-Local blocks, capable of reducing the complexity from quadratic to linear with no loss in performance, by replacing any direct computation of pairwise similarities with element-wise multiplications. The proposed method, which we dub as "Poly-NL", is competitive with state-of-the-art performance across image recognition, instance segmentation, and face detection tasks, while having considerably less computational overhead.
翻訳日:2021-07-08 14:08:36 公開日:2021-07-06
# 単音長形音声における話者分布型asrのモジュラーとジョイントアプローチの比較検討

A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio ( http://arxiv.org/abs/2107.02852v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Xiong Xiao, Jian Wu, Tianyan Zhou, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka(参考訳) 話者属性自動音声認識(sa-asr)は、マルチトーク録音から「誰が何を話したか」を認識するタスクである。 SA-ASRシステムは通常、音声分離、話者ダイアリゼーション、ASRなどの複数のモジュールで構成される。 一方, 共同最適化を考えると, シミュレーションデータに有望な結果をもたらすエンドツーエンドSA-ASRモデルが最近提案されている。 本稿では,SA-ASRへのモジュラーとジョイントのアプローチの比較を,実際のモノラル録音で行った最近の研究について述べる。 7万時間のasrトレーニングデータとvoxcelebコーパスを含む大規模トレーニングデータを活用して,モジュラとジョイントの両方のアプローチのための最先端のsa-asrシステムを開発した。 また,話者クラスタリング後にE2E SA-ASRモデルを実行する新しいパイプラインを提案する。 AMI会議コーパスの評価では,小型実データを用いて微調整を行った後,優れたモジュールシステムに比べて9.2~29.4%精度が向上し,モジュールシステムはこのような微調整よりも優れていた。 また,モナウラルSA-ASRの残りの問題を示すために,様々な誤り解析を行った。

Speaker-attributed automatic speech recognition (SA-ASR) is a task to recognize "who spoke what" from multi-talker recordings. An SA-ASR system usually consists of multiple modules such as speech separation, speaker diarization and ASR. On the other hand, considering the joint optimization, an end-to-end (E2E) SA-ASR model has recently been proposed with promising results on simulation data. In this paper, we present our recent study on the comparison of such modular and joint approaches towards SA-ASR on real monaural recordings. We develop state-of-the-art SA-ASR systems for both modular and joint approaches by leveraging large-scale training data, including 75 thousand hours of ASR training data and the VoxCeleb corpus for speaker representation learning. We also propose a new pipeline that performs the E2E SA-ASR model after speaker clustering. Our evaluation on the AMI meeting corpus reveals that after fine-tuning with a small real data, the joint system performs 9.2--29.4% better in accuracy compared to the best modular system while the modular system performs better before such fine-tuning. We also conduct various error analyses to show the remaining issues for the monaural SA-ASR.
翻訳日:2021-07-08 13:57:35 公開日:2021-07-06
# 深層学習に基づくマイクロ表現認識:調査

Deep Learning based Micro-expression Recognition: A Survey ( http://arxiv.org/abs/2107.02823v1 )

ライセンス: Link先を確認
Yante Li, Jinsheng Wei, Seyednavid Mohammadifoumani, Yang Liu, Guoying Zhao(参考訳) マイクロ・エクスプレッション(ME)は、高い状況下で人々の隠れた感情を明らかにする不随意の顔の動きであり、医療、国家安全保障、尋問、そして多くの人間とコンピュータのインタラクションシステムにおいて実践的に重要である。 MERの初期の手法は主に伝統的な外観と幾何学的特徴に基づいている。 近年,様々な分野におけるディープラーニング(DL)の成功により,ニューラルネットワークはMERへの関心が高まっている。 マクロ表現とは異なり、MEは自然的、微妙で、迅速な顔の動きであり、データ収集が難しいため、小規模なデータセットを持つ。 DLベースのMERは、上述のME文字によって困難になる。 データには、ME問題の解決とMERの性能向上のために様々なDLアプローチが提案されている。 本稿では、データセット、深部MERパイプライン、最も影響力のある手法のベンチマーキングを含む、深部MER(Deep Micro-Expression Recognition)の総合的なレビューを行う。 本調査は, DLに基づくMERのすべての側面を含む, この分野の新しい分類法を定義する。 各側面について、基本的アプローチと先進的な展開を要約し、議論する。 さらに,頑健な深層MERシステムの設計における課題と今後の方向性について述べる。 私たちの知る限りでは、これはdeep merメソッドに関する最初の調査であり、この調査は将来のmer研究の参照ポイントとなり得る。

Micro-expressions (MEs) are involuntary facial movements revealing people's hidden feelings in high-stake situations and have practical importance in medical treatment, national security, interrogations and many human-computer interaction systems. Early methods for MER mainly based on traditional appearance and geometry features. Recently, with the success of deep learning (DL) in various fields, neural networks have received increasing interests in MER. Different from macro-expressions, MEs are spontaneous, subtle, and rapid facial movements, leading to difficult data collection, thus have small-scale datasets. DL based MER becomes challenging due to above ME characters. To data, various DL approaches have been proposed to solve the ME issues and improve MER performance. In this survey, we provide a comprehensive review of deep micro-expression recognition (MER), including datasets, deep MER pipeline, and the bench-marking of most influential methods. This survey defines a new taxonomy for the field, encompassing all aspects of MER based on DL. For each aspect, the basic approaches and advanced developments are summarized and discussed. In addition, we conclude the remaining challenges and and potential directions for the design of robust deep MER systems. To the best of our knowledge, this is the first survey of deep MER methods, and this survey can serve as a reference point for future MER research.
翻訳日:2021-07-08 13:56:19 公開日:2021-07-06
# 遅延が大きい分散確率最適化

Distributed stochastic optimization with large delays ( http://arxiv.org/abs/2107.02919v1 )

ライセンス: Link先を確認
Zhengyuan Zhou and Panayotis Mertikopoulos and Nicholas Bambos and Peter W. Glynn and Yinyu Ye(参考訳) 大規模確率的最適化問題を解決する最も広く用いられている方法の1つは分散非同期確率的勾配降下 (dasgd) である。 しかし、DASGDの効率的な実装における重要な障害は遅延の問題である: 計算ノードが勾配更新に寄与する場合、グローバルモデルパラメータは、既に数回にわたって他のノードによって更新されているため、この勾配情報が陳腐化している。 これらの遅延は、ノードの計算スループットが飽和している場合、すぐに増加するので、DASGDの収束は大きな遅延が存在する場合に妥協される。 最初の貢献は、アルゴリズムのステップサイズを慎重に調整することで、多項式速度で遅延が無拘束に成長しても、臨界集合への収束は平均二乗で達成されるということである。 また,構造最適化問題(変分コヒーレントと呼ばれる)においてより詳細な結果を定め,dasgdが同じ遅延条件下で1ドルの確率でグローバル最適に収束することを示す。 これらの結果は,最先端の理論的保証とアルゴリズム設計への洞察を提供することにより,大規模非凸確率最適化の広範な展望に寄与する。

One of the most widely used methods for solving large-scale stochastic optimization problems is distributed asynchronous stochastic gradient descent (DASGD), a family of algorithms that result from parallelizing stochastic gradient descent on distributed computing architectures (possibly) asychronously. However, a key obstacle in the efficient implementation of DASGD is the issue of delays: when a computing node contributes a gradient update, the global model parameter may have already been updated by other nodes several times over, thereby rendering this gradient information stale. These delays can quickly add up if the computational throughput of a node is saturated, so the convergence of DASGD may be compromised in the presence of large delays. Our first contribution is that, by carefully tuning the algorithm's step-size, convergence to the critical set is still achieved in mean square, even if the delays grow unbounded at a polynomial rate. We also establish finer results in a broad class of structured optimization problems (called variationally coherent), where we show that DASGD converges to a global optimum with probability $1$ under the same delay assumptions. Together, these results contribute to the broad landscape of large-scale non-convex stochastic optimization by offering state-of-the-art theoretical guarantees and providing insights for algorithm design.
翻訳日:2021-07-08 13:53:54 公開日:2021-07-06
# 勾配型正規化ニューラルネットワークの一般化誤差解析

Generalization Error Analysis of Neural networks with Gradient Based Regularization ( http://arxiv.org/abs/2107.02797v1 )

ライセンス: Link先を確認
Lingfeng Li and Xue-Cheng Tai and Jiang Yang(参考訳) ニューラルネットワークの勾配に基づく正規化法について検討する。 主に、全変分法とチコノフ正則化の2つの正則化法に焦点を当てる。 これらの手法を適用することは、ニューラルネットワークを用いて偏微分方程式を解くことと等価である。 本稿では,正規化ネットワークの一般化誤差を分析する汎用フレームワークを提案する。 誤差推定は近似誤差と二次誤差の2つの仮定に依存する。 さらに,画像分類タスクについて実験を行い,勾配に基づく手法がニューラルネットワークの一般化能力と逆ロバスト性を大幅に向上できることを示す。 勾配に基づく手法のグラフィカルな拡張も実験で検討されている。

We study gradient-based regularization methods for neural networks. We mainly focus on two regularization methods: the total variation and the Tikhonov regularization. Applying these methods is equivalent to using neural networks to solve some partial differential equations, mostly in high dimensions in practical applications. In this work, we introduce a general framework to analyze the generalization error of regularized networks. The error estimate relies on two assumptions on the approximation error and the quadrature error. Moreover, we conduct some experiments on the image classification tasks to show that gradient-based methods can significantly improve the generalization ability and adversarial robustness of neural networks. A graphical extension of the gradient-based methods are also considered in the experiments.
翻訳日:2021-07-08 13:51:21 公開日:2021-07-06
# ゼロからヒーローへ:群衆労働者のための協調的市場認識推薦システム

From Zero to The Hero: A Collaborative Market Aware Recommendation System for Crowd Workers ( http://arxiv.org/abs/2107.02890v1 )

ライセンス: Link先を確認
Hamid Shamszare, Razieh Saremi, Sanam Jena(参考訳) ソフトウェアクラウドソーシングの成功は、アクティブで信頼できる労働者供給プールに依存する。 群衆労働者の行動の不確実性は、労働者の成功と計画の予測を困難にしている。 競争力のあるクラウドソーシング市場において、共有タスクに対する成功のための競争は、クラウドワーカーの意思決定プロセスに別の不確実性をもたらす。 ソフトウェア労働者の行動に関する予備分析によると、タスクの低下率は82.9%である。 これらの要因は、競争における成功の可視性と予測可能性を改善するために、CDDワーカーのための自動レコメンデーションシステムの必要性につながる。 そこで本研究では,クラウドワーカーのための協調推薦システムを提案する。 提案手法では, プール内の作業者のコラボレーション履歴に基づく5つの入力指標, 入賞・継続時間, 作業者の専門性, 作業者の習熟度, 作業者の習熟度などを用いた。 提案手法は,作業者の作業成功確率に基づいて,作業者が最も適したタスクを競うことを推奨する。 260人のアクティブ・クラウド・ワーカーの実験結果は、タスク・レコメンデーションの上位3つの成功確率に従って、最大86%の成功を達成できることを示している。

The success of software crowdsourcing depends on active and trustworthy pool of worker supply. The uncertainty of crowd workers' behaviors makes it challenging to predict workers' success and plan accordingly. In a competitive crowdsourcing marketplace, competition for success over shared tasks adds another layer of uncertainty in crowd workers' decision-making process. Preliminary analysis on software worker behaviors reveals an alarming task dropping rate of 82.9%. These factors lead to the need for an automated recommendation system for CSD workers to improve the visibility and predictability of their success in the competition. To that end, this paper proposes a collaborative recommendation system for crowd workers. The proposed recommendation system method uses five input metrics based on workers' collaboration history in the pool, workers' preferences in taking tasks in terms of monetary prize and duration, workers' specialty, and workers' proficiency. The proposed method then recommends the most suitable tasks for a worker to compete on based on workers' probability of success in the task. Experimental results on 260 active crowd workers demonstrate that just following the top three success probabilities of task recommendations, workers can achieve success up to 86%
翻訳日:2021-07-08 13:51:11 公開日:2021-07-06
# (参考訳) BAGUA: システムの緩和による分散学習のスケールアップ [全文訳有]

BAGUA: Scaling up Distributed Learning with System Relaxations ( http://arxiv.org/abs/2107.01499v2 )

ライセンス: CC BY-SA 4.0
Shaoduo Gan, Xiangru Lian, Rui Wang, Jianbin Chang, Chengjun Liu, Hongmei Shi, Shengzhuo Zhang, Xianghong Li, Tengxu Sun, Jiawei Jiang, Binhang Yuan, Sen Yang, Ji Liu, Ce Zhang(参考訳) 近年、分散データ並列トレーニングのためのシステムのリストが増えている。 既存のシステムはパラメータサーバとMPIスタイルの集合演算という2つのパラダイムに大きく適合する。 アルゴリズムの面では、量子化、分散化、通信遅延といった、システム緩和による通信の低減のための幅広い技術が研究者によって提案されている。 しかし、すべてではないにしても、既存のシステムは標準の同期および非同期確率勾配(SG)ベースの最適化にのみ依存しているため、機械学習コミュニティが最近開発してきたすべての最適化を活用できない。 システムと理論の現況の新たなギャップを考えると、分散トレーニングの最先端システム緩和技術をサポートするために、フレキシブルかつモジュール化されたシステム抽象化を提供することを設計目標とする通信フレームワークであるBAGUAを構築します。 新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。 最大16台のマシン(128GPU)を持つプロダクションクラスタでは、BAGUAはPyTorch-DDP、Horovod、BytePSを、さまざまなタスクでかなりの差(最大1.95倍)でエンドツーエンドのトレーニング時間で上回ることができる。 さらに、異なるアルゴリズムとシステム緩和が異なるネットワーク条件に対して最高の性能を達成することを示す厳密なトレードオフ探索を行う。

Recent years have witnessed a growing list of systems for distributed data-parallel training. Existing systems largely fit into two paradigms, i.e., parameter server and MPI-style collective operations. On the algorithmic side, researchers have proposed a wide range of techniques to lower the communication via system relaxations: quantization, decentralization, and communication delay. However, most, if not all, existing systems only rely on standard synchronous and asynchronous stochastic gradient (SG) based optimization, therefore, cannot take advantage of all possible optimizations that the machine learning community has been developing recently. Given this emerging gap between the current landscapes of systems and theory, we build BAGUA, a communication framework whose design goal is to provide a system abstraction that is both flexible and modular to support state-of-the-art system relaxation techniques of distributed training. Powered by the new system design, BAGUA has a great ability to implement and extend various state-of-the-art distributed learning algorithms. In a production cluster with up to 16 machines (128 GPUs), BAGUA can outperform PyTorch-DDP, Horovod and BytePS in the end-to-end training time by a significant margin (up to 1.95 times) across a diverse range of tasks. Moreover, we conduct a rigorous tradeoff exploration showing that different algorithms and system relaxations achieve the best performance over different network conditions.
翻訳日:2021-07-08 13:43:59 公開日:2021-07-06
# (参考訳) 3次元セマンティクスセグメンテーションのための類似性アウェア・フュージョンネットワーク [全文訳有]

Similarity-Aware Fusion Network for 3D Semantic Segmentation ( http://arxiv.org/abs/2107.01579v2 )

ライセンス: CC BY-SA 4.0
Linqing Zhao, Jiwen Lu and Jie Zhou(参考訳) 本稿では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。 既存の融合法は、複数のモーダルからの情報を統合することで優れた性能を達成する。 しかし、2Dピクセルと3Dポイントの対応をプロジェクションによって大きく依存しており、情報融合のみを一定の方法で行うことができるため、収集したデータに厳密なペアワイズ機能がないような現実的なシナリオに容易に移行することはできない。 そこで我々は,入力とバックプロジェクション(2dピクセルから)点雲の幾何学的・文脈的類似性を学習し,これらを用いて2つのモーダルの融合を導くことで,補完的情報を活用する。 具体的には、幾何学的類似度モジュール(GSM)を用いて、対の3次元近傍の空間座標分布を直接比較し、文脈類似度モジュール(CSM)を用いて対応する中心点の空間座標情報を集約・比較する。 提案された2つのモジュールは、画像特徴が予測にどの程度役立つかを効果的に測定することができ、ネットワークが各ポイントの最終予測に対する2つのモダリティの寄与を適応的に調整することができる。 ScanNetV2ベンチマークの実験結果は、SAFNetが様々なデータ完全性にわたって既存の最先端の融合ベースのアプローチを著しく上回っていることを示している。

In this paper, we propose a similarity-aware fusion network (SAFNet) to adaptively fuse 2D images and 3D point clouds for 3D semantic segmentation. Existing fusion-based methods achieve remarkable performances by integrating information from multiple modalities. However, they heavily rely on the correspondence between 2D pixels and 3D points by projection and can only perform the information fusion in a fixed manner, and thus their performances cannot be easily migrated to a more realistic scenario where the collected data often lack strict pair-wise features for prediction. To address this, we employ a late fusion strategy where we first learn the geometric and contextual similarities between the input and back-projected (from 2D pixels) point clouds and utilize them to guide the fusion of two modalities to further exploit complementary information. Specifically, we employ a geometric similarity module (GSM) to directly compare the spatial coordinate distributions of pair-wise 3D neighborhoods, and a contextual similarity module (CSM) to aggregate and compare spatial contextual information of corresponding central points. The two proposed modules can effectively measure how much image features can help predictions, enabling the network to adaptively adjust the contributions of two modalities to the final prediction of each point. Experimental results on the ScanNetV2 benchmark demonstrate that SAFNet significantly outperforms existing state-of-the-art fusion-based approaches across various data integrity.
翻訳日:2021-07-08 10:11:06 公開日:2021-07-06
# (参考訳) 活性化関数の異なるフィードフォワードニューラルネットワークのデータ駆動学習 [全文訳有]

Data-Driven Learning of Feedforward Neural Networks with Different Activation Functions ( http://arxiv.org/abs/2107.01702v2 )

ライセンス: CC BY 4.0
Grzegorz Dudek(参考訳) この研究は、フィードフォワードニューラルネットワーク(FNN)学習の新しいデータ駆動手法(D-DM)の開発に寄与する。 近年,ネットワークパラメータを対象関数の変動に調整することにより,FNNのランダム化学習を改善する手法として提案されている。 この方法は隠れノードに対してロジスティックシグモイド活性化関数を用いる。 本研究では,双極性シグミド,正弦関数,飽和線形関数,reLU,ソフトプラスなどの他の活性化関数を紹介する。 我々はそれらのパラメータ、すなわち、公式を導出する。 重みとバイアス。 本研究では,FNNデータ駆動学習の性能を,異なるアクティベーション関数で評価する。 その結果,シグモイド活性化関数は複雑な変動対象関数の近似において,他の関数よりも優れていた。

This work contributes to the development of a new data-driven method (D-DM) of feedforward neural networks (FNNs) learning. This method was proposed recently as a way of improving randomized learning of FNNs by adjusting the network parameters to the target function fluctuations. The method employs logistic sigmoid activation functions for hidden nodes. In this study, we introduce other activation functions, such as bipolar sigmoid, sine function, saturating linear functions, reLU, and softplus. We derive formulas for their parameters, i.e. weights and biases. In the simulation study, we evaluate the performance of FNN data-driven learning with different activation functions. The results indicate that the sigmoid activation functions perform much better than others in the approximation of complex, fluctuated target functions.
翻訳日:2021-07-08 09:53:47 公開日:2021-07-06
# (参考訳) 画像分類のための連続コントラスト型自己教師型学習 [全文訳有]

Continual Contrastive Self-supervised Learning for Image Classification ( http://arxiv.org/abs/2107.01776v2 )

ライセンス: CC BY 4.0
Zhiwei Lin, Yongtao Wang and Hongxiang Lin(参考訳) 人工知能システムでは,データストリームからの時間経過による継続的学習が不可欠である。 教師なし連続学習の研究は大きな進歩を遂げ、教師なし学習における破滅的な忘れ込みの研究はいまだに空白である。 教師なし学習手法の中で、自己監督学習法は、大規模にラベル付けされたデータを持たない視覚表現に大きな可能性を示す。 自己教師あり学習の視覚的表現を改善するためには,より大きく,より多様なデータが必要である。 現実世界では、ラベルのないデータが常に生成される。 この状況は、自己教師付き手法の学習に大きな利点をもたらす。 しかし、現在のパラダイムでは、以前のデータと現在のデータをまとめて、再度トレーニングすることは時間とリソースの無駄です。 したがって、継続的な自己教師付き学習方法が必要となる。 本稿では,過去のデータからいくつかの例を取り出すリハーサル手法を提案することで,コントラスト的自己教師付き学習を実現するための最初の試みを行う。 学習のための現在のデータセットと保存されたエクソンプラを直接組み合わせるのではなく、従来のネットワークで推定される類似度スコア分布を模倣して、過去のデータ間のコントラスト情報を現在のネットワークに転送するために自己教師付き知識蒸留を利用する。 さらに,過去のデータと現在のデータを区別し,自己の特徴表現を学習しながら相互干渉を防止するために,追加のサンプルキューを構築する。 実験の結果,CIFAR100とImageNet-Subでは良好な性能を示した。 手法を取らない学習タスクのベースラインと比較すると,cifar100では1.60%,imagenet-subでは2.86%,imagenet-fullでは1.29%,インクリメンタルなステップ設定では1.29%向上した。

For artificial learning systems, continual learning over time from a stream of data is essential. The burgeoning studies on supervised continual learning have achieved great progress, while the study of catastrophic forgetting in unsupervised learning is still blank. Among unsupervised learning methods, self-supervise learning method shows tremendous potential on visual representation without any labeled data at scale. To improve the visual representation of self-supervised learning, larger and more varied data is needed. In the real world, unlabeled data is generated at all times. This circumstance provides a huge advantage for the learning of the self-supervised method. However, in the current paradigm, packing previous data and current data together and training it again is a waste of time and resources. Thus, a continual self-supervised learning method is badly needed. In this paper, we make the first attempt to implement the continual contrastive self-supervised learning by proposing a rehearsal method, which keeps a few exemplars from the previous data. Instead of directly combining saved exemplars with the current data set for training, we leverage self-supervised knowledge distillation to transfer contrastive information among previous data to the current network by mimicking similarity score distribution inferred by the old network over a set of saved exemplars. Moreover, we build an extra sample queue to assist the network to distinguish between previous and current data and prevent mutual interference while learning their own feature representation. Experimental results show that our method performs well on CIFAR100 and ImageNet-Sub. Compared with the baselines, which learning tasks without taking any technique, we improve the image classification top-1 accuracy by 1.60% on CIFAR100, 2.86% on ImageNet-Sub and 1.29% on ImageNet-Full under 10 incremental steps setting.
翻訳日:2021-07-08 09:32:04 公開日:2021-07-06
# (参考訳) 高精度RGB-D能動物体検出のための深さ品質を考慮した特徴マニピュレーション [全文訳有]

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection ( http://arxiv.org/abs/2107.01779v2 )

ライセンス: CC BY 4.0
Wenbo Zhang, Ge-Peng Ji, Zhuo Wang, Keren Fu, Qijun Zhao(参考訳) rgb-d salient object detection (sod) は、従来のrgb sodに余分な奥行き情報を与えることで、研究の関心が高まっている。 しかし、既存のRGB-D SODモデルは効率と精度の両面でうまく機能しないことが多く、モバイルデバイスや現実世界の問題を妨げている。 根本的な課題は、モデルがほとんどパラメータを持たないように単純化されると、モデル精度が低下することです。 このジレンマに対処し,また深さ品質が精度に影響を与える重要な要因であるという事実にインスパイアされた上で,我々は,深度品質に触発された特徴操作(dqfm)プロセスを提案する。 dqfmは、低レベルのrgbと深度の特徴のアラインメントと、深度ストリームの全体的注意を利用して、クロスモーダル融合を明示的に制御し強化する。 DQFMを組み込み、DFM-Netと呼ばれる効率的な軽量モデルを得る。 我々のDFM-Netは、既存の非効率モデルと比較すると最先端の精度を達成し、一方CPU上では140ms(2.2$\times$以前の最速の高速モデルより高速)で、モデルサイズはわずか$\sim$8.5Mb(14.9%)である。 私たちのコードはhttps://github.com/z wbx/dfm-netで利用可能です。

RGB-D salient object detection (SOD) recently has attracted increasing research interest by benefiting conventional RGB SOD with extra depth information. However, existing RGB-D SOD models often fail to perform well in terms of both efficiency and accuracy, which hinders their potential applications on mobile devices and real-world problems. An underlying challenge is that the model accuracy usually degrades when the model is simplified to have few parameters. To tackle this dilemma and also inspired by the fact that depth quality is a key factor influencing the accuracy, we propose a novel depth quality-inspired feature manipulation (DQFM) process, which is efficient itself and can serve as a gating mechanism for filtering depth features to greatly boost the accuracy. DQFM resorts to the alignment of low-level RGB and depth features, as well as holistic attention of the depth stream to explicitly control and enhance cross-modal fusion. We embed DQFM to obtain an efficient light-weight model called DFM-Net, where we also design a tailored depth backbone and a two-stage decoder for further efficiency consideration. Extensive experimental results demonstrate that our DFM-Net achieves state-of-the-art accuracy when comparing to existing non-efficient models, and meanwhile runs at 140ms on CPU (2.2$\times$ faster than the prior fastest efficient model) with only $\sim$8.5Mb model size (14.9% of the prior lightest). Our code will be available at https://github.com/z wbx/DFM-Net.
翻訳日:2021-07-08 09:19:06 公開日:2021-07-06
# (参考訳) 機械学習の最前線における論理ロック:開発と機会に関する調査 [全文訳有]

Logic Locking at the Frontiers of Machine Learning: A Survey on Developments and Opportunities ( http://arxiv.org/abs/2107.01915v2 )

ライセンス: CC BY 4.0
Dominik Sisejkovic, Lennart M. Reimann, Elmira Moussavi, Farhad Merchant, Rainer Leupers(参考訳) 過去10年間、論理ロックの設計と評価において、エレクトロニクスサプライチェーン全体の集積回路の完全性を保護するための最重要技術として、多くの進歩があった。 しかし、機械学習の普及により、論理ロック方式を評価する新たな経路が最近導入された。 本稿では,現代機械学習モデルのフロンティアにおける論理ロック攻撃と対策の最近の展開を要約する。 提示された作業に基づいて、鍵となる取り組み、機会、課題が強調され、次世代ロジックロックの設計のための推奨事項が提供される。

In the past decade, a lot of progress has been made in the design and evaluation of logic locking; a premier technique to safeguard the integrity of integrated circuits throughout the electronics supply chain. However, the widespread proliferation of machine learning has recently introduced a new pathway to evaluating logic locking schemes. This paper summarizes the recent developments in logic locking attacks and countermeasures at the frontiers of contemporary machine learning models. Based on the presented work, the key takeaways, opportunities, and challenges are highlighted to offer recommendations for the design of next-generation logic locking.
翻訳日:2021-07-08 08:52:32 公開日:2021-07-06
# (参考訳) 気を付けろ! 視覚質問応答のアクティブラーニングにおける異常値の影響の検討 [全文訳有]

Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering ( http://arxiv.org/abs/2107.02331v1 )

ライセンス: CC BY 4.0
Siddharth Karamcheti, Ranjay Krishna, Li Fei-Fei, Christopher D. Manning(参考訳) アクティブな学習は、教師付き機械学習の膨大なデータニーズを軽減することを約束する。トピック分類やオブジェクト認識といった従来のタスクにおいて、サンプル効率を桁違いに向上させることに成功した。 5つのモデルと4つのデータセットにまたがって、視覚的な質問に答えるタスクでは、さまざまなアクティブラーニングアプローチがランダムな選択を上回ってはいません。 この相違を理解するために,本研究では,8つのアクティブな学習手法を例示し,その問題を集合的なアウトリーチとして同定する。 系統的アブレーション実験と定性的可視化により,プール型アクティブラーニングの劣化の原因は集団的外れ値であることを確認した。 特に,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。 今後の研究におけるこれらの外れ値の影響を緩和するための議論と規範的な勧告で締めくくります。

Active learning promises to alleviate the massive data needs of supervised machine learning: it has successfully improved sample efficiency by an order of magnitude on traditional tasks like topic classification and object recognition. However, we uncover a striking contrast to this promise: across 5 models and 4 datasets on the task of visual question answering, a wide variety of active learning approaches fail to outperform random selection. To understand this discrepancy, we profile 8 active learning methods on a per-example basis, and identify the problem as collective outliers -- groups of examples that active learning methods prefer to acquire but models fail to learn (e.g., questions that ask about text in images or require external knowledge). Through systematic ablation experiments and qualitative visualizations, we verify that collective outliers are a general phenomenon responsible for degrading pool-based active learning. Notably, we show that active learning sample efficiency increases significantly as the number of collective outliers in the active learning pool decreases. We conclude with a discussion and prescriptive recommendations for mitigating the effects of these outliers in future work.
翻訳日:2021-07-08 03:19:04 公開日:2021-07-06
# (参考訳) 頑健な自己監督型深層強化学習のためのマルチモーダル相互情報(MuMMI)トレーニング [全文訳有]

Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning ( http://arxiv.org/abs/2107.02339v1 )

ライセンス: CC BY 4.0
Kaiqi Chen, Yong Lee, Harold Soh(参考訳) この研究は、複数の、信頼性の低いセンサーを使って、有用で堅牢な深層世界のモデルを学ぶことに焦点を当てている。 現在の手法はモダリティ間の共有表現を十分に促進しないため、ダウンストリームタスクのパフォーマンスが低下し、特定のセンサに過度に依存する可能性がある。 解決策として,相互情報を低バウンドでトレーニングした多モード深層状態空間モデルを提案する。 鍵となる革新は、各モードの潜在符号間の一貫性を促進する特別に設計された密度比推定器である。 我々は,マルチモーダルなNatural MuJoCoベンチマークとテーブルワイピングタスクにおいて,ポリシーを(自己指導的な方法で)学習する作業を行った。 実験により,本手法は最先端の深部強化学習法,特に観察不足の有無において著しく優れていた。

This work focuses on learning useful and robust deep world models using multiple, possibly unreliable, sensors. We find that current methods do not sufficiently encourage a shared representation between modalities; this can cause poor performance on downstream tasks and over-reliance on specific sensors. As a solution, we contribute a new multi-modal deep latent state-space model, trained using a mutual information lower-bound. The key innovation is a specially-designed density ratio estimator that encourages consistency between the latent codes of each modality. We tasked our method to learn policies (in a self-supervised manner) on multi-modal Natural MuJoCo benchmarks and a challenging Table Wiping task. Experiments show our method significantly outperforms state-of-the-art deep reinforcement learning methods, particularly in the presence of missing observations.
翻訳日:2021-07-08 02:54:23 公開日:2021-07-06
# (参考訳) CDSATにおける証明生成 [全文訳有]

Proof Generation in CDSAT ( http://arxiv.org/abs/2107.02351v1 )

ライセンス: CC BY 4.0
Maria Paola Bonacina (Universit\`a degli Studi di Verona, Italy)(参考訳) SMTのCDSAT (Conflict-Driven Satisfiability) フレームワークの主な考え方は要約され、CDSATにおける証明生成へのアプローチにつながっている。

The main ideas in the CDSAT (Conflict-Driven Satisfiability) framework for SMT are summarized, leading to approaches to proof generation in CDSAT.
翻訳日:2021-07-08 02:37:42 公開日:2021-07-06
# (参考訳) ディープニューラルネットワークのインメモリ・アクセラレーションに及ぼすオンチップ・インターコネクトの影響 [全文訳有]

Impact of On-Chip Interconnect on In-Memory Acceleration of Deep Neural Networks ( http://arxiv.org/abs/2107.02358v1 )

ライセンス: CC BY 4.0
Gokul Krishnan, Sumit K. Mandal, Chaitali Chakrabarti, Jae-sun Seo, Umit Y. Ogras, Yu Cao(参考訳) ディープニューラルネットワーク(DNN)の普及に伴い、機械学習アルゴリズムは2つの異なる方向に進化してきた。 接続密度の増加はチップ上のデータ移動を増大させ、効率的なオンチップ通信をDNNアクセラレータの重要な機能にする。 この作品の貢献は3倍である。 まず,P2P(point-to-point) ベースの相互接続は,DNNに対して大量のオンチップデータ移動を処理できないことを示す。 第2に、SRAMおよびReRAMベースのインメモリコンピューティング(IMC)アーキテクチャにおけるP2Pとネットワークオンチップ(NoC)相互接続(メッシュなどの正規トポロジ)を、様々なDNNに対して評価する。 この分析は,IMC DNN加速器の最適相互接続選択の必要性を示している。 最後に、異なるDNNに対して実験的な評価を行い、NOC-treeとNoC-meshの両方を用いてIMCアーキテクチャの性能を実証的に取得する。 タイルレベルでは、NoC-treeはエッジで使用されるコンパクトDNNに適しており、接続密度の高いDNNを加速するためにはNoC-meshが必要であると結論付けている。 さらに,任意のDNNに対して相互接続の最適選択を決定する手法を提案する。 本手法では,任意のDNNの終端通信遅延を評価するために,NoCの解析モデルを用いる。 IMCアーキテクチャにおける相互接続最適化は、最先端のReRAMベースのIMCアーキテクチャと比較して、VGG-19推論におけるエネルギー遅延面積の最大6$\times$の改善をもたらすことを示す。

With the widespread use of Deep Neural Networks (DNNs), machine learning algorithms have evolved in two diverse directions -- one with ever-increasing connection density for better accuracy and the other with more compact sizing for energy efficiency. The increase in connection density increases on-chip data movement, which makes efficient on-chip communication a critical function of the DNN accelerator. The contribution of this work is threefold. First, we illustrate that the point-to-point (P2P)-based interconnect is incapable of handling a high volume of on-chip data movement for DNNs. Second, we evaluate P2P and network-on-chip (NoC) interconnect (with a regular topology such as a mesh) for SRAM- and ReRAM-based in-memory computing (IMC) architectures for a range of DNNs. This analysis shows the necessity for the optimal interconnect choice for an IMC DNN accelerator. Finally, we perform an experimental evaluation for different DNNs to empirically obtain the performance of the IMC architecture with both NoC-tree and NoC-mesh. We conclude that, at the tile level, NoC-tree is appropriate for compact DNNs employed at the edge, and NoC-mesh is necessary to accelerate DNNs with high connection density. Furthermore, we propose a technique to determine the optimal choice of interconnect for any given DNN. In this technique, we use analytical models of NoC to evaluate end-to-end communication latency of any given DNN. We demonstrate that the interconnect optimization in the IMC architecture results in up to 6$\times$ improvement in energy-delay-area product for VGG-19 inference compared to the state-of-the-art ReRAM-based IMC architectures.
翻訳日:2021-07-08 02:31:35 公開日:2021-07-06
# (参考訳) ユーザ中心の説明可能性のための臨床コンテキストの活用--糖尿病患者を例として [全文訳有]

Leveraging Clinical Context for User-Centered Explainability: A Diabetes Use Case ( http://arxiv.org/abs/2107.02359v1 )

ライセンス: CC BY 4.0
Shruthi Chari, Prithwish Chakraborty, Mohamed Ghalwash, Oshani Seneviratne, Elif K. Eyigoz, Daniel M. Gruen, Ching-Hua Chen, Pablo Meyer Rojas, Deborah L. McGuinness(参考訳) 医療のような高精度領域におけるAIモデルの学術的進歩は、現実世界の採用を促進するために説明可能である必要がある。 我々の過去の研究と継続的な相互作用は、患者に関するモデル推論を、使用状況に結びついた説明に結びつける方法があれば、医療専門家がより信頼できるAIシステムを使うことを示唆している。 特に、リスク予測は、診断と介入の重要性の複雑な問題であり、意思決定のために異なるソースを相談する。 実際にAIリスク予測モデルの改善を実現するために、我々は、患者の臨床状態、合併症のリスクに関するAI予測、予測をサポートするアルゴリズム的な説明の3つの側面に沿って、そのようなモデルを文脈化するための技術を探り始めた。 慢性腎臓病 (CKD) のリスクを評価する2型糖尿病 (T2DM) の症例において, 概念実証 (POC) を導入することで, これらの次元の重要性を検証した。 POCには、CKDのリスク予測モデル、予測のポストホック説明器、ドメイン知識とCPGを運用してコンテキストを提供する自然言語モジュールが含まれています。 本論文では,プライマリ・ケア・ドクター(PCP)をエンドユーザとして,最初の結果と臨床医からのフィードバックを紹介する。 我々のPOCアプローチは、複数の知識ソースと臨床シナリオをカバーし、データと予測をPCPに説明するために知識をブレンドし、医療専門家から熱心に反応した。

Academic advances of AI models in high-precision domains, like healthcare, need to be made explainable in order to enhance real-world adoption. Our past studies and ongoing interactions indicate that medical experts can use AI systems with greater trust if there are ways to connect the model inferences about patients to explanations that are tied back to the context of use. Specifically, risk prediction is a complex problem of diagnostic and interventional importance to clinicians wherein they consult different sources to make decisions. To enable the adoption of the ever improving AI risk prediction models in practice, we have begun to explore techniques to contextualize such models along three dimensions of interest: the patients' clinical state, AI predictions about their risk of complications, and algorithmic explanations supporting the predictions. We validate the importance of these dimensions by implementing a proof-of-concept (POC) in type-2 diabetes (T2DM) use case where we assess the risk of chronic kidney disease (CKD) - a common T2DM comorbidity. Within the POC, we include risk prediction models for CKD, post-hoc explainers of the predictions, and other natural-language modules which operationalize domain knowledge and CPGs to provide context. With primary care physicians (PCP) as our end-users, we present our initial results and clinician feedback in this paper. Our POC approach covers multiple knowledge sources and clinical scenarios, blends knowledge to explain data and predictions to PCPs, and received an enthusiastic response from our medical expert.
翻訳日:2021-07-08 02:11:35 公開日:2021-07-06
# (参考訳) 離散値ニューラル通信 [全文訳有]

Discrete-Valued Neural Communication ( http://arxiv.org/abs/2107.02367v1 )

ライセンス: CC BY 4.0
Dianbo Liu Dianbo_Liu, Alex Lamb, Kenji Kawaguchi, Anirudh Goyal, Chen Sun, Michael Curtis Mozer, Yoshua Bengio(参考訳) ディープラーニングは、完全に接続されたアーキテクチャから、位置要素で構成されるトランスフォーマ、スロットに分割されたモジュラアーキテクチャ、ノードで構成されるグラフニューラルネットなど、コンポーネント化された構造化モデルへと進化した。 構造化モデルでは、異なるコンポーネント間で動的かつおそらくスパースな通信を行う方法が興味深い質問である。 本稿では,成分間の伝達情報を離散表現に制限することが有効なボトルネックであるとする仮説を考察する。 動機づけ直観は、コミュニケーションが個別のシンボルを通して起こる人間の言語である。 個人は ``"cat" が自分の特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンにより、個人間のコミュニケーションは内部表現の個人差によって影響を受けない。 特殊コンポーネント間で動的に伝達される概念の値を識別するために、量子化機構をベクトル量子化変分オートエンコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラルネットワーク(DVNC)に使用する。 我々の実験によると、DVNCはトランスフォーマー、モジュラーアーキテクチャ、グラフニューラルネットワークなど、さまざまなアーキテクチャにおける体系的な一般化を大幅に改善する。 また、DVNCはハイパーパラメータの選択に頑健であり、実際に非常に有用であることを示す。 さらに、離散化過程の理論的正当性を確立し、ノイズロバスト性を高め、モデルの基礎となる次元性を低減できることを示した。

Deep learning has advanced from fully connected architectures to structured models organized into components, e.g., the transformer composed of positional elements, modular architectures divided into slots, and graph neural nets made up of nodes. In structured models, an interesting question is how to conduct dynamic and possibly sparse communication among the separate components. Here, we explore the hypothesis that restricting the transmitted information among components to discrete representations is a beneficial bottleneck. The motivating intuition is human language in which communication occurs through discrete symbols. Even though individuals have different understandings of what a ``"cat" is based on their specific experiences, the shared discrete token makes it possible for communication among individuals to be unimpeded by individual differences in internal representation. To discretize the values of concepts dynamically communicated among specialist components, we extend the quantization mechanism from the Vector-Quantized Variational Autoencoder to multi-headed discretization with shared codebooks and use it for discrete-valued neural communication (DVNC). Our experiments show that DVNC substantially improves systematic generalization in a variety of architectures -- transformers, modular architectures, and graph neural networks. We also show that the DVNC is robust to the choice of hyperparameters, making the method very useful in practice. Moreover, we establish a theoretical justification of our discretization process, proving that it has the ability to increase noise robustness and reduce the underlying dimensionality of the model.
翻訳日:2021-07-08 01:59:46 公開日:2021-07-06
# (参考訳) タスクに規定された明示的ハイパーパラメータ予測ポリシーの学習

Learning an Explicit Hyperparameter Prediction Policy Conditioned on Tasks ( http://arxiv.org/abs/2107.02378v1 )

ライセンス: CC BY 4.0
Jun Shu, Deyu Meng, Zongben Xu(参考訳) メタ学習は最近、機械学習コミュニティで注目を集めている。 新しいクエリデータのためのラベルを予測するために固有の予測ルールを学習する従来の機械学習とは対照的に、メタ学習は、観察したタスクから機械学習の学習方法論を学習することを目的としており、メタ学習学習手法を利用して新しいクエリタスクを一般化する。 本研究では,これらの学習手法を,すべての学習課題で共有される明示的なハイパーパラメータ予測ポリシーの学習として解釈する。 具体的には、メタラーナーと呼ばれるパラメータ化関数として表現され、トレーニング/テストタスクから適切なハイパーパラメータ設定にマッピングされ、メタ学習マシンと呼ばれる事前に指定された関数セットから抽出される。 このような設定により、メタ学習学習手法は、現在の多くのメタ学習手法によって固定されたハイパーパラメータを得る代わりに、様々なクエリタスクを柔軟に適合させることができる。 このようなメタ学習の理解は、一般的な損失/タスク/モデルで一般化境界を分析する従来の学習理論から容易に成功する。 この理論は自然に、抽出されたメタリーナーの品質を改善するための実現可能な制御戦略を導いており、少数ショット回帰、少数ショット分類、ドメイン一般化など、いくつかの典型的なメタ学習アプリケーションにおいて、その一般化能力を微妙に改善できることが証明されている。

Meta learning has attracted much attention recently in machine learning community. Contrary to conventional machine learning aiming to learn inherent prediction rules to predict labels for new query data, meta learning aims to learn the learning methodology for machine learning from observed tasks, so as to generalize to new query tasks by leveraging the meta-learned learning methodology. In this study, we interpret such learning methodology as learning an explicit hyperparameter prediction policy shared by all training tasks. Specifically, this policy is represented as a parameterized function called meta-learner, mapping from a training/test task to its suitable hyperparameter setting, extracted from a pre-specified function set called meta learning machine. Such setting guarantees that the meta-learned learning methodology is able to flexibly fit diverse query tasks, instead of only obtaining fixed hyperparameters by many current meta learning methods, with less adaptability to query task's variations. Such understanding of meta learning also makes it easily succeed from traditional learning theory for analyzing its generalization bounds with general losses/tasks/models. The theory naturally leads to some feasible controlling strategies for ameliorating the quality of the extracted meta-learner, verified to be able to finely ameliorate its generalization capability in some typical meta learning applications, including few-shot regression, few-shot classification and domain generalization.
翻訳日:2021-07-08 01:11:03 公開日:2021-07-06
# (参考訳) 人物再同定のためのトランスフォーマによる非交叉表現の学習 [全文訳有]

Learning Disentangled Representation Implicitly via Transformer for Occluded Person Re-Identification ( http://arxiv.org/abs/2107.02380v1 )

ライセンス: CC BY 4.0
Mengxi Jia, Xinhua Cheng, Shijian Lu and Jian Zhang(参考訳) 様々な咬合下での人物再同定(re-id)は、異なる咬合形態の人物画像が画像マッチングやランキングの誤認に苦しむため、長年の課題であった。 既存の手法の多くは、外部の意味的手がかりや特徴的類似性に応じて身体部位の空間的特徴を調整することでこの課題に取り組むが、このアライメントアプローチは複雑でノイズに敏感である。 我々は、厳密な人物像のアライメントや追加の監督を必要とせず、隠蔽されたre-IDを処理する非絡み合った表現学習ネットワークDRL-Netを設計する。 DRL-Netはトランスフォーマーアーキテクチャを活用することで、隠蔽された人物画像の局所的特徴のグローバルな推論を通じてアライメントフリーなre-IDを実現する。 変換器内のセマンティック・プライオリティ・オブジェクト・クエリーのガイダンスの下で、人間の体の一部や障害などの未定義のセマンティック・コンポーネントの表現を自動的に切り離すことによって画像の類似度を測定する。 さらに,変換器デコーダのデコリレーション制約を設計し,オブジェクトクエリにデコリレーションを課し,異なるセマンティックコンポーネントにもっと焦点を当てる。 咬合の干渉を効果的に除去するために,咬合特徴と識別ID特徴の分離を改善するコントラスト特徴学習技術(CFL)を設計する。 Occluded-DukeMTMC、Market1501、DukeMTMCといった包括的かつ包括的なre-IDベンチマークに対する大規模な実験は、DRL-Netが優れたre-ID性能を一貫して達成し、Occluded-DukeMTMCに対する大きなマージンによって最先端の状態を上回っていることを示している。

Person re-identification (re-ID) under various occlusions has been a long-standing challenge as person images with different types of occlusions often suffer from misalignment in image matching and ranking. Most existing methods tackle this challenge by aligning spatial features of body parts according to external semantic cues or feature similarities but this alignment approach is complicated and sensitive to noises. We design DRL-Net, a disentangled representation learning network that handles occluded re-ID without requiring strict person image alignment or any additional supervision. Leveraging transformer architectures, DRL-Net achieves alignment-free re-ID via global reasoning of local features of occluded person images. It measures image similarity by automatically disentangling the representation of undefined semantic components, e.g., human body parts or obstacles, under the guidance of semantic preference object queries in the transformer. In addition, we design a decorrelation constraint in the transformer decoder and impose it over object queries for better focus on different semantic components. To better eliminate interference from occlusions, we design a contrast feature learning technique (CFL) for better separation of occlusion features and discriminative ID features. Extensive experiments over occluded and holistic re-ID benchmarks (Occluded-DukeMTMC, Market1501 and DukeMTMC) show that the DRL-Net achieves superior re-ID performance consistently and outperforms the state-of-the-art by large margins for Occluded-DukeMTMC.
翻訳日:2021-07-08 01:09:36 公開日:2021-07-06
# (参考訳) 線形回帰と整数計画に基づく逆QSAR法

An Inverse QSAR Method Based on Linear Regression and Integer Programming ( http://arxiv.org/abs/2107.02381v1 )

ライセンス: CC BY 4.0
Jianshen Zhu, Naveed Ahmed Azam, Kazuya Haraguchi, Liang Zhao, Hiroshi Nagamochi and Tatsuya Akutsu(参考訳) 近年, ニューラルネットワーク(ANN)と混合整数線形計画(MILP)の両方を用いて, 化合物の分子構造を設計するための新しい枠組みが提案されている。 このフレームワークでは、まず化学グラフ $c$ の特徴ベクトル $f(c)$ を定義し、$x=f(c)$ を予測値 $\eta(x)$ の化学プロパティ $\pi$ から $c$ に写す ann を構築する。 その後、$c$から$f(c)$、$x$から$\eta(x)$の計算プロセスをシミュレートするmilpを定式化する。 化学特性 $\pi$ の目標値 $y^*$ が与えられると、milp を解くことで $\eta(f(c^\dagger))=y^*$ となる化学グラフ $c^\dagger$ を推測する。 本稿では,線形回帰を用いてANNの代わりに予測関数$\eta$を構築する。 そこで我々は,線形回帰による予測関数の計算過程をシミュレートするMILP式を導出した。 計算実験の結果,50個の非水素原子の化学グラフを推定できることが示唆された。

Recently a novel framework has been proposed for designing the molecular structure of chemical compounds using both artificial neural networks (ANNs) and mixed integer linear programming (MILP). In the framework, we first define a feature vector $f(C)$ of a chemical graph $C$ and construct an ANN that maps $x=f(C)$ to a predicted value $\eta(x)$ of a chemical property $\pi$ to $C$. After this, we formulate an MILP that simulates the computation process of $f(C)$ from $C$ and that of $\eta(x)$ from $x$. Given a target value $y^*$ of the chemical property $\pi$, we infer a chemical graph $C^\dagger$ such that $\eta(f(C^\dagger))=y^*$ by solving the MILP. In this paper, we use linear regression to construct a prediction function $\eta$ instead of ANNs. For this, we derive an MILP formulation that simulates the computation process of a prediction function by linear regression. The results of computational experiments suggest our method can infer chemical graphs with around up to 50 non-hydrogen atoms.
翻訳日:2021-07-08 00:44:26 公開日:2021-07-06
# (参考訳) Semi-TCL: 半教師付きトラックコントラスト表現学習 [全文訳有]

Semi-TCL: Semi-Supervised Track Contrastive Representation Learning ( http://arxiv.org/abs/2107.02396v1 )

ライセンス: CC BY 4.0
Wei Li, Yuanjun Xiong, Shuo Yang, Mingze Xu, Yongxin Wang, Wei Xia(参考訳) ビデオ内の複数のオブジェクトのオンライントラッキングには、モデリングとオブジェクトの出現のマッチングが不可欠である。 見た目の埋め込みを学習する以前の方法は、ビデオの時間的連続性を考慮せずにインスタンスレベルのマッチングに依存することが多い。 提案手法は,検出候補とトラッカーに残留するトラックの組込みを比較検討し,その組込みを学習するための新しいインスタンス間マッチング対象を設計する。 これにより、完全なトラックでラベル付けされたビデオだけでなく、ラベル付きまたは部分的にラベル付けされたビデオからも学習できます。 我々は,この学習目標を拘束的損失の精神に従って統一した形で実現する。 複数のオブジェクト追跡データセットに対する実験により,本手法は半教師付き手法による識別的外見埋め込みを効果的に学習し,代表的ベンチマーク上での芸術手法の性能向上を実証した。

Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.
翻訳日:2021-07-08 00:43:05 公開日:2021-07-06
# (参考訳) 一般から特定へ - Blind Super-Resolutionのオンライン更新 [全文訳有]

From General to Specific: Online Updating for Blind Super-Resolution ( http://arxiv.org/abs/2107.02398v1 )

ライセンス: CC BY 4.0
Shang Li, Guixuan Zhang, Zhengxiong Luo, Jie Liu, Zhi Zeng, Shuwu Zhang(参考訳) 深層学習に基づくスーパーレゾリューション(sr)の手法の多くは、画像固有のものではない: 1) テスト画像のドメインギャップに関係なく、事前定義されたぼかしカーネル(\eg bicubic)によって合成されたデータセット上で徹底的にトレーニングされる。 2) モデル重みは試験中に固定されるため, 様々な劣化のあるテスト画像は同じ重みで超解像される。 しかし、実際の画像の劣化は様々であり、未知である(\ie blind SR)。 ひとつのモデルがすべてのケースでうまく機能するのは困難です。 これらの問題を解決するために,オンライン超解像法(ONSR)を提案する。 事前に定義されたぼやけたカーネルに依存しず、テストイメージの劣化に応じてモデルの重みを更新できる。 具体的には、ONSRは2つのブランチ、すなわち、内部ブランチ(IB)と外部ブランチ(EB)から構成される。 IBは与えられた試験LR画像の特定の劣化を学習することができ、EBは学習した劣化によって劣化した画像の超解像を学習することができた。 このように、ONSRはテスト画像ごとに特定のモデルをカスタマイズできるため、実際のアプリケーションの様々な劣化に対してより寛容になる可能性がある。 合成画像と実世界の画像の広汎な実験により、ONSRはより視覚的に好ましいSR結果を生成し、ブラインドSRにおける最先端のパフォーマンスを達成できることが示された。

Most deep learning-based super-resolution (SR) methods are not image-specific: 1) They are exhaustively trained on datasets synthesized by predefined blur kernels (\eg bicubic), regardless of the domain gap with test images. 2) Their model weights are fixed during testing, which means that test images with various degradations are super-resolved by the same set of weights. However, degradations of real images are various and unknown (\ie blind SR). It is hard for a single model to perform well in all cases. To address these issues, we propose an online super-resolution (ONSR) method. It does not rely on predefined blur kernels and allows the model weights to be updated according to the degradation of the test image. Specifically, ONSR consists of two branches, namely internal branch (IB) and external branch (EB). IB could learn the specific degradation of the given test LR image, and EB could learn to super resolve images degraded by the learned degradation. In this way, ONSR could customize a specific model for each test image, and thus could be more tolerant with various degradations in real applications. Extensive experiments on both synthesized and real-world images show that ONSR can generate more visually favorable SR results and achieve state-of-the-art performance in blind SR.
翻訳日:2021-07-08 00:28:12 公開日:2021-07-06
# (参考訳) nrst:単眼ビデオによる非剛性表面追跡 [全文訳有]

NRST: Non-rigid Surface Tracking from Monocular Video ( http://arxiv.org/abs/2107.02407v1 )

ライセンス: CC BY 4.0
Marc Habermann, Weipeng Xu, Helge Rhodin, Michael Zollhoefer, Gerard Pons-Moll, Christian Theobalt(参考訳) モノクロRGBビデオからの非剛性表面追跡の効率的な手法を提案する。 ビデオとテンプレートメッシュが与えられた場合、我々のアルゴリズムはテンプレートをフレームごとに逐次登録する。 ファブリックの規則的なマイクロ構造パターンなど,均一なテクスチャと微細な構造を持つ物体を追跡するための新しいテクスチャ用語を含む最適化問題としてフレーム単位の登録を定式化する。 我々のテクスチャ用語は、例えば織物の糸パターンのようなオブジェクトの微細構造における配向情報を利用する。 これにより、このような高周波のマイクロ構造を持つ均一な色の物質を正確に追跡することができる。 その結果,本手法が汎用テクスチャ非剛体および単色織物に与える影響が示された。

We propose an efficient method for non-rigid surface tracking from monocular RGB videos. Given a video and a template mesh, our algorithm sequentially registers the template non-rigidly to each frame. We formulate the per-frame registration as an optimization problem that includes a novel texture term specifically tailored towards tracking objects with uniform texture but fine-scale structure, such as the regular micro-structural patterns of fabric. Our texture term exploits the orientation information in the micro-structures of the objects, e.g., the yarn patterns of fabrics. This enables us to accurately track uniformly colored materials that have these high frequency micro-structures, for which traditional photometric terms are usually less effective. The results demonstrate the effectiveness of our method on both general textured non-rigid objects and monochromatic fabrics.
翻訳日:2021-07-08 00:08:35 公開日:2021-07-06
# (参考訳) 深部視覚注意に基づく伝達クラスタリング [全文訳有]

Deep Visual Attention-Based Transfer Clustering ( http://arxiv.org/abs/2107.02415v1 )

ライセンス: CC BY 4.0
Akshaykumar Gunari, Shashidhar Veerappa Kudari, Sukanya Nadagadalli, Keerthi Goudnaik, Ramesh Ashok Tabib, Uma Mudenagudi, and Adarsh Jamadandi(参考訳) 本稿では,低変量データ分布に適用した場合に,Deep Transfer Clustering (DTC) の手法を即興的に改善する手法を提案する。 クラスタリングは、教師なし学習の最も重要な問題と見なすことができる。 単純なクラスタリングの定義は「何らかの方法でメンバーが類似しているグループにオブジェクトを整理するプロセス」と表現できる。 イメージクラスタリングは、ドメイン機械学習とコンピュータビジョンにおいて不可欠だが難しい課題である。 我々は,データのばらつきが少ないデータ収集のクラスタリングについて検討した。 深層移動クラスタリングにおける特徴抽出器として,通常の分類器ではなく注意に基づく分類器を用いて改善を議論した。 我々は、背景を考慮していない特徴を識別可能かつ堅牢にするために、画像に対する必要な領域のみを学習するようにモデルを強制した。 本稿では,既存のデータ分散のためのディープ転送クラスタリングの改善について述べる。

In this paper, we propose a methodology to improvise the technique of deep transfer clustering (DTC) when applied to the less variant data distribution. Clustering can be considered as the most important unsupervised learning problem. A simple definition of clustering can be stated as "the process of organizing objects into groups, whose members are similar in some way". Image clustering is a crucial but challenging task in the domain machine learning and computer vision. We have discussed the clustering of the data collection where the data is less variant. We have discussed the improvement by using attention-based classifiers rather than regular classifiers as the initial feature extractors in the deep transfer clustering. We have enforced the model to learn only the required region of interest in the images to get the differentiable and robust features that do not take into account the background. This paper is the improvement of the existing deep transfer clustering for less variant data distribution.
翻訳日:2021-07-07 23:55:38 公開日:2021-07-06
# (参考訳) 埋め込みの自動連結による拡張ユニバーサル依存性解析 [全文訳有]

Enhanced Universal Dependency Parsing with Automated Concatenation of Embeddings ( http://arxiv.org/abs/2107.02416v1 )

ライセンス: CC BY-SA 4.0
Xinyu Wang, Zixia Jia, Yong Jiang, Kewei Tu(参考訳) 本稿では,SHANGHAITECH チームから IWPT 2021 Shared Task に提出したシステムについて述べる。 本システムは,組込みの自動連結(ACE)技術を用いたグラフ解析システムである。 最近の研究で、異なる種類の埋め込みを結合することでより良い単語表現が得られることが分かったので、aceを使って拡張された普遍的な依存関係のタスクに対する埋め込みのより良い結合を見つけることができる。 公式の17言語の平均結果によると、私たちのシステムは9チーム中2位です。

This paper describes the system used in submission from SHANGHAITECH team to the IWPT 2021 Shared Task. Our system is a graph-based parser with the technique of Automated Concatenation of Embeddings (ACE). Because recent work found that better word representations can be obtained by concatenating different types of embeddings, we use ACE to automatically find the better concatenation of embeddings for the task of enhanced universal dependencies. According to official results averaged on 17 languages, our system ranks 2nd over 9 teams.
翻訳日:2021-07-07 23:49:24 公開日:2021-07-06
# (参考訳) 法律専門家システムのためのnlgパイプライン:進行中の作業 [全文訳有]

An NLG pipeline for a legal expert system: a work in progress ( http://arxiv.org/abs/2107.02421v1 )

ライセンス: CC BY-SA 4.0
Inari Listenmaa, Jason Morris, Alfred Ang, Maryam Hanafiah, Regina Cheong(参考訳) 法律や契約書作成のためのドメイン固有言語 (DSL) のプロトタイプである L4 の NLG コンポーネントについて述べる。 具体的なユースケースとして,l4コードから作成した法律専門家システムのパイプラインについて述べる。 NLGコンポーネントは2つのステップで使用される。 最初のステップは、自動推論のために回答をクエリとして処理するインタビューを作成することです。 第2のステップは、自然言語で推論者の回答を描画することだ。

We present the NLG component for L4, a prototype domain-specific language (DSL) for drafting laws and contracts. As a concrete use case, we describe a pipeline for a legal expert system created from L4 code. The NLG component is used in two steps. The first step is to create an interview, whose answers are processed into a query for an automated reasoner. The second step is to render the answers of the reasoner in natural language.
翻訳日:2021-07-07 23:38:51 公開日:2021-07-06
# (参考訳) コントラスト学習によるテキスト・画像合成の改善 [全文訳有]

Improving Text-to-Image Synthesis Using Contrastive Learning ( http://arxiv.org/abs/2107.02423v1 )

ライセンス: CC BY 4.0
Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji(参考訳) テキスト対画像合成の目標は、所定のテキスト記述にマッチする視覚的な画像を生成することである。 実際には、同じ画像に対して人間が注釈を付けるキャプションは、内容と単語の選択の点で大きなばらつきがある。 同一画像の字幕間の言語的な相違は、基礎的な真実から逸脱した合成画像につながる。 そこで本研究では,合成画像の品質向上とセマンティック一貫性向上のためのコントラスト学習手法を提案する。 事前学習段階では、コントラスト学習アプローチを用いて、同じ画像に対応するキャプションに対する一貫したテキスト表現を学習する。 さらに、GANトレーニングの次の段階において、同一画像に関連するキャプションから生成された画像間の一貫性を高めるために、コントラスト学習法を用いる。 CUBとCOCOのデータセット上で,2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価した。 実験の結果,IS,FID,R-精度の3つの指標を用いて,合成画像の品質を効果的に向上できることがわかった。 特に、挑戦的なCOCOデータセットでは、我々のアプローチは、AttnGAnよりも29.60%、DM-GANより21.96%、FIDを著しく向上させる。

The goal of text-to-image synthesis is to generate a visually realistic image that matches a given text description. In practice, the captions annotated by humans for the same image have large variance in terms of contents and the choice of words. The linguistic discrepancy between the captions of the identical image leads to the synthetic images deviating from the ground truth. To address this issue, we propose a contrastive learning approach to improve the quality and enhance the semantic consistency of synthetic images. In the pre-training stage, we utilize the contrastive learning approach to learn the consistent textual representations for the captions corresponding to the same image. Furthermore, in the following stage of GAN training, we employ the contrastive learning method to enhance the consistency between the generated images from the captions related to the same image. We evaluate our approach over two popular text-to-image synthesis models, AttnGAN and DM-GAN, on datasets CUB and COCO, respectively. Experimental results have shown that our approach can effectively improve the quality of synthetic images in terms of three metrics: IS, FID and R-precision. Especially, on the challenging COCO dataset, our approach boosts the FID significantly by 29.60% over AttnGAn and by 21.96% over DM-GAN.
翻訳日:2021-07-07 23:33:30 公開日:2021-07-06
# (参考訳) LTE-LAAとWi-Fi共存におけるモデルフリー強化学習のためのベイズ非パラメトリックモデリング

Bayesian Nonparametric Modelling for Model-Free Reinforcement Learning in LTE-LAA and Wi-Fi Coexistence ( http://arxiv.org/abs/2107.02431v1 )

ライセンス: CC BY 4.0
Po-Kan Shih, Bahman Moraffah(参考訳) 次世代無線通信の登場により、モノのインターネット、自動運転システム、ドローンといった新しいアプリケーションが、ライセンスされていない領域に群がっている。 長期進化(LTE)のようなライセンスネットワークは、低コストで高容量のコンテンツを提供するために、ライセンスされていないスペクトルにもたらされる。 しかし、LTEはリソースを他人と共有するように設計されていない。 従来のソリューションは通常、固定シナリオで動作する。 この研究は、Wi-FiとLTEライセンスアクセス(LTE-LAA)エージェントの5GHz帯の共存に対処する非パラメトリックベイズ強化学習アルゴリズムを特徴とする。 共存問題は分散部分観測可能なマルコフ決定過程(dec-pomdp)としてモデル化され、異なるエージェントに対する政策の不確実性に対応するために、非パラメトリックな政策学習にベイズ推論が採用される。 報酬関数に公正度尺度を導入し、エージェント間の公平な共有を促進する。 後続モデル近似の変分推論はアルゴリズムを計算効率良くすると考えられる。 シミュレーションの結果、このアルゴリズムは、少ない学習イテレーションで、コンパクトなポリシー表現で高い値に達することが示されている。

With the arrival of next generation wireless communication, a growing number of new applications like internet of things, autonomous driving systems, and drone are crowding the unlicensed spectrum. Licensed network such as the long-term evolution (LTE) also comes to the unlicensed spectrum for better providing high-capacity contents with low cost. However, LTE was not designed to share resources with others. Previous solutions usually work on fixed scenarios. This work features a Nonparametric Bayesian reinforcement learning algorithm to cope with the coexistence between Wi-Fi and LTE licensed assisted access (LTE-LAA) agents in 5 GHz unlicensed spectrum. The coexistence problem is modeled as a decentralized partially-observable Markov decision process (Dec-POMDP) and Bayesian inference is adopted for policy learning with nonparametric prior to accommodate the uncertainty of policy for different agents. A fairness measure is introduced in the reward function to encourage fair sharing between agents. Variational inference for posterior model approximation is considered to make the algorithm computationally efficient. Simulation results demonstrate that this algorithm can reach high value with compact policy representations in few learning iterations.
翻訳日:2021-07-07 23:17:49 公開日:2021-07-06
# (参考訳) シェル言語処理: 機械学習のためのunixコマンド解析 [全文訳有]

Shell Language Processing: Unix command parsing for Machine Learning ( http://arxiv.org/abs/2107.02438v1 )

ライセンス: CC BY 4.0
Dmitrijs Trizna(参考訳) 本稿では,unix と linux のシェルコマンドの構文解析を指向したトークン化とエンコーディングを実装した shell language preprocessing (slp) ライブラリを提案する。 従来の自然言語処理(NLP)パイプラインが故障した場合の具体的な例で,新しいアプローチの必要性の根拠を説明する。 さらに、広く受け入れられている情報通信技術(ICT)のトークン化技術に対するセキュリティ分類タスクの評価を行い、0.392から0.874までのF1スコアを大幅に改善した。

In this article, we present a Shell Language Preprocessing (SLP) library, which implements tokenization and encoding directed on the parsing of Unix and Linux shell commands. We describe the rationale behind the need for a new approach with specific examples when conventional Natural Language Processing (NLP) pipelines fail. Furthermore, we evaluate our methodology on a security classification task against widely accepted information and communications technology (ICT) tokenization techniques and achieve significant improvement of an F1-score from 0.392 to 0.874.
翻訳日:2021-07-07 23:16:44 公開日:2021-07-06
# (参考訳) floorlevel-net:高度誘導マルチタスク学習によるフロアレベルライン認識 [全文訳有]

FloorLevel-Net: Recognizing Floor-Level Lines with Height-Attention-Gui ded Multi-task Learning ( http://arxiv.org/abs/2107.02462v1 )

ライセンス: CC BY 4.0
Mengyang Wu, Wei Zeng, Chi-Wing Fu(参考訳) 隣接する建物の床を分割するフロアレベルラインの位置と順序を認識する能力は、都市拡張現実(AR)など、多くの応用に有用である。 本研究は, 教師付き深層学習手法を用いて, ストリートビュー画像中のフロアレベル線の位置を求める問題に対処する。 残念なことに、現在のストリートビューデータセットの$-$は、幾何学的属性を持たないセマンティックアノテーションを含むネットワークや、パースペクティブを含まない修正ファサードといったトレーニング用のデータはほとんどありません。 この問題に対処するため,我々はまず,新しいデータセットをコンパイルし,既存のファサードの豊富な意味を嫌がらせ(i)し,(ii)多様な街並みの建築物の視点からトレーニングサンプルを合成する新しいデータ拡張手法を開発した。 次にFloorLevel-Netを設計する。FloorLevel-Netは、ファサードと暗黙のフロアレベルラインの明示的な特徴と、フロアレベルラインの垂直順序を強制するハイトアテンション機構を関連付けるマルチタスク学習ネットワークである。 生成されたセグメンテーションは第2段階の幾何後処理に渡され、フロアレベルラインの可塑性かつ一貫した再構築のために自己制約付き幾何前処理を利用する。 既存のデータセットのファサードとgoogleのストリートビューで行った定量的・質的評価は、このアプローチの有効性を示しています。 また、文脈対応画像オーバーレイ結果を示し、AR関連アプリケーションの強化におけるアプローチの可能性を示す。

The ability to recognize the position and order of the floor-level lines that divide adjacent building floors can benefit many applications, for example, urban augmented reality (AR). This work tackles the problem of locating floor-level lines in street-view images, using a supervised deep learning approach. Unfortunately, very little data is available for training such a network $-$ current street-view datasets contain either semantic annotations that lack geometric attributes, or rectified facades without perspective priors. To address this issue, we first compile a new dataset and develop a new data augmentation scheme to synthesize training samples by harassing (i) the rich semantics of existing rectified facades and (ii) perspective priors of buildings in diverse street views. Next, we design FloorLevel-Net, a multi-task learning network that associates explicit features of building facades and implicit floor-level lines, along with a height-attention mechanism to help enforce a vertical ordering of floor-level lines. The generated segmentations are then passed to a second-stage geometry post-processing to exploit self-constrained geometric priors for plausible and consistent reconstruction of floor-level lines. Quantitative and qualitative evaluations conducted on assorted facades in existing datasets and street views from Google demonstrate the effectiveness of our approach. Also, we present context-aware image overlay results and show the potentials of our approach in enriching AR-related applications.
翻訳日:2021-07-07 23:12:44 公開日:2021-07-06
# (参考訳) EVARS-GPR: 季節データに対するガウス過程回帰の漸進的改善 [全文訳有]

EVARS-GPR: EVent-triggered Augmented Refitting of Gaussian Process Regression for Seasonal Data ( http://arxiv.org/abs/2107.02463v1 )

ライセンス: CC BY 4.0
Florian Haselbeck and Dominik G. Grimm(参考訳) 時系列予測は、様々なアプリケーションで成長する領域である。 しかし、内部または外部の影響によるシステム行動の変化は困難である。 したがって、既に学習したフォアキャスティングモデルの予測はもはや役に立たないかもしれない。 本稿では,季節データを対象としたEVARS-GPR(EVent-Trig gered Augmented Refitting of Gaussian Process Regression for Seasonal Data)を提案する。 この目的のために、EVARS-GPRは、オンライン変更点検出と、変更点に先立ってサンプルのデータ拡張を用いた予測モデルの再構成を併用する。 シミュレーションデータを用いた実験により,EVARS-GPRは幅広い出力スケール変化に適用可能であることが示された。 EVARS-GPRは、類似の計算資源消費法と比較して、異なる実世界のデータセット上で平均20.8%低いRMSEを持つ。 さらに,本アルゴリズムは,すべての比較パートナーと定期的な再実行戦略との関係から,平均ランタイムを6倍削減することを示した。 本稿では,対象変数の変動を伴う季節時系列の計算効率の高いオンラインフォアキャスティングアルゴリズムを提案するとともに,実世界データだけでなくシミュレーションデータにもその機能を示す。 すべてのコードはGitHubで公開されている。

Time series forecasting is a growing domain with diverse applications. However, changes of the system behavior over time due to internal or external influences are challenging. Therefore, predictions of a previously learned fore-casting model might not be useful anymore. In this paper, we present EVent-triggered Augmented Refitting of Gaussian Process Regression for Seasonal Data (EVARS-GPR), a novel online algorithm that is able to handle sudden shifts in the target variable scale of seasonal data. For this purpose, EVARS-GPR com-bines online change point detection with a refitting of the prediction model using data augmentation for samples prior to a change point. Our experiments on sim-ulated data show that EVARS-GPR is applicable for a wide range of output scale changes. EVARS-GPR has on average a 20.8 % lower RMSE on different real-world datasets compared to methods with a similar computational resource con-sumption. Furthermore, we show that our algorithm leads to a six-fold reduction of the averaged runtime in relation to all comparison partners with a periodical refitting strategy. In summary, we present a computationally efficient online fore-casting algorithm for seasonal time series with changes of the target variable scale and demonstrate its functionality on simulated as well as real-world data. All code is publicly available on GitHub: https://github.com/g rimmlab/evars-gpr.
翻訳日:2021-07-07 22:49:16 公開日:2021-07-06
# (参考訳) 深層学習ネットワークを用いた前立腺セグメンテーションのための新しいスマートクロッピングパイプライン [全文訳有]

A new smart-cropping pipeline for prostate segmentation using deep learning networks ( http://arxiv.org/abs/2107.02476v1 )

ライセンス: CC BY 4.0
Dimitrios G. Zaridis, Eugenia Mylona, Kostas Marias, Nikolaos Papanikolaou, Nikolaos S. Tachos, Dimitrios I. Fotiadis(参考訳) MRI(MRI)による前立腺の分節化は難しい課題である。 近年、このプロセスを自動化し、手動アノテーションの負担を軽減するために、いくつかのネットワークアーキテクチャが提案されている。 これらのモデルの性能は有望な結果を得たが、これらのモデルが安全かつ効果的に臨床で使用できるまでには改善の余地がある。 前立腺mr画像分割における大きな課題の1つは、背景画素が前立腺を支配する画像ラベルにおけるクラス不均衡の存在である。 本研究では,MRI画像から前立腺周辺の領域を抽出し,前景画素(前立腺)と背景画素のよりバランスのとれた分布を生成し,セグメンテーション精度を向上させるためのDLベースのパイプラインを提案する。 U-net、U-net+、Res Unet++、Bridge U-net、Dense U-netの5つの有名なDLネットワークを用いて、DL-croppingによるセグメンテーション性能の向上効果を評価する。 提案したスマートクロッピングは、評価された前立腺区分けネットワークのセグメンテーション精度の観点から、標準中心収量よりも優れていた。 Diceのスコアでは、それぞれ8.9%と8%に対応するU-net+とResU-net++アーキテクチャで最高の改善が達成された。

Prostate segmentation from magnetic resonance imaging (MRI) is a challenging task. In recent years, several network architectures have been proposed to automate this process and alleviate the burden of manual annotation. Although the performance of these models has achieved promising results, there is still room for improvement before these models can be used safely and effectively in clinical practice. One of the major challenges in prostate MR image segmentation is the presence of class imbalance in the image labels where the background pixels dominate over the prostate. In the present work we propose a DL-based pipeline for cropping the region around the prostate from MRI images to produce a more balanced distribution of the foreground pixels (prostate) and the background pixels and improve segmentation accuracy. The effect of DL-cropping for improving the segmentation performance compared to standard center-cropping is assessed using five popular DL networks for prostate segmentation, namely U-net, U-net+, Res Unet++, Bridge U-net and Dense U-net. The proposed smart-cropping outperformed the standard center cropping in terms of segmentation accuracy for all the evaluated prostate segmentation networks. In terms of Dice score, the highest improvement was achieved for the U-net+ and ResU-net++ architectures corresponding to 8.9% and 8%, respectively.
翻訳日:2021-07-07 22:32:27 公開日:2021-07-06
# (参考訳) 顔クラスタリングと不均衡データセットのGCNに基づくリンク予測:実証的研究 [全文訳有]

GCN-Based Linkage Prediction for Face Clusteringon Imbalanced Datasets: An Empirical Study ( http://arxiv.org/abs/2107.02477v1 )

ライセンス: CC BY 4.0
Huafeng Yang, Xingjian Chen, Fangyi Zhang, Guangyue Hei, Yunjie Wang and Rong Du(参考訳) 近年、グラフ畳み込みネットワーク(GCN)の表現力の恩恵を受け、顔クラスタリングにおいて重要なブレークスルーが達成されている。 しかし、GCNベースのクラスタリングには、不均衡なデータに注意が払われている。 不均衡問題は広く研究されているが、GCNベースのリンク予測タスクにおける不均衡データの影響は、不均衡なリンクラベルとバイアス付きグラフ再試行の2つの側面で問題を引き起こす。 画像分類タスクに類似した不均衡なリンケージラベシスの問題は、リンケージ予測によるGCNベースのclus-teringにおいて特に問題である。 トレーニングにおける有意なバイアスドグラフ表現は、gcnモデルのカタストロフィックな過剰フィットを引き起こす可能性がある。 これらの問題に対処するために,広範に実験されたグラフ上の不均衡な画像分類問題に対する既存手法の有効性を評価するとともに,Reverse-Im Balance Weighted Sam-pling (RIWS) 戦略を用いて,不均衡なラベルとグラフ表現を緩和する新たな手法を提案する。 MS-Celeb-1MとDeepFashionから合成された一連の不均衡ベンチマークデータセットが公開されている。

In recent years, benefiting from the expressivepower of Graph Convolutional Networks (GCNs),significant breakthroughs have been made in faceclustering. However, rare attention has been paidto GCN-based clustering on imbalanced data. Al-though imbalance problem has been extensivelystudied, the impact of imbalanced data on GCN-based linkage prediction task is quite different,which would cause problems in two aspects: im-balanced linkage labels and biased graph represen-tations. The problem of imbalanced linkage labelsis similar to that in image classification task, but thelatter is a particular problem in GCN-based clus-tering via linkage prediction. Significantly biasedgraph representations in training can cause catas-trophic overfitting of a GCN model. To tacklethese problems, we evaluate the feasibility of thoseexisting methods for imbalanced image classifica-tion problem on graphs with extensive experiments,and present a new method to alleviate the imbal-anced labels and also augment graph representa-tions using a Reverse-Imbalance Weighted Sam-pling (RIWS) strategy, followed with insightfulanalyses and discussions. A series of imbalancedbenchmark datasets synthesized from MS-Celeb-1M and DeepFashion will be openly available.
翻訳日:2021-07-07 22:17:56 公開日:2021-07-06
# (参考訳) Midwifery Learning and Forecasting: ユーザ生成ログによるコンテンツ需要予測 [全文訳有]

Midwifery Learning and Forecasting: Predicting Content Demand with User-Generated Logs ( http://arxiv.org/abs/2107.02480v1 )

ライセンス: CC BY 4.0
Anna Guitart, Ana Fern\'andez del R\'io and \'Africa Peri\'a\~nez(参考訳) 毎日800人の女性と6700人の新生児が妊娠や出産に関連する合併症で死亡している。 十分に訓練された助産婦は、これらの母子および新生児の死亡をほとんど防げる。 データサイエンスモデルと、助産婦向けのオンライン学習アプリケーションのユーザが生成したログは、学習能力の向上に役立つ。 目標は、これらのリッチな行動データを使用して、デジタル学習をパーソナライズされたコンテンツへと押し上げ、適応的な学習旅行を提供することだ。 本研究では,アプリ内で利用可能なさまざまな種類のコンテンツに対して,将来的な利用者の興味を判断するための各種予測手法の評価を行う。

Every day, 800 women and 6,700 newborns die from complications related to pregnancy or childbirth. A well-trained midwife can prevent most of these maternal and newborn deaths. Data science models together with logs generated by users of online learning applications for midwives can help to improve their learning competencies. The goal is to use these rich behavioral data to push digital learning towards personalized content and to provide an adaptive learning journey. In this work, we evaluate various forecasting methods to determine the interest of future users on the different kind of contents available in the app, broken down by profession and region.
翻訳日:2021-07-07 22:06:24 公開日:2021-07-06
# (参考訳) ロシア感覚データセットにおける伝達学習による結果改善 [全文訳有]

Transfer Learning for Improving Results on Russian Sentiment Datasets ( http://arxiv.org/abs/2107.02499v1 )

ライセンス: CC BY 4.0
Anton Golubev and Natalia Loukachevitch(参考訳) 本研究では,遠距離監視技術を用いて作成した追加の列車サンプルを用いて,ロシアの感情ベンチマークデータセットの転送学習手法をテストする。 追加データとベンチマークトレインのサンプルを組み合わせるいくつかの変種を比較した。 最善の結果は, 一般, テーマ, オリジナルの列車サンプルの逐次訓練による3段階のアプローチで得られた。 ほとんどのデータセットでは、現在の最先端の手法よりも3%以上改善された。 感情分類問題を自然言語推論タスクとして扱うBERT-NLIモデルは、データセットの1つで人間の感情分析レベルに達した。

In this study, we test transfer learning approach on Russian sentiment benchmark datasets using additional train sample created with distant supervision technique. We compare several variants of combining additional data with benchmark train samples. The best results were achieved using three-step approach of sequential training on general, thematic and original train samples. For most datasets, the results were improved by more than 3% to the current state-of-the-art methods. The BERT-NLI model treating sentiment classification problem as a natural language inference task reached the human level of sentiment analysis on one of the datasets.
翻訳日:2021-07-07 21:59:02 公開日:2021-07-06
# (参考訳) 感情分析法を用いたソーシャルメディアテキストコーパスからの否定的要因の同定 [全文訳有]

Identifying negativity factors from social media text corpus using sentiment analysis method ( http://arxiv.org/abs/2107.02175v1 )

ライセンス: CC BY 4.0
Mohammad Aimal, Maheen Bakhtyar, Junaid Baber, Sadia Lakho, Umar Mohammad, Warda Ahmed, Jahanvash Karim(参考訳) 自動感情分析は意思決定において重要な役割を果たす。 多くの組織は、フィードバックや投稿やツイートを手作業で見渡すことで顧客満足度を理解するために多くの予算を費やしています。 自動感情分析は、あらゆるイベント、製品、活動に対して受け取ったコメントの全体像を与えることができる。 通常、コメント/ツイートは2つの主要なクラスに分類される。 しかし、否定的なコメントは、基本的な理由や文脈を理解するには抽象的すぎる。 組織は否定の正確な理由を 特定することに興味があります 本研究では,否定的なコメントを階層的に分類し,さらに多くのクラスにリンクする。 ツイートはTwitterやFacebookなどのソーシャルメディアサイトから抽出される。 感情分析が任意のツイートを負のクラスに分類すると、その否定的なコメントとより可能な負のクラスを関連付けようとする。 専門家の意見に基づいて、ネガティブコメント/ツイートはさらに8つのクラスに分類される。 異なる機械学習アルゴリズムを評価し、その精度を報告する。

Automatic sentiment analysis play vital role in decision making. Many organizations spend a lot of budget to understand their customer satisfaction by manually going over their feedback/comments or tweets. Automatic sentiment analysis can give overall picture of the comments received against any event, product, or activity. Usually, the comments/tweets are classified into two main classes that are negative or positive. However, the negative comments are too abstract to understand the basic reason or the context. organizations are interested to identify the exact reason for the negativity. In this research study, we hierarchically goes down into negative comments, and link them with more classes. Tweets are extracted from social media sites such as Twitter and Facebook. If the sentiment analysis classifies any tweet into negative class, then we further try to associates that negative comments with more possible negative classes. Based on expert opinions, the negative comments/tweets are further classified into 8 classes. Different machine learning algorithms are evaluated and their accuracy are reported.
翻訳日:2021-07-07 21:50:38 公開日:2021-07-06
# (参考訳) 位置, 位置: 素早い韻律転写パラダイムを用いたテキスト音声合成の評価の強化 [全文訳有]

Location, Location: Enhancing the Evaluation of Text-to-Speech Synthesis Using the Rapid Prosody Transcription Paradigm ( http://arxiv.org/abs/2107.02527v1 )

ライセンス: CC BY 4.0
Elijah Gutierrez, Pilar Oplustil-Gallegos, Catherine Lai(参考訳) テキストから音声への合成システムは、平均世論スコア(mos)テストを用いて一般的に評価され、リスナーはlikertスケールで合成音声のサンプルをスコアする。 MOSテストの大きな欠点は、それらが全体的な品質、すなわち発話の自然な性質の一般的な尺度しか提供していないことである。 これにより、発話における韻律変化の適切性を評価することができる。 そこで本研究では,高速な韻律転写パラダイムに基づく新しい評価手法を提案する。 これによりリスナーは、発話中のエラーの位置をリアルタイムでマークすることができ、合成信号で発生する知覚的エラーの確率的表現を提供する。 我々は, 細粒度評価が標準mosテストのシステムランキングにマッピング可能であることを確認する実験を行うが, 誤差マーキングは合成韻律をより包括的に評価する。 特に、標準オーディオブックテストセットのサンプルでは、句読点で示される主要な韻律境界で、エラーマークが一貫して単語の周りに集まります。 しかし,情報構造を制御する質問応答型刺激では,文脈に適合した韻律プロミネンスを生成する神経ttsシステムの能力に差が現れる。

Text-to-Speech synthesis systems are generally evaluated using Mean Opinion Score (MOS) tests, where listeners score samples of synthetic speech on a Likert scale. A major drawback of MOS tests is that they only offer a general measure of overall quality-i.e., the naturalness of an utterance-and so cannot tell us where exactly synthesis errors occur. This can make evaluation of the appropriateness of prosodic variation within utterances inconclusive. To address this, we propose a novel evaluation method based on the Rapid Prosody Transcription paradigm. This allows listeners to mark the locations of errors in an utterance in real-time, providing a probabilistic representation of the perceptual errors that occur in the synthetic signal. We conduct experiments that confirm that the fine-grained evaluation can be mapped to system rankings of standard MOS tests, but the error marking gives a much more comprehensive assessment of synthesized prosody. In particular, for standard audiobook test set samples, we see that error marks consistently cluster around words at major prosodic boundaries indicated by punctuation. However, for question-answer based stimuli, where we control information structure, we see differences emerge in the ability of neural TTS systems to generate context-appropriate prosodic prominence.
翻訳日:2021-07-07 21:42:27 公開日:2021-07-06
# (参考訳) AdaSpeech 3:自発スタイルの音声への適応テキスト [全文訳有]

AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style ( http://arxiv.org/abs/2107.02530v1 )

ライセンス: CC BY 4.0
Yuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan Shen, Wei-Qiang Zhang, Tie-Yan Liu(参考訳) 最近のテキスト・ツー・スピーチ(tts)モデルは、読み方(例えば、オーディオブック)の音声合成において非常によく機能するが、主に2つの理由から、自発的な音声(例えば、ポッドキャストや会話)を合成することは依然として困難である。 本稿では,自発的音声の読み上げ型ttsモデルを微調整した適応型ttsシステムadaspeech 3を開発した。 Specifically, 1) to insert filled pauses (FP) in the text sequence appropriately, we introduce an FP predictor to the TTS model; 2) to model the varying rhythms, we introduce a duration predictor based on mixture of experts (MoE), which contains three experts responsible for the generation of fast, medium and slow speech respectively, and fine-tune it as well as the pitch predictor for rhythm adaptation; 3) to adapt to other speaker timbre, we fine-tune some parameters in the decoder with few speech data. 学習データ不足の課題に対処するため,本研究を支援するために,自発音声データセットをマイニングし,将来的なTTS研究を促進する。 実験により、AdaSpeech 3は自然なFPとリズムを自然のスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSのスコアを得ることが示された。

While recent text to speech (TTS) models perform very well in synthesizing reading-style (e.g., audiobook) speech, it is still challenging to synthesize spontaneous-style speech (e.g., podcast or conversation), mainly because of two reasons: 1) the lack of training data for spontaneous speech; 2) the difficulty in modeling the filled pauses (um and uh) and diverse rhythms in spontaneous speech. In this paper, we develop AdaSpeech 3, an adaptive TTS system that fine-tunes a well-trained reading-style TTS model for spontaneous-style speech. Specifically, 1) to insert filled pauses (FP) in the text sequence appropriately, we introduce an FP predictor to the TTS model; 2) to model the varying rhythms, we introduce a duration predictor based on mixture of experts (MoE), which contains three experts responsible for the generation of fast, medium and slow speech respectively, and fine-tune it as well as the pitch predictor for rhythm adaptation; 3) to adapt to other speaker timbre, we fine-tune some parameters in the decoder with few speech data. To address the challenge of lack of training data, we mine a spontaneous speech dataset to support our research this work and facilitate future research on spontaneous TTS. Experiments show that AdaSpeech 3 synthesizes speech with natural FP and rhythms in spontaneous styles, and achieves much better MOS and SMOS scores than previous adaptive TTS systems.
翻訳日:2021-07-07 21:29:44 公開日:2021-07-06
# (参考訳) 放射状ニューラルネットワークにおけるQR分解 [全文訳有]

The QR decomposition for radial neural networks ( http://arxiv.org/abs/2107.02550v1 )

ライセンス: CC BY 4.0
Iordan Ganev, Robin Walters(参考訳) 本稿では,クイバーの表現論の観点からニューラルネットワークの理論的枠組みを提案し,ニューラルネットワークのパラメータ空間の対称性を明らかにする。 これらの対称性の活用により、QR分解の類似に基づくラジアルニューラルネットワークのモデル圧縮アルゴリズムが実現される。 オリジナルのモデルでのバックプロパゲーションの投影バージョンは、圧縮モデルでの通常のバックプロパゲーションと一致する。

We provide a theoretical framework for neural networks in terms of the representation theory of quivers, thus revealing symmetries of the parameter space of neural networks. An exploitation of these symmetries leads to a model compression algorithm for radial neural networks based on an analogue of the QR decomposition. A projected version of backpropogation on the original model matches usual backpropogation on the compressed model.
翻訳日:2021-07-07 21:16:41 公開日:2021-07-06
# (参考訳) 構造シーンにおける自律走行のためのHDマップを用いた粗大なセマンティック位置決め [全文訳有]

Coarse-to-fine Semantic Localization with HD Map for Autonomous Driving in Structural Scenes ( http://arxiv.org/abs/2107.02557v1 )

ライセンス: CC BY-SA 4.0
Chengcheng Guo, Minjie Lin, Heyang Guo, Pengpeng Liang and Erkang Cheng(参考訳) ロバストで正確な位置決めは、ロボットのナビゲーションと自動運転に欠かせない要素である。 高精細マップ(HD Map)を用いたローカライズのためのカメラの使用は、安価なローカライズセンサーセットを提供する。 既存の手法では、エラーが生じたデータアソシエーションや、正確な初期ポーズ要求による初期化によるポーズ推定の失敗に悩まされている。 本稿では,カメラを主センサとする自律運転用HDマップを用いたコスト効率の高い車両位置決めシステムを提案する。 この目的のために、視覚的セマンティクスをHDマップのランドマークにマップするデータ関連問題として視覚ベースのローカライゼーションを定式化する。 具体的には、粗いGPS(Global Positioning System)測定と細かなポーズ探索を組み合わせることで、粗い方法でシステム初期化を完了させる。 追跡段階において、車両のポーズは、画像とランドマークのセマンティックセグメンテーション結果を、光度一貫性のあるHDマップに暗黙的にアライメントすることで洗練される。 そして、スライディングウインドウ方式のポーズグラフ最適化により車両ポーズを算出する。 本手法は2つのデータセット上で評価し,提案手法が異なる運転シナリオにおいて有望なローカライズ結果をもたらすことを示す。 さらに,本手法は,一眼レフカメラとマルチカメラの両方に適しており,フレキシビリティとローカライゼーションシステムの堅牢性向上を実現している。

Robust and accurate localization is an essential component for robotic navigation and autonomous driving. The use of cameras for localization with high definition map (HD Map) provides an affordable localization sensor set. Existing methods suffer from pose estimation failure due to error prone data association or initialization with accurate initial pose requirement. In this paper, we propose a cost-effective vehicle localization system with HD map for autonomous driving that uses cameras as primary sensors. To this end, we formulate vision-based localization as a data association problem that maps visual semantics to landmarks in HD map. Specifically, system initialization is finished in a coarse to fine manner by combining coarse GPS (Global Positioning System) measurement and fine pose searching. In tracking stage, vehicle pose is refined by implicitly aligning the semantic segmentation result between image and landmarks in HD maps with photometric consistency. Finally, vehicle pose is computed by pose graph optimization in a sliding window fashion. We evaluate our method on two datasets and demonstrate that the proposed approach yields promising localization results in different driving scenarios. Additionally, our approach is suitable for both monocular camera and multi-cameras that provides flexibility and improves robustness for the localization system.
翻訳日:2021-07-07 20:42:35 公開日:2021-07-06
# (参考訳) 学習し、学習し、まだ学べない点の優先訓練 [全文訳有]

Prioritized training on points that are learnable, worth learning, and not yet learned ( http://arxiv.org/abs/2107.02565v1 )

ライセンス: CC BY 4.0
S\"oren Mindermann, Muhammed Razzak, Winnie Xu, Andreas Kirsch, Mrinank Sharma, Adrien Morisot, Aidan N. Gomez, Sebastian Farquhar, Jan Brauner, Yarin Gal(参考訳) 我々は,"正しい"トレーニングポイントのシーケンスを選択する,より高速なモデルトレーニングのための手法であるgoldilocks selectionを紹介する。 検証セットに関する情報を最大化するトレーニングポイントを効率的に選択するために、情報理論的な取得関数 -- 還元可能な検証損失 -- を提案し、小さなプロキシモデル -- goldiprox -- で計算する。 ハード”(例えば、ハード)を示す。 通常最適化文学で選択される)ポイントはノイズが多いが、"easy"(例えば)はノイズが多い。 低いノイズ) カリキュラム学習のために 優先されるサンプルは 少ない情報を与える さらに、アクティブラーニングを対象とする不確実なラベルを持つポイントは、タスクにはあまり関連しない傾向にある。 対照的に、Goldilocks Selectionは「正しい」点を選択し、上記のアプローチを経験的に上回っている。 さらに、選択されたシーケンスは他のアーキテクチャに転送できる。

We introduce Goldilocks Selection, a technique for faster model training which selects a sequence of training points that are "just right". We propose an information-theoreti c acquisition function -- the reducible validation loss -- and compute it with a small proxy model -- GoldiProx -- to efficiently choose training points that maximize information about a validation set. We show that the "hard" (e.g. high loss) points usually selected in the optimization literature are typically noisy, while the "easy" (e.g. low noise) samples often prioritized for curriculum learning confer less information. Further, points with uncertain labels, typically targeted by active learning, tend to be less relevant to the task. In contrast, Goldilocks Selection chooses points that are "just right" and empirically outperforms the above approaches. Moreover, the selected sequence can transfer to other architectures; practitioners can share and reuse it without the need to recreate it.
翻訳日:2021-07-07 20:31:12 公開日:2021-07-06
# (参考訳) dcase 2021チャレンジタスク4における騒音学生モデルと半教師付き損失関数を用いた自己学習 [全文訳有]

Self-training with noisy student model and semi-supervised loss function for dcase 2021 challenge task 4 ( http://arxiv.org/abs/2107.02569v1 )

ライセンス: CC BY 4.0
Nam Kyun Kim and Hong Kook Kim(参考訳) 本報告では,DCASE 2021 Challenge Task 4における多声音事象検出(SED)手法を提案する。 提案するsedモデルは,弱ラベルデータや無ラベルデータに関する目標ラベルを提供する平均教師モデルと,音響イベントの強いラベルを予測する自己学習型雑音学生モデルである。 教師と生徒モデルの残差畳み込みリカレントニューラルネットワーク(rcrnn)に基づく平均教師モデルは、まず弱いラベル付きデータセット、ラベル付きデータセット、強いラベル付き合成データセットからのすべてのトレーニングデータを使用してトレーニングされる。 そして、訓練された平均教師モデルは、弱ラベル付きおよび未ラベル付きデータセットのそれぞれに強いラベルを予測し、提案したSEDモデルの第2段階でノイズの多い学生モデルに導かれる。 ここで,ノイズの大きい学生モデルの構造は,第1段階における平均教師モデルのrcrnnに基づく学生モデルと同一である。 次に、時間周波数シフト、ミックスアップ、SpecAugment、ドロップアウトベースのモデルノイズなどの特徴ノイズを追加することで、自己学習を行う。 さらに, 半教師付き損失関数を適用し, ラベルノイズインジェクションとして振る舞う学生モデルの学習を行う。 提案したSEDモデルの性能はDCASE 2021チャレンジタスク4の検証セットに基づいて評価され、その後、半教師付き損失関数の異なるハイパーパラメータと5倍の検証モデルを組み合わせた複数のアンサンブルモデルが最終的に最終モデルとして選択される。

This report proposes a polyphonic sound event detection (SED) method for the DCASE 2021 Challenge Task 4. The proposed SED model consists of two stages: a mean-teacher model for providing target labels regarding weakly labeled or unlabeled data and a self-training-based noisy student model for predicting strong labels for sound events. The mean-teacher model, which is based on the residual convolutional recurrent neural network (RCRNN) for the teacher and student model, is first trained using all the training data from a weakly labeled dataset, an unlabeled dataset, and a strongly labeled synthetic dataset. Then, the trained mean-teacher model predicts the strong label to each of the weakly labeled and unlabeled datasets, which is brought to the noisy student model in the second stage of the proposed SED model. Here, the structure of the noisy student model is identical to the RCRNN-based student model of the mean-teacher model in the first stage. Then, it is self-trained by adding feature noises, such as time-frequency shift, mixup, SpecAugment, and dropout-based model noise. In addition, a semi-supervised loss function is applied to train the noisy student model, which acts as label noise injection. The performance of the proposed SED model is evaluated on the validation set of the DCASE 2021 Challenge Task 4, and then, several ensemble models that combine five-fold validation models with different hyperparameters of the semi-supervised loss function are finally selected as our final models.
翻訳日:2021-07-07 20:20:26 公開日:2021-07-06
# (参考訳) 代表的重なり点を用いた点雲登録 [全文訳有]

Point Cloud Registration using Representative Overlapping Points ( http://arxiv.org/abs/2107.02583v1 )

ライセンス: CC BY 4.0
Lifa Zhu, Dongrui Liu, Changwei Lin, Rui Yan, Francisco G\'omez-Fern\'andez, Ninghua Yang, Ziyong Feng(参考訳) 3dポイントクラウド登録は、ロボティクスとコンピュータビジョンの基本的なタスクである。 近年,対応に基づく学習ベースのポイントクラウド登録手法が数多く登場している。 しかし、これらの手法はそのような対応に大きく依存しており、部分的な重複を伴う大きな課題に対処する。 本稿では,部分的~部分的登録を部分的~完全登録に変換する識別特徴を持つ代表重複点を用いた新しい深層学習モデル ROPNetを提案する。 具体的には,エンコーダを用いてポイントオーバーラップスコアの予測にグローバルな特徴を抽出するコンテキスト誘導モジュールを提案する。 重なり合う点をよりよく見つけるために、抽出したグローバルな特徴を粗いアライメントに利用する。 次に,点特徴を豊かにし,点重なりスコアと特徴マッチングに基づく非表現点を除去するトランスを提案する。 類似度行列は部分完全モードで構築され、最後に重み付けされたSVDを用いて変換行列を推定する。 ノイズと部分重複点クラウドを用いたmodelnet40の広範な実験により、提案手法が従来の学習ベースの手法よりも優れており、最先端のパフォーマンスを実現していることが示された。 コードはhttps://github.com/z hulf0804/ROPNetで公開されている。

3D point cloud registration is a fundamental task in robotics and computer vision. Recently, many learning-based point cloud registration methods based on correspondences have emerged. However, these methods heavily rely on such correspondences and meet great challenges with partial overlap. In this paper, we propose ROPNet, a new deep learning model using Representative Overlapping Points with discriminative features for registration that transforms partial-to-partial registration into partial-to-complete registration. Specifically, we propose a context-guided module which uses an encoder to extract global features for predicting point overlap score. To better find representative overlapping points, we use the extracted global features for coarse alignment. Then, we introduce a Transformer to enrich point features and remove non-representative points based on point overlap score and feature matching. A similarity matrix is built in a partial-to-complete mode, and finally, weighted SVD is adopted to estimate a transformation matrix. Extensive experiments over ModelNet40 using noisy and partially overlapping point clouds show that the proposed method outperforms traditional and learning-based methods, achieving state-of-the-art performance. The code is available at https://github.com/z hulf0804/ROPNet.
翻訳日:2021-07-07 20:11:15 公開日:2021-07-06
# (参考訳) 多地点医用画像セグメンテーションのための差動的federated deep learning [全文訳有]

Differentially private federated deep learning for multi-site medical image segmentation ( http://arxiv.org/abs/2107.02586v1 )

ライセンス: CC BY 4.0
Alexander Ziller, Dmitrii Usynin, Nicolas Remerscheid, Moritz Knolle, Marcus Makowski, Rickmer Braren, Daniel Rueckert, Georgios Kaissis(参考訳) フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。 最近のイニシアティブでは、flでトレーニングされたセグメンテーションモデルが、ローカルトレーニングされたモデルと同じようなパフォーマンスを達成できることが示されている。 しかし、flは完全なプライバシー保護技術ではなく、プライバシー中心の攻撃は機密の患者データを開示することができる。 したがって、差分プライバシー(dp)のようなプライバシエンハンシング技術(pts)をflを補完することは、多施設における臨床応用の要件である。 医療画像におけるPTの応用、プライバシ保証とモデルユーティリティのトレードオフ、トレーニングパフォーマンスへの影響、攻撃に対する最終モデルの受容性については、まだ決定的な調査が行われていない。 本稿では,計算トモグラフィにおけるセマンティックセグメンテーションの課題に対する差分的勾配降下に基づくFLの適用例を示す。 高いセグメンテーション性能は、高いプライバシー保証と許容するトレーニングタイムペナルティの下で実現可能である。 さらに,セマンティクスセグメンテーションモデルに対する最初の勾配ベースモデルインバージョン攻撃を実証し,dpの適用により感度の高い画像特徴の漏洩を防止できることを示した。

Collaborative machine learning techniques such as federated learning (FL) enable the training of models on effectively larger datasets without data transfer. Recent initiatives have demonstrated that segmentation models trained with FL can achieve performance similar to locally trained models. However, FL is not a fully privacy-preserving technique and privacy-centred attacks can disclose confidential patient data. Thus, supplementing FL with privacy-enhancing technologies (PTs) such as differential privacy (DP) is a requirement for clinical applications in a multi-institutional setting. The application of PTs to FL in medical imaging and the trade-offs between privacy guarantees and model utility, the ramifications on training performance and the susceptibility of the final models to attacks have not yet been conclusively investigated. Here we demonstrate the first application of differentially private gradient descent-based FL on the task of semantic segmentation in computed tomography. We find that high segmentation performance is possible under strong privacy guarantees with an acceptable training time penalty. We furthermore demonstrate the first successful gradient-based model inversion attack on a semantic segmentation model and show that the application of DP prevents it from divulging sensitive image features.
翻訳日:2021-07-07 19:54:36 公開日:2021-07-06
# (参考訳) ハイレベルなプリエントを持つステートレスアクタ-criticのインスタンスセグメンテーション [全文訳有]

Stateless actor-critic for instance segmentation with high-level priors ( http://arxiv.org/abs/2107.02600v1 )

ライセンス: CC BY 4.0
Paul Hilt, Edgar Kaziakhmedov, Sourabh Bhide, Maria Leptin, Constantin Pape, Anna Kreshuk(参考訳) インスタンスセグメンテーションは重要なコンピュータビジョン問題であり、ディープラーニングベースの手法による最近の顕著な進歩にもかかわらず、依然として挑戦的である。 十分なトレーニングデータがあれば、完全に教師された手法は優れたパフォーマンスが得られるが、特にドメインの専門家が行う必要があるバイオメディカルな応用において、地平データのアノテーションは大きなボトルネックとなっている。 必要なラベルの量は、セグメント化を導くために事前知識から派生したルールを使用することで大幅に削減できる。 しかし、これらの規則は一般に微分不可能であり、既存の方法では使用できない。 ここでは,非微分的報酬を可能にするステートレスアクタ批評家強化学習を用いて,この要件を緩和する。 対象の分割問題をグラフ分割として定式化し,対象の形状,位置,大きさの上位レベルに対する分割されたインスタンスの適合性に基づいて,報酬によって引き起こされるエッジ重みを予測する。 おもちゃと実際のデータセットの実験は、豊富な事前セットのみに基づいて直接監督することなく、優れたパフォーマンスを達成できることを示しています。

Instance segmentation is an important computer vision problem which remains challenging despite impressive recent advances due to deep learning-based methods. Given sufficient training data, fully supervised methods can yield excellent performance, but annotation of ground-truth data remains a major bottleneck, especially for biomedical applications where it has to be performed by domain experts. The amount of labels required can be drastically reduced by using rules derived from prior knowledge to guide the segmentation. However, these rules are in general not differentiable and thus cannot be used with existing methods. Here, we relax this requirement by using stateless actor critic reinforcement learning, which enables non-differentiable rewards. We formulate the instance segmentation problem as graph partitioning and the actor critic predicts the edge weights driven by the rewards, which are based on the conformity of segmented instances to high-level priors on object shape, position or size. The experiments on toy and real datasets demonstrate that we can achieve excellent performance without any direct supervision based only on a rich set of priors.
翻訳日:2021-07-07 19:42:59 公開日:2021-07-06
# (参考訳) ヒューリスティック計画のためのメタ強化学習 [全文訳有]

Meta-Reinforcement Learning for Heuristic Planning ( http://arxiv.org/abs/2107.02603v1 )

ライセンス: CC BY 4.0
Ricardo Luna Gutierrez and Matteo Leonetti(参考訳) メタ強化学習(Meta-Reinforcement Learning、Meta-RL)では、エージェントは、新しい、見えない、しかし関連するタスクの準備と学習のために一連のタスクで訓練される。 トレーニングタスクは通常、予想されるテストタスクの分布を表すために手作りされるため、トレーニングで使用される。 トレーニングタスクのセットが与えられた場合、トレーニングタスクが適切に選択された場合、学習がより迅速かつ効果的であること(テストタスクのパフォーマンス向上につながる)が示されます。 本稿では,メタRLにおける学習に使用されるタスクの集合を,その生成方法に関係なく最適化する情報理論に基づくタスク選択アルゴリズムITTSを提案する。 アルゴリズムは、どのトレーニングタスクがテストタスクに十分な意味を持ち、互いに十分な差異があるかを決定する。 文献から異なるメタRL実験を再現し、ITTSが最終性能を改善することを示す。

In Meta-Reinforcement Learning (meta-RL) an agent is trained on a set of tasks to prepare for and learn faster in new, unseen, but related tasks. The training tasks are usually hand-crafted to be representative of the expected distribution of test tasks and hence all used in training. We show that given a set of training tasks, learning can be both faster and more effective (leading to better performance in the test tasks), if the training tasks are appropriately selected. We propose a task selection algorithm, Information-Theoreti c Task Selection (ITTS), based on information theory, which optimizes the set of tasks used for training in meta-RL, irrespectively of how they are generated. The algorithm establishes which training tasks are both sufficiently relevant for the test tasks, and different enough from one another. We reproduce different meta-RL experiments from the literature and show that ITTS improves the final performance in all of them.
翻訳日:2021-07-07 19:21:19 公開日:2021-07-06
# (参考訳) セマンティックWebサービスの機能パラメータを知って発見する方法 [全文訳有]

How to Discover a Semantic Web Service by Knowing Its Functionality Parameters ( http://arxiv.org/abs/2107.02609v1 )

ライセンス: CC BY 4.0
Golsa Heidari, Kamran Zamanifar, Naser Nematbakhsh, Farhad Mardookhi(参考訳) 本稿では,web サービスのリポジトリ間におけるセマンティック web サービスの発見方法を示す。 関数の類似性を計算することに基づくwebサービスディスカバリの新しいアプローチ。 Ontology Web Language (OWL)でWebサービス機能を定義します。 2つのWebサービスのパラメータを比較するためのルールを書きました。 提案アルゴリズムは2つのWebサービスの入力/出力パラメータを2部グラフで比較する。 類似度をFord-Fulkersonアルゴリズムを用いて計算する。 類似度が高いほど、それらの関数の違いが少なくなる。 最終的に、我々のアルゴリズムは最も類似性の高いサービスを選択する。 その結果,既存のサービスを置き換えるのに適したWebサービスを見つける必要がある場合,本手法は有用である。 特に自律システムでは、フェールしたWebサービスに基づくアプリケーションの可用性を確保する必要があるため、この状況は非常に一般的で重要なのです。 私たちはUDDI(Universal Description, Discovery and Integration)準拠のWebサービスレジストリを使用しています。

In this work, we show how to discover a semantic web service among a repository of web services. A new approach for web service discovery based on calculating the functions similarity. We define the Web service functions with Ontology Web Language (OWL). We wrote some rules for comparing two web services` parameters. Our algorithm compares the parameters of two web services` inputs/outputs by making a bipartite graph. We compute the similarity rate by using the Ford-Fulkerson algorithm. The higher the similarity, the less are the differences between their functions. At last, our algorithm chooses the service which has the highest similarity. As a consequence, our method is useful when we need to find a web service suitable to replace an existing one that has failed. Especially in autonomic systems, this situation is very common and important since we need to ensure the availability of the application which is based on the failed web service. We use Universal Description, Discovery and Integration (UDDI) compliant web service registry.
翻訳日:2021-07-07 19:06:32 公開日:2021-07-06
# (参考訳) 深部画像の事前再構成と残余再構成によるハイパースペクトルパンシャープニング [全文訳有]

Hyperspectral Pansharpening Based on Improved Deep Image Prior and Residual Reconstruction ( http://arxiv.org/abs/2107.02630v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) ハイパースペクトルパノシャーペンは、低解像度のハイパースペクトル画像(LR-HSI)を登録されたパンクロマティック画像(PAN)で合成し、高スペクトル・空間解像度のHSIを生成することを目的としている。 近年提案されているhsパンシャープニング法は,(1)lr-hsiのアップサンプリング,(2)convnetによる残留画像の予測,(3)第1および第2ステップからの出力の追加による最終融合hsiの3段階からなる深い畳み込みネットワーク(convnets)を用いて顕著な結果を得た。 近年のDIP(Deep Image Prior)は,大規模なデータセットから学習することなく,空間情報とスペクトル情報の両方を保存できることから,LR-HSIのアップサンプリングに活用されている。 しかし,従来のスペクトル領域エネルギー関数に空間領域制約を付加することにより,アップサンプリングhsisの品質をさらに向上できることがわかった。 空間領域の制約を予測されたPAN画像と実際のPAN画像との距離$L_1$と定義する。 アップサンプリングされたHSIのPAN像を推定するために,学習可能なスペクトル応答関数(SRF)を提案する。 また,アップサンプリングしたhsiと参照hsiとの間の残像は,主にエッジ情報と非常に微細な構造から構成されていることに気付いた。 詳細な情報を正確に推定するために,深い層の増加を抑えることによって高レベルの特徴を学習することに焦点を当てた,HyperKiteと呼ばれる新しいオーバーコンプリートネットワークを提案する。 3つのHSIデータセットで実験を行い、最先端のパンシャーピング法よりもDIP-HyperKiteの方が優れていることを示す。 DIP-HyperKiteのデプロイコード、事前トレーニングされたモデル、最終融合出力、および比較に使用されるメソッドは、https://github.com/w gcban/DIP-HyperKite. gitで公開されます。

Hyperspectral pansharpening aims to synthesize a low-resolution hyperspectral image (LR-HSI) with a registered panchromatic image (PAN) to generate an enhanced HSI with high spectral and spatial resolution. Recently proposed HS pansharpening methods have obtained remarkable results using deep convolutional networks (ConvNets), which typically consist of three steps: (1) up-sampling the LR-HSI, (2) predicting the residual image via a ConvNet, and (3) obtaining the final fused HSI by adding the outputs from first and second steps. Recent methods have leveraged Deep Image Prior (DIP) to up-sample the LR-HSI due to its excellent ability to preserve both spatial and spectral information, without learning from large data sets. However, we observed that the quality of up-sampled HSIs can be further improved by introducing an additional spatial-domain constraint to the conventional spectral-domain energy function. We define our spatial-domain constraint as the $L_1$ distance between the predicted PAN image and the actual PAN image. To estimate the PAN image of the up-sampled HSI, we also propose a learnable spectral response function (SRF). Moreover, we noticed that the residual image between the up-sampled HSI and the reference HSI mainly consists of edge information and very fine structures. In order to accurately estimate fine information, we propose a novel over-complete network, called HyperKite, which focuses on learning high-level features by constraining the receptive from increasing in the deep layers. We perform experiments on three HSI datasets to demonstrate the superiority of our DIP-HyperKite over the state-of-the-art pansharpening methods. The deployment codes, pre-trained models, and final fusion outputs of our DIP-HyperKite and the methods used for the comparisons will be publicly made available at https://github.com/w gcban/DIP-HyperKite. git.
翻訳日:2021-07-07 18:58:15 公開日:2021-07-06
# (参考訳) docsynth: 制御可能な文書画像合成のためのレイアウトガイド手法 [全文訳有]

DocSynth: A Layout Guided Approach for Controllable Document Image Synthesis ( http://arxiv.org/abs/2107.02638v1 )

ライセンス: CC BY-SA 4.0
Sanket Biswas, Pau Riba, Josep Llad\'os and Umapada Pal(参考訳) 現在の最先端画像生成モデルでは大きな進歩があったが、複数の複雑なオブジェクトレイアウトを含む文書画像の合成は難しい課題である。 本稿では,与えられたレイアウトに基づいて文書画像を自動的に合成する,docsynthと呼ばれる新しい手法を提案する。 本研究では,ユーザが参照する空間的レイアウト(オブジェクトカテゴリを持つバウンディングボックス)を考慮し,提案するDocSynthモデルを用いて,定義したレイアウトに整合した現実的な文書画像の集合を生成する。 また、このフレームワークは、文書レイアウト分析タスクのトレーニング中に実際のデータを拡張するための合成文書画像データセットを作成するための優れたベースラインモデルとして、この仕事に適応している。 モデルパフォーマンスを改善するために、さまざまな学習目標も使用されています。 また,モデル生成結果と実データとを標準評価指標を用いて定量的に比較した。 その結果,複数のオブジェクトを用いた実写的かつ多彩な文書画像の生成を成功させることができた。 また,合成画像生成タスクの異なるスコープの包括的定性解析概要を示す。 最後に、私たちの知る限りでは、これがこの種の最初の作品です。

Despite significant progress on current state-of-the-art image generation models, synthesis of document images containing multiple and complex object layouts is a challenging task. This paper presents a novel approach, called DocSynth, to automatically synthesize document images based on a given layout. In this work, given a spatial layout (bounding boxes with object categories) as a reference by the user, our proposed DocSynth model learns to generate a set of realistic document images consistent with the defined layout. Also, this framework has been adapted to this work as a superior baseline model for creating synthetic document image datasets for augmenting real data during training for document layout analysis tasks. Different sets of learning objectives have been also used to improve the model performance. Quantitatively, we also compare the generated results of our model with real data using standard evaluation metrics. The results highlight that our model can successfully generate realistic and diverse document images with multiple objects. We also present a comprehensive qualitative analysis summary of the different scopes of synthetic image generation tasks. Lastly, to our knowledge this is the first work of its kind.
翻訳日:2021-07-07 18:28:03 公開日:2021-07-06
# (参考訳) モデル記述者にとってデータセットの複雑さは重要か? [全文訳有]

Does Dataset Complexity Matters for Model Explainers? ( http://arxiv.org/abs/2107.02661v1 )

ライセンス: CC BY 4.0
Jos\'e Ribeiro, Ra\'issa Silva, Ronnie Alves(参考訳) 説明可能な人工知能に基づく戦略 - XAIはブラックボックスモデルによる予測の理解を深めるため、コンピューティングに登場した。 今日使われているほとんどのXAIベースのツールは、これらのモデルを説明し、属性のランキング、すなわち属性の重要度の分析を生成する。 XAIツールが一般的な説明可能性の階級を生成するかについては合意が得られていないが、そのため、ツールの提案がいくつか現れている(Ciu, Dalex, Eli5, Lofo, Shap, Skater)。 本稿では、異なる問題に関連する表データに基づいて、モデルに依存しないグローバルな説明可能性ランキングを作成することができる説明可能なAI技術の実験ベンチマークを示す。 さまざまなツールによって生成された説明は、同じ、似ている、あるいは異なるものなのか? データ複雑性はモデル説明可能性にどのように影響しますか? 82の計算モデルと592のランクを構築した結果、説明可能性の問題の反対側にいくつか光を当てています。

Strategies based on Explainable Artificial Intelligence - XAI have emerged in computing to promote a better understanding of predictions made by black box models. Most XAI-based tools used today explain these types of models, generating attribute rankings aimed at explaining the same, that is, the analysis of Attribute Importance. There is no consensus on which XAI tool generates a general rank of explainability, for this reason, several proposals for tools have emerged (Ciu, Dalex, Eli5, Lofo, Shap and Skater). Here, we present an experimental benchmark of explainable AI techniques capable of producing model-agnostic global explainability ranks based on tabular data related to different problems. Seeking to answer questions such as "Are the explanations generated by the different tools the same, similar or different?" and "How does data complexity play along model explainability?" ;. The results from the construction of 82 computational models and 592 ranks give us some light on the other side of the problem of explainability: dataset complexity!
翻訳日:2021-07-07 18:09:43 公開日:2021-07-06
# (参考訳) ハイブリッド・コンボリューション・アテンション・ニューラルアーキテクチャによる肺炎の重症度予測 [全文訳有]

COVID-19 Pneumonia Severity Prediction using Hybrid Convolution-Attentio n Neural Architectures ( http://arxiv.org/abs/2107.02672v1 )

ライセンス: CC BY 4.0
Nam Nguyen, J. Morris Chang(参考訳) 本研究では、データ中心とモデル中心のアプローチを組み合わせた、新型コロナウイルス重症度予測の新しいフレームワークを提案する。 まず,調査データセットの極めて怖いデータシナリオに対して,データ中心の事前学習を提案する。 次に、Transformer と Hopfield ネットワークからの自己アテンションを利用する2つのハイブリッド畳み込み型ニューラルネットワークを提案する。 提案手法は,従来のベースラインアプローチから大幅に改善されている。 R^2 = 0.85 \pm 0.05$およびピアソン相関係数$\rho = 0.92 \pm 0.02$、R^2 = 0.72 \pm 0.09, \rho = 0.85\pm 0.06$を不透明度予測で達成した。

This study proposed a novel framework for COVID-19 severity prediction, which is a combination of data-centric and model-centric approaches. First, we propose a data-centric pre-training for extremely scare data scenarios of the investigating dataset. Second, we propose two hybrid convolution-attentio n neural architectures that leverage the self-attention from Transformer and Hopfield networks. Our proposed approach achieves significant improvement from the conventional baseline approach. The best model from our proposed approach achieves $R^2 = 0.85 \pm 0.05$ and Pearson correlation coefficient $\rho = 0.92 \pm 0.02$ in geographic extend and $R^2 = 0.72 \pm 0.09, \rho = 0.85\pm 0.06$ in opacity prediction.
翻訳日:2021-07-07 17:59:33 公開日:2021-07-06
# (参考訳) 一般価値関数のための統一オフポリシー評価手法

A Unified Off-Policy Evaluation Approach for General Value Function ( http://arxiv.org/abs/2107.02711v1 )

ライセンス: CC BY 4.0
Tengyu Xu, Zhuoran Yang, Zhaoran Wang, Yingbin Liang(参考訳) general value function (gvf) は強化学習(rl)における「em予測」と「emふりかえり」の知識の両方を表現する強力なツールである。 実際には、しばしば複数の相互関連GVFを、事前に収集されたオフ・ポリケーシのサンプルと共同で評価する必要がある。 文献では,gvfsの評価には勾配時間差(gtd)学習法が採用されているが,関数近似クラスが十分に表現可能であったとしても,推定誤差が大きい可能性がある。 さらに、以前の研究は、関数近似設定の下で基底真理 GVF への収束保証を正式に確立していない。 本稿では, 報酬分散, 値勾配, 異常検出のコスト, 定常分布勾配など, 幅広いrl応用をカバーする, 因果フィルタリング付きgvfsのクラスのレンズを通して, 両問題に対処する。 我々は,GVFの非政治的評価のためのGenTDと呼ばれる新しいアルゴリズムを提案し,GenTDが単一正準スカラー値関数と同じくらい効率的に複数の多次元GVFを学習することを示す。 さらに、GTDとは異なり、GenTDによる学習されたGVFは、関数近似力が十分に大きい限り、基底真理GVFに収束することが保証されていることを示す。 我々の知る限り、GenTDはグローバルな最適性を保証する最初の非政治GVF評価アルゴリズムである。

General Value Function (GVF) is a powerful tool to represent both the {\em predictive} and {\em retrospective} knowledge in reinforcement learning (RL). In practice, often multiple interrelated GVFs need to be evaluated jointly with pre-collected off-policy samples. In the literature, the gradient temporal difference (GTD) learning method has been adopted to evaluate GVFs in the off-policy setting, but such an approach may suffer from a large estimation error even if the function approximation class is sufficiently expressive. Moreover, none of the previous work have formally established the convergence guarantee to the ground truth GVFs under the function approximation settings. In this paper, we address both issues through the lens of a class of GVFs with causal filtering, which cover a wide range of RL applications such as reward variance, value gradient, cost in anomaly detection, stationary distribution gradient, etc. We propose a new algorithm called GenTD for off-policy GVFs evaluation and show that GenTD learns multiple interrelated multi-dimensional GVFs as efficiently as a single canonical scalar value function. We further show that unlike GTD, the learned GVFs by GenTD are guaranteed to converge to the ground truth GVFs as long as the function approximation power is sufficiently large. To our best knowledge, GenTD is the first off-policy GVF evaluation algorithm that has global optimality guarantee.
翻訳日:2021-07-07 17:46:22 公開日:2021-07-06
# (参考訳) マンモグラフィにおけるてんかん不確実性を用いたサブグループ格差の評価 [全文訳有]

Evaluating subgroup disparity using epistemic uncertainty in mammography ( http://arxiv.org/abs/2107.02716v1 )

ライセンス: CC BY 4.0
Charles Lu, Andreanne Lemay, Katharina Hoebel, Jayashree Kalpathy-Cramer(参考訳) 機械学習(ml)が臨床意思決定に影響を与える医療システムに統合され続ける中、臨床ワークフローにおける説明責任と一般化可能性を確保するために、サブグループ格差を効果的に検出し評価するために、新たな戦略を組み込む必要がある。 本稿では,33の臨床施設から収集した108,190個のマンモグラムのデータセットを用いて,乳房密度評価のための患者集団(レース)とデータ取得(スキャナ)サブグループ間の格差を評価するために,疫学的な不確実性をいかに活用するかを検討する。 その結果,集合的性能が同等であっても,不確実性定量化指標の選択は部分群レベルを著しく向上できることがわかった。 この分析が、不確実性をどのように活用し、臨床展開のための機械学習アプリケーションの透明性を高めるか、さらなる研究を促進することを願っている。

As machine learning (ML) continue to be integrated into healthcare systems that affect clinical decision making, new strategies will need to be incorporated in order to effectively detect and evaluate subgroup disparities to ensure accountability and generalizability in clinical workflows. In this paper, we explore how epistemic uncertainty can be used to evaluate disparity in patient demographics (race) and data acquisition (scanner) subgroups for breast density assessment on a dataset of 108,190 mammograms collected from 33 clinical sites. Our results show that even if aggregate performance is comparable, the choice of uncertainty quantification metric can significantly the subgroup level. We hope this analysis can promote further work on how uncertainty can be leveraged to increase transparency of machine learning applications for clinical deployment.
翻訳日:2021-07-07 17:45:09 公開日:2021-07-06
# (参考訳) 前景認識型スタイライゼーションとコンセンサス擬似ラベルによる人手セグメンテーションのドメイン適応 [全文訳有]

Foreground-Aware Stylization and Consensus Pseudo-Labeling for Domain Adaptation of First-Person Hand Segmentation ( http://arxiv.org/abs/2107.02718v1 )

ライセンス: CC BY 4.0
Takehiko Ohkawa, Takuma Yagi, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato(参考訳) ハンドセグメンテーションは、一人称視覚において重要なタスクである。 1人称画像は、異なる環境の外観に強い偏見を示すため、手話分割において、トレーニング済みのセグメンテーションモデルを新しい領域に適応させる必要がある。 ここでは,手領域と背景の外観ギャップを別々に検討する。 i)手分割の領域適応のための前景認識画像スタイリングと (ii) コンセンサス擬似ラベルを提案する。 我々は、ターゲットイメージをスタイルとして、前景と背景のソースイメージを独立にスタイリングする。 スタイル化が未解決の領域シフトを解決するために,ソース上でトレーニングされたモデルとスタイル化されたソースイメージとのコンセンサスを考慮し,注意深い擬似ラベルを適用する。 実画像およびシミュレーション画像からのハンドセグメンテーションの領域適応について検証した。 本手法は両設定で最先端の性能を達成した。 また、マルチターゲットドメイン適応とドメイン一般化設定に挑戦する有望な結果を示した。 コードはhttps://github.com/u t-vision/FgSty-CPLで入手できる。

Hand segmentation is a crucial task in first-person vision. Since first-person images exhibit strong bias in appearance among different environments, adapting a pre-trained segmentation model to a new domain is required in hand segmentation. Here, we focus on appearance gaps for hand regions and backgrounds separately. We propose (i) foreground-aware image stylization and (ii) consensus pseudo-labeling for domain adaptation of hand segmentation. We stylize source images independently for the foreground and background using target images as style. To resolve the domain shift that the stylization has not addressed, we apply careful pseudo-labeling by taking a consensus between the models trained on the source and stylized source images. We validated our method on domain adaptation of hand segmentation from real and simulation images. Our method achieved state-of-the-art performance in both settings. We also demonstrated promising results in challenging multi-target domain adaptation and domain generalization settings. Code is available at https://github.com/u t-vision/FgSty-CPL.
翻訳日:2021-07-07 17:35:20 公開日:2021-07-06
# (参考訳) adarl: 転校強化学習にどのように適応するか、どこで、どのように適応するか

AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning ( http://arxiv.org/abs/2107.02729v1 )

ライセンス: CC BY-SA 4.0
Biwei Huang, Fan Feng, Chaochao Lu, Sara Magliacane, Kun Zhang(参考訳) 強化学習(RL)におけるほとんどのアプローチは、データハングリーであり、固定環境に特有のものである。 本稿では,AdaRLと呼ばれる適応RLの原理的フレームワークを提案する。 具体的には、システム内の変数間の構造的関係に関する生成環境モデルを構築し、その変更をコンパクトな方法で埋め込むことにより、変更がどこにあり、どのように適応するかを特定するための明確で解釈可能な図を提供する。 環境モデルに基づいて、ドメイン固有因子とドメイン共有状態表現の両方を含む最小限の表現を特徴付け、信頼性と低コストの転送に十分である。 さらに,変化をエンコードするためにコンパクト表現を明示的に活用することにより,ターゲット領域のさらなるポリシー最適化を行なわずに,少数のサンプルでポリシーを適応できることを示す。 本稿では,AdaRLがCartpole と Atari の異なるコンポーネントに変化を与える一連の実験を通じて有効性を示す。

Most approaches in reinforcement learning (RL) are data-hungry and specific to fixed environments. In this paper, we propose a principled framework for adaptive RL, called AdaRL, that adapts reliably to changes across domains. Specifically, we construct a generative environment model for the structural relationships among variables in the system and embed the changes in a compact way, which provides a clear and interpretable picture for locating what and where the changes are and how to adapt. Based on the environment model, we characterize a minimal set of representations, including both domain-specific factors and domain-shared state representations, that suffice for reliable and low-cost transfer. Moreover, we show that by explicitly leveraging a compact representation to encode changes, we can adapt the policy with only a few samples without further policy optimization in the target domain. We illustrate the efficacy of AdaRL through a series of experiments that allow for changes in different components of Cartpole and Atari games.
翻訳日:2021-07-07 17:15:22 公開日:2021-07-06
# (参考訳) 生成モデルに対する証明可能なリプシッツ認証 [全文訳有]

Provable Lipschitz Certification for Generative Models ( http://arxiv.org/abs/2107.02732v1 )

ライセンス: CC BY 4.0
Matt Jordan, Alexandros G. Dimakis(参考訳) 本稿では,生成モデルのリプシッツ定数を上限とするスケーラブルな手法を提案する。 この量を与えられた生成モデルの到達可能なベクトル-ヤコブ積の集合上の極大ノルムに関連付ける。 この集合をゾノトープを用いた層状凸近似により近似する。 本稿では,zonotope変換器を用いた先行作業の一般化と改善を行い,出力次元が大きいニューラルネットワークのリプシッツ推定に拡張する。 これにより、小さなネットワーク上で効率的かつ厳密なバウンダリを提供し、VAEおよびDCGANアーキテクチャ上の生成モデルにスケールすることができる。

We present a scalable technique for upper bounding the Lipschitz constant of generative models. We relate this quantity to the maximal norm over the set of attainable vector-Jacobian products of a given generative model. We approximate this set by layerwise convex approximations using zonotopes. Our approach generalizes and improves upon prior work using zonotope transformers and we extend to Lipschitz estimation of neural networks with large output dimension. This provides efficient and tight bounds on small networks and can scale to generative models on VAE and DCGAN architectures.
翻訳日:2021-07-07 17:13:34 公開日:2021-07-06
# (参考訳) ニューラルコンピューティング [全文訳有]

Neural Computing ( http://arxiv.org/abs/2107.02744v1 )

ライセンス: CC BY-SA 4.0
Ayushe Gangal, Peeyush Kumar, Sunita Kumari and Aditya Kumar(参考訳) This chapter aims to provide next-level understanding of the problems of the world and the solutions available to those problems, which lie very well within the domain of neural computing, and at the same time are intelligent in their approach, to invoke a sense of innovation among the educationalists, researchers, academic professionals, students and people concerned, by highlighting the work done by major researchers and innovators in this field and thus, encouraging the readers to develop newer and more advanced techniques for the same. 本章では社会問題について論じ、これまでに提示された理論や研究によっても様々な解決法が提示されている。 これまでに発見されたさまざまなタイプのニューラルネットワークと、それらのニューラルネットワークの応用は、その理論的理解とは別に、アプリケーションに関わる動作とコアの概念に焦点を当てている。

This chapter aims to provide next-level understanding of the problems of the world and the solutions available to those problems, which lie very well within the domain of neural computing, and at the same time are intelligent in their approach, to invoke a sense of innovation among the educationalists, researchers, academic professionals, students and people concerned, by highlighting the work done by major researchers and innovators in this field and thus, encouraging the readers to develop newer and more advanced techniques for the same. By means of this chapter, the societal problems are discussed and various solutions are also given by means of the theories presented and researches done so far. Different types of neural networks discovered so far and applications of some of those neural networks are focused on, apart from their theoretical understanding, the working and core concepts involved in the applications.
翻訳日:2021-07-07 16:41:31 公開日:2021-07-06
# (参考訳) 多項式時間におけるMAJORITY-3SAT(と関連する問題)

MAJORITY-3SAT (and Related Problems) in Polynomial Time ( http://arxiv.org/abs/2107.02748v1 )

ライセンス: CC BY 4.0
Shyan Akmal and Ryan Williams(参考訳) Majority-SAT は、入力 $n$-variable formula in conjunctive normal form (CNF) が割り当てを満たす少なくとも 2^{n-1}$ を持つかどうかを決定する問題である。 マジョリティSATと関連する問題は、確率的計画と推論の複雑さに関心を持つ様々なAIコミュニティで広く研究されている。 Majority-SAT は 40 年以上にわたって PP 完全であることが知られているが、自然変分法の複雑さは開のままである: Majority-$k$SAT は入力 CNF 公式が最大で k$ の節幅を持つように制限されている。 実のところ、任意の正の整数 $k$ と有理の$\rho \in (0,1)$ に対して、与えられた$k$-cnf が少なくとも$\rho \cdot 2^n$ を満たす代入を持つかどうかを決定論的線形時間で決定できるアルゴリズムを与える。 我々のアルゴリズムは、複雑性と推論の複雑さを数えることに興味深いポジティブな意味を持ち、e-maj-$k$sat や maj-maj-$k$sat のような関連する問題の既知の複雑さを著しく減少させる。 提案手法の核心は, 対応するセットシステムである$k$-CNFのサンフラワーを抽出することにより, しきい値計数問題の解法である。 また、Majority-$k$SATのトラクタビリティがやや脆弱であることも示します。 密接な関係にある gtmajority-sat 問題(与えられた公式が 2^{n-1}$ 以上の満足する代入を持つかどうかを問う場合)に対して、gtmajority-$k$sat は p において $k\le 3$ であるが、$k\geq 4$ で np-complete となる。 これらの結果は直感的ではない、なぜならこれらの問題の ``natural'' 分類は PP-完全性 であり、またすべての$k\ge 4$に対して GtMajority-$k$SAT と Majority-$k$SAT の複雑さに大きな違いがあるからである。

Majority-SAT is the problem of determining whether an input $n$-variable formula in conjunctive normal form (CNF) has at least $2^{n-1}$ satisfying assignments. Majority-SAT and related problems have been studied extensively in various AI communities interested in the complexity of probabilistic planning and inference. Although Majority-SAT has been known to be PP-complete for over 40 years, the complexity of a natural variant has remained open: Majority-$k$SAT, where the input CNF formula is restricted to have clause width at most $k$. We prove that for every $k$, Majority-$k$SAT is in P. In fact, for any positive integer $k$ and rational $\rho \in (0,1)$ with bounded denominator, we give an algorithm that can determine whether a given $k$-CNF has at least $\rho \cdot 2^n$ satisfying assignments, in deterministic linear time (whereas the previous best-known algorithm ran in exponential time). Our algorithms have interesting positive implications for counting complexity and the complexity of inference, significantly reducing the known complexities of related problems such as E-MAJ-$k$SAT and MAJ-MAJ-$k$SAT. At the heart of our approach is an efficient method for solving threshold counting problems by extracting sunflowers found in the corresponding set system of a $k$-CNF. We also show that the tractability of Majority-$k$SAT is somewhat fragile. For the closely related GtMajority-SAT problem (where we ask whether a given formula has greater than $2^{n-1}$ satisfying assignments) which is known to be PP-complete, we show that GtMajority-$k$SAT is in P for $k\le 3$, but becomes NP-complete for $k\geq 4$. These results are counterintuitive, because the ``natural'' classifications of these problems would have been PP-completeness, and because there is a stark difference in the complexity of GtMajority-$k$SAT and Majority-$k$SAT for all $k\ge 4$.
翻訳日:2021-07-07 16:15:24 公開日:2021-07-06
# (参考訳) 不確実性下におけるシークエンシャル決定の因果説明 [全文訳有]

Counterfactual Explanations in Sequential Decision Making Under Uncertainty ( http://arxiv.org/abs/2107.02776v1 )

ライセンス: CC BY 4.0
Stratis Tsirtsis, Abir De, Manuel Gomez-Rodriguez(参考訳) カウンターファクトな説明を見つける方法は、主に1ステップの意思決定プロセスに焦点を当てている。 本研究では,複数の従属行動が時間とともに順次行われる意思決定プロセスに対して,反事実的説明を求める手法の開発を開始する。 まず、有限地平線マルコフ決定過程とグンベル・マックス構造因果モデルを用いて、動作と状態の列を形式的に特徴付ける。 この特徴に基づいて,逐次的意思決定プロセスにおける反事実的説明を求める問題を形式的に述べる。 問題の定式化において、反事実的説明は、観察されたプロセスの実現をよりよい結果に導く可能性のある観測されたシーケンスから、最大kアクションで異なるアクションの別のシーケンスを特定する。 次に, 動的計画法に基づく多項式時間アルゴリズムを導入し, 相反環境力学の可能な全ての実現について, 常に最適な相反的説明を提供することが保証される相反的ポリシーを構築する。 認知行動療法から得られた合成データと実データの両方を用いてアルゴリズムを検証し,不確実性下での逐次的意思決定を促進するために,アルゴリズムが発見する反事実的説明が貴重な知見となることを示す。

Methods to find counterfactual explanations have predominantly focused on one step decision making processes. In this work, we initiate the development of methods to find counterfactual explanations for decision making processes in which multiple, dependent actions are taken sequentially over time. We start by formally characterizing a sequence of actions and states using finite horizon Markov decision processes and the Gumbel-Max structural causal model. Building upon this characterization, we formally state the problem of finding counterfactual explanations for sequential decision making processes. In our problem formulation, the counterfactual explanation specifies an alternative sequence of actions differing in at most k actions from the observed sequence that could have led the observed process realization to a better outcome. Then, we introduce a polynomial time algorithm based on dynamic programming to build a counterfactual policy that is guaranteed to always provide the optimal counterfactual explanation on every possible realization of the counterfactual environment dynamics. We validate our algorithm using both synthetic and real data from cognitive behavioral therapy and show that the counterfactual explanations our algorithm finds can provide valuable insights to enhance sequential decision making under uncertainty.
翻訳日:2021-07-07 16:13:51 公開日:2021-07-06
# (参考訳) エッジコンピューティングを用いたビデオ監視システムにおける異常検出 [全文訳有]

Anomaly Detection using Edge Computing in Video Surveillance System: Review ( http://arxiv.org/abs/2107.02778v1 )

ライセンス: CC BY 4.0
Devashree R. Patrikar, Mayur Rajram Parate(参考訳) スマートシティの現在の概念は、都市計画者や研究者に近代的で安全で持続可能なインフラを提供し、住民に適切な生活の質を与えるよう影響を与えている。 これを実現するために、市民の安全と幸福を高めるためにビデオ監視カメラが配備された。 現代科学の技術的発展にもかかわらず、監視ビデオシステムにおける異常事象の検出は困難であり、徹底的な人間の努力を必要とする。 本稿では,知的ビデオ監視における異常を検出するために開発された様々な手法について調査した。 まず,過去10年間の異常検出に関する調査を再考する。 そこで我々は,理解しやすい手法を体系的に分類した。 異常の概念は文脈によって異なるので、異常検出において関心の対象と公開データセットを識別する。 異常検出はコンピュータビジョンの時間的クリティカルな応用と考えられるため、エッジデバイスを用いた異常検出とそれ用に明示的に設計されたアプローチに重点を置いている。 さらに,エッジにおける異常検出に関わる課題と機会について考察する。

The current concept of Smart Cities influences urban planners and researchers to provide modern, secured and sustainable infrastructure and give a decent quality of life to its residents. To fulfill this need video surveillance cameras have been deployed to enhance the safety and well-being of the citizens. Despite technical developments in modern science, abnormal event detection in surveillance video systems is challenging and requires exhaustive human efforts. In this paper, we surveyed various methodologies developed to detect anomalies in intelligent video surveillance. Firstly, we revisit the surveys on anomaly detection in the last decade. We then present a systematic categorization of methodologies developed for ease of understanding. Considering the notion of anomaly depends on context, we identify different objects-of-interest and publicly available datasets in anomaly detection. Since anomaly detection is considered a time-critical application of computer vision, our emphasis is on anomaly detection using edge devices and approaches explicitly designed for them. Further, we discuss the challenges and opportunities involved in anomaly detection at the edge.
翻訳日:2021-07-07 15:48:24 公開日:2021-07-06
# (参考訳) 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー

Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy ( http://arxiv.org/abs/2107.02780v1 )

ライセンス: CC BY 4.0
Anish Agarwal and Rahul Singh(参考訳) 最も注意深く計算された経済データセットでさえ、ノイズ、欠落、離散化、または民営化の変数を持っている。 経験的研究の標準的なワークフローは、データのクリーニングと、データクリーニングのバイアスと分散結果を無視したデータ分析である。 劣化データを用いた因果推論のための半パラメトリックモデルを定式化し,データクリーニングとデータ解析の両方を包含する。 本稿では,データクリーニング,推定,およびデータクリーニング調整された信頼区間による推論のための新しいエンドツーエンド手法を提案する。 有限サンプル引数による因果パラメータ推定器のルート-n整合性,ガウス近似,半パラメトリック効率を証明した。 我々の重要な仮定は、真の共変量は概して低いランクであるということである。 解析では,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を与える。 シミュレーションにおいて,データのクリーニング調整された信頼区間のカバレッジを検証する。

Even the most carefully curated economic data sets have variables that are noisy, missing, discretized, or privatized. The standard workflow for empirical research involves data cleaning followed by data analysis that typically ignores the bias and variance consequences of data cleaning. We formulate a semiparametric model for causal inference with corrupted data to encompass both data cleaning and data analysis. We propose a new end-to-end procedure for data cleaning, estimation, and inference with data cleaning-adjusted confidence intervals. We prove root-n consistency, Gaussian approximation, and semiparametric efficiency for our estimator of the causal parameter by finite sample arguments. Our key assumption is that the true covariates are approximately low rank. In our analysis, we provide nonasymptotic theoretical contributions to matrix completion, statistical learning, and semiparametric statistics. We verify the coverage of the data cleaning-adjusted confidence intervals in simulations.
翻訳日:2021-07-07 15:16:56 公開日:2021-07-06
# (参考訳) SAGE: 侵入アラート駆動の攻撃グラフエクストラクタ [全文訳有]

SAGE: Intrusion Alert-driven Attack Graph Extractor ( http://arxiv.org/abs/2107.02783v1 )

ライセンス: CC BY 4.0
Azqa Nadeem, Sicco Verwer, Stephen Moskal, Shanchieh Jay Yang(参考訳) 攻撃グラフ(AG)は、サイバー敵がネットワークに侵入する経路を評価するために用いられる。 ag生成に関する最先端のアプローチは、ネットワークスキャンと専門家の知識に基づくシステム脆弱性間の依存関係の導出に重点を置いている。 しかし、現実の運用では、常に脆弱性スキャンと専門家が作成したagsに頼るのは費用がかかり、非効率である。 我々は、専門家の事前知識なしに侵入警報によって観察された行動に基づいてAGを自動的に学習することを提案する。 具体的には,接尾辞に基づく確率的決定論的有限オートマトン(s-pdfa)における警告間の時間的および確率的依存性を活用した教師なしシーケンス学習システムsageを開発した。 AGはS-PDFAから派生する。 Collegiate Peretration Testing Competitionを通じて収集された侵入アラートを使ってSAGEは、参加チームによって使用される戦略を反映したAGを生成する。 結果として得られたAGは簡潔で解釈可能であり、アナリストが行動可能な洞察を導き出せるようにしている。

Attack graphs (AG) are used to assess pathways availed by cyber adversaries to penetrate a network. State-of-the-art approaches for AG generation focus mostly on deriving dependencies between system vulnerabilities based on network scans and expert knowledge. In real-world operations however, it is costly and ineffective to rely on constant vulnerability scanning and expert-crafted AGs. We propose to automatically learn AGs based on actions observed through intrusion alerts, without prior expert knowledge. Specifically, we develop an unsupervised sequence learning system, SAGE, that leverages the temporal and probabilistic dependence between alerts in a suffix-based probabilistic deterministic finite automaton (S-PDFA) -- a model that accentuates infrequent severe alerts and summarizes paths leading to them. AGs are then derived from the S-PDFA. Tested with intrusion alerts collected through Collegiate Penetration Testing Competition, SAGE produces AGs that reflect the strategies used by participating teams. The resulting AGs are succinct, interpretable, and enable analysts to derive actionable insights, e.g., attackers tend to follow shorter paths after they have discovered a longer one.
翻訳日:2021-07-07 15:15:33 公開日:2021-07-06
# (参考訳) ディープオートエンコーダとニューラルODEを用いた環境流体力学のデータ駆動還元秩序モデリング [全文訳有]

Data-driven reduced order modeling of environmental hydrodynamics using deep autoencoders and neural ODEs ( http://arxiv.org/abs/2107.02784v1 )

ライセンス: CC BY 4.0
Sourav Dutta, Peter Rivera-Casillas, Orie M. Cecil, Matthew W. Farthing, Emma Perracchione, Mario Putti(参考訳) 流体シミュレーションのモデル還元は、多くの科学および工学分野において大きな関心を寄せ続けている。 先行研究 [arxiv:2104.13962] では, 減次モデルにおける潜在空間ダイナミクスを伝播する非侵入的手法として, 神経常微分方程式 (node) を用いた。 そこで本研究では, 減弱基底表現の探索にディープオートエンコーダを用い, そのダイナミクスをNODEで近似する。 潜時空間を表現するディープオートエンコーダの能力は、従来の固有直交分解(POD)アプローチと比較される。 さらに,PODと放射基底関数の補間と動的モード分解に基づく2つの古典的非侵入的手法との比較を行った。 実験では,シリンダーまわりの非圧縮性流れと,エチューリンシステムにおける浅層水力力学の実世界の応用について検討した。 この結果から, 深部オートエンコーダは非線形多様体学習を利用して空間情報の高効率な圧縮を実現し, 時間的ダイナミクスをNODEフレームワークで捉えるのに適した潜時空間を定義することができた。

Model reduction for fluid flow simulation continues to be of great interest across a number of scientific and engineering fields. In a previous work [arXiv:2104.13962], we explored the use of Neural Ordinary Differential Equations (NODE) as a non-intrusive method for propagating the latent-space dynamics in reduced order models. Here, we investigate employing deep autoencoders for discovering the reduced basis representation, the dynamics of which are then approximated by NODE. The ability of deep autoencoders to represent the latent-space is compared to the traditional proper orthogonal decomposition (POD) approach, again in conjunction with NODE for capturing the dynamics. Additionally, we compare their behavior with two classical non-intrusive methods based on POD and radial basis function interpolation as well as dynamic mode decomposition. The test problems we consider include incompressible flow around a cylinder as well as a real-world application of shallow water hydrodynamics in an estuarine system. Our findings indicate that deep autoencoders can leverage nonlinear manifold learning to achieve a highly efficient compression of spatial information and define a latent-space that appears to be more suitable for capturing the temporal dynamics through the NODE framework.
翻訳日:2021-07-07 15:06:12 公開日:2021-07-06
# (参考訳) 深度制御型NeRF:低ビューと高速なフリートレーニング [全文訳有]

Depth-supervised NeRF: Fewer Views and Faster Training for Free ( http://arxiv.org/abs/2107.02791v1 )

ライセンス: CC BY 4.0
Kangle Deng, Andrew Liu, Jun-Yan Zhu, and Deva Ramanan(参考訳) ニューラルレーシアンスフィールド(NeRF)モデルの一般的な障害モードは、入力ビューが不十分な場合に不正確なジオメトリを適合させることである。 本稿では,容易に利用できる深度監視を生かした神経放射場学習のためのDS-NeRF(deepth-super vised Neural Radiance Fields)を提案する。 我々の重要な洞察は、学習した幾何を規則化するためにスパース奥行き監視(sparse depth surveillance)が使用できることである。 現状のnerfパイプラインでは、一般的にsfm(structure-from-m otion)によって推定される既知のカメラポーズの画像が必要である。 私たちは単に、これらの3dポイントを交差する光線に沿ってレンダリングされた深さが観測された深さに近いことを保証するために損失を追加するだけです。 DS-NeRFはトレーニングの2~6倍の速さで、より正確な画像をレンダリングできることがわかった。 実世界のイメージのトレーニングビューは2つしかなく、DS-NeRFはNeRFと他のスパースビューの亜種を著しく上回っている。 我々の損失はこれらのNeRFモデルと互換性があることを示し、深度は安価で消化しやすい監視信号であることを示した。 最後に,DS-NeRFは走査型深度センサやRGBD再構成出力など,他の種類の深度監視をサポートすることを示す。

One common failure mode of Neural Radiance Field (NeRF) models is fitting incorrect geometries when given an insufficient number of input views. We propose DS-NeRF (Depth-supervised Neural Radiance Fields), a loss for learning neural radiance fields that takes advantage of readily-available depth supervision. Our key insight is that sparse depth supervision can be used to regularize the learned geometry, a crucial component for effectively rendering novel views using NeRF. We exploit the fact that current NeRF pipelines require images with known camera poses that are typically estimated by running structure-from-motio n (SFM). Crucially, SFM also produces sparse 3D points that can be used as ``free" depth supervision during training: we simply add a loss to ensure that depth rendered along rays that intersect these 3D points is close to the observed depth. We find that DS-NeRF can render more accurate images given fewer training views while training 2-6x faster. With only two training views on real-world images, DS-NeRF significantly outperforms NeRF as well as other sparse-view variants. We show that our loss is compatible with these NeRF models, demonstrating that depth is a cheap and easily digestible supervisory signal. Finally, we show that DS-NeRF supports other types of depth supervision such as scanned depth sensors and RGBD reconstruction outputs.
翻訳日:2021-07-07 14:39:18 公開日:2021-07-06
# SocialAI: 深層強化学習エージェントにおける社会認知能力のベンチマーク

SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2107.00956v2 )

ライセンス: Link先を確認
Grgur Kova\v{c}, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer(参考訳) 人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 深層強化学習(Dep Reinforcement Learning, DRL)分野において、この目的は具体的言語使用に関する複数の研究を動機づけた。 しかし、現在のアプローチでは、非常にシンプルで多様でない社会状況におけるコミュニケーションツールとしての言語に焦点が当てられている: 言語の「自然性」は、高い語彙サイズと可変性の概念に還元される。 本稿では,人間レベルのAIを目指すためには,1)複雑で可変な社会的文脈における言語の使用,2)常に進化する社会世界におけるマルチモーダル環境における複雑な具体的コミュニケーションなど,より広範な社会スキルのセットが必要であることを論じる。 認知科学の概念は、AIが人間のような知性に向けてロードマップを描き出すのにどう役立つかを説明します。 最初のステップとして、現在の研究をより広範なソーシャルスキルのセットに拡大することを提案する。 そこで我々は,他の(記述された)ソーシャルエージェントを特徴とする複数のグリッドワールド環境を用いて,DRLエージェントの社会的スキル獲得を評価するベンチマークであるSocialAIを提案する。 次に,最近のsota drlアプローチの限界をsocialai上で検証し,次の社会的エージェントへの重要なステップについて論じる。 ビデオとコードはhttps://sites.google .com/view/socialaiで入手できる。

Building embodied autonomous agents capable of participating in social interactions with humans is one of the main challenges in AI. Within the Deep Reinforcement Learning (DRL) field, this objective motivated multiple works on embodied language use. However, current approaches focus on language as a communication tool in very simplified and non-diverse social situations: the "naturalness" of language is reduced to the concept of high vocabulary size and variability. In this paper, we argue that aiming towards human-level AI requires a broader set of key social skills: 1) language use in complex and variable social contexts; 2) beyond language, complex embodied communication in multimodal settings within constantly evolving social worlds. We explain how concepts from cognitive sciences could help AI to draw a roadmap towards human-like intelligence, with a focus on its social dimensions. As a first step, we propose to expand current research to a broader set of core social skills. To do this, we present SocialAI, a benchmark to assess the acquisition of social skills of DRL agents using multiple grid-world environments featuring other (scripted) social agents. We then study the limits of a recent SOTA DRL approach when tested on SocialAI and discuss important next steps towards proficient social agents. Videos and code are available at https://sites.google .com/view/socialai.
翻訳日:2021-07-07 14:06:54 公開日:2021-07-06
# データ効率の高い深層強化学習のためのアンサンブルと補助タスク

Ensemble and Auxiliary Tasks for Data-Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2107.01904v2 )

ライセンス: Link先を確認
Muhammad Rizki Maulana and Wee Sun Lee(参考訳) アンサンブルタスクと補助タスクはどちらも、データ制限時の機械学習モデルのパフォーマンスを改善するためによく知られている。 しかし、これらの2つの手法の相互作用は、特に深層強化学習の文脈ではよく研究されていない。 本稿では,深層q学習アルゴリズムと組み合わせた場合のアンサンブル課題と補助課題の効果について検討する。 我々はデータ制約下でATARIゲームに関するケーススタディを行う。 さらに,学習の仕方や補助的なタスクの仕方を分析し,その分析を用いてケーススタディの理解を深めるため,改良されたバイアス・分散・共分散分解法を導出する。 私たちのコードはオープンソースで、https://github.com/N US-LID/RENAULT.comで公開されています。

Ensemble and auxiliary tasks are both well known to improve the performance of machine learning models when data is limited. However, the interaction between these two methods is not well studied, particularly in the context of deep reinforcement learning. In this paper, we study the effects of ensemble and auxiliary tasks when combined with the deep Q-learning algorithm. We perform a case study on ATARI games under limited data constraint. Moreover, we derive a refined bias-variance-covari ance decomposition to analyze the different ways of learning ensembles and using auxiliary tasks, and use the analysis to help provide some understanding of the case study. Our code is open source and available at https://github.com/N US-LID/RENAULT.
翻訳日:2021-07-07 14:06:31 公開日:2021-07-06
# 分類網のPultimate Activationの分布について

On The Distribution of Penultimate Activations of Classification Networks ( http://arxiv.org/abs/2107.01900v2 )

ライセンス: Link先を確認
Minkyo Seo, Yoonho Lee, Suha Kwak(参考訳) 本稿では,分類ネットワークの固有アクティベーションの確率分布について検討する。 分類ネットワークがクロスエントロピー損失で訓練されると、最終分類層は、ペナルティ的活性化の特定の分布に基づく生成的分類器を持つ生成的判別的ペアを形成する。 さらに重要なことに、この分布は最終完全連結層の重みによってパラメータ化され、入力データを供給することなくペナルティメート活性化を合成する生成モデルと見なすことができる。 我々は,この生成モデルによって,領域シフトが存在する場合に安定した知識蒸留が可能となり,クラス条件画像生成のための分類器から変分オートエンコーダ,生成逆ネットワークへ知識を伝達できることを実証的に証明する。

This paper studies probability distributions of penultimate activations of classification networks. We show that, when a classification network is trained with the cross-entropy loss, its final classification layer forms a Generative-Discrimin ative pair with a generative classifier based on a specific distribution of penultimate activations. More importantly, the distribution is parameterized by the weights of the final fully-connected layer, and can be considered as a generative model that synthesizes the penultimate activations without feeding input data. We empirically demonstrate that this generative model enables stable knowledge distillation in the presence of domain shift, and can transfer knowledge from a classifier to variational autoencoders and generative adversarial networks for class-conditional image generation.
翻訳日:2021-07-07 14:06:20 公開日:2021-07-06
# ディープラーニングスキーマに基づくイベント抽出:文献レビューと最近の動向

Deep Learning Schema-based Event Extraction: Literature Review and Current Trends ( http://arxiv.org/abs/2107.02126v2 )

ライセンス: Link先を確認
Qian Li, Hao Peng, Jianxin Li, Yiming Hei, Rui Sun, Jiawei Sheng, Shu Guo, Lihong Wang, Philip S. Yu(参考訳) スキーマベースのイベント抽出は、イベントの本質的内容を迅速に認識するための重要なテクニックである。 ディープラーニング技術の急速な発展に伴い、ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。 多くの方法、データセット、評価指標が文献に提案されており、包括的かつ更新された調査の必要性が高まっている。 本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。 我々は、スキーマベースのイベント抽出のタスク定義、パラダイム、モデルを要約し、これらのそれぞれを詳細に議論する。 予測と評価指標のテストをサポートするベンチマークデータセットを導入する。 本調査では, 異なる手法の包括的比較を行った。 最後に,研究領域に面した今後の研究方向性をまとめた。

Schema-based event extraction is a critical technique to apprehend the essential content of events promptly. With the rapid development of deep learning technology, event extraction technology based on deep learning has become a research hotspot. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches, focusing on deep learning-based models. We summarize the task definition, paradigm, and models of schema-based event extraction and then discuss each of these in detail. We introduce benchmark datasets that support tests of predictions and evaluation metrics. A comprehensive comparison between different techniques is also provided in this survey. Finally, we conclude by summarizing future research directions facing the research area.
翻訳日:2021-07-07 14:06:06 公開日:2021-07-06
# 微細マニフォールド蒸留による高効率ビジョントランス

Efficient Vision Transformers via Fine-Grained Manifold Distillation ( http://arxiv.org/abs/2107.01378v2 )

ライセンス: Link先を確認
Ding Jia, Kai Han, Yunhe Wang, Yehui Tang, Jianyuan Guo, Chao Zhang, Dacheng Tao(参考訳) 本稿では,視覚トランスフォーマのモデル圧縮問題について述べる。 自己注意モジュールの恩恵を受け、トランスフォーマーアーキテクチャは多くのコンピュータビジョンタスクで素晴らしいパフォーマンスを示している。 ネットワーク性能は向上するが、トランスフォーマーはメモリ使用量や推論の複雑さなどの計算資源を必要とすることが多い。 既存の知識蒸留法と比較して,画像と分割パッチの関係から教師変換器から有用な情報を抽出することを提案する。 次に,教師および学生モデルにおいて,クロスイメージ,クロスパッチ,ランダム選択多様体を同時に計算する効率的な細粒度多様体蒸留法を検討する。 いくつかのベンチマークで行った実験の結果は、より高性能な可搬変圧器モデルを蒸留するアルゴリズムが優れていることを示している。 例えば、DiT-TinyモデルのトレーニングのためのImageNet-1kデータセット上で75.06%のTop-1精度を実現し、他のViT蒸留法よりも優れている。

This paper studies the model compression problem of vision transformers. Benefit from the self-attention module, transformer architectures have shown extraordinary performance on many computer vision tasks. Although the network performance is boosted, transformers are often required more computational resources including memory usage and the inference complexity. Compared with the existing knowledge distillation approaches, we propose to excavate useful information from the teacher transformer through the relationship between images and the divided patches. We then explore an efficient fine-grained manifold distillation approach that simultaneously calculates cross-images, cross-patch, and random-selected manifolds in teacher and student models. Experimental results conducted on several benchmarks demonstrate the superiority of the proposed algorithm for distilling portable transformer models with higher performance. For example, our approach achieves 75.06% Top-1 accuracy on the ImageNet-1k dataset for training a DeiT-Tiny model, which outperforms other ViT distillation methods.
翻訳日:2021-07-07 14:05:56 公開日:2021-07-06
# VidLanKD:ビデオ拡散知識伝達による言語理解の改善

VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer ( http://arxiv.org/abs/2107.02681v1 )

ライセンス: Link先を確認
Zineng Tang, Jaemin Cho, Hao Tan, Mohit Bansal(参考訳) 視覚知覚は、世界理解のためのテキスト記述を超えた豊富な情報を与えることができるため、言語学習における視覚基盤の活用への関心が高まっている。 近年,テキスト・画像間検索モデルの予測を言語モデル監督のためのラベルとして用いることで,ボケ化が注目されている。 その成功にもかかわらず、この方法は有限画像ラベルの使用の近似誤差と、小さな画像テキストデータセットの語彙多様性の欠如に苦しむ。 そこで,これらの限界を克服するために,映像言語知識蒸留法vidlankdを提案する。 我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。 近似誤差を避けるために, 異なる知識蒸留目的を用いることを提案する。 さらに、大規模なビデオテキストデータセットを使用することで、多様で豊かな語彙を学ぶことができる。 我々の実験では、VidLanKDはGLUE、SQuAD、SWAGなどの下流言語理解タスクにおいて、テキストのみの言語モデルと音声認識モデルに対して一貫した改善を実現している。 また, GLUE-diagnostics, PIQA, TRACIEデータセットを用いて, 世界の知識, 物理的推論, 時間的推論能力の向上を実証した。 最後に,包括的アブレーション研究と教師と生徒の言語モデルの学習テキストからビデオへの接地結果の可視化について述べる。 私たちのコードとモデルは、https://github.com/z inengtang/VidLanKDで利用可能です。

Since visual perception can give rich information beyond text descriptions for world understanding, there has been increasing interest in leveraging visual grounding for language learning. Recently, vokenization has attracted attention by using the predictions of a text-to-image retrieval model as labels for language model supervision. Despite its success, the method suffers from approximation error of using finite image labels and the lack of vocabulary diversity of a small image-text dataset. To overcome these limitations, we present VidLanKD, a video-language knowledge distillation method for improving language understanding. We train a multi-modal teacher model on a video-text dataset, and then transfer its knowledge to a student language model with a text dataset. To avoid approximation error, we propose to use different knowledge distillation objectives. In addition, the use of a large-scale video-text dataset helps learn diverse and richer vocabularies. In our experiments, VidLanKD achieves consistent improvements over text-only language models and vokenization models, on several downstream language understanding tasks including GLUE, SQuAD, and SWAG. We also demonstrate the improved world knowledge, physical reasoning, and temporal reasoning capabilities of our model by evaluating on the GLUE-diagnostics, PIQA, and TRACIE datasets. Lastly, we present comprehensive ablation studies as well as visualizations of the learned text-to-video grounding results of our teacher and student language models. Our code and models are available at: https://github.com/z inengtang/VidLanKD
翻訳日:2021-07-07 14:05:42 公開日:2021-07-06
# 空間変換器ネットワークによる小児セグメンテーションの改善と高速化のための自動サイズとポーズ均質化

Automatic size and pose homogenization with spatial transformer network to improve and accelerate pediatric segmentation ( http://arxiv.org/abs/2107.02655v1 )

ライセンス: Link先を確認
Giammarco La Barbera and Pietro Gori and Haithem Boussaid and Bruno Belucci and Alessandro Delmonte and Jeanne Goulin and Sabine Sarnacki and Laurence Rouet and Isabelle Bloch(参考訳) ポーズや大きさの多様性が高く、利用可能なデータの数が限られているため、深層学習では小児画像のセグメンテーションが困難である。 本研究では,Spatial Transformer Network (STN) を用いて,ポーズとスケールの不変性を考慮した新しいCNNアーキテクチャを提案する。 我々のアーキテクチャは、トレーニング中に一緒に見積もられる3つの逐次モジュールで構成されている: (i) 類似度行列を推定して入力画像の正規化を行う回帰モジュール、 (ii) セグメントに対する関心領域を見つけるための微分可能なモジュール、 (iii) 人気のあるUNetアーキテクチャに基づくセグメンテーションモジュール。 有限訓練データセットからポーズやスケールのバリエーションを含む複雑なマッピングを学習しようとするオリジナルのunetとは異なり、セグメンテーションモジュールは、正規化されたポーズとサイズの画像に焦点を当てたよりシンプルなマッピングを学習する。 さらに、STNによる自動バウンディングボックス検出を使用することで、同様の性能を維持しながら、特にメモリの節約が可能となる。 腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。 その結果、サイズとポーズのstnの均質化は、標準的なデータ表示(33h)と比較して、分画(25h)を加速し、腎の類似品質(88.01\%のdiceスコア)を得て、腎腫瘍の分画(85.52\%から87.12\%)を改善することが示された。

Due to a high heterogeneity in pose and size and to a limited number of available data, segmentation of pediatric images is challenging for deep learning methods. In this work, we propose a new CNN architecture that is pose and scale invariant thanks to the use of Spatial Transformer Network (STN). Our architecture is composed of three sequential modules that are estimated together during training: (i) a regression module to estimate a similarity matrix to normalize the input image to a reference one; (ii) a differentiable module to find the region of interest to segment; (iii) a segmentation module, based on the popular UNet architecture, to delineate the object. Unlike the original UNet, which strives to learn a complex mapping, including pose and scale variations, from a finite training dataset, our segmentation module learns a simpler mapping focusing on images with normalized pose and size. Furthermore, the use of an automatic bounding box detection through STN allows saving time and especially memory, while keeping similar performance. We test the proposed method in kidney and renal tumor segmentation on abdominal pediatric CT scanners. Results indicate that the estimated STN homogenization of size and pose accelerates the segmentation (25h), compared to standard data-augmentation (33h), while obtaining a similar quality for the kidney (88.01\% of Dice score) and improving the renal tumor delineation (from 85.52\% to 87.12\%).
翻訳日:2021-07-07 14:05:19 公開日:2021-07-06
# 双体系ニューロシンボリック推論を用いた神経シーケンスモデルのコヒーレンスと一貫性の改善

Improving Coherence and Consistency in Neural Sequence Models with Dual-System, Neuro-Symbolic Reasoning ( http://arxiv.org/abs/2107.02794v1 )

ライセンス: Link先を確認
Maxwell Nye, Michael Henry Tessler, Joshua B. Tenenbaum, Brenden M. Lake(参考訳) 人間の推論はしばしば、直感的かつ連想的(system 1)と意図的かつ論理的(system 2)の2つのシステム間の相互作用として理解される。 複雑で構造化されたタスクの実行にますます成功しているニューラルシーケンスモデルは、システム1のメリットと障害モードを示している。 そこで本研究では,System 2にインスパイアされた論理的推論を加えることで,既存のSystem 1のようなシーケンスモデルを改善する軽量でトレーニング不要な方法を模索する。 そこで本研究では,神経シーケンスモデルからの候補生成を記号的推論モジュールを用いて論理的一貫性について検討する。 我々のアプローチでは、神経系1と論理系2の間を仲介するために神経推論を用いる。 その結果、ロバストなストーリー生成とグラウンドド・インストラクション・フォローの結果、このアプローチは神経系世代の一貫性と正確性を高めることができる。

Human reasoning can often be understood as an interplay between two systems: the intuitive and associative ("System 1") and the deliberative and logical ("System 2"). Neural sequence models -- which have been increasingly successful at performing complex, structured tasks -- exhibit the advantages and failure modes of System 1: they are fast and learn patterns from data, but are often inconsistent and incoherent. In this work, we seek a lightweight, training-free means of improving existing System 1-like sequence models by adding System 2-inspired logical reasoning. We explore several variations on this theme in which candidate generations from a neural sequence model are examined for logical consistency by a symbolic reasoning module, which can either accept or reject the generations. Our approach uses neural inference to mediate between the neural System 1 and the logical System 2. Results in robust story generation and grounded instruction-followin g show that this approach can increase the coherence and accuracy of neurally-based generations.
翻訳日:2021-07-07 14:04:46 公開日:2021-07-06
# 情報ゲインとエルダー次元の関係についての一考察

A Short Note on the Relationship of Information Gain and Eluder Dimension ( http://arxiv.org/abs/2107.02377v1 )

ライセンス: Link先を確認
Kaixuan Huang, Sham M. Kakade, Jason D. Lee, Qi Lei(参考訳) エルダー次元と情報ゲインは、バンディットと強化学習で広く使われている複雑さ尺度である。 eluder次元はもともと関数クラスの一般複雑性測度として提案されたが、それが小さいことが知られている一般的な例は函数空間(ベクトル空間)である。 これらの場合、エルダー次元を上界にする第一の道具は楕円ポテンシャル補題である。 興味深いことに、楕円ポテンシャル補題は線形バンディット/強化学習とその非パラメトリック一般化である情報ゲインの分析においても顕著に特徴付けられる。 これは偶然ではなく、エルダー次元と情報ゲインは、カーネルヒルベルト空間を再現する正確な意味で等価であることを示す。

Eluder dimension and information gain are two widely used methods of complexity measures in bandit and reinforcement learning. Eluder dimension was originally proposed as a general complexity measure of function classes, but the common examples of where it is known to be small are function spaces (vector spaces). In these cases, the primary tool to upper bound the eluder dimension is the elliptic potential lemma. Interestingly, the elliptic potential lemma also features prominently in the analysis of linear bandits/reinforcemen t learning and their nonparametric generalization, the information gain. We show that this is not a coincidence -- eluder dimension and information gain are equivalent in a precise sense for reproducing kernel Hilbert spaces.
翻訳日:2021-07-07 14:04:01 公開日:2021-07-06
# エンドツーエンド深層クラスタリングのための期待最大化型ニューラルネットワーク混合モデル

Neural Mixture Models with Expectation-Maximiza tion for End-to-end Deep Clustering ( http://arxiv.org/abs/2107.02453v1 )

ライセンス: Link先を確認
Dumindu Tissera, Kasun Vithanage, Rukshan Wijesinghe, Alex Xavier, Sanath Jayasena, Subha Fernando, Ranga Rodrigo(参考訳) 任意のクラスタリングアルゴリズムは、同期的にクラスタをモデル化し、ラベルのないクラスタにデータを割り当てることを学びます。 混合モデルに基づく手法は、予め定義された統計分布を持つクラスタをモデル化し、クラスタの確率に基づいてクラスタにデータを割り当てる。 これらの分布パラメータとメンバー割り当ては、期待最大化(EM)アルゴリズムに従って反復的に洗練される。 しかし、限られた量のパラメータを用いた手作り分布のクラスタ表現性は、ほとんどの実世界のクラスタリングタスクには不十分である。 本稿では,ニューラルネットワークと混合モデルに基づくクラスタリングを実現し,最終層ニューロンを付加変換することにより,近似クラスタ分布出力を実現する。 ネットワークパラメータは、それらの分布のパラメータとして機能する。 その結果、手作りの分布の制限された混合物よりも、エレガントで広く一般化されたクラスタの表現となる。 我々は,Eステップとして前方パス,Mステップとして後方パスが動作するバッチワイズEMイテレーションを通じて,ネットワークのエンドツーエンドをトレーニングする。 画像クラスタリングでは、ミックスベースのEM目的を既存の表現学習手法とともにクラスタリングの対象として用いることができる。 特に,混合EM最適化と整合性最適化が融合すると,クラスタリングにおける単独の整合性最適化性能が向上することを示す。 STL10の63.8%、CIFAR10の58%、CIFAR100の25.9%、MNISTの98.9%の教師なし分類精度で、トレーニングされたネットワークはk-meansに依存した単一ステージのディープクラスタリング手法よりも優れています。

Any clustering algorithm must synchronously learn to model the clusters and allocate data to those clusters in the absence of labels. Mixture model-based methods model clusters with pre-defined statistical distributions and allocate data to those clusters based on the cluster likelihoods. They iteratively refine those distribution parameters and member assignments following the Expectation-Maximiza tion (EM) algorithm. However, the cluster representability of such hand-designed distributions that employ a limited amount of parameters is not adequate for most real-world clustering tasks. In this paper, we realize mixture model-based clustering with a neural network where the final layer neurons, with the aid of an additional transformation, approximate cluster distribution outputs. The network parameters pose as the parameters of those distributions. The result is an elegant, much-generalized representation of clusters than a restricted mixture of hand-designed distributions. We train the network end-to-end via batch-wise EM iterations where the forward pass acts as the E-step and the backward pass acts as the M-step. In image clustering, the mixture-based EM objective can be used as the clustering objective along with existing representation learning methods. In particular, we show that when mixture-EM optimization is fused with consistency optimization, it improves the sole consistency optimization performance in clustering. Our trained networks outperform single-stage deep clustering methods that still depend on k-means, with unsupervised classification accuracy of 63.8% in STL10, 58% in CIFAR10, 25.9% in CIFAR100, and 98.9% in MNIST.
翻訳日:2021-07-07 14:03:33 公開日:2021-07-06
# キャノピー型農業ロボットのための学習視覚ナビゲーション

Learned Visual Navigation for Under-Canopy Agricultural Robots ( http://arxiv.org/abs/2107.02792v1 )

ライセンス: Link先を確認
Arun Narenthiran Sivakumar and Sahil Modi and Mateus Valverde Gasparino and Che Ellis and Andres Eduardo Baquero Velasquez and Girish Chowdhary and Saurabh Gupta(参考訳) 本研究は, 農業用ロボットの視覚誘導自律ナビゲーションシステムについて述べる。 低コストのアンダーキャノピーロボットは、植物キャノピーの下にある作物の列の間を走行し、過剰なキャノピードローンや大型農業機器では不可能なタスクを達成できる。 しかし、キャノピーの下での自律的な移動には、信頼性の低いgpsとlidar、センシングのコストの高騰、農地への挑戦、葉や雑草による雑草、季節や作物の種類による外観の変化など、多くの課題がある。 これらの課題に対処するために,低コストカメラからの単眼RGB画像からの堅牢で一般化可能な認識に機械学習を活用するモジュールシステムを構築し,挑戦的な地形における正確な制御のための予測制御をモデル化する。 当社のシステムであるCropFollowは、25kmを超える広範囲なフィールドテストにおいて、最先端のLiDARベースシステム(286m)よりも優れた、介入1回あたり485mの自律走行を実現しています。

We describe a system for visually guided autonomous navigation of under-canopy farm robots. Low-cost under-canopy robots can drive between crop rows under the plant canopy and accomplish tasks that are infeasible for over-the-canopy drones or larger agricultural equipment. However, autonomously navigating them under the canopy presents a number of challenges: unreliable GPS and LiDAR, high cost of sensing, challenging farm terrain, clutter due to leaves and weeds, and large variability in appearance over the season and across crop types. We address these challenges by building a modular system that leverages machine learning for robust and generalizable perception from monocular RGB images from low-cost cameras, and model predictive control for accurate control in challenging terrain. Our system, CropFollow, is able to autonomously drive 485 meters per intervention on average, outperforming a state-of-the-art LiDAR based system (286 meters per intervention) in extensive field testing spanning over 25 km.
翻訳日:2021-07-07 14:03:08 公開日:2021-07-06
# 偏光天光方向決定人工ニューラルネットワーク

Polarized skylight orientation determination artificial neural network ( http://arxiv.org/abs/2107.02328v1 )

ライセンス: Link先を確認
Huaju Liang, Hongyang Bai, Ke Hu and Xinbo Lv(参考訳) 本稿では,偏光を用いた方向決定のためのニューラルネットワークを提案する。 このニューラルネットワークは特定の拡張畳み込みを持ち、異なる偏光方向の光強度情報を抽出することができる。 そして、ネットワークにおいて、偏光度(DOP)と偏光角度(AOP)を直接抽出する。 さらに, 方向の指数関数符号化をネットワーク出力として設計し, 昆虫の偏光情報の符号化をよりよく反映し, 方向決定の精度を向上させる。 最後に、パブリックな偏光航法データセットを用いてトレーニングと試験を行い、実験の結果、ネットワークの安定性と有効性が確認された。

This paper proposes an artificial neural network to determine orientation using polarized skylight. This neural network has specific dilated convolution, which can extract light intensity information of different polarization directions. Then, the degree of polarization (DOP) and angle of polarization (AOP) are directly extracted in the network. In addition, the exponential function encoding of orientation is designed as the network output, which can better reflect the insect's encoding of polarization information, and improve the accuracy of orientation determination. Finally, training and testing were conducted on a public polarized skylight navigation dataset, and the experimental results proved the stability and effectiveness of the network.
翻訳日:2021-07-07 14:02:32 公開日:2021-07-06
# 円核を畳み込みニューラルネットワークに統合する

Integrating Circle Kernels into Convolutional Neural Networks ( http://arxiv.org/abs/2107.02451v1 )

ライセンス: Link先を確認
Kun He, Chao Li, Yixiao Yang, Gao Huang, John E. Hopcroft(参考訳) 平方核は、畳み込み演算のテンソル計算によく適合するため、現代畳み込みニューラルネットワーク(CNN)の標準単位である。 しかし、人間の視覚系の受容野は実際には円のように等方的である。 本研究の目的は, 等方性受容場を持つ円核を畳み込みに利用することであり, 対応するCNNと正方形カーネルを比べた場合, ほぼ同等の計算量を必要とする。 予備実験では円核の有理性を示す。 次に、トレーニングと推論のために、円周カーネルと正方形カーネルを統合するカーネル強化戦略を提案し、さらに、トレーニング中にカーネルのサイズ/半径を学習できるようにする。 推測の前に円カーネルや統合カーネルを再パラメータ化するので、余分な計算やテストのパラメータオーバヘッドの数を必要としないことに注意してください。 いくつかの標準データセット(ImageNet, CIFAR-10, CIFAR-100)に対する大規模な実験により, 既存のCNNのサークルカーネルや統合カーネルを用いて, 高い競合性能を示した。 具体的には、標準データ拡張によるImageNetでは、MobileNetV3-Smallのパフォーマンスを5.20%、トップ5の3.39%で劇的に向上させ、MobileNetV3-Largeのパフォーマンスを2.16%、トップ5の1.18%で向上させる。

The square kernel is a standard unit for contemporary Convolutional Neural Networks (CNNs), as it fits well on the tensor computation for the convolution operation. However, the receptive field in the human visual system is actually isotropic like a circle. Motivated by this observation, we propose using circle kernels with isotropic receptive fields for the convolution, and our training takes approximately equivalent amount of calculation when compared with the corresponding CNN with square kernels. Our preliminary experiments demonstrate the rationality of circle kernels. We then propose a kernel boosting strategy that integrates the circle kernels with square kernels for the training and inference, and we further let the kernel size/radius be learnable during the training. Note that we reparameterize the circle kernels or integrated kernels before the inference, thus taking no extra computation as well as the number of parameter overhead for the testing. Extensive experiments on several standard datasets, ImageNet, CIFAR-10 and CIFAR-100, using the circle kernels or integrated kernels on typical existing CNNs, show that our approach exhibits highly competitive performance. Specifically, on ImageNet with standard data augmentation, our approach dramatically boosts the performance of MobileNetV3-Small by 5.20% top-1 accuracy and 3.39% top-5 accuracy, and boosts the performance of MobileNetV3-Large by 2.16% top-1 accuracy and 1.18% top-5 accuracy.
翻訳日:2021-07-07 14:02:22 公開日:2021-07-06
# 文脈相関を用いた深度対応マルチグリッド深層ホモグラフィ推定

Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation ( http://arxiv.org/abs/2107.02524v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) ホログラフィー推定は、画像ステッチ、ビデオ安定化、カメラキャリブレーションなどのコンピュータビジョンにおいて重要なタスクである。 従来のホモグラフィ推定法は特徴点の量と分布に大きく依存しており、テクスチャのないシーンではロバスト性に乏しい。 逆に学習ソリューションは、堅牢な深い特徴を学習しようとするが、重複率の低いシーンでは満足できないパフォーマンスを示す。 本稿では,特徴マップ上での長距離相関を捉え,学習フレームワークで柔軟に橋渡しできる文脈相関層を設計することで,この2つの問題を同時に解決する。 さらに,パララックスを用いた深度変化画像の複雑な空間変換を単一ホモグラフィでは表現できないことを考慮し,グローバルからローカルへのマルチグリッドホモグラフィーの予測を提案する。 さらに,新しい深度認識型形状保存損失を導入することで,ネットワークに深度知覚能力を持たせる。 総合ベンチマークデータセットと実世界のデータセットにおいて,本手法が他の最先端ソリューションよりも優れていることを示す広範な実験を行った。 コードとモデルはhttps://github.com/n ie-lang/multi-grid-d eep-homogarphyで入手できる。

Homography estimation is an important task in computer vision, such as image stitching, video stabilization, and camera calibration. Traditional homography estimation methods heavily depend on the quantity and distribution of feature points, leading to poor robustness in textureless scenes. The learning solutions, on the contrary, try to learn robust deep features but demonstrate unsatisfying performance in the scenes of low overlap rates. In this paper, we address the two problems simultaneously, by designing a contextual correlation layer, which can capture the long-range correlation on feature maps and flexibly be bridged in a learning framework. In addition, considering that a single homography can not represent the complex spatial transformation in depth-varying images with parallax, we propose to predict multi-grid homography from global to local. Moreover, we equip our network with depth perception capability, by introducing a novel depth-aware shape-preserved loss. Extensive experiments demonstrate the superiority of our method over other state-of-the-art solutions in the synthetic benchmark dataset and real-world dataset. The codes and models will be available at https://github.com/n ie-lang/Multi-Grid-D eep-Homogarphy.
翻訳日:2021-07-07 14:01:56 公開日:2021-07-06
# 暗黒知識を受け入れる:正規化知識蒸留を用いた領域一般化

Embracing the Dark Knowledge: Domain Generalization Using Regularized Knowledge Distillation ( http://arxiv.org/abs/2107.02629v1 )

ライセンス: Link先を確認
Yufei Wang, Haoliang Li, Lap-pui Chau, Alex C. Kot(参考訳) 畳み込みニューラルネットワークは様々なタスクで広く使われているが、十分なデータと代表データがない場合の一般化能力の欠如は、その実用的応用を妨げる課題の1つである。 本稿では,グラデーションフィルタを新しい正規化項とする知識蒸留フレームワークを基盤とした,知識蒸留法(kddg)と呼ばれる,単純かつ効果的かつプラグ・アンド・プレイの訓練戦略を提案する。 教師ネットワークからの「よりリッチなダークナレッジ」と、提案した勾配フィルタの両方が、マッピングの学習の難しさを低減し、モデルの一般化能力をさらに向上させることが判明した。 また,本手法を既存の最先端ドメイン一般化手法と比較することにより,画像分類,セグメンテーション,強化学習などさまざまなタスクにおけるディープニューラルネットワークの一般化能力を大幅に向上できることを示す実験を行った。 最後に,提案手法がディープニューラルネットワークの一般化にどのように役立つかを理解するため,提案手法を分析するために2つの指標を適用することを提案する。

Though convolutional neural networks are widely used in different tasks, lack of generalization capability in the absence of sufficient and representative data is one of the challenges that hinder their practical application. In this paper, we propose a simple, effective, and plug-and-play training strategy named Knowledge Distillation for Domain Generalization (KDDG) which is built upon a knowledge distillation framework with the gradient filter as a novel regularization term. We find that both the ``richer dark knowledge" from the teacher network, as well as the gradient filter we proposed, can reduce the difficulty of learning the mapping which further improves the generalization ability of the model. We also conduct experiments extensively to show that our framework can significantly improve the generalization capability of deep neural networks in different tasks including image classification, segmentation, reinforcement learning by comparing our method with existing state-of-the-art domain generalization techniques. Last but not the least, we propose to adopt two metrics to analyze our proposed method in order to better understand how our proposed method benefits the generalization capability of deep neural networks.
翻訳日:2021-07-07 14:01:39 公開日:2021-07-06
# オンラインヘイトメッセージ対策におけるNGOの活用

Empowering NGOs in Countering Online Hate Messages ( http://arxiv.org/abs/2107.02472v1 )

ライセンス: Link先を確認
Yi-Ling Chung, Serra Sinem Tekiroglu, Sara Tonelli, Marco Guerini(参考訳) オンラインヘイトスピーチの研究は、主に有害メッセージの自動検出に焦点を当てている。 ヘイトスピーチと戦う効果的な戦略の開発、特にカウンターメッセージの作成にはほとんど関心が向けられていない。 既存の手作業による精査と介入戦略は時間を要するが、自然言語処理の進歩は、憎しみ管理に対する体系的なアプローチを提供する可能性がある。 本稿では、NGOオペレーターがソーシャルメディアデータを監視・分析するために利用できる新しいICTプラットフォームと、反ナラティブな提案ツールを紹介する。 当社のプラットフォームは、イスラモフォビアに対するオペレーターの活動の効率性と効果を高めることを目的としている。 質的,定量的評価により,3カ国で100以上のNGO演算子を用いてプラットフォームをテストする。 その結果,NGOは提案ツールによるプラットフォームソリューションを好んでおり,反物語作成に必要な時間も大幅に減少することがわかった。

Studies on online hate speech have mostly focused on the automated detection of harmful messages. Little attention has been devoted so far to the development of effective strategies to fight hate speech, in particular through the creation of counter-messages. While existing manual scrutiny and intervention strategies are time-consuming and not scalable, advances in natural language processing have the potential to provide a systematic approach to hatred management. In this paper, we introduce a novel ICT platform that NGO operators can use to monitor and analyze social media data, along with a counter-narrative suggestion tool. Our platform aims at increasing the efficiency and effectiveness of operators' activities against islamophobia. We test the platform with more than one hundred NGO operators in three countries through qualitative and quantitative evaluation. Results show that NGOs favor the platform solution with the suggestion tool, and that the time required to produce counter-narratives significantly decreases.
翻訳日:2021-07-07 14:01:19 公開日:2021-07-06
# 非定常環境に対する重み付きガウス過程帯域

Weighted Gaussian Process Bandits for Non-stationary Environments ( http://arxiv.org/abs/2107.02371v1 )

ライセンス: Link先を確認
Yuntian Deng, Xingyu Zhou, Baekjin Kim, Ambuj Tewari, Abhishek Gupta, Ness Shroff(参考訳) 本稿では,非定常環境におけるガウス過程(GP)帯域最適化問題を考察する。 外部の変化を捉えるために、ブラックボックス関数は再生カーネルヒルベルト空間(RKHS)内で時間変化が許される。 この目的のために、重み付きガウス過程回帰に基づく新しい UCB 型アルゴリズム WGP-UCB を開発した。 鍵となる課題は、無限次元の特徴写像を扱う方法である。 そこで我々はカーネル近似技術を活用し、一般に非線形報酬を伴う重み付き時間変化バンディットに対する最初の(頻繁な)サブ線形後悔保証であるサブ線形後悔境界(sublinear regret bound)を証明する。 この結果は、非定常線形帯域と標準GP-UCBアルゴリズムの両方を一般化する。 さらに、一般重み付きガウス過程回帰に対して、新しい濃度不等式が達成される。 また,重み付き最大情報獲得のための普遍上界と重み依存上界も提供する。 これらの結果は、ニュースランキングやアダプティブ価格など、データの重要性や品質を捉えるために重みを適用できるアプリケーションに対して、独立した関心を持つ可能性がある。 最後に,既存の手法と比較した場合,提案アルゴリズムの利点を強調する実験を行った。

In this paper, we consider the Gaussian process (GP) bandit optimization problem in a non-stationary environment. To capture external changes, the black-box function is allowed to be time-varying within a reproducing kernel Hilbert space (RKHS). To this end, we develop WGP-UCB, a novel UCB-type algorithm based on weighted Gaussian process regression. A key challenge is how to cope with infinite-dimensional feature maps. To that end, we leverage kernel approximation techniques to prove a sublinear regret bound, which is the first (frequentist) sublinear regret guarantee on weighted time-varying bandits with general nonlinear rewards. This result generalizes both non-stationary linear bandits and standard GP-UCB algorithms. Further, a novel concentration inequality is achieved for weighted Gaussian process regression with general weights. We also provide universal upper bounds and weight-dependent upper bounds for weighted maximum information gains. These results are potentially of independent interest for applications such as news ranking and adaptive pricing, where weights can be adopted to capture the importance or quality of data. Finally, we conduct experiments to highlight the favorable gains of the proposed algorithm in many cases when compared to existing methods.
翻訳日:2021-07-07 14:00:27 公開日:2021-07-06
# 気象データを用いた干ばつ予測のための機械学習とディープラーニングモデルの評価

An Evaluation of Machine Learning and Deep Learning Models for Drought Prediction using Weather Data ( http://arxiv.org/abs/2107.02517v1 )

ライセンス: Link先を確認
Weiwei Jiang, Jiayun Luo(参考訳) 干ばつは深刻な自然災害であり、長い期間と幅広い影響がある。 干ばつによる損失を減らすため、干ばつ予測は、対応する干ばつ防止と防災対策の基盤となる。 この問題は文献で研究されているが、気象データを用いた機械学習モデルで干ばつを正確に予測できるかどうかは不明である。 この疑問に答えるために、実際の公共データセットをこの研究で活用し、過去90日間の18の気象指標を予測指標として、干ばつレベルを予測した。 包括的なアプローチでは、16の機械学習モデルと16のディープラーニングモデルを評価し比較する。 以上の結果から, 干ばつ予測問題はまだ困難な問題であり, 全ての評価指標に対して, 同時に最高の性能を達成できるモデルが存在しないことが示唆された。 さらなる研究のベンチマークとして、コードと結果はGithubリポジトリで公開されている。

Drought is a serious natural disaster that has a long duration and a wide range of influence. To decrease the drought-caused losses, drought prediction is the basis of making the corresponding drought prevention and disaster reduction measures. While this problem has been studied in the literature, it remains unknown whether drought can be precisely predicted or not with machine learning models using weather data. To answer this question, a real-world public dataset is leveraged in this study and different drought levels are predicted using the last 90 days of 18 meteorological indicators as the predictors. In a comprehensive approach, 16 machine learning models and 16 deep learning models are evaluated and compared. The results show no single model can achieve the best performance for all evaluation metrics simultaneously, which indicates the drought prediction problem is still challenging. As benchmarks for further studies, the code and results are publicly available in a Github repository.
翻訳日:2021-07-07 14:00:09 公開日:2021-07-06
# マルチレベルグラフコントラスト学習

Multi-Level Graph Contrastive Learning ( http://arxiv.org/abs/2107.02639v1 )

ライセンス: Link先を確認
Pengpeng Shao, Tong Liu, Dawei Zhang, Jianhua Tao, Feihu Che, Guohua Yang(参考訳) グラフ表現学習は近年,グラフの各ノードに対する識別的埋め込みの学習を目標とする関心の高まりを招いている。 これらの表現手法のほとんどは教師付き学習に焦点を当てており、ラベル情報に大きく依存している。 しかし、アノテートグラフは現実世界、特に特殊な領域(すなわち)で得られるには高価である。 生物学) アノテータがグラフをラベル付けするドメイン知識を持つ必要がある。 この問題に対処するために、自己教師付き学習はグラフ表現学習の実現可能なソリューションを提供する。 本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。 具体的には,新しい対比的視点 - 位相的および特徴空間的ビューを紹介する。 元のグラフは一階近似構造であり、不確実性や誤差を含むが、符号化特徴によって生成される$k$nnグラフは高階近接を保つ。 したがって、符号化機能によって生成される$k$NNグラフは、補完的なビューを提供するだけでなく、識別表現を抽出するためにGNNエンコーダに適している。 さらに,グラフ構造データの局所的類似性と意味的類似性を同時に保持するマルチレベルコントラストモードを開発した。 MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。

Graph representation learning has attracted a surge of interest recently, whose target at learning discriminant embedding for each node in the graph. Most of these representation methods focus on supervised learning and heavily depend on label information. However, annotating graphs are expensive to obtain in the real world, especially in specialized domains (i.e. biology), as it needs the annotator to have the domain knowledge to label the graph. To approach this problem, self-supervised learning provides a feasible solution for graph representation learning. In this paper, we propose a Multi-Level Graph Contrastive Learning (MLGCL) framework for learning robust representation of graph data by contrasting space views of graphs. Specifically, we introduce a novel contrastive view - topological and feature space views. The original graph is first-order approximation structure and contains uncertainty or error, while the $k$NN graph generated by encoding features preserves high-order proximity. Thus $k$NN graph generated by encoding features not only provide a complementary view, but is more suitable to GNN encoder to extract discriminant representation. Furthermore, we develop a multi-level contrastive mode to preserve the local similarity and semantic similarity of graph-structured data simultaneously. Extensive experiments indicate MLGCL achieves promising results compared with the existing state-of-the-art graph representation learning methods on seven datasets.
翻訳日:2021-07-07 13:59:54 公開日:2021-07-06
# 一般グラフ上の因果的バンディット

Causal Bandits on General Graphs ( http://arxiv.org/abs/2107.02772v1 )

ライセンス: Link先を確認
Aurghya Maiti, Vineet Nair, Gaurav Sinha(参考訳) 因果グラフのみによって指定された因果ベイズネットワーク(cbn)における最善の介入を決定する問題について検討する。 我々は、これをサイド情報を伴う確率的多腕バンディット(mab)問題としてモデル化し、介入はバンディットインスタンスの腕に対応する。 まず,半マルコフ的因果グラフの入力として原子介入や観測不可能な変数を考慮し,入力されたCBNに依存する$M$が,アーム数に比べて非常に小さいような単純な後悔を$\tilde{O}(\sqrt{M/T})$で達成する,簡単な後悔最小化アルゴリズムを提案する。 また、これは、$n$-ary木構造を持つ因果グラフによって記述されるCBNに対してほぼ最適であることを示す。 我々の単純な後悔の最小化の結果は、上界と下界の両方で、入力因果グラフに付加的な構造的制約を仮定する文献に先行する。 特に,提案アルゴリズムの単純な後悔保証は,因果グラフに対するよりニュアンス的な構造制約を考慮することでのみ改善できることを示す。 次に,すべての可観測ノードとアトミック介入を持つ一般的な因果グラフを入力とし,因果関係情報を考慮していない最適なmabアルゴリズムよりも優れた処理を行う累積的後悔最小化アルゴリズムを提案する。 また,両アルゴリズムを文献上で最もよく知られたアルゴリズムと比較した。 私たちの知る限りでは、この研究は原子の介入の下で一般的な因果グラフを持つcbnに対する最初の単純で累積的な後悔の最小化アルゴリズムを提供する。

We study the problem of determining the best intervention in a Causal Bayesian Network (CBN) specified only by its causal graph. We model this as a stochastic multi-armed bandit (MAB) problem with side-information, where the interventions correspond to the arms of the bandit instance. First, we propose a simple regret minimization algorithm that takes as input a semi-Markovian causal graph with atomic interventions and possibly unobservable variables, and achieves $\tilde{O}(\sqrt{M/T})$ expected simple regret, where $M$ is dependent on the input CBN and could be very small compared to the number of arms. We also show that this is almost optimal for CBNs described by causal graphs having an $n$-ary tree structure. Our simple regret minimization results, both upper and lower bound, subsume previous results in the literature, which assumed additional structural restrictions on the input causal graph. In particular, our results indicate that the simple regret guarantee of our proposed algorithm can only be improved by considering more nuanced structural restrictions on the causal graph. Next, we propose a cumulative regret minimization algorithm that takes as input a general causal graph with all observable nodes and atomic interventions and performs better than the optimal MAB algorithm that does not take causal side-information into account. We also experimentally compare both our algorithms with the best known algorithms in the literature. To the best of our knowledge, this work gives the first simple and cumulative regret minimization algorithms for CBNs with general causal graphs under atomic interventions and having unobserved confounders.
翻訳日:2021-07-07 13:59:33 公開日:2021-07-06
# ニューロン数に依存しない精度によるディープネットワーク近似

Deep Network Approximation With Accuracy Independent of Number of Neurons ( http://arxiv.org/abs/2107.02397v1 )

ライセンス: Link先を確認
Zuowei Shen and Haizhao Yang and Shijun Zhang(参考訳) 本稿では,有限個のニューロンを持つすべての連続関数に対する普遍近似性を実現する,単純なフィードフォワードニューラルネットワークを開発した。 これらのニューラルネットワークは、単純な連続活性化関数$\sigma$で設計されており、三角波関数とソフトサイン関数を利用するため、単純である。 我々は、$\sigma$-activated network with width $36d(2d+1)$ and depth $11$が任意に小さい誤差で$d$-dimensioanl hypercube上の任意の連続関数を近似できることを証明する。 したがって、教師付き学習とその関連する回帰問題に対して、これらのネットワークによって生成される仮説空間は、36d(2d+1)\times 11$は連続函数の空間において密度が高い。 さらに、画像分類と信号分類から生じる分類関数は、$36d(2d+1)$とdeep $112$の幅を持つ$\sigma$-activatedネットワークと$\mathbb{R}^d$の対に非結合な有界部分集合が存在し、同じクラスのサンプルが同じ部分集合にあるという仮説空間で生成される。

This paper develops simple feed-forward neural networks that achieve the universal approximation property for all continuous functions with a fixed finite number of neurons. These neural networks are simple because they are designed with a simple and computable continuous activation function $\sigma$ leveraging a triangular-wave function and a softsign function. We prove that $\sigma$-activated networks with width $36d(2d+1)$ and depth $11$ can approximate any continuous function on a $d$-dimensioanl hypercube within an arbitrarily small error. Hence, for supervised learning and its related regression problems, the hypothesis space generated by these networks with a size not smaller than $36d(2d+1)\times 11$ is dense in the space of continuous functions. Furthermore, classification functions arising from image and signal classification are in the hypothesis space generated by $\sigma$-activated networks with width $36d(2d+1)$ and depth $12$, when there exist pairwise disjoint closed bounded subsets of $\mathbb{R}^d$ such that the samples of the same class are located in the same subset.
翻訳日:2021-07-07 13:59:02 公開日:2021-07-06
# 正規化流を用いた暗黙的変分条件サンプリング

Implicit Variational Conditional Sampling with Normalizing Flows ( http://arxiv.org/abs/2107.02474v1 )

ライセンス: Link先を確認
Vincent Moens, Aivar Sootla, Haitham Bou Ammar, Jun Wang(参考訳) 観測結果の一部しか得られない場合, 正規化フローを用いた条件付きサンプリング手法を提案する。 フローのドメインを、サブドメインへのフロー制限が全単射性を保持するように分割できるなら、条件付き変数のlog-probabilityに対する下限を導出することができる。 変動条件流からのシミュレーションは、等式制約を解くために修正される。 筆者らの貢献は3つある:a) 変動分布の選択について詳細な知見を提供する;b) 単射性を保つためにフローの入力空間を分割する方法を提案する;c) 特定の場合における変動分布を最適化する一連の方法を提案する。 広範な実験により,提案手法は推論と分類のために可逆的残差ネットワークに適用できることを示した。

We present a method for conditional sampling with normalizing flows when only part of an observation is available. We rely on the following fact: if the flow's domain can be partitioned in such a way that the flow restrictions to subdomains keep the bijectivity property, a lower bound to the conditioning variable log-probability can be derived. Simulation from the variational conditional flow then amends to solving an equality constraint. Our contribution is three-fold: a) we provide detailed insights on the choice of variational distributions; b) we propose how to partition the input space of the flow to preserve bijectivity property; c) we propose a set of methods to optimise the variational distribution in specific cases. Through extensive experiments, we show that our sampling method can be applied with success to invertible residual networks for inference and classification.
翻訳日:2021-07-07 13:58:43 公開日:2021-07-06
# InfoNCEは変分オートエンコーダである

InfoNCE is a variational autoencoder ( http://arxiv.org/abs/2107.02495v1 )

ライセンス: Link先を確認
Laurence Aitchison(参考訳) 本稿では,教師なし学習手法であるSSVAE (Self-supervised variational autoencoder) の特殊事例として,人気のある自己教師付き学習手法であるInfoNCEについて述べる。 SSVAEは、慎重に選択された暗黙のデコーダを使用してデータを再構築する通常のVAE要件を回避する。 InfoNCEの目的は、簡易なパラメトリック相互情報推定器として動機づけられた。 SSVAEの1つの選択は、SSVAEの目的(すなわち)である。 ELBO)は、相互情報(定数まで)と完全に等しい。 以前の選択肢では、SSVAEの目標はInfoNCE(定数まで)で使われる単純化されたパラメトリックな相互情報推定器と完全に等しい。 重要なことは、簡易なパラメトリックな相互情報推定器の使用は、優れたハイレベルな表現を得るために重要であると考えられており、SSVAEフレームワークは、これらの推定器を選択するために事前情報を使用するための原則化された正当化を提供する。

We show that a popular self-supervised learning method, InfoNCE, is a special case of a new family of unsupervised learning methods, the self-supervised variational autoencoder (SSVAE). SSVAEs circumvent the usual VAE requirement to reconstruct the data by using a carefully chosen implicit decoder. The InfoNCE objective was motivated as a simplified parametric mutual information estimator. Under one choice of prior, the SSVAE objective (i.e. the ELBO) is exactly equal to the mutual information (up to constants). Under an alternative choice of prior, the SSVAE objective is exactly equal to the simplified parametric mutual information estimator used in InfoNCE (up to constants). Importantly, the use of simplified parametric mutual information estimators is believed to be critical to obtain good high-level representations, and the SSVAE framework naturally provides a principled justification for using prior information to choose these estimators.
翻訳日:2021-07-07 13:58:29 公開日:2021-07-06
# 固有の不確実性とその発見方法

Intrinsic uncertainties and where to find them ( http://arxiv.org/abs/2107.02526v1 )

ライセンス: Link先を確認
Francesco Farina, Lawrence Phillips, Nicola J Richmond(参考訳) 本稿では,多くの既存手法を記述・拡張する不確実性推定フレームワークを提案する。 古典的学習にかかわる典型的なハイパーパラメータをランダム変数とみなし、パラメータ空間における様々な不確実性の原因を捉えている。 本稿では,標準ベンチマークデータセットの実践的観点から,どの形式と組み合わせが最も有用かを検討する。 さらに, 広範囲なハイパーパラメータチューニングや大規模アンサンブルを必要とせず, 信頼性の高い不確実性を推定する方法についても論じる。

We introduce a framework for uncertainty estimation that both describes and extends many existing methods. We consider typical hyperparameters involved in classical training as random variables and marginalise them out to capture various sources of uncertainty in the parameter space. We investigate which forms and combinations of marginalisation are most useful from a practical point of view on standard benchmarking data sets. Moreover, we discuss how some marginalisations may produce reliable estimates of uncertainty without the need for extensive hyperparameter tuning and/or large-scale ensembling.
翻訳日:2021-07-07 13:58:12 公開日:2021-07-06
# 逆行訓練によるグラフオートエンコーダの一般化について

On Generalization of Graph Autoencoders with Adversarial Training ( http://arxiv.org/abs/2107.02658v1 )

ライセンス: Link先を確認
Tianjin huang, Yulong Pei, Vlado Menkovski and Mykola Pechenizkiy(参考訳) 逆行訓練は、逆行性摂動に対するモデルの弾力性を高めるためのアプローチである。 このようなアプローチは、より一般化した特徴表現を持つモデルをもたらすことが示されている。 しかし、グラフデータ上のモデルの敵対的トレーニングでは、限定的な研究がなされている。 本稿では, グラフ表現の一般化を, 敵対的学習により向上させるかという疑問を提起する。 本稿では,グラフオートエンコーダ (GAE) と変分グラフオートエンコーダ (VGAE) の2つの強力なノード埋め込み手法を用いて,L2 と L1 の逆学習を定式化する。 3つの主要な応用、すなわち、広範な実験を行う。 リンク予測,ノードクラスタリング,GAEとVGAEのグラフ異常検出,L2とL1の両逆トレーニングがGAEとVGAEの一般化を促進することを示す。

Adversarial training is an approach for increasing model's resilience against adversarial perturbations. Such approaches have been demonstrated to result in models with feature representations that generalize better. However, limited works have been done on adversarial training of models on graph data. In this paper, we raise such a question { does adversarial training improve the generalization of graph representations. We formulate L2 and L1 versions of adversarial training in two powerful node embedding methods: graph autoencoder (GAE) and variational graph autoencoder (VGAE). We conduct extensive experiments on three main applications, i.e. link prediction, node clustering, graph anomaly detection of GAE and VGAE, and demonstrate that both L2 and L1 adversarial training boost the generalization of GAE and VGAE.
翻訳日:2021-07-07 13:58:04 公開日:2021-07-06
# 雑音ラベルに対するアンサンブルノイズロバストk-foldクロスバリデーション選択法

An Ensemble Noise-Robust K-fold Cross-Validation Selection Method for Noisy Labels ( http://arxiv.org/abs/2107.02347v1 )

ライセンス: Link先を確認
Yong Wen, Marcus Kalander, Chanfei Su, Lujia Pan(参考訳) 雑音ラベルが多岐にわたる場合, 頑健で正確なディープニューラルネットワーク(DNN)を訓練する際の問題点を考察する。 大規模なデータセットには、DNNによって記憶されるようなラベルのつかないサンプルが含まれており、パフォーマンスを損なう傾向がある。 適切な処理により、この劣化を緩和することができる。 清潔なサンプルを区別する方法と、ノイズの多いサンプルをどう扱うかという2つの問題があります。 本稿では,雑音データからクリーンサンプルを効果的に選択するためのアンサンブルノイズロバストk-foldクロスバリデーション選択(e-nkcvs)を提案する。 第2の問題は、不確実あるいはおそらく腐敗する可能性のあるラベルを持つと判断されたサンプルに対して、新しい擬似ラベルを作成することである。 E-NKCVSはサンプル毎に複数の予測ラベルを取得し、これらのラベルのエントロピーを用いて擬似ラベルと与えられたラベルに与えられる重みを調整する。 ノイズラベル設定における理論的解析とアルゴリズムの広範な検証を提供する。 我々は,ラベルが手動で異なる雑音比で破損した様々な画像・テキスト分類タスクに対するアプローチを評価する。 さらに、Clothing-1MとWebVisionという、2つの大きな実世界のノイズデータセットも使用されている。 E-NKCVSは、ラベルノイズのかなりの部分に対して高い耐性を示し、最先端の手法よりも一貫して改善されている。 特にノイズ比の高いより難しいデータセットでは、第2のベストモデルよりも大幅に改善できる。 さらに,提案手法は既存のDNN手法と容易に統合でき,ラベルノイズに対する堅牢性を向上させることができる。

We consider the problem of training robust and accurate deep neural networks (DNNs) when subject to various proportions of noisy labels. Large-scale datasets tend to contain mislabeled samples that can be memorized by DNNs, impeding the performance. With appropriate handling, this degradation can be alleviated. There are two problems to consider: how to distinguish clean samples and how to deal with noisy samples. In this paper, we present Ensemble Noise-robust K-fold Cross-Validation Selection (E-NKCVS) to effectively select clean samples from noisy data, solving the first problem. For the second problem, we create a new pseudo label for any sample determined to have an uncertain or likely corrupt label. E-NKCVS obtains multiple predicted labels for each sample and the entropy of these labels is used to tune the weight given to the pseudo label and the given label. Theoretical analysis and extensive verification of the algorithms in the noisy label setting are provided. We evaluate our approach on various image and text classification tasks where the labels have been manually corrupted with different noise ratios. Additionally, two large real-world noisy datasets are also used, Clothing-1M and WebVision. E-NKCVS is empirically shown to be highly tolerant to considerable proportions of label noise and has a consistent improvement over state-of-the-art methods. Especially on more difficult datasets with higher noise ratios, we can achieve a significant improvement over the second-best model. Moreover, our proposed approach can easily be integrated into existing DNN methods to improve their robustness against label noise.
翻訳日:2021-07-07 13:57:03 公開日:2021-07-06
# 位置エンコーディングの再考

Rethinking Positional Encoding ( http://arxiv.org/abs/2107.02561v1 )

ライセンス: Link先を確認
Jianqiao Zheng, Sameera Ramasinghe, Simon Lucey(参考訳) 座標ベースのmlpは、フーリエ特徴の配列として座標位置を符号化することで、高周波情報を保存するという点で、非常に有益である。 これらの位置符号化の有効性の理論的根拠は、フーリエレンズを通してのみ研究されている。 本稿では,非フーリエ埋め込み関数が位置符号化に有効であることを示すことにより,この理解を深める。 さらに,それらの性能は,組込み行列の安定階数と組込み座標間の距離保存とのトレードオフによって決定されることを示した。 さらに,現在普及している位置のフーリエ特徴マッピングが,これらの条件を満たす特別な場合であることを示す。 したがって、シフト基底関数の観点から位置符号化を解析するためのより一般的な理論を提案する。 この目的のために、我々は必要な理論式を開発し、我々の理論的主張が実際に成り立つことを実証的に検証する。 コードはhttps://github.com/o siriszjq/rethinking- positional-encodingで入手できる。

It is well noted that coordinate based MLPs benefit greatly -- in terms of preserving high-frequency information -- through the encoding of coordinate positions as an array of Fourier features. Hitherto, the rationale for the effectiveness of these positional encodings has been solely studied through a Fourier lens. In this paper, we strive to broaden this understanding by showing that alternative non-Fourier embedding functions can indeed be used for positional encoding. Moreover, we show that their performance is entirely determined by a trade-off between the stable rank of the embedded matrix and the distance preservation between embedded coordinates. We further establish that the now ubiquitous Fourier feature mapping of position is a special case that fulfills these conditions. Consequently, we present a more general theory to analyze positional encoding in terms of shifted basis functions. To this end, we develop the necessary theoretical formulae and empirically verify that our theoretical claims hold in practice. Codes available at https://github.com/o siriszjq/Rethinking- positional-encoding.
翻訳日:2021-07-07 13:56:38 公開日:2021-07-06
# ランダムサンプリングによる大規模点雲の意味セグメンテーションの学習

Learning Semantic Segmentation of Large-Scale Point Clouds with Random Sampling ( http://arxiv.org/abs/2107.02389v1 )

ライセンス: Link先を確認
Qingyong Hu, Bo Yang, Linhai Xie, Stefano Rosa, Yulan Guo, Zhihua Wang, Niki Trigoni and Andrew Markham(参考訳) 大規模3次元点雲の効率的なセマンティックセグメンテーションの問題について検討する。 高価なサンプリング技術や計算的に重い前/後処理ステップに頼ることで、既存のアプローチのほとんどは、小規模のポイントクラウド上でのみトレーニングと運用が可能である。 本稿では,大規模クラウドに対して,ポイントごとのセマンティクスを直接推論する,効率的かつ軽量なニューラルネットワークであるRandLA-Netを紹介する。 私たちのアプローチの鍵は、より複雑なポイント選択アプローチではなく、ランダムなポイントサンプリングを使用することです。 驚くべき計算とメモリ効率は高いが、ランダムサンプリングは偶然キー機能を破棄することができる。 そこで我々は,各3次元点に対する受容場を徐々に増加させ,幾何学的詳細を効果的に保存する,新しい局所的特徴集約モジュールを提案する。 比較実験により、我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できることがわかった。 さらに、semantic3d、semantickitti、トロント3d、npm3d、s3disを含む5つの大規模ポイントクラウドデータセットに関する広範な実験により、randra-netの最先端セマンティックセグメンテーション性能が実証された。

We study the problem of efficient semantic segmentation of large-scale 3D point clouds. By relying on expensive sampling techniques or computationally heavy pre/post-processing steps, most existing approaches are only able to be trained and operate over small-scale point clouds. In this paper, we introduce RandLA-Net, an efficient and lightweight neural architecture to directly infer per-point semantics for large-scale point clouds. The key to our approach is to use random point sampling instead of more complex point selection approaches. Although remarkably computation and memory efficient, random sampling can discard key features by chance. To overcome this, we introduce a novel local feature aggregation module to progressively increase the receptive field for each 3D point, thereby effectively preserving geometric details. Comparative experiments show that our RandLA-Net can process 1 million points in a single pass up to 200x faster than existing approaches. Moreover, extensive experiments on five large-scale point cloud datasets, including Semantic3D, SemanticKITTI, Toronto3D, NPM3D and S3DIS, demonstrate the state-of-the-art semantic segmentation performance of our RandLA-Net.
翻訳日:2021-07-07 13:56:24 公開日:2021-07-06
# スマート交通信号制御が空気品質に及ぼす影響

Effects of Smart Traffic Signal Control on Air Quality ( http://arxiv.org/abs/2107.02361v1 )

ライセンス: Link先を確認
Paolo Fazzini, Marco Torre, Valeria Rizza and Francesco Petracchini(参考訳) 都市交通ネットワークにおける適応的交通信号制御(ATSC)は,交通システムに生じる複雑なダイナミクスのため,課題となる。 近年,マルチエージェント深層強化学習(marl)に基づく手法が実験的に研究されている。 これらの手法は,周囲の車両の流れを最適化することを目的とした確率ゲームにおいて,各信号交差点をエージェントとみなす分散手法を提案する。 この設定では、システムはネットワーク全体の利益を示すエージェント間の平衡に向かって進化する。 ma2c(multi-agent a2c)と呼ばれる、確立されたアドバンテージ・アクタ-クリティック(a2c)アルゴリズムのマルチエージェント版が最近開発された。 この観点から、エージェントは他のエージェントと戦略を共有し、エージェントの数や多様性が増大しても学習プロセスを安定化させる。 ボローニャ(イタリア)の2つの交通ネットワークでMA2Cを実験したところ、その作用は環境に放出される汚染物質の量を大幅に減少させることがわかった。

Adaptive traffic signal control (ATSC) in urban traffic networks poses a challenging task due to the complicated dynamics arising in traffic systems. In recent years, several approaches based on multi-agent deep reinforcement learning (MARL) have been studied experimentally. These approaches propose distributed techniques in which each signalized intersection is seen as an agent in a stochastic game whose purpose is to optimize the flow of vehicles in its vicinity. In this setting, the systems evolves towards an equilibrium among the agents that shows beneficial for the whole traffic network. A recently developed multi-agent variant of the well-established advantage actor-critic (A2C) algorithm, called MA2C (multi-agent A2C) exploits the promising idea of some communication among the agents. In this view,the agents share their strategies with other neighbor agents, thereby stabilizing the learning process even when the agents grow in number and variety. We experimented MA2C in two traffic networks located in Bologna (Italy) and found that its action translates into a significant decrease of the amount of pollutants released into the environment.
翻訳日:2021-07-07 13:56:00 公開日:2021-07-06
# ディープリカレントセルネットワークを用いた動的システムパラメータ同定

Dynamical System Parameter Identification using Deep Recurrent Cell Networks ( http://arxiv.org/abs/2107.02427v1 )

ライセンス: Link先を確認
Erdem Akag\"und\"uz and Oguzhan Cifdaloz(参考訳) 本稿では,動的システムのパラメータ同定問題について,ディープラーニング手法を用いて検討する。 主に2階線形時間不変力学系に着目し,減衰因子の同定について検討した。 GRUs,LSTMs,BiLSTMsなど,異なるリカレントセルを持つ6層ディープニューラルネットワークを利用して,動的システムシミュレータから取得した入力-出力シーケンスペアを入力することにより,減衰係数の同定問題を解決する効果的なディープ・リカレント・アーキテクチャを探索する。 文献ではこれまでこの課題に利用されなかったが, 双方向ゲートリカレントセル(BiLSTM)は, GRUやLSTMのような一方向ゲートリカレントメモリセルと比較して, より優れたパラメータ同定結果を提供する。 したがって、有限長の入力出力シーケンス対が力学系から収集され、時間的に観測されると、動的系パラメータの予測のために両方の時間方向の情報を運ぶことができる。

In this paper, we investigate the parameter identification problem in dynamical systems through a deep learning approach. Focusing mainly on second-order, linear time-invariant dynamical systems, the topic of damping factor identification is studied. By utilizing a six-layer deep neural network with different recurrent cells, namely GRUs, LSTMs or BiLSTMs; and by feeding input-output sequence pairs captured from a dynamical system simulator, we search for an effective deep recurrent architecture in order to resolve damping factor identification problem. Our study results show that, although previously not utilized for this task in the literature, bidirectional gated recurrent cells (BiLSTMs) provide better parameter identification results when compared to unidirectional gated recurrent memory cells such as GRUs and LSTM. Thus, indicating that an input-output sequence pair of finite length, collected from a dynamical system and when observed anachronistically, may carry information in both time directions for prediction of a dynamical systems parameter.
翻訳日:2021-07-07 13:55:44 公開日:2021-07-06
# 機械学習とソフトウェアモデリングへのモデル駆動工学的アプローチ

A Model-Driven Engineering Approach to Machine Learning and Software Modeling ( http://arxiv.org/abs/2107.02689v1 )

ライセンス: Link先を確認
Armin Moin, Atta Badii and Stephan G\"unnemann(参考訳) モデルは、ソフトウェア工学(SE)と人工知能(AI)のコミュニティで使われている。 前者の場合、異なる抽象レベルでソフトウェアシステムアーキテクチャを指定する可能性のあるソフトウェアのモデルは、初期の概念化と設計から検証、実装、テスト、進化に至るまで、ソフトウェア開発ライフサイクル(sdlc)の様々な段階において利用可能である。 しかし、後者の場合、つまりAIでは、モデルが予測や意思決定支援といったスマートな能力を提供する可能性がある。 例えば、現在AIの最もポピュラーなサブカテゴリである機械学習(ML)では、数学的モデルは観測されたデータインスタンスで有用なパターンを学習し、将来より優れた予測やレコメンデーションを行うことができる。 この作業の目標は、これらのコミュニティにモデルを持ち込み、全体的なアプローチを提案することで、シナジーを生み出すことです。 ソフトウェアモデルがデータ分析やMLモデルの生成や処理が可能なようになる方法について説明する。 主な焦点はIoT(Internet of Things)とCPS(Smart Cyber-Physical Systems)のユースケースであり、MLとモデル駆動(モデルベース)SEの両方が重要な役割を果たす。 特に,提案手法をオープンソースプロトタイプに実装し,IoT/CPSドメインの2つのユースケースを用いて検証する。

Models are used in both the Software Engineering (SE) and the Artificial Intelligence (AI) communities. In the former case, models of software, which may specify the software system architecture on different levels of abstraction could be used in various stages of the Software Development Life-Cycle (SDLC), from early conceptualization and design, to verification, implementation, testing and evolution. However, in the latter case, i.e., AI, models may provide smart capabilities, such as prediction and decision making support. For instance, in Machine Learning (ML), which is the most popular sub-discipline of AI at the present time, mathematical models may learn useful patterns in the observed data instances and can become capable of making better predictions or recommendations in the future. The goal of this work is to create synergy by bringing models in the said communities together and proposing a holistic approach. We illustrate how software models can become capable of producing or dealing with data analytics and ML models. The main focus is on the Internet of Things (IoT) and smart Cyber-Physical Systems (CPS) use cases, where both ML and model-driven (model-based) SE play a key role. In particular, we implement the proposed approach in an open source prototype and validate it using two use cases from the IoT/CPS domain.
翻訳日:2021-07-07 13:55:23 公開日:2021-07-06
# 実世界のCPS/IoTアプリケーションのMDSEのためのアン/セミスーパービジョン機械学習の実現

Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World CPS/IoT Applications ( http://arxiv.org/abs/2107.02690v1 )

ライセンス: Link先を確認
Armin Moin, Atta Badii and Stephan G\"unnemann(参考訳) 本稿では、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。 人工知能(AI)の本質において利用可能なデータの大部分は、特に機械学習(ML)にラベルが付けられていない、と我々は主張する。 したがって、教師なしおよび/または半教師なしのMLアプローチが実用的な選択である。 しかし、MDSEの文献における先行研究では、ラベル付きトレーニングデータのみを扱う教師付きMLアプローチが検討されている。 提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。 さらに、スマートエネルギーシステム領域におけるREFIT参照データセットのオープンデータの一部を用いて、提案手法を検証した。 私たちのモデルからコードへの変換(コードジェネレータ)は、モデルインスタンスから必要なIoTサービスの完全なソースコードを自動で提供します。 現在、JavaとPythonでソースコードを生成しています。 PythonコードはML機能に責任を持ち、いくつかのMLライブラリとフレームワーク、すなわちScikit-Learn、Keras、TensorFlowのAPIを使用する。 教師なしおよび半教師なしの学習では、Scikit-LearnのAPIがデプロイされる。 K-Means, Mini-Batch K-Means, DB-SCAN, Spectral Clustering, Gaussian Mixture Model, Self-Training, Label Propagation, Label Spreadingなど,一部のMLメソッドをサポートする純粋なMDSEアプローチに加えて,任意のアーキテクチャと学習アルゴリズムで事前トレーニングされたMLモデルをデプロイする上で,より柔軟なハイブリッドアプローチも実現されている。

In this paper, we propose a novel approach to support domain-specific Model-Driven Software Engineering (MDSE) for the real-world use-case scenarios of smart Cyber-Physical Systems (CPS) and the Internet of Things (IoT). We argue that the majority of available data in the nature for Artificial Intelligence (AI), specifically Machine Learning (ML) are unlabeled. Hence, unsupervised and/or semi-supervised ML approaches are the practical choices. However, prior work in the literature of MDSE has considered supervised ML approaches, which only work with labeled training data. Our proposed approach is fully implemented and integrated with an existing state-of-the-art MDSE tool to serve the CPS/IoT domain. Moreover, we validate the proposed approach using a portion of the open data of the REFIT reference dataset for the smart energy systems domain. Our model-to-code transformations (code generators) provide the full source code of the desired IoT services out of the model instances in an automated manner. Currently, we generate the source code in Java and Python. The Python code is responsible for the ML functionalities and uses the APIs of several ML libraries and frameworks, namely Scikit-Learn, Keras and TensorFlow. For unsupervised and semi-supervised learning, the APIs of Scikit-Learn are deployed. In addition to the pure MDSE approach, where certain ML methods, e.g., K-Means, Mini-Batch K-Means, DB-SCAN, Spectral Clustering, Gaussian Mixture Model, Self-Training, Label Propagation and Label Spreading are supported, a more flexible, hybrid approach is also enabled to support the practitioner in deploying a pre-trained ML model with any arbitrary architecture and learning algorithm.
翻訳日:2021-07-07 13:55:01 公開日:2021-07-06
# ML-Quadrat & DriotData: モデル駆動エンジニアリングツールとスマートIoTサービスのためのローコードプラットフォーム

ML-Quadrat & DriotData: A Model-Driven Engineering Tool and a Low-Code Platform for Smart IoT Services ( http://arxiv.org/abs/2107.02692v1 )

ライセンス: Link先を確認
Armin Moin, Andrei Mituca, Atta Badii and Stephan G\"unnemann(参考訳) 本稿では、Eclipse Modeling Framework(EMF)に基づくオープンソースの研究プロトタイプであるML-Quadratの初期ツールプロトタイプと、CPS(Cyber-Physical Systems)とIoT(Internet of Things)のためのMDSE(Model-Driven Software Engineering)の文献における最先端技術について述べる。 データ分析と機械学習(DAML)に関して、異質なIoTプラットフォームとさまざまな人工知能(AI)技術に深い知識とスキルを持っていないソフトウェア開発者を主に想定している。 ml-quadratは、apache 2.0ライセンスの条件でgithubでリリースされている。 さらに、市民データサイエンティストと市民/エンドユーザーソフトウェア開発者を対象としたローコードプラットフォームであるdritdataの初期ツールプロトタイプも紹介されている。 DriotDataはML-Quadratを利用しており、特に中小企業(SME)向けのWebベースのサービスとして拡張版を提供している。 DriotDataのMVP(Minimum Viable Product)のWebベースのデモがすでに公開されている。 最後に、ツールをデモする短いビデオがYouTubeで公開されている。

In this paper, we present the novel early tool prototype of ML-Quadrat, which is an open source research prototype, based on the Eclipse Modeling Framework (EMF) and the state of the art in the literature of Model-Driven Software Engineering (MDSE) for smart Cyber-Physical Systems (CPS) and the Internet of Things (IoT). Its envisioned users are mostly software developers, who might not have deep knowledge and skills in the heterogeneous IoT platforms and the diverse Artificial Intelligence (AI) technologies, specifically regarding Data Analytics and Machine Learning (DAML). ML-Quadrat is released under the terms of the Apache 2.0 license on Github: https://github.com/a rminmoin/ML-Quadrat. Additionally, the novel early tool prototype of DriotData, a Low-Code platform targeting citizen data scientists and citizen/end-user software developers is demonstrated. DriotData exploits and adopts ML-Quadrat and offers an extended version of it as a web-based service to companies, especially Small- and Medium-Sized Enterprises (SME). A basic web-based demo of the Minimum Viable Product (MVP) of DriotData is already available. Finally, a short video demonstrating the tools is available on YouTube: https://youtu.be/YCN Ffhmy_JY.
翻訳日:2021-07-07 13:54:33 公開日:2021-07-06
# サブサンプリングによるネットワーク埋め込みの漸近

Asymptotics of Network Embeddings Learned via Subsampling ( http://arxiv.org/abs/2107.02363v1 )

ライセンス: Link先を確認
Andrew Davison and Morgane Austern(参考訳) ネットワークデータは、ノード分類、ノードクラスタリング、リンク予測などのタスクを含む、現代の機械学習においてユビキタスである。 頻繁なアプローチは、ベクトル値データのために開発されたアルゴリズムを適用するネットワークのユークリッド埋め込みを学ぶことから始まる。 大規模ネットワークでは、サブサンプリング方式を自由に選択できる確率勾配法を用いて埋め込みを学習する。 このような方法の強い実証的性能にもかかわらず、理論的にはよく理解されていない。 私たちの作品は、node2vecのようなサブサンプリングアプローチを使って表現メソッドを単一の統一フレームワークにカプセル化します。 グラフが交換可能であると仮定すると、学習された埋め込みベクトルの分布は漸近的に分離する。 さらに,損失関数の選択と埋め込み次元を含む潜在パラメータの観点から,漸近分布を特徴付け,収束率を与えた。 これは、埋め込みベクトルが何を表現し、これらのメソッドが下流のタスクでいかにうまく機能するかを理解するための理論的基盤を提供する。 特に、一般的に使用される損失関数は、フィッシャー一貫性の欠如のような欠点をもたらす可能性がある。

Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
翻訳日:2021-07-07 13:53:42 公開日:2021-07-06
# チーム比較によるダイアリングバンド

Dueling Bandits with Team Comparisons ( http://arxiv.org/abs/2107.02738v1 )

ライセンス: Link先を確認
Lee Cohen, Ulrike Schmidt-Kraepelin, Yishay Mansour(参考訳) これは、学習者がn$プレーヤーの宇宙から、k$サイズのチーム同士の無関係なペアのノイズの多い比較を観察する、新しいオンライン学習環境です。 学習者のゴールは、高い確率でコンドルセトの勝利チーム、すなわち他のどのチームにも勝利するチーム、すなわち少なくとも1/2$の確率で)を特定するために必要なデュエルの数を最小化することである。 ノイズの多い比較は、チームの総順序と関連付けられます。 我々は,デュエルバンド設定(Yue et al.2012)に基づいてモデルを定式化し,確率的および決定論的両方の設定にいくつかのアルゴリズムを提供する。 確率的な設定では、古典的なデュエルバンドの設定を減らし、$\mathcal{O}((n + k \log (k)) \frac{\max(\log\log n, \log k)}{\Delta^2})$ duels($\Delta$はギャップパラメータ)内のコンドルチェット勝利チームを特定するアルゴリズムを与える。 決定論的フィードバックに対しては,$\mathcal{O}(nk\log(k)+k^5)$ duels内でのコンドルチェット勝利チームを識別するギャップ独立アルゴリズムを提案する。

We introduce the dueling teams problem, a new online-learning setting in which the learner observes noisy comparisons of disjoint pairs of $k$-sized teams from a universe of $n$ players. The goal of the learner is to minimize the number of duels required to identify, with high probability, a Condorcet winning team, i.e., a team which wins against any other disjoint team (with probability at least $1/2$). Noisy comparisons are linked to a total order on the teams. We formalize our model by building upon the dueling bandits setting (Yue et al.2012) and provide several algorithms, both for stochastic and deterministic settings. For the stochastic setting, we provide a reduction to the classical dueling bandits setting, yielding an algorithm that identifies a Condorcet winning team within $\mathcal{O}((n + k \log (k)) \frac{\max(\log\log n, \log k)}{\Delta^2})$ duels, where $\Delta$ is a gap parameter. For deterministic feedback, we additionally present a gap-independent algorithm that identifies a Condorcet winning team within $\mathcal{O}(nk\log(k)+k^5)$ duels.
翻訳日:2021-07-07 13:53:26 公開日:2021-07-06
# 光コヒーレンストモグラフィにおける網膜セグメンテーションのためのcycleganによる領域適応

Domain Adaptation via CycleGAN for Retina Segmentation in Optical Coherence Tomography ( http://arxiv.org/abs/2107.02345v1 )

ライセンス: Link先を確認
Ricky Chen, Timothy T. Yu, Gavin Xu, Da Ma, Marinko V. Sarunic, Mirza Faisal Beg(参考訳) FDAによる臨床診断のための人工知能(AI)の承認により、臨床意思決定はドメインに依存しなければならないため、モデル一般化性が最も重要である。 この問題に対処する方法は、複数のドメインからの画像を含むようにデータセットを増やすことである。このテクニックは理想的ではあるが、医療データのセキュリティ要件は大きな制限である。 さらに、開発ツールを持つ研究者は、オープンソースデータの追加の恩恵を受けるが、ドメインの違いによって制限される。 そこで本研究では,光コヒーレンス・トモグラフィ(OCT)ボリュームの領域適応のためのCycleGAN(Cycle-Consi stent Generative Adversarial Networks)の実装について検討した。 この研究は、サイモンフレーザー大学のバイオメディカル光学研究グループと機能・解剖学的イメージング・形状解析研究所と共同で行われた。 本研究では,公開データセットである英国バイオバンクデータセット(UKB)のドメインを適応させる学習ベースアプローチについて検討した。 領域適応の性能を評価するために,RETOUCH OCTデータを用いた既存の網膜層セグメンテーションツールを用いた。 本研究は、従来の処理技術と比較して、最先端の領域適応ツールに関する洞察を提供するとともに、我々の協力者が以前使用した領域に公開可能な網膜データを適応するためのパイプラインを提供する。

With the FDA approval of Artificial Intelligence (AI) for point-of-care clinical diagnoses, model generalizability is of the utmost importance as clinical decision-making must be domain-agnostic. A method of tackling the problem is to increase the dataset to include images from a multitude of domains; while this technique is ideal, the security requirements of medical data is a major limitation. Additionally, researchers with developed tools benefit from the addition of open-sourced data, but are limited by the difference in domains. Herewith, we investigated the implementation of a Cycle-Consistent Generative Adversarial Networks (CycleGAN) for the domain adaptation of Optical Coherence Tomography (OCT) volumes. This study was done in collaboration with the Biomedical Optics Research Group and Functional & Anatomical Imaging & Shape Analysis Lab at Simon Fraser University. In this study, we investigated a learning-based approach of adapting the domain of a publicly available dataset, UK Biobank dataset (UKB). To evaluate the performance of domain adaptation, we utilized pre-existing retinal layer segmentation tools developed on a different set of RETOUCH OCT data. This study provides insight on state-of-the-art tools for domain adaptation compared to traditional processing techniques as well as a pipeline for adapting publicly available retinal data to the domains previously used by our collaborators.
翻訳日:2021-07-07 13:52:21 公開日:2021-07-06
# CoReD:蒸留による連続表現によるフェイクメディア検出の一般化

CoReD: Generalizing Fake Media Detection with Continual Representation using Distillation ( http://arxiv.org/abs/2107.02408v1 )

ライセンス: Link先を確認
Minha Kim and Shahroz Tariq and Simon S. Woo(参考訳) 過去数十年間、人工知能の研究は大きな進歩を遂げてきたが、静止環境における固定データセットに大きく依存している。 継続的学習は、AIシステムが生物学的システムと同じ方法で、リンクされたデータの連続的なストリームから逐次学習する方法を研究する、成長する研究分野である。 同時に、ディープフェイクや合成顔画像などの偽メディアが、現在のマルチメディア技術にとって重要な存在である。 近年,ディープフェイクを高精度に検出する手法が多数提案されている。 しかし、限られた評価設定で固定データセットに依存するため、彼らは著しく苦しむ。 そこで本研究では,ニューラルネットワークの学習力学に連続学習を適用し,データ効率を大幅に向上させる可能性を強調した。 本研究では、継続学習(CoL)、表現学習(ReL)、知識蒸留(KD)という概念を取り入れた蒸留法(CoReD)を用いた連続表現を提案する。 我々はCoReDを設計し、教師-学生モデル設定における破滅的な忘れを効果的に最小化しつつ、新しいディープフェイクおよびGAN生成合成顔データセット上で逐次ドメイン適応タスクを実行する。 提案手法は,複数のデータセットから低品質のディープフェイク映像とGAN生成画像を検出し,最先端のベースライン法より優れていることを示す。

Over the last few decades, artificial intelligence research has made tremendous strides, but it still heavily relies on fixed datasets in stationary environments. Continual learning is a growing field of research that examines how AI systems can learn sequentially from a continuous stream of linked data in the same way that biological systems do. Simultaneously, fake media such as deepfakes and synthetic face images have emerged as significant to current multimedia technologies. Recently, numerous method has been proposed which can detect deepfakes with high accuracy. However, they suffer significantly due to their reliance on fixed datasets in limited evaluation settings. Therefore, in this work, we apply continuous learning to neural networks' learning dynamics, emphasizing its potential to increase data efficiency significantly. We propose Continual Representation using Distillation (CoReD) method that employs the concept of Continual Learning (CoL), Representation Learning (ReL), and Knowledge Distillation (KD). We design CoReD to perform sequential domain adaptation tasks on new deepfake and GAN-generated synthetic face datasets, while effectively minimizing the catastrophic forgetting in a teacher-student model setting. Our extensive experimental results demonstrate that our method is efficient at domain adaptation to detect low-quality deepfakes videos and GAN-generated images from several datasets, outperforming the-state-of-art baseline methods.
翻訳日:2021-07-07 13:52:00 公開日:2021-07-06
# セマンティックセグメンテーション代替手法:セグメンテーションドメイン生成

Semantic Segmentation Alternative Technique: Segmentation Domain Generation ( http://arxiv.org/abs/2107.02525v1 )

ライセンス: Link先を確認
Ana-Cristina Rogoz, Radu Muntean, Stefan Cobeli(参考訳) 画像に注目するオブジェクトを検出することは、自動化するための魅力的なタスクでした。 近年、このタスクは、主に地域ベースの畳み込みネットワークを使用して、深層学習技術を使ってより深く探求された。 本稿では,生成型逆ネットワークを用いた意味セグメンテーション手法を提案する。 我々はセマンティックセグメンテーションをドメイン転送問題と考える。 そこで我々は、シード実画像の入力としてフィードフォワードネットワーク(FFNN)を訓練し、セグメンテーションマスクの出力として生成する。

Detecting objects of interest in images was always a compelling task to automate. In recent years this task was more and more explored using deep learning techniques, mostly using region-based convolutional networks. In this project we propose an alternative semantic segmentation technique making use of Generative Adversarial Networks. We consider semantic segmentation to be a domain transfer problem. Thus, we train a feed forward network (FFNN) to receive as input a seed real image and generate as output its segmentation mask.
翻訳日:2021-07-07 13:51:41 公開日:2021-07-06
# 深層学習に基づくマルチモーダル奥行き認識型動的ハンドジェスチャ認識システム

A deep-learning--based multimodal depth-aware dynamic hand gesture recognition system ( http://arxiv.org/abs/2107.02543v1 )

ライセンス: Link先を確認
Hasan Mahmud, Mashrur Mahmud Morshed, Md. Kamrul Hasan(参考訳) 特定の意味を伝える意図で行われる時空間的な手の動きや手の動きは、手の動きとみなすことができる。 手動ジェスチャー認識システムへの入力は、深度画像、単分子RGB、骨格関節点など、いくつかの形式で行うことができる。 生深度画像は利き手領域(ROI)のコントラストが低いことが観察された。 指の曲げ情報(指が手のひらを重なっているか、他の指が重なっているか)など、学ぶべき重要な詳細は強調しない。 近年,深層学習に基づくダイナミックハンドジェスチャ認識において,研究者は異なる入力モダリティ(例えば,)を融合させようとしている。 RGBまたは深度画像と手骨関節点)は、認識精度を向上させる。 本稿では,深度定量化画像特徴と手首関節点を用いた動的手指ジェスチャー(DHG)認識に焦点を当てた。 特に,畳み込みニューラルネットワーク (cnn) とリカレントニューラルネットワーク (rnn) のマルチモーダル融合ネットワークにおける深さ量子化特徴の利用の効果について検討する。 本手法はSHREC-DHG-14データセットの既存の結果を改善する。 さらに,本手法を用いることで,入力画像の解像度を4倍以上に削減し,従来手法と同等あるいは同等の精度が得られることを示す。

Any spatio-temporal movement or reorientation of the hand, done with the intention of conveying a specific meaning, can be considered as a hand gesture. Inputs to hand gesture recognition systems can be in several forms, such as depth images, monocular RGB, or skeleton joint points. We observe that raw depth images possess low contrasts in the hand regions of interest (ROI). They do not highlight important details to learn, such as finger bending information (whether a finger is overlapping the palm, or another finger). Recently, in deep-learning--based dynamic hand gesture recognition, researchers are tying to fuse different input modalities (e.g. RGB or depth images and hand skeleton joint points) to improve the recognition accuracy. In this paper, we focus on dynamic hand gesture (DHG) recognition using depth quantized image features and hand skeleton joint points. In particular, we explore the effect of using depth-quantized features in Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) based multi-modal fusion networks. We find that our method improves existing results on the SHREC-DHG-14 dataset. Furthermore, using our method, we show that it is possible to reduce the resolution of the input images by more than four times and still obtain comparable or better accuracy to that of the resolutions used in previous methods.
翻訳日:2021-07-07 13:51:33 公開日:2021-07-06
# 胎児超音波像における低形成性左心症候群の検出

Detecting Hypo-plastic Left Heart Syndrome in Fetal Ultrasound via Disease-specific Atlas Maps ( http://arxiv.org/abs/2107.02643v1 )

ライセンス: Link先を確認
Samuel Budd, Matthew Sinclair, Thomas Day, Athanasios Vlontzos, Jeremy Tan, Tianrui Liu, Jaqueline Matthew, Emily Skelton, John Simpson, Reza Razavi, Ben Glocker, Daniel Rueckert, Emma C. Robinson, Bernhard Kainz(参考訳) 妊娠中の胎児超音波スクリーニングは、長期間の健康への影響をもたらす胎児奇形を早期に発見する上で重要な役割を担っている。 検査中の生体超音波からこのような奇形を診断するために必要なスキルのレベルは高く、スクリーニングのためのリソースは限られていることが多い。 4室心画像からの低形成性左心症候群(HLHS)の自動診断のための,解釈可能なアトラス・ラーニング・セグメンテーション法を提案する。 本稿では,最近導入された画像・空間トランスフォーマーネットワーク(atlas-istn)を,アトラス生成を疾患に導くフレームワークに拡張することを提案する。 本フレームワークでは,画像分割,登録,アトラス構築,疾患予測を共同で学習し,直接画像分類法と比較して,臨床解釈可能性の最大レベルを提供する。 その結果,有識者による手技診断と競合する診断が可能となり,AUC-ROCが0.978(トレーニング1043例,バリデーション260例,テスト325例)となった。

Fetal ultrasound screening during pregnancy plays a vital role in the early detection of fetal malformations which have potential long-term health impacts. The level of skill required to diagnose such malformations from live ultrasound during examination is high and resources for screening are often limited. We present an interpretable, atlas-learning segmentation method for automatic diagnosis of Hypo-plastic Left Heart Syndrome (HLHS) from a single `4 Chamber Heart' view image. We propose to extend the recently introduced Image-and-Spatial Transformer Networks (Atlas-ISTN) into a framework that enables sensitising atlas generation to disease. In this framework we can jointly learn image segmentation, registration, atlas construction and disease prediction while providing a maximum level of clinical interpretability compared to direct image classification methods. As a result our segmentation allows diagnoses competitive with expert-derived manual diagnosis and yields an AUC-ROC of 0.978 (1043 cases for training, 260 for validation and 325 for testing).
翻訳日:2021-07-07 13:51:11 公開日:2021-07-06
# 自然証明生成のための確率的グラフ推論

Probabilistic Graph Reasoning for Natural Proof Generation ( http://arxiv.org/abs/2107.02418v1 )

ライセンス: Link先を確認
Changzhi Sun, Xinbo Zhang, Jiangjie Chen, Chun Gan, Yuanbin Wu, Jiaze Chen, Hao Zhou, Lei Li(参考訳) 本稿では,自然言語ステートメントよりも推論の問題について検討する。 事前のニューラルベースアプローチは、回答とその証明の間の相互依存性を明示的に考慮しない。 本稿では,共同回答予測と証明生成のための新しい手法であるPRobrを提案する。 PRobrは、すべての可能な証明グラフと答えに対する共役確率分布を、誘導的グラフィカルモデルによって定義する。 次に、ニューラルテキスト表現の上に変分近似を用いてモデルを最適化する。 多様な設定下での複数のデータセット(教師付き、少数ショット、ゼロショットの評価)の実験では、PRobrの有効性が検証され、例えば、少数/ゼロショットの評価において、QA精度が10%-30%向上した。 私たちのコードとモデルはhttps://github.com/c hangzhisun/PRobr/で参照できます。

In this paper, we investigate the problem of reasoning over natural language statements. Prior neural based approaches do not explicitly consider the inter-dependency among answers and their proofs. In this paper, we propose PRobr, a novel approach for joint answer prediction and proof generation. PRobr defines a joint probabilistic distribution over all possible proof graphs and answers via an induced graphical model. We then optimize the model using variational approximation on top of neural textual representation. Experiments on multiple datasets under diverse settings (fully supervised, few-shot and zero-shot evaluation) verify the effectiveness of PRobr, e.g., achieving 10%-30% improvement on QA accuracy in few/zero-shot evaluation. Our codes and models can be found at https://github.com/c hangzhisun/PRobr/.
翻訳日:2021-07-07 13:50:12 公開日:2021-07-06
# NiuTrans エンドツーエンド音声翻訳システム \\for IWSLT 2021 Offline Task

The NiuTrans End-to-End Speech Translation System \\for IWSLT 2021 Offline Task ( http://arxiv.org/abs/2107.02444v1 )

ライセンス: Link先を確認
Chen Xu, Xiaoqian Liu, Xiaowen Liu, Laohu Wang, Canan Huang, Tong Xiao, Jingbo Zhu(参考訳) 本稿では、英語音声からドイツ語テキストへの翻訳を中間転写なしで直接行うIWSLT 2021オフラインタスクに対して、NiuTransのエンドツーエンド音声翻訳システムを提案する。 我々は、トランスフォーマーベースのモデルアーキテクチャを使用し、コンフォーメータ、相対位置エンコーディング、スタック化された音響およびテキストエンコーディングにより強化する。 トレーニングデータを増やすために、英語の書き起こしはドイツ語の翻訳に翻訳される。 最後に,異なるデータセットでトレーニングされた複数のモデルからの予測を統合するためにアンサンブル復号を用いる。 これらの手法を組み合わせることで, MuST-C En-De テストセット上で 33.84 BLEU 点が得られる。

This paper describes the submission of the NiuTrans end-to-end speech translation system for the IWSLT 2021 offline task, which translates from the English audio to German text directly without intermediate transcription. We use the Transformer-based model architecture and enhance it by Conformer, relative position encoding, and stacked acoustic and textual encoding. To augment the training data, the English transcriptions are translated to German translations. Finally, we employ ensemble decoding to integrate the predictions from several models trained with the different datasets. Combining these techniques, we achieve 33.84 BLEU points on the MuST-C En-De test set, which shows the enormous potential of the end-to-end model.
翻訳日:2021-07-07 13:50:03 公開日:2021-07-06
# atariゲームにおける分岐要因の推定

Estimates for the Branching Factors of Atari Games ( http://arxiv.org/abs/2107.02385v1 )

ライセンス: Link先を確認
Mark J. Nelson(参考訳) ゲームの分岐係数は、与えられた状態から到達可能な新しい状態の平均数である。 ボードゲームにおけるAI研究において広く使われている指標であるが、ビデオゲームで計算や議論されることは少ない。 本稿では,アーケード学習環境(ALE)で実施されている103のAtari 2600ゲームの分岐係数を推定する。 ゲームによっては、ALEはゲームプレイのフレームごとに3から18のアクションを公開する。 本稿では、各ゲームで到達可能な最初の100万個の異なる状態の列挙に基づいて、平均分岐係数が通常より低く、ほとんどのゲームにおいて1よりわずかに多いことを示す。 本稿では,分岐要因の報告に加えて,ALEの異なる状態を構成するものを明らかにすることを目的とする。

The branching factor of a game is the average number of new states reachable from a given state. It is a widely used metric in AI research on board games, but less often computed or discussed for videogames. This paper provides estimates for the branching factors of 103 Atari 2600 games, as implemented in the Arcade Learning Environment (ALE). Depending on the game, ALE exposes between 3 and 18 available actions per frame of gameplay, which is an upper bound on branching factor. This paper shows, based on an enumeration of the first 1 million distinct states reachable in each game, that the average branching factor is usually much lower, in many games barely above 1. In addition to reporting the branching factors, this paper aims to clarify what constitutes a distinct state in ALE.
翻訳日:2021-07-07 13:49:39 公開日:2021-07-06
# Minecraft集落におけるPCG指標と人的評価の比較

Comparing PCG metrics with Human Evaluation in Minecraft Settlement Generation ( http://arxiv.org/abs/2107.02457v1 )

ライセンス: Link先を確認
Jean-Baptiste Herv\'e, Christoph Salge(参考訳) 手続き的コンテンツ生成によって生成されたアーティファクトに適用可能な、さまざまなメトリクスがあり、その中には質的なクレームがある。 そこで本研究では,既存のPCG指標を生成済みMinecraft集落に適用し,PCG文献に触発された新たな指標を開発し,その結果を既存の人間評価と比較する。 目的は、これらのメトリクスがどのように異なるカテゴリの人間の評価スコアをキャプチャするか、メトリクスが別のゲームドメインにどのように一般化するか、メトリクスがより複雑なアーティファクトを扱うかを分析することである。 我々は,様々な指標を探索的に観察し,情報ゲインといくつかの相関分析を提供する。 具体的な要素を計測し,ブロックの多様性を測定し,現在の複合ブロックの加工材料の存在を測定することで,人間のスコアと測定値の関係を見出した。

There are a range of metrics that can be applied to the artifacts produced by procedural content generation, and several of them come with qualitative claims. In this paper, we adapt a range of existing PCG metrics to generated Minecraft settlements, develop a few new metrics inspired by PCG literature, and compare the resulting measurements to existing human evaluations. The aim is to analyze how those metrics capture human evaluation scores in different categories, how the metrics generalize to another game domain, and how metrics deal with more complex artifacts. We provide an exploratory look at a variety of metrics and provide an information gain and several correlation analyses. We found some relationships between human scores and metrics counting specific elements, measuring the diversity of blocks and measuring the presence of crafting materials for the present complex blocks.
翻訳日:2021-07-07 13:49:26 公開日:2021-07-06
# 微粒化視覚カテゴリー化による特徴核融合変換器

Feature Fusion Vision Transformer Fine-Grained Visual Categorization ( http://arxiv.org/abs/2107.02341v1 )

ライセンス: Link先を確認
Jun Wang, Xiaohan Yu and Yongsheng Gao(参考訳) きめ細かい視覚分類(FGVC)に取り組むためのコアは、微妙な識別的特徴を学習することである。 従来のほとんどの研究は、識別的部分の明示的選択やCNNベースのアプローチによる注意機構の統合によってこれを達成しているが、これらの手法は計算の複雑さを高め、ほとんどの対象を含む領域でモデルが支配される。 近年,視覚トランスフォーマー(ViT)は一般的な画像認識タスクにおいてSOTA性能を実現している。 自己認識機構は、すべてのパッチから分類トークンに情報を集約し、重み付けし、FGVCに完全に適合する。 それでも、深層層にあるclassifi-cationトークンは、fgvcに不可欠なローカルおよび低レベルの機能を欠いたグローバル情報にさらに注意を払っている。 本研究では,各トランス層から重要なトークンを集約し,局所情報,低レベル情報,中レベル情報を補償する,純粋変換器ベースのフレームワークであるFeature Fusion Vision Transformer (FFVT)を提案する。 本稿では,ネットワークを効果的かつ効率的に誘導し,余分なパラムエターを導入することなく識別トークンを選択するための,相互注意重み選択(maws)と呼ばれる新しいトークン選択モジュールを設計する。 FFVTが最先端性能を達成する3つのベンチマークにおけるFFVTの有効性を検証する。

The core for tackling the fine-grained visual categorization (FGVC) is to learn subtleyet discriminative features. Most previous works achieve this by explicitly selecting thediscriminative parts or integrating the attention mechanism via CNN-based approaches.However, these methods enhance the computational complexity and make the modeldominated by the regions containing the most of the objects. Recently, vision trans-former (ViT) has achieved SOTA performance on general image recognition tasks. Theself-attention mechanism aggregates and weights the information from all patches to theclassification token, making it perfectly suitable for FGVC. Nonetheless, the classifi-cation token in the deep layer pays more attention to the global information, lackingthe local and low-level features that are essential for FGVC. In this work, we proposea novel pure transformer-based framework Feature Fusion Vision Transformer (FFVT)where we aggregate the important tokens from each transformer layer to compensate thelocal, low-level and middle-level information. We design a novel token selection mod-ule called mutual attention weight selection (MAWS) to guide the network effectivelyand efficiently towards selecting discriminative tokens without introducing extra param-eters. We verify the effectiveness of FFVT on three benchmarks where FFVT achievesthe state-of-the-art performance.
翻訳日:2021-07-07 13:48:50 公開日:2021-07-06
# UACANet:polyp Semgnetaionに対する不確実性強化コンテキストアテンション

UACANet: Uncertainty Augmented Context Attention for Polyp Semgnetaion ( http://arxiv.org/abs/2107.02368v1 )

ライセンス: Link先を確認
Taehun Kim, Hyemin Lee, Daijin Kim(参考訳) 本研究では,サリエンシマップの不確実領域を考慮したポリプセグメンテーションのためのUncertainty Augmented Context Attention Network (UACANet)を提案する。 追加のエンコーダとデコーダを備えたu-netシェイプネットワークの修正版を構築し,各ボトムアップストリーム予測モジュールでサリエンシーマップを計算し,次の予測モジュールに伝播する。 各予測モジュールでは, 前景, 背景, 不確実領域マップの計算に先立って予測された精度マップを用い, 特徴マップを3つの領域マップで集約する。 次に,特徴写像における各表現と各画素の関係を計算する。 kvasir, cvc-clinicdb, etis, cvc-colondb, cvc-300の5つの人気のあるポリプセグメンテーションベンチマークを実験し, 最先端のパフォーマンスを実現する。 特に, ETISデータセットにおけるDiceの平均は76.6%であり, 従来の最先端手法に比べて13.8%改善されている。

We propose Uncertainty Augmented Context Attention network (UACANet) for polyp segmentation which consider a uncertain area of the saliency map. We construct a modified version of U-Net shape network with additional encoder and decoder and compute a saliency map in each bottom-up stream prediction module and propagate to the next prediction module. In each prediction module, previously predicted saliency map is utilized to compute foreground, background and uncertain area map and we aggregate the feature map with three area maps for each representation. Then we compute the relation between each representation and each pixel in the feature map. We conduct experiments on five popular polyp segmentation benchmarks, Kvasir, CVC-ClinicDB, ETIS, CVC-ColonDB and CVC-300, and achieve state-of-the-art performance. Especially, we achieve 76.6% mean Dice on ETIS dataset which is 13.8% improvement compared to the previous state-of-the-art method.
翻訳日:2021-07-07 13:48:28 公開日:2021-07-06
# 不均衡分類のためのラベル付きMSE損失

MSE Loss with Outlying Label for Imbalanced Classification ( http://arxiv.org/abs/2107.02393v1 )

ライセンス: Link先を確認
Sota Kato, Kazuhiro Hotta(参考訳) 本稿では,クラス不均衡分類のための外ラベル付き平均二乗誤差(mse)損失を提案する。 画像認識に広く用いられているクロスエントロピー(ce)損失は、真のクラスの確率値がバック伝播によって1に近いように学習される。 しかし、不均衡データセットでは、少数のサンプルを持つクラスでは学習が不十分である。 そこで本稿では, 画像が入力されていなくても, クラス間の関係を学習可能な, MSE損失を用いた新しい分類法を提案する。 ce損失とは異なり、mse損失は全クラスのバック伝搬数を均等化し、クラス間の関係をメトリック学習として考慮して特徴空間を学ぶことができる。 さらに,従来の1ホットの教師ラベルの代わりに,クラスサンプルの数を考慮に入れた新しい教師ラベルを用いる。 これにより、各クラスのサンプル数に依存するアウトライジングラベルが導き出され、少数のサンプルを持つクラスは、特徴空間におけるアウトライジングマージンを持つ。 高微分クラスと低微分クラスを分離する機能空間を作成することができる。 不均衡分類とセマンティクスセグメンテーションの実験により, 標準ce損失と従来の方法と比較して, 教師ラベルと教師ラベルのみを変更した場合でも, 提案手法が大幅に改良されたことを確認した。

In this paper, we propose mean squared error (MSE) loss with outlying label for class imbalanced classification. Cross entropy (CE) loss, which is widely used for image recognition, is learned so that the probability value of true class is closer to one by back propagation. However, for imbalanced datasets, the learning is insufficient for the classes with a small number of samples. Therefore, we propose a novel classification method using the MSE loss that can be learned the relationships of all classes no matter which image is input. Unlike CE loss, MSE loss is possible to equalize the number of back propagation for all classes and to learn the feature space considering the relationships between classes as metric learning. Furthermore, instead of the usual one-hot teacher label, we use a novel teacher label that takes the number of class samples into account. This induces the outlying label which depends on the number of samples in each class, and the class with a small number of samples has outlying margin in a feature space. It is possible to create the feature space for separating high-difficulty classes and low-difficulty classes. By the experiments on imbalanced classification and semantic segmentation, we confirmed that the proposed method was much improved in comparison with standard CE loss and conventional methods, even though only the loss and teacher labels were changed.
翻訳日:2021-07-07 13:48:10 公開日:2021-07-06
# 逆予測アライメントによる目標領域への車両検出の適応

Adapting Vehicle Detector to Target Domain by Adversarial Prediction Alignment ( http://arxiv.org/abs/2107.02411v1 )

ライセンス: Link先を確認
Yohei Koga, Hiroyuki Miyazaki, Ryosuke Shibasaki(参考訳) 近年のドメイン適応技術の進歩は重要であるが、ほとんどの手法は特徴抽出器を整列させ、ターゲット領域に分類器を適応させていないため、性能劣化の原因となる。 予測出力空間を整列するオブジェクト検出のための新しい領域適応手法を提案する。 特徴のアライメントに加えて、敵の訓練による衛星画像に対する車両検出器の位置とクラス信頼性の予測を調整した。 提案手法は,衛星画像における物体検出タスクに対する効果を示すため,apスコアを5%以上向上させた。

While recent advancement of domain adaptation techniques is significant, most of methods only align a feature extractor and do not adapt a classifier to target domain, which would be a cause of performance degradation. We propose novel domain adaptation technique for object detection that aligns prediction output space. In addition to feature alignment, we aligned predictions of locations and class confidences of our vehicle detector for satellite images by adversarial training. The proposed method significantly improved AP score by over 5%, which shows effectivity of our method for object detection tasks in satellite images.
翻訳日:2021-07-07 13:47:50 公開日:2021-07-06
# マルチパスニューラルネットワークにおけるエンドツーエンドデータ依存ルーティング

End-To-End Data-Dependent Routing in Multi-Path Neural Networks ( http://arxiv.org/abs/2107.02450v1 )

ライセンス: Link先を確認
Dumindu Tissera, Kasun Vithanage, Rukshan Wijessinghe, Subha Fernando, Ranga Rodrigo(参考訳) ニューラルネットワークは、より抽象的な特徴を学習する能力により、より深度の高いパフォーマンスを提供することが知られている。 ネットワークの深化は十分に確立されているが、単にパラメータインクリメントの必要性を減少させるような、レイヤ内の効率的な特徴抽出の余地はまだ残っている。 従来のネットワークの幅拡大は、各層により多くのフィルタを持ち、パラメータの二次的な増分を導入する。 複数の並列畳み込み/密度演算を各層に持つことでこの問題は解決されるが、これらの演算にリソースのコンテキスト依存的な割り当てがなければ、並列計算は同様の特徴を学習する傾向にあり、拡張処理の効率が低下する。 そこで本研究では,層内の並列計算間でデータ依存のリソース割り当てを行うマルチパスニューラルネットワークの利用を提案する。 これを実現するために,まず,後続層の並列テンソル間のクロス予測に基づくアルゴリズムを導入する。 第2に,並列テンソル間の機能依存的な相互接続を導入することで,ルーティングのオーバーヘッドをさらに削減する。 我々のマルチパスネットワークは、画像認識タスクにおいて、既存の拡張および適応的な特徴抽出、さらにはアンサンブルやより深いネットワークよりも優れた性能を示す。

Neural networks are known to give better performance with increased depth due to their ability to learn more abstract features. Although the deepening of networks has been well established, there is still room for efficient feature extraction within a layer which would reduce the need for mere parameter increment. The conventional widening of networks by having more filters in each layer introduces a quadratic increment of parameters. Having multiple parallel convolutional/dense operations in each layer solves this problem, but without any context-dependent allocation of resources among these operations: the parallel computations tend to learn similar features making the widening process less effective. Therefore, we propose the use of multi-path neural networks with data-dependent resource allocation among parallel computations within layers, which also lets an input to be routed end-to-end through these parallel paths. To do this, we first introduce a cross-prediction based algorithm between parallel tensors of subsequent layers. Second, we further reduce the routing overhead by introducing feature-dependent cross-connections between parallel tensors of successive layers. Our multi-path networks show superior performance to existing widening and adaptive feature extraction, and even ensembles, and deeper networks at similar complexity in the image recognition task.
翻訳日:2021-07-07 13:47:43 公開日:2021-07-06
# Neighbor-Vote: 隣接投票による単眼3次元物体検出の改善

Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance Voting ( http://arxiv.org/abs/2107.02493v1 )

ライセンス: Link先を確認
Xiaomeng Chu, Jiajun Deng, Yao Li, Zhenxun Yuan, Yanyong Zhang, Jianmin Ji and Yu Zhang(参考訳) カメラが自動運転などの新しいアプリケーションドメインに展開されるにつれて、モノクロ画像で3dオブジェクトを検出することは、視覚的なシーン理解にとって重要なタスクとなる。 近年のモノクロ3D物体検出の進歩は, モノクロ深度推定を行い, 擬似3D点まで2D画素を持ち上げる「擬似LiDAR」世代に大きく依存している。 しかし, 単眼画像からの深度推定は精度が低いため, 物体内部の擬似LiDAR点の位置ずれが避けられない。 したがって、予測された境界ボックスは、不正確な位置と変形した形状に苦しむ可能性がある。 本稿では, 隣接する予測を組み込んで, 高度に変形した擬似LiDAR点雲からの物体検出を改善する手法を提案する。 具体的には、オブジェクト周辺の各特徴点が独自の予測を形成し、その上で ``consensus''' が投票によって達成される。 このように、近隣の予測と局所的な予測を効果的に組み合わせ、より正確な3d検出を実現することができる。 さらに、関心領域(roi)擬似ライダー点と背景点との差をさらに拡大するため、2d前景画素のroi予測スコアを対応する擬似ライダー点に符号化する。 提案手法の有効性を検証するため,KITTIベンチマークで広範な実験を行った。 鳥の目視検出の結果は,特に`hard' レベルの検出において,最先端のパフォーマンスを大きなマージンで上回っている。

As cameras are increasingly deployed in new application domains such as autonomous driving, performing 3D object detection on monocular images becomes an important task for visual scene understanding. Recent advances on monocular 3D object detection mainly rely on the ``pseudo-LiDAR'' generation, which performs monocular depth estimation and lifts the 2D pixels to pseudo 3D points. However, depth estimation from monocular images, due to its poor accuracy, leads to inevitable position shift of pseudo-LiDAR points within the object. Therefore, the predicted bounding boxes may suffer from inaccurate location and deformed shape. In this paper, we present a novel neighbor-voting method that incorporates neighbor predictions to ameliorate object detection from severely deformed pseudo-LiDAR point clouds. Specifically, each feature point around the object forms their own predictions, and then the ``consensus'' is achieved through voting. In this way, we can effectively combine the neighbors' predictions with local prediction and achieve more accurate 3D detection. To further enlarge the difference between the foreground region of interest (ROI) pseudo-LiDAR points and the background points, we also encode the ROI prediction scores of 2D foreground pixels into the corresponding pseudo-LiDAR points. We conduct extensive experiments on the KITTI benchmark to validate the merits of our proposed method. Our results on the bird's eye view detection outperform the state-of-the-art performance by a large margin, especially for the ``hard'' level detection.
翻訳日:2021-07-07 13:47:24 公開日:2021-07-06
# プルーニングによるマルチソース画像における核認識モデルの一般化

Generalizing Nucleus Recognition Model in Multi-source Images via Pruning ( http://arxiv.org/abs/2107.02500v1 )

ライセンス: Link先を確認
Jiatong Cai, Chenglu Zhu, Can Cui, Honglin Li, Tong Wu, Shichuan Zhang, Lin Yang(参考訳) Ki67はがんの診断と予後において重要なバイオマーカーであり、Ki67免疫組織化学(IHC)染色画像においてその発現を定量化することでその指標を評価することができる。 しかし,マルチソースki67画像の定量的解析は,画像のばらつき,染色様式,病変型などによるクロスドメイン分布の違いから,実際には困難な課題である。 最近の多くの研究はドメイン一般化(DG)にいくつかの取り組みを行っているが、それでも注目すべき制限がある。 具体的には、Ki67画像の場合、学習不変表現は、ドメインの不足と異なるドメインでミスマッチする細胞カテゴリの助けになる。 本稿ではドメインに依存しないサブネットワークをドメインマージシナリオで検索することでDGを改善する新しい手法を提案する。 部分モデルパラメータは、トレーニング中に単一のドメインからマージされたドメインへのデータ変換によって引き起こされるドメインギャップに従って反復的にプラニングされる。 さらに、様々なドメイン間のクラスミスマッチの干渉をなくすため、マージされたドメインの微調整によってモデルを最適化する。 さらに、フレームワークの異なる部分にプルーニング法を適用することにより、適切な実装を実現する。 既知のDG法と比較して,Ki67 IHC画像のマルチクラス核認識において,特に失われたカテゴリでは優れた性能を示す。 さらに, 最先端DG法に対する公開データセット上での競争結果も評価した。

Ki67 is a significant biomarker in the diagnosis and prognosis of cancer, whose index can be evaluated by quantifying its expression in Ki67 immunohistochemistry (IHC) stained images. However, quantitative analysis on multi-source Ki67 images is yet a challenging task in practice due to cross-domain distribution differences, which result from imaging variation, staining styles, and lesion types. Many recent studies have made some efforts on domain generalization (DG), whereas there are still some noteworthy limitations. Specifically in the case of Ki67 images, learning invariant representation is at the mercy of the insufficient number of domains and the cell categories mismatching in different domains. In this paper, we propose a novel method to improve DG by searching the domain-agnostic subnetwork in a domain merging scenario. Partial model parameters are iteratively pruned according to the domain gap, which is caused by the data converting from a single domain into merged domains during training. In addition, the model is optimized by fine-tuning on merged domains to eliminate the interference of class mismatching among various domains. Furthermore, an appropriate implementation is attained by applying the pruning method to different parts of the framework. Compared with known DG methods, our method yields excellent performance in multiclass nucleus recognition of Ki67 IHC images, especially in the lost category cases. Moreover, our competitive results are also evaluated on the public dataset over the state-of-the-art DG methods.
翻訳日:2021-07-07 13:46:59 公開日:2021-07-06
# 乳がん分類のためのメモリアウェアカリキュラム連合学習

Memory-aware curriculum federated learning for breast cancer classification ( http://arxiv.org/abs/2107.02504v1 )

ライセンス: Link先を確認
Amelia Jim\'enez-S\'anchez, Mickael Tardy, Miguel A. Gonz\'alez Ballester, Diana Mateus, Gemma Piella(参考訳) 乳がん早期発見には,マンモグラフィ画像を用いた定期検診が推奨される。 定期的な検査の結果、大量の負のサンプルを持つデータセットが生成される。 このような階級不均衡に対する潜在的な解決策は、複数の機関で力を合わせている。 協調型コンピュータ支援診断システムの開発は, 様々な方法で困難である。 患者のプライバシーと規制は慎重に尊重する必要がある。 機関間のデータは異なるデバイスやイメージングプロトコルから取得され、不均一な非IIDデータにつながる。 また、学習に基づく手法では、分散データを扱う新しい最適化戦略が必要である。 近年,協調学習の効果的なツールとして連合学習が登場している。 この設定では、ローカルモデルはプライベートデータ上で計算を行い、グローバルモデルを更新する。 局所更新の順序と頻度は最終グローバルモデルに影響を及ぼす。 したがって、サンプルが局所的にオプティマイザに提示される順序は重要な役割を果たす。 本研究では,フェデレーション設定のためのメモリ認識型カリキュラム学習手法を定義する。 本カリキュラムは,グローバルモデル導入後に忘れられたものに対して,特に注意を払う訓練サンプルの順序を制御している。 当社のアプローチは,教師なしのドメイン適応と組み合わせて,データのプライバシを維持しながらドメインシフトに対処する。 本手法は, 異なるベンダーの3つの臨床データセットを用いて評価する。 以上の結果から,複数部位乳癌分類におけるfederated adversarial learningの有効性を確認した。 さらに,本提案手法は,分類性能の向上に有効であることを示す。 私たちのコードは、https://github.com/a meliajimenez/curricu lum-federated-learni ngで公開されています。

For early breast cancer detection, regular screening with mammography imaging is recommended. Routinary examinations result in datasets with a predominant amount of negative samples. A potential solution to such class-imbalance is joining forces across multiple institutions. Developing a collaborative computer-aided diagnosis system is challenging in different ways. Patient privacy and regulations need to be carefully respected. Data across institutions may be acquired from different devices or imaging protocols, leading to heterogeneous non-IID data. Also, for learning-based methods, new optimization strategies working on distributed data are required. Recently, federated learning has emerged as an effective tool for collaborative learning. In this setting, local models perform computation on their private data to update the global model. The order and the frequency of local updates influence the final global model. Hence, the order in which samples are locally presented to the optimizers plays an important role. In this work, we define a memory-aware curriculum learning method for the federated setting. Our curriculum controls the order of the training samples paying special attention to those that are forgotten after the deployment of the global model. Our approach is combined with unsupervised domain adaptation to deal with domain shift while preserving data privacy. We evaluate our method with three clinical datasets from different vendors. Our results verify the effectiveness of federated adversarial learning for the multi-site breast cancer classification. Moreover, we show that our proposed memory-aware curriculum method is beneficial to further improve classification performance. Our code is publicly available at: https://github.com/a meliajimenez/curricu lum-federated-learni ng.
翻訳日:2021-07-07 13:46:37 公開日:2021-07-06
# 信頼度に基づく分布外検出--比較研究と分析

Confidence-based Out-of-Distribution Detection: A Comparative Study and Analysis ( http://arxiv.org/abs/2107.02568v1 )

ライセンス: Link先を確認
Christoph Berger, Magdalini Paschali, Ben Glocker, Konstantinos Kamnitsas(参考訳) 現実世界に展開される画像分類モデルは、意図したデータ配信の外で入力を受け取ることができる。 臨床的意思決定などの重要な応用においては、モデルがそのようなアウト・オブ・ディストリビューション(OOD)の入力を検出し、その不確実性を表現できることが重要である。 本研究では,信頼度に基づくood検出における最先端手法の能力について,比較研究と詳細な分析を通して評価する。 まず,コンピュータビジョンベンチマークを用いて複数のOOD検出手法を再現・比較する。 次に,胸部x線を用いた疾患分類の難易度評価を行った。 本研究は,コンピュータビジョンタスクにおけるハイパフォーマンスが,医用画像タスクの精度に直接変換されないことを示す。 2つのタスク間のメソッドのパフォーマンスに影響する要因を分析する。 我々は次世代のOOD検出法の開発に有用な知見を提供する。

Image classification models deployed in the real world may receive inputs outside the intended data distribution. For critical applications such as clinical decision making, it is important that a model can detect such out-of-distribution (OOD) inputs and express its uncertainty. In this work, we assess the capability of various state-of-the-art approaches for confidence-based OOD detection through a comparative study and in-depth analysis. First, we leverage a computer vision benchmark to reproduce and compare multiple OOD detection methods. We then evaluate their capabilities on the challenging task of disease classification using chest X-rays. Our study shows that high performance in a computer vision task does not directly translate to accuracy in a medical imaging task. We analyse factors that affect performance of the methods between the two tasks. Our results provide useful insights for developing the next generation of OOD detection methods.
翻訳日:2021-07-07 13:46:19 公開日:2021-07-06
# タプルインフォメーションを用いたマルチモーダル核融合

Contrastive Multimodal Fusion with TupleInfoNCE ( http://arxiv.org/abs/2107.02575v1 )

ライセンス: Link先を確認
Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi(参考訳) 本稿では,比較損失を用いたマルチモーダルデータの表現学習手法を提案する。 伝統的なアプローチは、異なるモダリティを対比して、それらの間で共有される情報を学ぶことである。 しかしながら、このアプローチは、ダウンストリームタスクに有用なモダリティ間の相補的なシナジーを学習できない可能性がある。 もう一つのアプローチは、すべてのモジュラリティをタプルに結合し、正と負のタプル対応を対比させることである。 しかし、このアプローチは弱いモダリティを無視しながら、より強いモダリティのみを考慮できる。 これらの問題に対処するため,我々は新しいコントラスト学習目標タプレインフォインスを提案する。 正と負の対応に基づくタプルとは対照的に、異なる場面を記述するモダリティを用いて新しい負のタプルを構成する。 これらの追加的な否定性を持つトレーニングは、学習モデルに同じタプルのモダリティ間の対応を調べるように促し、弱いモダリティが無視されないようにする。 本稿では,このアプローチの動作理由の相互情報に基づく理論的正当性を提案し,正および負のサンプルを生成するサンプル最適化アルゴリズムを提案する。 タプルインフォメーションは,3つのダウンストリームタスクにおいて,前回のstate of the artsを大きく上回っていることが分かりました。

This paper proposes a method for representation learning of multimodal data using contrastive losses. A traditional approach is to contrast different modalities to learn the information shared between them. However, that approach could fail to learn the complementary synergies between modalities that might be useful for downstream tasks. Another approach is to concatenate all the modalities into a tuple and then contrast positive and negative tuple correspondences. However, that approach could consider only the stronger modalities while ignoring the weaker ones. To address these issues, we propose a novel contrastive learning objective, TupleInfoNCE. It contrasts tuples based not only on positive and negative correspondences but also by composing new negative tuples using modalities describing different scenes. Training with these additional negatives encourages the learning model to examine the correspondences among modalities in the same tuple, ensuring that weak modalities are not ignored. We provide a theoretical justification based on mutual information for why this approach works, and we propose a sample optimization algorithm to generate positive and negative samples to maximize training efficacy. We find that TupleInfoNCE significantly outperforms the previous state of the arts on three different downstream tasks.
翻訳日:2021-07-07 13:46:06 公開日:2021-07-06
# ビデオディープフェイク検出のための高効率ネットと視覚トランスフォーマの複合化

Combining EfficientNet and Vision Transformers for Video Deepfake Detection ( http://arxiv.org/abs/2107.02612v1 )

ライセンス: Link先を確認
Davide Coccomini, Nicola Messina, Claudio Gennaro and Fabrizio Falchi(参考訳) ディープフェイクは、視聴者をだますために信頼できるビデオを得るためのデジタル操作の結果である。 これは、オートエンコーダやganに基づくディープラーニング技術によって、毎年よりアクセスしやすく正確になるため、実際のビデオと区別するのが非常に難しいフェイクビデオによって行われる。 伝統的にcnnネットワークはディープフェイク検出に使われており、最も良い結果が efficientnet b7 に基づいた手法で得られた。 本研究では,様々な種類の視覚変換器と特徴抽出器として使用される畳み込み効率ネットB0を組み合わせて,視覚変換器を用いた最近の手法と同等の結果を得る。 最先端のアプローチとは異なり、蒸留法もアンサンブル法も使用しない。 最高のモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。

Deepfakes are the result of digital manipulation to obtain credible videos in order to deceive the viewer. This is done through deep learning techniques based on autoencoders or GANs that become more accessible and accurate year after year, resulting in fake videos that are very difficult to distinguish from real ones. Traditionally, CNN networks have been used to perform deepfake detection, with the best results obtained using methods based on EfficientNet B7. In this study, we combine various types of Vision Transformers with a convolutional EfficientNet B0 used as a feature extractor, obtaining comparable results with some very recent methods that use Vision Transformers. Differently from the state-of-the-art approaches, we use neither distillation nor ensemble methods. The best model achieved an AUC of 0.951 and an F1 score of 88.0%, very close to the state-of-the-art on the DeepFake Detection Challenge (DFDC).
翻訳日:2021-07-07 13:45:48 公開日:2021-07-06
# ポアソン画像補間による外乱検出

Detecting Outliers with Poisson Image Interpolation ( http://arxiv.org/abs/2107.02622v1 )

ライセンス: Link先を確認
Jeremy Tan, Benjamin Hou, Thomas Day, John Simpson, Daniel Rueckert, Bernhard Kainz(参考訳) あらゆる病理学の教師付き学習は、健康スクリーニングのような多くのプライマリケアアプリケーションでは非現実的です。 近年,健康データのみから正常な外観を学習する画像異常検出手法が有望な結果を示している。 本稿では,画像再構成法および画像埋め込み法に代わる手法を提案し,病理異常検出に取り組むための新しい自己教師あり法を提案する。 アプローチは,脳MRIおよび腹部CTデータに優れた成績を示した異種パッチ補間(FPI)戦略に端を発する。 本稿では,より優れたパッチ補間戦略であるpoisson image interpolation (pii) を用いることを提案する。 PIIは、胸部X線における一般的な肺異常の同定や、出生前、胎児の心臓超音波画像における低形成左心症候群などのサロゲートタスクでテストした場合、最先端の手法よりも優れたパフォーマンスを発揮する。 コードはhttps://github.com/j emtan/pii。

Supervised learning of every possible pathology is unrealistic for many primary care applications like health screening. Image anomaly detection methods that learn normal appearance from only healthy data have shown promising results recently. We propose an alternative to image reconstruction-based and image embedding-based methods and propose a new self-supervised method to tackle pathological anomaly detection. Our approach originates in the foreign patch interpolation (FPI) strategy that has shown superior performance on brain MRI and abdominal CT data. We propose to use a better patch interpolation strategy, Poisson image interpolation (PII), which makes our method suitable for applications in challenging data regimes. PII outperforms state-of-the-art methods by a good margin when tested on surrogate tasks like identifying common lung anomalies in chest X-rays or hypo-plastic left heart syndrome in prenatal, fetal cardiac ultrasound images. Code available at https://github.com/j emtan/PII.
翻訳日:2021-07-07 13:45:28 公開日:2021-07-06
# 拡張歩行者の注意に基づく対人学習

Attention-based Adversarial Appearance Learning of Augmented Pedestrians ( http://arxiv.org/abs/2107.02673v1 )

ライセンス: Link先を確認
Kevin Strauss, Artem Savkin, Federico Tombari(参考訳) 合成データは、自動運転の分野における機械学習に基づく知覚の重要な要素となった。 しかし、sim2realドメインシフトのため、実際のデータを完全に置き換えることはできない。 本研究では,歩行者認識タスクの現実データを合成するために,拡張過程と敵対的訓練の利点を活用する手法を提案する。 本手法は, 対向損失による注意機構を利用して, 領域の差異を学習し, sim2real適応を改善する。 提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。 さらに,歩行者認識作業におけるデータ生成パイプラインの評価を行い,実際の領域の特性に類似したデータを生成することを示す。

Synthetic data became already an essential component of machine learning-based perception in the field of autonomous driving. Yet it still cannot replace real data completely due to the sim2real domain shift. In this work, we propose a method that leverages the advantages of the augmentation process and adversarial training to synthesize realistic data for the pedestrian recognition task. Our approach utilizes an attention mechanism driven by an adversarial loss to learn domain discrepancies and improve sim2real adaptation. Our experiments confirm that the proposed adaptation method is robust to such discrepancies and reveals both visual realism and semantic consistency. Furthermore, we evaluate our data generation pipeline on the task of pedestrian recognition and demonstrate that generated data resemble properties of the real domain.
翻訳日:2021-07-07 13:45:08 公開日:2021-07-06
# リモートセンシングにおける時空間融合

Spatiotemporal Fusion in Remote Sensing ( http://arxiv.org/abs/2107.02701v1 )

ライセンス: Link先を確認
Hessah Albanwan, Rongjun Qin(参考訳) リモートセンシング画像と技術は、地球表面を調査する強力なツールである。 データ品質は、リモートセンシングアプリケーションを強化し、クリアでノイズのないデータセットを得るための鍵であり、多くの状況において、取得条件(大気と季節)、センサ、プラットフォーム(衛星の角度やセンサー特性など)によって、非常に困難である。 衛星の開発が進み、今日ではテラバイトのリモートセンシング画像が毎日取得されている。 したがって、リモートセンシングコミュニティでは情報とデータ融合が特に重要である。 融合は、情報抽出、分析、品質改善のために非同期に取得された様々なソースのデータを統合する。 本章では,先行研究と現在進行中の著作を要約し,基本概念と応用のいくつかを説明することに加えて,先行研究を検証し,時空間融合の理論について議論する。

Remote sensing images and techniques are powerful tools to investigate earth surface. Data quality is the key to enhance remote sensing applications and obtaining a clear and noise-free set of data is very difficult in most situations due to the varying acquisition (e.g., atmosphere and season), sensor, and platform (e.g., satellite angles and sensor characteristics) conditions. With the increasing development of satellites, nowadays Terabytes of remote sensing images can be acquired every day. Therefore, information and data fusion can be particularly important in the remote sensing community. The fusion integrates data from various sources acquired asynchronously for information extraction, analysis, and quality improvement. In this chapter, we aim to discuss the theory of spatiotemporal fusion by investigating previous works, in addition to describing the basic concepts and some of its applications by summarizing our prior and ongoing works.
翻訳日:2021-07-07 13:44:56 公開日:2021-07-06
# シーングラフ生成のための述語相関学習

Predicate correlation learning for scene graph generation ( http://arxiv.org/abs/2107.02713v1 )

ライセンス: Link先を確認
Leitian Tao, Li Mi, Nannan Li, Xianhang Cheng, Yaosi Hu, and Zhenzhong Chen(参考訳) 典型的なシーングラフ生成(sgg)メソッドでは、述語のヘッドクラスとテールクラスのパフォーマンスに大きなギャップがあることが多い。 この現象は主に、異なる述語間の意味的重複と、ロングテールデータ分布によって引き起こされる。 本稿では,SGGの述語相関学習(PCL)手法を提案し,述語間の相関を考慮し,上記の2つの問題に対処する。 強相関述語クラス間の意味的重複を記述するために、述語相関行列(PCM)が定義され、述語ペア間の関係を定量化し、行列の長い尾バイアスを取り除くために動的に更新される。 さらに、PCM を述語相関損失関数 (L_{PC}$) に統合し、無注釈クラスの回避勾配を減少させる。 提案手法はVisual Genomeベンチマークで評価され,既存の手法を用いた場合,テールクラスの性能が大幅に向上する。

For a typical Scene Graph Generation (SGG) method, there is often a large gap in the performance of the predicates' head classes and tail classes. This phenomenon is mainly caused by the semantic overlap between different predicates as well as the long-tailed data distribution. In this paper, a Predicate Correlation Learning (PCL) method for SGG is proposed to address the above two problems by taking the correlation between predicates into consideration. To describe the semantic overlap between strong-correlated predicate classes, a Predicate Correlation Matrix (PCM) is defined to quantify the relationship between predicate pairs, which is dynamically updated to remove the matrix's long-tailed bias. In addition, PCM is integrated into a Predicate Correlation Loss function ($L_{PC}$) to reduce discouraging gradients of unannotated classes. The proposed method is evaluated on Visual Genome benchmark, where the performance of the tail classes is significantly improved when built on the existing methods.
翻訳日:2021-07-07 13:44:43 公開日:2021-07-06
# iPOKE:制御された確率的ビデオ合成のための静止画

iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis ( http://arxiv.org/abs/2107.02790v1 )

ライセンス: Link先を確認
Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer(参考訳) 静的なシーンがローカルのpokeにどう反応するか? ローカルにプッシュできれば、オブジェクトの他の部分にどのような影響がありますか? 我々の世界の確率的性質によって引き起こされる明らかな変化にもかかわらず、独特の動きが存在するだろう。 これらの結果は、局所的な相互作用によって引き起こされる全体運動を規定する物体の特徴的な運動学によって支配される。 逆に、物体の動きは、その基礎となる特徴的な運動学とその部分間の相互依存性に関する重要な情報を提供する。 この2方向関係は、対象キネマティクスと有望な将来の画像シーケンスの間の客観的マッピングを学ぶ動機となる。 そこで本稿では,対象キネマティックスの初期フレームと局所ポケを条件として,対象キネマティックスをサンプリングし,対応する可読性映像に対して1対1の対応関係を確立することにより,制御された確率的ビデオ合成を実現する,対象キネマティックスの可逆的予測を提案する。 従来の作品とは対照的に、任意のリアルなビデオは生成しないが、環境の確率的性質とそれに関連する妥当な結果の多様性を把握しながら、動きの効率的な制御を提供する。 さらに、我々の手法は、キネマティックスを新しいオブジェクトインスタンスに転送することができ、特定のオブジェクトクラスに限定されない。 プロジェクトページはhttps://bit.ly/3djn4 lfで利用可能

How would a static scene react to a local poke? What are the effects on other parts of an object if you could locally push it? There will be distinctive movement, despite evident variations caused by the stochastic nature of our world. These outcomes are governed by the characteristic kinematics of objects that dictate their overall motion caused by a local interaction. Conversely, the movement of an object provides crucial information about its underlying distinctive kinematics and the interdependencies between its parts. This two-way relation motivates learning a bijective mapping between object kinematics and plausible future image sequences. Therefore, we propose iPOKE - invertible Prediction of Object Kinematics - that, conditioned on an initial frame and a local poke, allows to sample object kinematics and establishes a one-to-one correspondence to the corresponding plausible videos, thereby providing a controlled stochastic video synthesis. In contrast to previous works, we do not generate arbitrary realistic videos, but provide efficient control of movements, while still capturing the stochastic nature of our environment and the diversity of plausible outcomes it entails. Moreover, our approach can transfer kinematics onto novel object instances and is not confined to particular object classes. Project page is available at https://bit.ly/3dJN4 Lf
翻訳日:2021-07-07 13:44:28 公開日:2021-07-06
# ディープグラフニューラルネットワークのためのディリクレエネルギー制約学習

Dirichlet Energy Constrained Learning for Deep Graph Neural Networks ( http://arxiv.org/abs/2107.02392v1 )

ライセンス: Link先を確認
Kaixiong Zhou, Xiao Huang, Daochen Zha, Rui Chen, Li Li, Soo-Hyun Choi, Xia Hu(参考訳) グラフニューラルネットワーク(GNN)は、深いアーキテクチャと位相構造モデリングを効果的な方法で統合する。 しかし、既存のGNNの性能は、過度にスムーズな問題のため、多くのレイヤを積み重ねると大幅に低下する。 ノード埋め込みは、GNNが隣人の表現を再帰的に集約し続けると、同様のベクトルに収束する傾向がある。 ディープGNNを実現するために、最近いくつかの方法が検討されている。 しかし、畳み込みニューラルネットワークやヒューリスティック戦略のテクニックから開発されている。 深いGNNの設計を導く一般化可能かつ理論的原理は存在しない。 そこで我々は,ノード埋め込みのディリクレエネルギーを利用してディープGNNのボトルネックを分析し,ディープGNNのトレーニングを導くための一般化可能な原理を提案する。 これに基づいて、新しいディープGNNフレームワーク -- EGNNが設計されている。 オーバースムーシングを避けるために、各層におけるディリクレエネルギーの観点で下層と上層に制約を与えることができる。 実験結果から,EGNNは深い層を用いて最先端の性能を実現することが示された。

Graph neural networks (GNNs) integrate deep architectures and topological structure modeling in an effective way. However, the performance of existing GNNs would decrease significantly when they stack many layers, because of the over-smoothing issue. Node embeddings tend to converge to similar vectors when GNNs keep recursively aggregating the representations of neighbors. To enable deep GNNs, several methods have been explored recently. But they are developed from either techniques in convolutional neural networks or heuristic strategies. There is no generalizable and theoretical principle to guide the design of deep GNNs. To this end, we analyze the bottleneck of deep GNNs by leveraging the Dirichlet energy of node embeddings, and propose a generalizable principle to guide the training of deep GNNs. Based on it, a novel deep GNN framework -- EGNN is designed. It could provide lower and upper constraints in terms of Dirichlet energy at each layer to avoid over-smoothing. Experimental results demonstrate that EGNN achieves state-of-the-art performance by using deep layers.
翻訳日:2021-07-07 13:44:06 公開日:2021-07-06
# GradDiv: 勾配多様性規則化によるランダム化ニューラルネットワークの逆ロバスト性

GradDiv: Adversarial Robustness of Randomized Neural Networks via Gradient Diversity Regularization ( http://arxiv.org/abs/2107.02425v1 )

ライセンス: Link先を確認
Sungyoon Lee, Hoki Kim, Jaewook Lee(参考訳) ディープラーニングは、敵の例に弱い。 ランダム化されたニューラルネットワークに基づく多くのディフェンスがこの問題を解決するために提案されているが、EOT攻撃のようなプロキシ勾配を用いた攻撃に対して堅牢性を達成することはできない。 本研究では,ランダム化ニューラルネットワークに対するプロキシ勾配を用いた逆攻撃の効果を調査し,ランダム化ニューラルネットワークの損失勾配の方向分布に大きく依存することを示す。 特に、勾配が分散している場合、プロキシ勾配は効果が低いことを示す。 この目的のために,ロバストなランダム化ニューラルネットワークを構築するために,勾配の濃度を最小化する勾配多様性(graddiv)正則化を提案する。 mnist, cifar10, stl10を用いた実験により, 提案するgraddiv正規化により, 様々な最先端攻撃手法に対して, ランダム化ニューラルネットワークの対向ロバスト性が向上することを示した。 さらに,ランダム化ニューラルネットワークのサンプルモデル間の転送性を効率的に低減する。

Deep learning is vulnerable to adversarial examples. Many defenses based on randomized neural networks have been proposed to solve the problem, but fail to achieve robustness against attacks using proxy gradients such as the Expectation over Transformation (EOT) attack. We investigate the effect of the adversarial attacks using proxy gradients on randomized neural networks and demonstrate that it highly relies on the directional distribution of the loss gradients of the randomized neural network. We show in particular that proxy gradients are less effective when the gradients are more scattered. To this end, we propose Gradient Diversity (GradDiv) regularizations that minimize the concentration of the gradients to build a robust randomized neural network. Our experiments on MNIST, CIFAR10, and STL10 show that our proposed GradDiv regularizations improve the adversarial robustness of randomized neural networks against a variety of state-of-the-art attack methods. Moreover, our method efficiently reduces the transferability among sample models of randomized neural networks.
翻訳日:2021-07-07 13:43:53 公開日:2021-07-06
# RNNによる予測分類による臨床試験におけるボールキャッチ成功の早期認識

Early Recognition of Ball Catching Success in Clinical Trials with RNN-Based Predictive Classification ( http://arxiv.org/abs/2107.02442v1 )

ライセンス: Link先を確認
Jana Lang, Martin A. Giese, Matthis Synofzik, Winfried Ilg, Sebastian Otte(参考訳) 運動障害はボールをキャッチするなどの動的物体との相互作用に影響を与える可能性がある。 臨床捕集臨床試験の分類は、腕とボールの動きの関係における病理学的変化の存在についての洞察を与えるかもしれない。 正確な、しかし初期の決定は、キャッチャーの最初のボールが接触する前にキャッチトライを分類するために必要である。 臨床的に価値のある結果を得るためには、少なくとも75%の重大な意思決定信頼が必要である。 したがって、3つの競合する目標を同時に最適化する必要がある。 本稿では,早期時系列分類のための統合分類と予測手法を提案する。予測型,生成型リカレントニューラルネットワーク(rnn)は,すでに利用可能な観測結果に基づいて球軌道の次のデータポイントを予測し,識別型rnnは,利用可能なデータポイントと未ロールシーケンス予測に基づいて,分類推測を連続的に生成する。 我々は,予測的逐次分類 (psc) と呼ぶ手法と,様々なrnnおよび時間畳み込みネットワーク (tcn) アーキテクチャを含む最先端の逐次学習者を比較した。 この厳密な実世界のタスクでは、認識のイヤーラインに対する精度と信頼性の観点から、PSCが他のすべてのモデルよりも優れていることを一貫して示すことができる。 具体的には、PSCは最初のボール接触の123ミリ秒前に、試薬を捕獲する成功を確実に分類することができる。 我々はPSCが、正確かつ確実な決定が必要な場合、早期時系列分類において有望なアプローチであると結論付けた。

Motor disturbances can affect the interaction with dynamic objects, such as catching a ball. A classification of clinical catching trials might give insight into the existence of pathological alterations in the relation of arm and ball movements. Accurate, but also early decisions are required to classify a catching attempt before the catcher's first ball contact. To obtain clinically valuable results, a significant decision confidence of at least 75% is required. Hence, three competing objectives have to be optimized at the same time: accuracy, earliness and decision-making confidence. Here we propose a coupled classification and prediction approach for early time series classification: a predictive, generative recurrent neural network (RNN) forecasts the next data points of ball trajectories based on already available observations; a discriminative RNN continuously generates classification guesses based on the available data points and the unrolled sequence predictions. We compare our approach, which we refer to as predictive sequential classification (PSC), to state-of-the-art sequence learners, including various RNN and temporal convolutional network (TCN) architectures. On this hard real-world task we can consistently demonstrate the superiority of PSC over all other models in terms of accuracy and confidence with respect to earliness of recognition. Specifically, PSC is able to confidently classify the success of catching trials as early as 123 milliseconds before the first ball contact. We conclude that PSC is a promising approach for early time series classification, when accurate and confident decisions are required.
翻訳日:2021-07-07 13:43:37 公開日:2021-07-06
# DTGAN: Tabular GAN の個人差分訓練

DTGAN: Differential Private Training for Tabular GANs ( http://arxiv.org/abs/2107.02521v1 )

ライセンス: Link先を確認
Aditya Kunar, Robert Birke, Lydia Chen, Zilong Zhao(参考訳) Tabular Generative Adversarial Network (TGAN)は先日,最も広く使用されているデータフォーマットである表データの合成の必要性に対処するために登場した。 合成表データは、プライバシー規則に従う利点を提供するが、トレーニング中に実際のデータのプロパティを補間するため、推論攻撃によるプライバシー漏洩のリスクは依然として残っている。 differential private (dp) トレーニングアルゴリズムは、プライバシリークを防ぐために統計ノイズを注入することにより、機械学習モデルのトレーニングのための理論的保証を提供する。 しかし、TGANにDPを適用する際の課題は、最も最適なフレームワーク(PATE/DP-SGD)とニューラルネットワーク(Generator/Discrimin ator)を判断し、データユーティリティが所定のプライバシー保証の下で十分に維持されているようにノイズを注入することである。 本稿では,DTGAN_GとDTGAN_Dの2つの変種を組み合わせた新しい条件付きWasserstein表型GANであるDTGANを提案する。 高品質な表データ合成に必要な複雑な損失関数(分類と情報損失)を持つ生成器のトレーニングに関連するプライバシ解析を導出する。 さらに,DPが提案する理論的プライバシー保証を,メンバーシップや属性推論攻撃に対して実証的に評価する。 その結果,DP-SGD フレームワークは PATE よりも優れており,DP 判別器の方が訓練収束に最適であることが示唆された。 したがって、(i)dtgan_dは、厳格なプライバシー予算の平均精度スコアであるepsilon = 1の点で、4mlモデルにおける最高データユーティリティを最大18%維持することができ、(ii)dpは、メンバーシップアタックの成功確率を50%に制限することにより、推論攻撃に対するプライバシ損失を効果的に防止できる。

Tabular generative adversarial networks (TGAN) have recently emerged to cater to the need of synthesizing tabular data -- the most widely used data format. While synthetic tabular data offers the advantage of complying with privacy regulations, there still exists a risk of privacy leakage via inference attacks due to interpolating the properties of real data during training. Differential private (DP) training algorithms provide theoretical guarantees for training machine learning models by injecting statistical noise to prevent privacy leaks. However, the challenges of applying DP on TGAN are to determine the most optimal framework (i.e., PATE/DP-SGD) and neural network (i.e., Generator/Discrimina tor)to inject noise such that the data utility is well maintained under a given privacy guarantee. In this paper, we propose DTGAN, a novel conditional Wasserstein tabular GAN that comes in two variants DTGAN_G and DTGAN_D, for providing a detailed comparison of tabular GANs trained using DP-SGD for the generator vs discriminator, respectively. We elicit the privacy analysis associated with training the generator with complex loss functions (i.e., classification and information losses) needed for high quality tabular data synthesis. Additionally, we rigorously evaluate the theoretical privacy guarantees offered by DP empirically against membership and attribute inference attacks. Our results on 3 datasets show that the DP-SGD framework is superior to PATE and that a DP discriminator is more optimal for training convergence. Thus, we find (i) DTGAN_D is capable of maintaining the highest data utility across 4 ML models by up to 18% in terms of the average precision score for a strict privacy budget, epsilon = 1, as compared to the prior studies and (ii) DP effectively prevents privacy loss against inference attacks by restricting the success probability of membership attacks to be close to 50%.
翻訳日:2021-07-07 13:43:11 公開日:2021-07-06
# 都市を気候変動の影響に適応させるリモートセンシング、AIおよび革新的な予測方法

Remote sensing, AI and innovative prediction methods for adapting cities to the impacts of the climate change ( http://arxiv.org/abs/2107.02693v1 )

ライセンス: Link先を確認
Beril Sirmacek(参考訳) 都市部は気候変動の最大の要因の1つであるだけでなく、人口の多い地域で最も脆弱な地域であり、同時にマイナスの影響も経験している。 本稿では,衛星リモートセンシング画像と人工知能(ai)によってもたらされる,都市の気候適応度を自動的に測定する機会について述べる。 本稿では,リモートセンシング画像から指標を抽出する上で有用なAIベースのフレームワークを提案する。 このようなモデルがより堅牢になり、現実のアプリケーションで使われるようになると、意思決定者や早期応答者が社会、天然資源、生物多様性の幸福を維持するための最善の行動を選択するのに役立つかもしれません。 これは多くの科学者にとってオープンフィールドであり、現在進行中の研究であり、AIベースの手法の課題と限界に関する深い議論と予測モデルについて述べています。

Urban areas are not only one of the biggest contributors to climate change, but also they are one of the most vulnerable areas with high populations who would together experience the negative impacts. In this paper, I address some of the opportunities brought by satellite remote sensing imaging and artificial intelligence (AI) in order to measure climate adaptation of cities automatically. I propose an AI-based framework which might be useful for extracting indicators from remote sensing images and might help with predictive estimation of future states of these climate adaptation related indicators. When such models become more robust and used in real-life applications, they might help decision makers and early responders to choose the best actions to sustain the wellbeing of society, natural resources and biodiversity. I underline that this is an open field and an ongoing research for many scientists, therefore I offer an in depth discussion on the challenges and limitations of AI-based methods and the predictive estimation models in general.
翻訳日:2021-07-07 13:42:34 公開日:2021-07-06
# 都市自律運転における歩行者の出現推定と咬合認識リスク評価

Pedestrian Emergence Estimation and Occlusion-Aware Risk Assessment for Urban Autonomous Driving ( http://arxiv.org/abs/2107.02326v1 )

ライセンス: Link先を確認
Mert Koc, Ekim Yurtsever, Keith Redmill, Umit Ozguner(参考訳) vrus(unseed or partial occluded vulnerable road users)は、都市部の完全自動運転にとって大きな課題である。 しかし, 咬合認識リスクアセスメントシステムは広く研究されていない。 本稿では,都市自律運転における歩行者の出現推定と咬合認識リスク評価システムを提案する。 まず,可視性車や歩行者などのコンテクスト情報を用いて,遮蔽領域における歩行者の出現確率を推定する。 これらの確率はリスク評価の枠組みで使われ、縦方向のモーションコントローラに組み込まれる。 提案したコントローラは、よく見られる運転スタイルを再カプセル化するいくつかのベースラインコントローラに対してテストされる。 シミュレーションされたテストシナリオには、駐車した車や歩行者が無作為に配置されている。 提案するコントローラは,安全性と快適性の観点から,ベースラインを上回った。

Avoiding unseen or partially occluded vulnerable road users (VRUs) is a major challenge for fully autonomous driving in urban scenes. However, occlusion-aware risk assessment systems have not been widely studied. Here, we propose a pedestrian emergence estimation and occlusion-aware risk assessment system for urban autonomous driving. First, the proposed system utilizes available contextual information, such as visible cars and pedestrians, to estimate pedestrian emergence probabilities in occluded regions. These probabilities are then used in a risk assessment framework, and incorporated into a longitudinal motion controller. The proposed controller is tested against several baseline controllers that recapitulate some commonly observed driving styles. The simulated test scenarios include randomly placed parked cars and pedestrians, most of whom are occluded from the ego vehicle's view and emerges randomly. The proposed controller outperformed the baselines in terms of safety and comfort measures.
翻訳日:2021-07-07 13:42:18 公開日:2021-07-06
# オンエッジマルチタスク転送学習:データ駆動タスク割り当てによるモデルと実践

On-edge Multi-task Transfer Learning: Model and Practice with Data-driven Task Allocation ( http://arxiv.org/abs/2107.02466v1 )

ライセンス: Link先を確認
Zimu Zheng, Qiong Chen, Chuang Hu, Dan Wang, Fangming Liu(参考訳) エッジデバイスでは、転送学習が広く推奨される治療として機能する一般的な問題としてデータ不足が発生する。 それにもかかわらず、転送学習はリソース制約のあるエッジデバイスに重い計算負荷を課す。 既存のタスク割当作業は通常、送信されたすべてのタスクが等しく重要であると仮定し、マルチタスク転送学習(mtl)に直接適用される場合、タスクレベルで非効率なリソース割当につながる。 これらの課題に対処するために、まず、タスクが全体的な意思決定性能改善に与える影響を計測し、 \emph{task importance} を定量化することが重要であることを明らかにする。 MTL(TATIM)のタスクの割り当ては、NP完全Knapsack問題の変種であり、この問題を解決するための複雑な計算を、様々な状況下で繰り返し行う必要があることを示す。 高い計算効率でTATIMを解くために,データ駆動型協調タスク割当(DCTA)手法を提案する。 最後に、トレース駆動シミュレーションだけでなく、新しいアーキテクチャとaiopsシステム内の主コンポーネント設計を通してモデルと実践を橋渡しする新しい総合的な実世界のaiopsケーススタディによって、dctaの性能を評価する。 広範な実験により、我々のdctaは3.24倍の処理時間を削減し、タティムを解決するときと比較して48.4\%のエネルギー消費を節約できることが示されている。

On edge devices, data scarcity occurs as a common problem where transfer learning serves as a widely-suggested remedy. Nevertheless, transfer learning imposes a heavy computation burden to resource-constrained edge devices. Existing task allocation works usually assume all submitted tasks are equally important, leading to inefficient resource allocation at a task level when directly applied in Multi-task Transfer Learning (MTL). To address these issues, we first reveal that it is crucial to measure the impact of tasks on overall decision performance improvement and quantify \emph{task importance}. We then show that task allocation with task importance for MTL (TATIM) is a variant of the NP-complete Knapsack problem, where the complicated computation to solve this problem needs to be conducted repeatedly under varying contexts. To solve TATIM with high computational efficiency, we propose a Data-driven Cooperative Task Allocation (DCTA) approach. Finally, we evaluate the performance of DCTA by not only a trace-driven simulation, but also a new comprehensive real-world AIOps case study that bridges model and practice via a new architecture and main components design within the AIOps system. Extensive experiments show that our DCTA reduces 3.24 times of processing time, and saves 48.4\% energy consumption compared with the state-of-the-art when solving TATIM.
翻訳日:2021-07-07 13:42:04 公開日:2021-07-06
# T-LoHo:グラフ上の構造的疎度と滑らか性のベイズ正規化モデル

T-LoHo: A Bayesian Regularization Model for Structured Sparsity and Smoothness on Graphs ( http://arxiv.org/abs/2107.02510v1 )

ライセンス: Link先を確認
Changwoo J. Lee, Zhao Tang Luo, Huiyan Sang(参考訳) 現代の複雑なデータの多くはグラフとして表現できる。 グラフ構造データを扱うモデルでは、多変量パラメータは単にスパースであるだけでなく、ゼロパラメータと非ゼロパラメータの両方が団結する傾向にあるという意味で、スムーズな構造を持つ。 本稿では,多変量設定に先立って,一般的な非変量ベイズ馬頭収縮を一般化し,構造的スパーシティと滑らかさを同時に検出する,木ベースの低ランク馬頭モデル(t-lohoモデル)と呼ばれる,グラフィカルな関係を持つ高次元パラメータに対する新しい前置法を提案する。 前者は多くの階層的高次元モデルに組み込むことができる。 その有用性を説明するために、回帰係数がグラフ上にリンクされているベイズ高次元回帰問題を正則化する。 得られたクラスタは柔軟な形状を持ち、グラフに対するクラスタ連続性制約を満たす。 我々は,クラスタ数を含むモデルパラメータに対する不確実性測度を満たしたベイズ推定を行う効率的なマルコフ連鎖モンテカルロアルゴリズムを設計する。 クラスタリング効果と後部濃度の結果について理論的に検討する。 最後に,道路ネットワークにおける異常検出などの実データアプリケーションとシミュレーションによるモデルの性能について述べる。 その結果, スパース溶解ラッソなどの他の競合手法よりも大幅に改善した。

Many modern complex data can be represented as a graph. In models dealing with graph-structured data, multivariate parameters are not just sparse but have structured sparsity and smoothness in the sense that both zero and non-zero parameters tend to cluster together. We propose a new prior for high dimensional parameters with graphical relations, referred to as a Tree-based Low-rank Horseshoe(T-LoHo) model, that generalizes the popular univariate Bayesian horseshoe shrinkage prior to the multivariate setting to detect structured sparsity and smoothness simultaneously. The prior can be embedded in many hierarchical high dimensional models. To illustrate its utility, we apply it to regularize a Bayesian high-dimensional regression problem where the regression coefficients are linked on a graph. The resulting clusters have flexible shapes and satisfy the cluster contiguity constraint with respect to the graph. We design an efficient Markov chain Monte Carlo algorithm that delivers full Bayesian inference with uncertainty measures for model parameters including the number of clusters. We offer theoretical investigations of the clustering effects and posterior concentration results. Finally, we illustrate the performance of the model with simulation studies and real data applications such as anomaly detection in road networks. The results indicate substantial improvements over other competing methods such as sparse fused lasso.
翻訳日:2021-07-07 13:41:40 公開日:2021-07-06
# コミュニティ検出の超球面形状:距離としてのモジュラリティ

The Hyperspherical Geometry of Community Detection: Modularity as a Distance ( http://arxiv.org/abs/2107.02645v1 )

ライセンス: Link先を確認
Martijn G\"osgens, Remco van der Hofstad, Nelly Litvak(参考訳) Louvainアルゴリズムは、現在最も人気のあるコミュニティ検出手法の1つである。 このアルゴリズムはモジュラリティと呼ばれる量を最大化することでコミュニティを見つける。 本稿では,頂点ペアによってインデックスづけされた2進ベクトルによってクラスタリングを記述する,クラスタリングの計量空間について述べる。 この幾何学を超球面に拡張し、モジュラリティの最大化は、クラスタリングベクトルの集合上のあるモジュラリティベクトルへの角距離を最小化することと同値であることを示す。 この等価性により、ルービンアルゴリズムを、このモジュラリティベクトルまでの距離をほぼ最小化する最寄り探索と見なすことができる。 このモジュラリティベクトルを別のベクトルに置き換えることで、多くの代替のコミュニティ検出方法を得ることができる。 このより広いクラスを探索し、既存のモジュラリティベースのメソッドと比較する。 実験により,これらの代替手段はモジュール性に基づく手法より優れていることが示された。 例えば、コミュニティが頂点付近に比べて大きい場合、近隣住民の数に基づくベクトルは、既存のコミュニティ検出方法より優れている。 本研究の焦点はネットワークにおけるコミュニティ検出であるが,提案手法は,ペア間の類似性が利用可能な任意のクラスタリング問題に適用できる。

The Louvain algorithm is currently one of the most popular community detection methods. This algorithm finds communities by maximizing a quantity called modularity. In this work, we describe a metric space of clusterings, where clusterings are described by a binary vector indexed by the vertex-pairs. We extend this geometry to a hypersphere and prove that maximizing modularity is equivalent to minimizing the angular distance to some modularity vector over the set of clustering vectors. This equivalence allows us to view the Louvain algorithm as a nearest-neighbor search that approximately minimizes the distance to this modularity vector. By replacing this modularity vector by a different vector, many alternative community detection methods can be obtained. We explore this wider class and compare it to existing modularity-based methods. Our experiments show that these alternatives may outperform modularity-based methods. For example, when communities are large compared to vertex neighborhoods, a vector based on numbers of common neighbors outperforms existing community detection methods. While the focus of the present work is community detection in networks, the proposed methodology can be applied to any clustering problem where pair-wise similarity data is available.
翻訳日:2021-07-07 13:41:17 公開日:2021-07-06
# 学習に基づく登録のための二重確認支援時空間正規化重み付け

Double-Uncertainty Assisted Spatial and Temporal Regularization Weighting for Learning-based Registration ( http://arxiv.org/abs/2107.02433v1 )

ライセンス: Link先を確認
Zhe Xu, Jie Luo, Donghuan Lu, Jiangpeng Yan, Jayender Jagadeesan, William Wells III, Sarah Frisken, Kai Ma, Yefeng Zheng, Raymond Kai-yu Tong(参考訳) 画像登録問題に不適切な性質が伴う困難に対処するために、研究者たちは正規化を用いて解空間を制約する。 ほとんどの学習ベースの登録アプローチでは、正規化は通常固定重みを持ち、空間変換のみを制約する。 このような慣習は,(1) 特定の画像対の正規化強度を画像の内容に関連付けること,(2) 変換の空間的規則化(異なる推定の時間的整合性を見越す)だけは,不合理性に対処する最善の戦略ではない,という2つの制限がある。 本研究では,平均教師ベース登録フレームワークを提案する。 このフレームワークは、教師モデルの時間的アンサンブル予測を学生モデルのものと一致させることで、追加の「textit{temporal regularization}」用語を取り入れている。 各トレーニングステップでは、摂動型教師モデルから得られた変換の不確かさと外観不確かさを考慮し、 \textit{spatial regularization} と \textit{temporal regularization} の重みを自動的に調整する。 マルチモーダルおよびユニモーダルな登録タスクの実験を行い、その結果、従来のベンチマーク手法よりも優れた戦略が得られた。

In order to tackle the difficulty associated with the ill-posed nature of the image registration problem, researchers use regularization to constrain the solution space. For most learning-based registration approaches, the regularization usually has a fixed weight and only constrains the spatial transformation. Such convention has two limitations: (1) The regularization strength of a specific image pair should be associated with the content of the images, thus the ``one value fits all'' scheme is not ideal; (2) Only spatially regularizing the transformation (but overlooking the temporal consistency of different estimations) may not be the best strategy to cope with the ill-posedness. In this study, we propose a mean-teacher based registration framework. This framework incorporates an additional \textit{temporal regularization} term by encouraging the teacher model's temporal ensemble prediction to be consistent with that of the student model. At each training step, it also automatically adjusts the weights of the \textit{spatial regularization} and the \textit{temporal regularization} by taking account of the transformation uncertainty and appearance uncertainty derived from the perturbed teacher model. We perform experiments on multi- and uni-modal registration tasks, and the results show that our strategy outperforms the traditional and learning-based benchmark methods.
翻訳日:2021-07-07 13:40:40 公開日:2021-07-06
# 画像偽造ローカライズのための偽造注意を考慮したセルフ・アドバーサルトレーニング

Self-Adversarial Training incorporating Forgery Attention for Image Forgery Localization ( http://arxiv.org/abs/2107.02434v1 )

ライセンス: Link先を確認
Long Zhuo and Shunquan Tan and Bin Li and Jiwu Huang(参考訳) 画像編集技術により、視覚的痕跡を残すことなく画像の内容を変更することができ、重大なセキュリティリスクを引き起こす可能性がある。 したがって、これらの偽造物の検出と位置決めは極めて必要で困難である。 さらに、広範囲なデータを持つ他のタスクとは異なり、アノテーションの難しさのためにトレーニング用の注釈付きイメージが欠如していることが多い。 本稿では,偽造画像における偽造領域のローカライズにセルフアテンション機構を利用する,セルフアドバーサルトレーニング戦略と信頼性の高い粗粒間ネットワークを提案する。 自己保持モジュールはCW-HPF(Channel-Wise High Pass Filter block)に基づいている。 CW-HPFは、チャネル間の特徴関係を活用し、ハイパスフィルタによりノイズ特徴を抽出する。 The CW-HPF, a self-attention mechanism, called forgery attention, was proposed to capture rich contextual dependencies of intmpered region。 具体的には,CW-HPF上に2種類のアテンションモジュールを付加し,チャネル間の空間的相互依存性と外部依存性をモデル化する。 我々は、粗大なネットワークを利用して、元の領域と改ざんされた領域のノイズの不整合を高める。 さらに, トレーニングデータ不足の問題に対処するために, 学習データを動的に拡張し, より堅牢な性能を実現するセルフ・アドバーサル・トレーニング戦略を考案する。 具体的には、トレーニングイテレーション毎に、ネットワークに対して敵の攻撃を行い、敵の例を生成し、モデルをトレーニングします。 大規模な実験結果から,提案アルゴリズムは,異なるベンチマークデータセットにおいて,最先端の手法よりも顕著に優れていた。

Image editing techniques enable people to modify the content of an image without leaving visual traces and thus may cause serious security risks. Hence the detection and localization of these forgeries become quite necessary and challenging. Furthermore, unlike other tasks with extensive data, there is usually a lack of annotated forged images for training due to annotation difficulties. In this paper, we propose a self-adversarial training strategy and a reliable coarse-to-fine network that utilizes a self-attention mechanism to localize forged regions in forgery images. The self-attention module is based on a Channel-Wise High Pass Filter block (CW-HPF). CW-HPF leverages inter-channel relationships of features and extracts noise features by high pass filters. Based on the CW-HPF, a self-attention mechanism, called forgery attention, is proposed to capture rich contextual dependencies of intrinsic inconsistency extracted from tampered regions. Specifically, we append two types of attention modules on top of CW-HPF respectively to model internal interdependencies in spatial dimension and external dependencies among channels. We exploit a coarse-to-fine network to enhance the noise inconsistency between original and tampered regions. More importantly, to address the issue of insufficient training data, we design a self-adversarial training strategy that expands training data dynamically to achieve more robust performance. Specifically, in each training iteration, we perform adversarial attacks against our network to generate adversarial examples and train our model on them. Extensive experimental results demonstrate that our proposed algorithm steadily outperforms state-of-the-art methods by a clear margin in different benchmark datasets.
翻訳日:2021-07-07 13:40:14 公開日:2021-07-06
# 視覚位置認識のための環境・場所別ユーティリティーの階層的双対モデル

A Hierarchical Dual Model of Environment- and Place-Specific Utility for Visual Place Recognition ( http://arxiv.org/abs/2107.02440v1 )

ライセンス: Link先を確認
Nikhil Varma Keetha, Michael Milford and Sourav Garg(参考訳) 視覚位置認識 (vision place recognition, vpr) のアプローチは、特定の場所を特定する際に高い '`utility' を持つ視覚手がかり、画像領域、ランドマークを識別することで、場所と一致させようとする試みである。 しかし、この実用性の概念は特異ではなく、むしろ様々な形態をとることができる。 本稿では,視覚的手がかりの「特定の」環境への活用と,特定の場所への活用という,VPRの2つの重要なユーティリティを推定するための新しいアプローチを提案する。 我々は,局所集計ディスクリプタ(vlad)クラスタのベクトルの環境特性と場所特性の両方を教師なしで推定し,キーポイント選択による局所特徴マッチングを指導するために,対比学習原理を用いる。 これら2つのユーティリティを組み合わせることで、3つの挑戦的なベンチマークデータセットで最先端のパフォーマンスを実現し、必要なストレージと計算時間を短縮する。 さらに、教師なしクラスタ選択が意味論的に意味のある結果をもたらすことを示し、よりきめ細かい分類は、高レベルのセマンティック分類よりもVPRの利便性が高いことを示す。 建設、道路)と、これら2つの実用対策がどのように異なる場所や環境に変化するかを特徴付ける。 ソースコードはhttps://github.com/N ik-V9/HEAPUtil.comで公開されている。

Visual Place Recognition (VPR) approaches have typically attempted to match places by identifying visual cues, image regions or landmarks that have high ``utility'' in identifying a specific place. But this concept of utility is not singular - rather it can take a range of forms. In this paper, we present a novel approach to deduce two key types of utility for VPR: the utility of visual cues `specific' to an environment, and to a particular place. We employ contrastive learning principles to estimate both the environment- and place-specific utility of Vector of Locally Aggregated Descriptors (VLAD) clusters in an unsupervised manner, which is then used to guide local feature matching through keypoint selection. By combining these two utility measures, our approach achieves state-of-the-art performance on three challenging benchmark datasets, while simultaneously reducing the required storage and compute time. We provide further analysis demonstrating that unsupervised cluster selection results in semantically meaningful results, that finer grained categorization often has higher utility for VPR than high level semantic categorization (e.g. building, road), and characterise how these two utility measures vary across different places and environments. Source code is made publicly available at https://github.com/N ik-V9/HEAPUtil.
翻訳日:2021-07-07 13:39:49 公開日:2021-07-06
# 自動走行における車線検出モデルの物理世界対応攻撃に対するロバスト性について

On Robustness of Lane Detection Models to Physical-World Adversarial Attacks in Autonomous Driving ( http://arxiv.org/abs/2107.02488v1 )

ライセンス: Link先を確認
Takami Sato and Qi Alfred Chen(参考訳) 2017年のTuSimple Lane Detection Challengeの後、その精度とF1スコアに基づく評価は、車線検出手法の性能を測定するデファクトスタンダードとなっている。 本研究では,自動運転における実世界の対向攻撃における最先端レーン検出手法のロバスト性を評価するために,最初の大規模実験を行った。 自動走行シナリオにおける従来の評価とエンドツーエンド評価を用いて4種類の車線検出手法を評価し,各車線検出モデルのセキュリティ特性について検討した。 従来の評価は、エンドツーエンドの自動運転シナリオの頑健さを反映しないことを示す。 その結果,実測値に対する最もロバストなモデルは,エンドツーエンド評価において最もロバストではないことがわかった。 競争データセットとそのメトリクスは、ディープニューラルネットワークの急速な発展とともに、高性能レーン検出法の開発において大きな役割を果たしてきたが、従来の評価は時代遅れとなり、メトリクスと実用性のギャップが重要になっている。 我々は,車線検出モデルを評価するためのより包括的なフレームワークの構築において,コミュニティがさらなる進展を期待する。

After the 2017 TuSimple Lane Detection Challenge, its evaluation based on accuracy and F1 score has become the de facto standard to measure the performance of lane detection methods. In this work, we conduct the first large-scale empirical study to evaluate the robustness of state-of-the-art lane detection methods under physical-world adversarial attacks in autonomous driving. We evaluate 4 major types of lane detection approaches with the conventional evaluation and end-to-end evaluation in autonomous driving scenarios and then discuss the security proprieties of each lane detection model. We demonstrate that the conventional evaluation fails to reflect the robustness in end-to-end autonomous driving scenarios. Our results show that the most robust model on the conventional metrics is the least robust in the end-to-end evaluation. Although the competition dataset and its metrics have played a substantial role in developing performant lane detection methods along with the rapid development of deep neural networks, the conventional evaluation is becoming obsolete and the gap between the metrics and practicality is critical. We hope that our study will help the community make further progress in building a more comprehensive framework to evaluate lane detection models.
翻訳日:2021-07-07 13:39:23 公開日:2021-07-06
# 階層的教師なし画像変換のための独立エンコーダ

Independent Encoder for Deep Hierarchical Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2107.02494v1 )

ライセンス: Link先を確認
Kai Ye, Yinru Ye, Minqiang Yang, Bin Hu(参考訳) image-to-image (i2i)翻訳の主な課題は、翻訳画像を現実的なものにし、可能な限りソースドメインからの情報を保持することである。 この問題に対処するために,各ネットワークのエンコーダを除去し,他のネットワークとは独立したエンコーダを導入する,ieganと呼ばれる新しいアーキテクチャを提案する。 第一に、エンコーダはジェネレータや識別器から損失を受けなくなるため、画像情報を直接的かつ包括的に把握することがより困難である。 第二に、独立したエンコーダは、各ネットワークが自身の目標に集中できるようにし、翻訳された画像をよりリアルにする。 第3に、エンコーダ数の減少は、より統一された画像表現を実行する。 しかし、独立エンコーダが2つのダウンサンプリングブロックを適用する場合、意味情報を抽出することは困難である。 この問題に対処するために,特徴情報と意味情報を含む深層・浅層情報空間を提案する。 我々はieganを他のモデルと比較し,セマンティクス情報一貫性とコンポーネントアブレーションの研究を同時に行う。 これらの実験はアーキテクチャの優位性と有効性を示している。 私たちのコードは、https://github.com/E lvinky/IEGAN.comで公開されています。

The main challenges of image-to-image (I2I) translation are to make the translated image realistic and retain as much information from the source domain as possible. To address this issue, we propose a novel architecture, termed as IEGAN, which removes the encoder of each network and introduces an encoder that is independent of other networks. Compared with previous models, it embodies three advantages of our model: Firstly, it is more directly and comprehensively to grasp image information since the encoder no longer receives loss from generator and discriminator. Secondly, the independent encoder allows each network to focus more on its own goal which makes the translated image more realistic. Thirdly, the reduction in the number of encoders performs more unified image representation. However, when the independent encoder applies two down-sampling blocks, it's hard to extract semantic information. To tackle this problem, we propose deep and shallow information space containing characteristic and semantic information, which can guide the model to translate high-quality images under the task with significant shape or texture change. We compare IEGAN with other previous models, and conduct researches on semantic information consistency and component ablation at the same time. These experiments show the superiority and effectiveness of our architecture. Our code is published on: https://github.com/E lvinky/IEGAN.
翻訳日:2021-07-07 13:39:05 公開日:2021-07-06
# ワッサーシュタイン空間における歪み知覚トレードオフの理論

A Theory of the Distortion-Perceptio n Tradeoff in Wasserstein Space ( http://arxiv.org/abs/2107.02555v1 )

ライセンス: Link先を確認
Dror Freirich, Tomer Michaeli, Ron Meir(参考訳) 推定器の歪みが低ければ低いほど、出力の分布は概して推定しようとする信号の分布から逸脱する。 この現象は知覚・ゆがみのトレードオフとして知られるが、画像復元においてかなりの注目を集めており、根拠となる真理画像への忠実さは知覚的品質(自然画像の統計から導かれる)を犠牲にしていることを示している。 しかし、知覚歪曲面の比較を行う人気が高まっているにもかかわらず、重要なオープンな疑問が残る: 与えられた知覚制約の下で達成できる最小の歪みは何か? 本稿では,この歪み知覚(DP)関数に対して,平均二乗誤差(MSE)歪みとワッサーシュタイン2知覚指数の閉形式式を導出する。 DP関数が基底分布によらず常に二次的であることを証明する。 これは、DP曲線上の推定者がワッサーシュタイン空間の測地線を形成するという事実に由来する。 ガウス的設定では、そのような推定器に対して閉形式表現を提供する。 一般的な分布では、これらの推定器がトレードオフの2つの極端にある推定器からどのように構築できるかを示す: グローバルなMSE最小化器と、完全な知覚品質制約の下でのMSE最小化器。 後者は前者の確率変換として得ることができる。

The lower the distortion of an estimator, the more the distribution of its outputs generally deviates from the distribution of the signals it attempts to estimate. This phenomenon, known as the perception-distortio n tradeoff, has captured significant attention in image restoration, where it implies that fidelity to ground truth images comes at the expense of perceptual quality (deviation from statistics of natural images). However, despite the increasing popularity of performing comparisons on the perception-distortio n plane, there remains an important open question: what is the minimal distortion that can be achieved under a given perception constraint? In this paper, we derive a closed form expression for this distortion-perceptio n (DP) function for the mean squared-error (MSE) distortion and the Wasserstein-2 perception index. We prove that the DP function is always quadratic, regardless of the underlying distribution. This stems from the fact that estimators on the DP curve form a geodesic in Wasserstein space. In the Gaussian setting, we further provide a closed form expression for such estimators. For general distributions, we show how these estimators can be constructed from the estimators at the two extremes of the tradeoff: The global MSE minimizer, and a minimizer of the MSE under a perfect perceptual quality constraint. The latter can be obtained as a stochastic transformation of the former.
翻訳日:2021-07-07 13:38:44 公開日:2021-07-06
# 学習画像再構成のための教師なし知識伝達

Unsupervised Knowledge-Transfer for Learned Image Reconstruction ( http://arxiv.org/abs/2107.02572v1 )

ライセンス: Link先を確認
Riccardo Barbano, Zeljko Kereta, Andreas Hauptmann, Simon R. Arridge, Bangti Jin(参考訳) 深層学習に基づく画像再構成アプローチは、多くの画像モダリティにおいて印象的な経験的性能を示している。 これらのアプローチは一般的に大量の高品質なトレーニングデータを必要とします。 この問題を回避するために,ベイジアンフレームワーク内での反復的再構築を学習するための,教師なしの知識伝達パラダイムを開発した。 提案手法は2段階の反復的再構成ネットワークを学習する。 第1フェーズは、地上真理画像と測定データとからなる一組の順序ペアで再構成ネットワークを訓練する。 第2フェーズは、事前訓練されたネットワークを監視なしで測定データに微調整する。 さらに、再構成された画像に対して不確実性情報を提供する。 低用量・疎視ctの広範な実験結果を示し,提案手法が視覚的にだけでなく,psnrやssimでも定量的に再現性が向上することを示すとともに,最先端の教師なし・教師なしの再構成技術と競合することを示した。

Deep learning-based image reconstruction approaches have demonstrated impressive empirical performance in many imaging modalities. These approaches generally require a large amount of high-quality training data, which is often not available. To circumvent this issue, we develop a novel unsupervised knowledge-transfer paradigm for learned iterative reconstruction within a Bayesian framework. The proposed approach learns an iterative reconstruction network in two phases. The first phase trains a reconstruction network with a set of ordered pairs comprising of ground truth images and measurement data. The second phase fine-tunes the pretrained network to the measurement data without supervision. Furthermore, the framework delivers uncertainty information over the reconstructed image. We present extensive experimental results on low-dose and sparse-view computed tomography, showing that the proposed framework significantly improves reconstruction quality not only visually, but also quantitatively in terms of PSNR and SSIM, and is competitive with several state-of-the-art supervised and unsupervised reconstruction techniques.
翻訳日:2021-07-07 13:38:23 公開日:2021-07-06
# hybrur:非教師付き水中画像復元のためのハイブリッド物理ニューラルソリューション

HybrUR: A Hybrid Physical-Neural Solution for Unsupervised Underwater Image Restoration ( http://arxiv.org/abs/2107.02660v1 )

ライセンス: Link先を確認
Shuaizheng Yan, Xingyu Chen, Zhengxing Wu, Jian Wang, Yue Lu, Min Tan, and Junzhi Yu(参考訳) 水中画像のロバストな視覚復元は依然として難しい課題である。 水中-地上画像ペアの整列が欠如しているため、教師なしの手法はこの課題により適している。 しかし、純粋なデータ駆動非教師なし法は通常、光学的制約の欠如に対して現実的な色補正を達成するのが困難である。 本稿では,不対流な水中画像から水中視力回復を学習するデータおよび物理駆動型教師なしアーキテクチャを提案する。 十分な領域変換と詳細保存のためには、水中の変性は光学的に曖昧な物理法則に基づいて明示的に構築する必要がある。 そこで,jaffe-mcglamery分解理論を用いて生成モデルの設計を行い,ニューラルネットワークを用いて水中の劣化過程を記述する。 さらに, ハイブリッド物理ニューラルモデル最適化時の不適切な勾配問題を克服するために, シーン深度と後方散乱推定の劣化要因との固有相関を徹底的に検討し, 物理的制約による復元性能の向上を図る。 提案手法は,非拘束水中画像の高品質な復元を,監督なしに行うことができることを示す。 複数のベンチマークでは、最先端の教師付きアプローチや教師なしアプローチよりも優れています。 また,本手法が実世界の応用に有効であることを示す。

Robust vision restoration for an underwater image remains a challenging problem. For the lack of aligned underwater-terrestri al image pairs, the unsupervised method is more suited to this task. However, the pure data-driven unsupervised method usually has difficulty in achieving realistic color correction for lack of optical constraint. In this paper, we propose a data- and physics-driven unsupervised architecture that learns underwater vision restoration from unpaired underwater-terrestri al images. For sufficient domain transformation and detail preservation, the underwater degeneration needs to be explicitly constructed based on the optically unambiguous physics law. Thus, we employ the Jaffe-McGlamery degradation theory to design the generation models, and use neural networks to describe the process of underwater degradation. Furthermore, to overcome the problem of invalid gradient when optimizing the hybrid physical-neural model, we fully investigate the intrinsic correlation between the scene depth and the degradation factors for the backscattering estimation, to improve the restoration performance through physical constraints. Our experimental results show that the proposed method is able to perform high-quality restoration for unconstrained underwater images without any supervision. On multiple benchmarks, we outperform several state-of-the-art supervised and unsupervised approaches. We also demonstrate that our methods yield encouraging results on real-world applications.
翻訳日:2021-07-07 13:38:08 公開日:2021-07-06
# 複数のヒューマノイドロボットの画像からのリアルタイム姿勢推定

Real-time Pose Estimation from Images for Multiple Humanoid Robots ( http://arxiv.org/abs/2107.02675v1 )

ライセンス: Link先を確認
Arash Amini, Hafez Farazi, Sven Behnke(参考訳) ポーズ推定は、画像やビデオで人の身体の姿勢を認識するコンピュータビジョンの手法を指すことが多い。 ディープラーニングの最近の進歩により、リアルタイムに問題に取り組むための説得力のあるモデルができました。 これらのモデルは通常人間のイメージ用に設計されているため、既存のモデルをロボットを含む他の生物に適応させる必要がある。 本稿では,ロボカップヒューマノイドリーグ環境におけるヒューマノイドロボットの動作をリアルタイムに行う軽量モデルを提案する。 さらに,HumanoidRobotPoseデータセットという新しいデータセットを提案する。 この研究の成果は、サッカーをするロボットの高度な行動を可能にする可能性を秘めている。

Pose estimation commonly refers to computer vision methods that recognize people's body postures in images or videos. With recent advancements in deep learning, we now have compelling models to tackle the problem in real-time. Since these models are usually designed for human images, one needs to adapt existing models to work on other creatures, including robots. This paper examines different state-of-the-art pose estimation models and proposes a lightweight model that can work in real-time on humanoid robots in the RoboCup Humanoid League environment. Additionally, we present a novel dataset called the HumanoidRobotPose dataset. The results of this work have the potential to enable many advanced behaviors for soccer-playing robots.
翻訳日:2021-07-07 13:37:49 公開日:2021-07-06
# 空中マルチスペクトルイメージングとLIBSによる農業土壌中の全窒素推定

Total Nitrogen Estimation in Agricultural Soils via Aerial Multispectral Imaging and LIBS ( http://arxiv.org/abs/2107.02355v1 )

ライセンス: Link先を確認
Md Abir Hossen, Prasoon K Diwaka, Shankarachary Ragi(参考訳) 土壌の健康指標を測定することは、農家が農地に適用する肥料のタイミング、配置、量に関する決定に影響を及ぼす重要な課題である。 土壌の健康指標(SHIs)を測定する方法の殆どは、実験室の湿式化学または分光法に基づく手法であり、かなりの人間の入力と労力を必要とする。 この課題に対処するために、我々は、土壌の総窒素(TN)を推定する人工知能(AI)駆動の近時無人航空機(UAV)ベースのマルチスペクトルセンシング(UMS)ソリューションを開発し、作物の健康に直接影響を与える重要なマクロ栄養素またはShiを開発した。 土壌TNの正確な予測は、種子植え付けのタイミングと肥料量とタイミングに基づいて情報決定を行うことにより、収穫量を大幅に増加させることができる。 マルチ層パーセプトロンと支持ベクトルマシンを含む2つの機械学習モデルを訓練し、赤、近赤外、緑のスペクトル帯の土壌と作物のマルチスペクトル特性、計算された植生指標、大気温度と相対湿度を含む環境変数を含む一連のデータクラスを用いて土壌窒素を予測する。 機械学習モデルのための地中データやトレーニングデータを生成するために,レーザー誘起分解分析(libs)を用いて土壌試料(農場から採取)の全窒素を測定した。

Measuring soil health indicators is an important and challenging task that affects farmers' decisions on timing, placement, and quantity of fertilizers applied in the farms. Most existing methods to measure soil health indicators (SHIs) are in-lab wet chemistry or spectroscopy-based methods, which require significant human input and effort, time-consuming, costly, and are low-throughput in nature. To address this challenge, we develop an artificial intelligence (AI)-driven near real-time unmanned aerial vehicle (UAV)-based multispectral sensing (UMS) solution to estimate total nitrogen (TN) of the soil, an important macro-nutrient or SHI that directly affects the crop health. Accurate prediction of soil TN can significantly increase crop yield through informed decision making on the timing of seed planting, and fertilizer quantity and timing. We train two machine learning models including multi-layer perceptron and support vector machine to predict the soil nitrogen using a suite of data classes including multispectral characteristics of the soil and crops in red, near-infrared, and green spectral bands, computed vegetation indices, and environmental variables including air temperature and relative humidity. To generate the ground-truth data or the training data for the machine learning models, we measure the total nitrogen of the soil samples (collected from a farm) using laser-induced breakdown spectroscopy (LIBS).
翻訳日:2021-07-07 13:36:02 公開日:2021-07-06
# splitavg : 医用イメージングのためのヘテロゲニティアウェアフェデレート深層学習法

SplitAVG: A heterogeneity-aware federated deep learning method for medical imaging ( http://arxiv.org/abs/2107.02375v1 )

ライセンス: Link先を確認
Miao Zhang, Liangqiong Qu, Praveer Singh, Jayashree Kalpathy-Cramer, Daniel L. Rubin(参考訳) フェデレートラーニングは、患者データを共有せずにディープラーニングモデルを協調的にトレーニングするための、新たな研究パラダイムである。 しかし、異なる機関のデータは通常、組織間で異種であり、連合学習を用いて訓練されたモデルのパフォーマンスを低下させる可能性がある。 本研究では,フェデレーション学習におけるデータ不均質性から性能低下を克服する新しいヘテロゲニティアウェアフェデレーション学習法であるsplitavgを提案する。 複雑なヒューリスティックトレーニングやハイパーパラメータチューニングを必要とする従来のフェデレーション手法とは異なり、SplitAVGは単純なネットワーク分割と特徴マップ結合戦略を利用して、対象データ分布の偏りのない推定器を訓練する。 我々はSplitAVGと7つの最先端のフェデレーション学習手法を比較し、合成および実世界のフェデレーションデータセットのスイートのベースラインとして集中的にホストされたトレーニングデータを使用する。 比較フェデレーション学習法を用いて学習したモデルの性能は,データ不均質度の増加とともに著しく低下した。 対照的にSplitAVG法は, 糖尿病性網膜症二型分類データセットと骨年齢予測データセットで得られた平均絶対誤差の96.2%, 平均絶対誤差の110.4%を, 高度不均一なデータ分割で達成する。 SplitAVG法は,機関間のデータ分散の変動性から得られる性能低下を効果的に克服できると結論付けた。 実験の結果、SplitAVGは様々なベースネットワークに適応し、様々な種類の医療画像タスクに一般化できることがわかった。

Federated learning is an emerging research paradigm for enabling collaboratively training deep learning models without sharing patient data. However, the data from different institutions are usually heterogeneous across institutions, which may reduce the performance of models trained using federated learning. In this study, we propose a novel heterogeneity-aware federated learning method, SplitAVG, to overcome the performance drops from data heterogeneity in federated learning. Unlike previous federated methods that require complex heuristic training or hyper parameter tuning, our SplitAVG leverages the simple network split and feature map concatenation strategies to encourage the federated model training an unbiased estimator of the target data distribution. We compare SplitAVG with seven state-of-the-art federated learning methods, using centrally hosted training data as the baseline on a suite of both synthetic and real-world federated datasets. We find that the performance of models trained using all the comparison federated learning methods degraded significantly with the increasing degrees of data heterogeneity. In contrast, SplitAVG method achieves comparable results to the baseline method under all heterogeneous settings, that it achieves 96.2% of the accuracy and 110.4% of the mean absolute error obtained by the baseline in a diabetic retinopathy binary classification dataset and a bone age prediction dataset, respectively, on highly heterogeneous data partitions. We conclude that SplitAVG method can effectively overcome the performance drops from variability in data distributions across institutions. Experimental results also show that SplitAVG can be adapted to different base networks and generalized to various types of medical imaging tasks.
翻訳日:2021-07-07 13:35:35 公開日:2021-07-06
# S_n$の標準表現に対する等変分岐、二次同変、対称性の破れ

Equivariant bifurcation, quadratic equivariants, and symmetry breaking for the standard representation of $S_n$ ( http://arxiv.org/abs/2107.02422v1 )

ライセンス: Link先を確認
Yossi Arjevani and Michael Field(参考訳) 浅い生徒-教師ニューラルネットワークのクラスの研究から生まれた疑問に動機づけられ、ニューラルネットワークに関連する勾配同変ダイナミクスのクラスにおけるスプリアスミニマの分析法を開発した。 対称の場合、手法は対称群の$n$記号上の既約表現のジェネリック同変分岐理論(英語版)(generic equivariant bifurcation theory)に依存し、特に、$s_n$の標準表現は$s_n$である。 突発性ミニマは自然対称性の破れから生じるのではなく、より一般的な$S_n$-equivariantの分岐によって符号化できるランドスケープ幾何学の複雑な変形によって生じる。 我々は、対称性が存在しないときの急激なミニマムの生成に関わる動的複雑性の低い境界を与える強制対称性破壊の最小モデルを記述する。 この研究は、二次同変が存在するときの解の不安定性に関するIhrig & Golubitsky と Chossat, Lauterback & Melbourne の結果を拡張し、明らかにする。

Motivated by questions originating from the study of a class of shallow student-teacher neural networks, methods are developed for the analysis of spurious minima in classes of gradient equivariant dynamics related to neural nets. In the symmetric case, methods depend on the generic equivariant bifurcation theory of irreducible representations of the symmetric group on $n$ symbols, $S_n$; in particular, the standard representation of $S_n$. It is shown that spurious minima do not arise from spontaneous symmetry breaking but rather through a complex deformation of the landscape geometry that can be encoded by a generic $S_n$-equivariant bifurcation. We describe minimal models for forced symmetry breaking that give a lower bound on the dynamic complexity involved in the creation of spurious minima when there is no symmetry. Results on generic bifurcation when there are quadratic equivariants are also proved; this work extends and clarifies results of Ihrig & Golubitsky and Chossat, Lauterback & Melbourne on the instability of solutions when there are quadratic equivariants.
翻訳日:2021-07-07 13:35:04 公開日:2021-07-06
# DeepDDS: 鎮痛剤の組み合わせを予測する注意機構を備えたディープグラフニューラルネットワーク

DeepDDS: deep graph neural network with attention mechanism to predict synergistic drug combinations ( http://arxiv.org/abs/2107.02467v1 )

ライセンス: Link先を確認
J. Wang, X. Liu, S. Shen, L. Deng, H. Liu*(参考訳) 薬物併用療法は、がんの治療においてますます有望な方法になりつつある。 しかし、薬物の組み合わせの可能性は非常に大きいため、湿式実験によって相乗効果のある薬物の組み合わせをスクリーニングすることは困難である。 そのため、薬物の組み合わせを優先する重要な方法となっている。 グラフニューラルネットワークは、最近化合物-タンパク質相互作用の予測において顕著な性能を示したが、薬物の組み合わせのスクリーニングには適用されていない。 本稿では,特定のがん細胞の生存性を効果的に抑制できる薬剤の組み合わせを特定するための,グラフニューラルネットワークと注意機構に基づくディープラーニングモデルを提案する。 薬物分子構造と遺伝子発現プロファイルの特徴を多層feedforwardニューラルネットワークへの入力として捉え,相乗的薬物の組み合わせを同定した。 ベンチマークデータセット上でのDeepDDSと古典的機械学習手法や他のディープラーニングベースの手法を比較し,DeepDDSが競合手法よりも優れた性能を示した。 また、有名な製薬会社AstraZenecaがリリースした独立したテストセットでは、DeepDDSは16倍以上の予測精度で競合手法よりも優れていた。 さらに,グラフアテンションネットワークの解釈可能性を検討した結果,アトミック特徴の相関行列が薬物の重要な化学サブ構造を明らかにした。 我々は、DeepDDSは、さらなる湿式実験検証のために相乗効果のある薬物の組み合わせを優先する効果的なツールであると考えた。

Drug combination therapy has become a increasingly promising method in the treatment of cancer. However, the number of possible drug combinations is so huge that it is hard to screen synergistic drug combinations through wet-lab experiments. Therefore, computational screening has become an important way to prioritize drug combinations. Graph neural network have recently shown remarkable performance in the prediction of compound-protein interactions, but it has not been applied to the screening of drug combinations. In this paper, we proposed a deep learning model based on graph neural networks and attention mechanism to identify drug combinations that can effectively inhibit the viability of specific cancer cells. The feature embeddings of drug molecule structure and gene expression profiles were taken as input to multi-layer feedforward neural network to identify the synergistic drug combinations. We compared DeepDDS with classical machine learning methods and other deep learning-based methods on benchmark data set, and the leave-one-out experimental results showed that DeepDDS achieved better performance than competitive methods. Also, on an independent test set released by well-known pharmaceutical enterprise AstraZeneca, DeepDDS was superior to competitive methods by more than 16\% predictive precision. Furthermore, we explored the interpretability of the graph attention network, and found the correlation matrix of atomic features revealed important chemical substructures of drugs. We believed that DeepDDS is an effective tool that prioritized synergistic drug combinations for further wet-lab experiment validation.
翻訳日:2021-07-07 13:34:44 公開日:2021-07-06
# DEANN:近似近傍探索によるカーネル密度推定の高速化

DEANN: Speeding up Kernel-Density Estimation using Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2107.02736v1 )

ライセンス: Link先を確認
Matti Karppa and Martin Aum\"uller and Rasmus Pagh(参考訳) 核密度推定 (kde) は、分布からサンプルの集合を与えられた密度関数の形状を推定するための非パラメトリックな方法である。 近年,近傍探索のためのツールとして提案された局所性感応ハッシュは,高速なKDEデータ構造を実現することが示されている。 しかし、これらの手法は、近隣のアルゴリズムのアルゴリズムでなされた他の多くの進歩を生かしていない。 非バイアスkdeを計算するために、近似近接近傍(ann)アルゴリズムをブラックボックスサブルーチンとして適用し、近似近接近傍(deann)から密度推定を行う。 この考え方は、ANNを用いてKDEに多大な貢献をした点を見つけ、その貢献を正確に計算し、残りの点をランダムサンプリング(RS)で近似する。 我々は、ANNサブルーチンが評価を高速化できるという考えを支持する理論的議論を示す。 さらに,任意のANN実装をKDE評価のサブルーチンとして利用できるPythonインターフェースを備えたC++実装を提供する。 実験により,我々の実装は,検討した高次元データセットすべてにおいて,技術実装の状況よりも優れており,ANNが性能を損なう場合のRSの性能に匹敵することを示した。

Kernel Density Estimation (KDE) is a nonparametric method for estimating the shape of a density function, given a set of samples from the distribution. Recently, locality-sensitive hashing, originally proposed as a tool for nearest neighbor search, has been shown to enable fast KDE data structures. However, these approaches do not take advantage of the many other advances that have been made in algorithms for nearest neighbor algorithms. We present an algorithm called Density Estimation from Approximate Nearest Neighbors (DEANN) where we apply Approximate Nearest Neighbor (ANN) algorithms as a black box subroutine to compute an unbiased KDE. The idea is to find points that have a large contribution to the KDE using ANN, compute their contribution exactly, and approximate the remainder with Random Sampling (RS). We present a theoretical argument that supports the idea that an ANN subroutine can speed up the evaluation. Furthermore, we provide a C++ implementation with a Python interface that can make use of an arbitrary ANN implementation as a subroutine for KDE evaluation. We show empirically that our implementation outperforms state of the art implementations in all high dimensional datasets we considered, and matches the performance of RS in cases where the ANN yield no gains in performance.
翻訳日:2021-07-07 13:34:23 公開日:2021-07-06
# 深層学習に基づく画像超解像がバイナリ信号検出に及ぼす影響

Impact of deep learning-based image super-resolution on binary signal detection ( http://arxiv.org/abs/2107.02338v1 )

ライセンス: Link先を確認
Xiaohui Zhang, Varun A. Kelkar, Jason Granstedt, Hua Li, Mark A. Anastasio(参考訳) 深層学習に基づく画像超解像 (DL-SR) は医用画像の応用において非常に有望である。 これまで,提案手法の大部分は,コンピュータビジョンの分野で一般的に用いられている画像品質(IQ)の従来の測定方法によってのみ評価されてきた。 しかし、これらの方法が医用画像の課題にかかわる画質の客観的測定に与える影響はほとんど未解明である。 本研究では,DL-SR法がバイナリ信号検出性能に与える影響について検討する。 超解像畳み込みニューラルネットワーク(SRCNN)と超解像生成対向ネットワーク(SRGAN)の2つの一般的なDL-SR法は、シミュレーションされた医用画像データを用いて訓練された。 背景統計量(SKE/BKS)と信号統計量(SKS/BKS)とを両立する。 ニューラルネットワーク近似理想オブザーバと一般的な線形数値オブザーバを含む数値オブザーバを用いて、DL-SRがタスク性能に与える影響を評価する。 DL-SRネットワークアーキテクチャの複雑さがタスク性能に与える影響を定量化した。 さらに,準最適オブザーバのタスクパフォーマンス向上のためのDL-SRの有用性について検討した。 数値実験により、予想通り、DL-SRは従来のIQ対策を改善できることを確認した。 しかし、多くの研究設計が考慮されたため、DL-SR法はタスク性能をほとんどあるいは全く改善せず、分解する可能性さえあった。 dl-srは特定の条件下でのサブ最適オブザーバのタスク性能を向上させることが観察された。 本研究は, DL-SR法を客観的に評価するための緊急の必要性を強調し, 医用画像の応用における有効性向上への道筋を提案する。

Deep learning-based image super-resolution (DL-SR) has shown great promise in medical imaging applications. To date, most of the proposed methods for DL-SR have only been assessed by use of traditional measures of image quality (IQ) that are commonly employed in the field of computer vision. However, the impact of these methods on objective measures of image quality that are relevant to medical imaging tasks remains largely unexplored. In this study, we investigate the impact of DL-SR methods on binary signal detection performance. Two popular DL-SR methods, the super-resolution convolutional neural network (SRCNN) and the super-resolution generative adversarial network (SRGAN), were trained by use of simulated medical image data. Binary signal-known-exactly with background-known-sta tistically (SKE/BKS) and signal-known-statist ically with background-known-sta tistically (SKS/BKS) detection tasks were formulated. Numerical observers, which included a neural network-approximated ideal observer and common linear numerical observers, were employed to assess the impact of DL-SR on task performance. The impact of the complexity of the DL-SR network architectures on task-performance was quantified. In addition, the utility of DL-SR for improving the task-performance of sub-optimal observers was investigated. Our numerical experiments confirmed that, as expected, DL-SR could improve traditional measures of IQ. However, for many of the study designs considered, the DL-SR methods provided little or no improvement in task performance and could even degrade it. It was observed that DL-SR could improve the task-performance of sub-optimal observers under certain conditions. The presented study highlights the urgent need for the objective assessment of DL-SR methods and suggests avenues for improving their efficacy in medical imaging applications.
翻訳日:2021-07-07 13:33:41 公開日:2021-07-06
# MRI物理モデルを用いたMRI組織特性の教師なし学習

Unsupervised learning of MRI tissue properties using MRI physics models ( http://arxiv.org/abs/2107.02704v1 )

ライセンス: Link先を確認
Divya Varadarajan, Katherine L. Bouman, Andre van der Kouwe, Bruce Fischl, Adrian V. Dalca(参考訳) 神経イメージングにおいて、MRIの組織特性は神経生物学の基礎を特徴づけ、神経疾患の検出と解析のための定量的なバイオマーカーを提供し、任意のMRIコントラストの合成に使用できる。 全ての臨床スキャナーで利用可能なプロトコルを用いて単一のスキャンセッションから組織特性を推定することにより、スキャン時間とコストを削減し、定期的な臨床スキャンにおける定量的分析を可能にし、疾患のスキャン非依存バイオマーカーを提供する。 しかしながら、既存の組織特性推定手法(しばしば$\mathbf{T_1}$緩和、$\mathbf{T_2^*}$緩和、およびプロトン密度($\mathbf{PD}$))は、複数のスキャンセッションからのデータを必要とし、マルチエコーMRIスキャンのような単一の臨床的に利用可能なMRIプロトコルから全ての特性を推定できない。 加えて、臨床画像サイト全体にわたる非標準取得パラメータの広範な利用には、様々なスキャナパラメータをまたいで一般化できる推定方法が必要となる。 しかし、既存の学習方法は獲得プロトコルに特有であり、異なる画像サイトからの異種臨床データから推定することはできない。 本研究では,MRI物理を用いた教師なし深層学習戦略を提案し,単一のマルチエコーMRIスキャンセッションから3つの組織特性を推定し,様々な取得パラメータを一般化する。 提案手法は, 推定潜伏組織特性から新しいMRIコントラストの正確な合成を最適化し, 教師なしトレーニングを可能にするとともに, 学習中にランダムな取得パラメータを用いて獲得一般化を実現する。 我々は、単一のマルチエコースキャンセッションから全ての組織特性を推定する最初の実演を提供する。 組織特性推定とMRI合成の精度向上と一般化性を示した。

In neuroimaging, MRI tissue properties characterize underlying neurobiology, provide quantitative biomarkers for neurological disease detection and analysis, and can be used to synthesize arbitrary MRI contrasts. Estimating tissue properties from a single scan session using a protocol available on all clinical scanners promises to reduce scan time and cost, enable quantitative analysis in routine clinical scans and provide scan-independent biomarkers of disease. However, existing tissue properties estimation methods - most often $\mathbf{T_1}$ relaxation, $\mathbf{T_2^*}$ relaxation, and proton density ($\mathbf{PD}$) - require data from multiple scan sessions and cannot estimate all properties from a single clinically available MRI protocol such as the multiecho MRI scan. In addition, the widespread use of non-standard acquisition parameters across clinical imaging sites require estimation methods that can generalize across varying scanner parameters. However, existing learning methods are acquisition protocol specific and cannot estimate from heterogenous clinical data from different imaging sites. In this work we propose an unsupervised deep-learning strategy that employs MRI physics to estimate all three tissue properties from a single multiecho MRI scan session, and generalizes across varying acquisition parameters. The proposed strategy optimizes accurate synthesis of new MRI contrasts from estimated latent tissue properties, enabling unsupervised training, we also employ random acquisition parameters during training to achieve acquisition generalization. We provide the first demonstration of estimating all tissue properties from a single multiecho scan session. We demonstrate improved accuracy and generalizability for tissue property estimation and MRI synthesis.
翻訳日:2021-07-07 13:33:13 公開日:2021-07-06
# クラウドデータセンターのエネルギー・熱利用資源管理 : 分類学と今後の方向性

Energy and Thermal-aware Resource Management of Cloud Data Centres: A Taxonomy and Future Directions ( http://arxiv.org/abs/2107.02342v1 )

ライセンス: Link先を確認
Shashikant Ilager and Rajkumar Buyya(参考訳) 本稿では,Cloud Data Centresにおける既存のエネルギー・熱効率管理手法について検討する。 これは、リソース管理システムにおける統合コンピューティングおよび冷却システム管理および学習ベースのソリューションの必要性を特定する。 文献の詳細な分析に基づいて,データセンターにおけるエネルギー・熱効率資源管理の分類法を提案する。 さらに,既存の手法に関する詳細な調査を行い,機械学習に基づく資源管理手法や冷却管理技術など最近の進歩について考察した。

This paper investigates the existing resource management approaches in Cloud Data Centres for energy and thermal efficiency. It identifies the need for integrated computing and cooling systems management and learning-based solutions in resource management systems. A taxonomy on energy and thermal efficient resource management in data centres is proposed based on an in-depth analysis of the literature. Furthermore, a detailed survey on existing approaches is conducted according to the taxonomy and recent advancements including machine learning-based resource management approaches and cooling management technologies are discussed.
翻訳日:2021-07-07 13:31:44 公開日:2021-07-06
# コミュニケーションとしての物理的相互作用: 人間の矯正からオンラインで学習するロボット

Physical Interaction as Communication: Learning Robot Objectives Online from Human Corrections ( http://arxiv.org/abs/2107.02349v1 )

ライセンス: Link先を確認
Dylan P. Losey, Andrea Bajcsy, Marcia K. O'Malley, Anca D. Dragan(参考訳) ロボットが人間の隣でタスクを実行するとき、物理的な相互作用は避けられない。 最先端技術は、これらの相互作用をロボットが拒否または回避すべき障害として扱う。 ロボットは人間が対話している間に無事に反応するが、人間が立ち去ると、ロボットは元の行動に戻るだけだ。 物理的人間とロボットの相互作用(phri)は、しばしば意図的であり、ロボットが正しく仕事をしていないため、人間は意図的に介入する。 そこで本論文では,pHRIが意図的である場合,ロボットはインタラクションを活用して作業の残りを完了させる方法を学ぶことができる。 我々は,pHRIを動的システムとして形式化し,人間はロボットが最適化したい対象機能を念頭に置いているが,ロボットはこの目的のパラメータに直接アクセスすることはできない。 提案する枠組みの中で、人間の相互作用は真の目的についての観察となる。 pHRIから学習し,pHRIに応答する近似をリアルタイムで導入する。 ユーザーはロボットとノイズに反応することが多いので、意図しない学習を減らすことで、pHRIからロボット学習の効率を向上させることができる。 最後に,ロボットマニピュレータのシミュレーションとユーザスタディを行い,提案手法と最先端技術との比較を行った。 以上の結果から,pHRIからの学習がタスクパフォーマンスの向上と満足度の向上につながることが示唆された。

When a robot performs a task next to a human, physical interaction is inevitable: the human might push, pull, twist, or guide the robot. The state-of-the-art treats these interactions as disturbances that the robot should reject or avoid. At best, these robots respond safely while the human interacts; but after the human lets go, these robots simply return to their original behavior. We recognize that physical human-robot interaction (pHRI) is often intentional -- the human intervenes on purpose because the robot is not doing the task correctly. In this paper, we argue that when pHRI is intentional it is also informative: the robot can leverage interactions to learn how it should complete the rest of its current task even after the person lets go. We formalize pHRI as a dynamical system, where the human has in mind an objective function they want the robot to optimize, but the robot does not get direct access to the parameters of this objective -- they are internal to the human. Within our proposed framework human interactions become observations about the true objective. We introduce approximations to learn from and respond to pHRI in real-time. We recognize that not all human corrections are perfect: often users interact with the robot noisily, and so we improve the efficiency of robot learning from pHRI by reducing unintended learning. Finally, we conduct simulations and user studies on a robotic manipulator to compare our proposed approach to the state-of-the-art. Our results indicate that learning from pHRI leads to better task performance and improved human satisfaction.
翻訳日:2021-07-07 13:31:36 公開日:2021-07-06
# CAP-RAM: 高精度で精度の高いCNN推論用6T-SRAM

CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and Precision-Programmab le CNN Inference ( http://arxiv.org/abs/2107.02388v1 )

ライセンス: Link先を確認
Zhiyu Chen, Zhanghao Yu, Qing Jin, Yan He, Jingyu Wang, Sheng Lin, Dai Li, Yanzhi Wang, Kaiyuan Yang(参考訳) エネルギー効率のよい畳み込みニューラルネットワーク(CNN)の推論には、CAP-RAMと呼ばれる、コンパクトで正確でビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロが使用される。 これは、新しい電荷領域乗算(MAC)機構と回路を活用し、従来のIMC設計と比較してプロセスの変動下で優れた線形性を実現する。 採用したセミ並列アーキテクチャは、8つの標準6T SRAMセルを1つの電荷領域MAC回路で共有することにより、複数のCNN層からのフィルタを効率的に保存する。 さらに、2つのエンコーディングスキームと8レベルの入力アクティベーションを持つ最大6レベルのビット幅のウェイトがサポートされている。 7ビット帯電SAR(ciSAR)アナログデジタルコンバータ(ADC)はサンプルとホールド(S&H)と入力/参照バッファを除去し、全体的なエネルギー効率とスループットをさらに向上させる。 65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。 単一の512x128マクロは、MNISTデータセットで98.8%、CIFAR-10データセットで89.0%、ピークスループットで573.4ギガ/秒(GOPS)、毎秒49.4テラ/秒(TOPS)/Wエネルギー効率で完全なプルーニングおよび量子化されたCNNモデルを格納する。

A compact, accurate, and bitwidth-programmabl e in-memory computing (IMC) static random-access memory (SRAM) macro, named CAP-RAM, is presented for energy-efficient convolutional neural network (CNN) inference. It leverages a novel charge-domain multiply-and-accumul ate (MAC) mechanism and circuitry to achieve superior linearity under process variations compared to conventional IMC designs. The adopted semi-parallel architecture efficiently stores filters from multiple CNN layers by sharing eight standard 6T SRAM cells with one charge-domain MAC circuit. Moreover, up to six levels of bit-width of weights with two encoding schemes and eight levels of input activations are supported. A 7-bit charge-injection SAR (ciSAR) analog-to-digital converter (ADC) getting rid of sample and hold (S&H) and input/reference buffers further improves the overall energy efficiency and throughput. A 65-nm prototype validates the excellent linearity and computing accuracy of CAP-RAM. A single 512x128 macro stores a complete pruned and quantized CNN model to achieve 98.8% inference accuracy on the MNIST data set and 89.0% on the CIFAR-10 data set, with a 573.4-giga operations per second (GOPS) peak throughput and a 49.4-tera operations per second (TOPS)/W energy efficiency.
翻訳日:2021-07-07 13:31:12 公開日:2021-07-06
# クラウド無線アクセスネットワークにおけるビームフォーミングとフロントホール量子化の協調最適化のための深層学習手法

Deep Learning Methods for Joint Optimization of Beamforming and Fronthaul Quantization in Cloud Radio Access Networks ( http://arxiv.org/abs/2107.02520v1 )

ライセンス: Link先を確認
Daesung Yu, Hoon Lee, Seok-Hwan Park, Seung-Eun Hong(参考訳) クラウド無線アクセスネットワーク(c-ran)システムでは、アクセスポイント間の協調ビームフォーミングとフロントホール量子化戦略が不可欠である。 C-RAN最適化問題の非凸性は、AP単位のパワーとフロントホール容量の制約に起因するが、反復アルゴリズムの実行には高い計算複雑性を必要とする。 この問題を解決するために,最適化モジュールをよく訓練されたディープニューラルネットワーク(dnn)に置き換える深層学習手法を検討する。 最適ビームフォーミングおよび量子化戦略の低次元表現を生成するためにDNNを構築する効率的な学習ソリューションを提案する。 提案手法の利点を数値計算により検証した。

Cooperative beamforming across access points (APs) and fronthaul quantization strategies are essential for cloud radio access network (C-RAN) systems. The nonconvexity of the C-RAN optimization problems, which is stemmed from per-AP power and fronthaul capacity constraints, requires high computational complexity for executing iterative algorithms. To resolve this issue, we investigate a deep learning approach where the optimization module is replaced with a well-trained deep neural network (DNN). An efficient learning solution is proposed which constructs a DNN to produce a low-dimensional representation of optimal beamforming and quantization strategies. Numerical results validate the advantages of the proposed learning solution.
翻訳日:2021-07-07 13:30:42 公開日:2021-07-06
# 演算子推論データからの安定縮小モデル学習のための物理インフォームド正規化と構造保存

Physics-informed regularization and structure preservation for learning stable reduced models from data with operator inference ( http://arxiv.org/abs/2107.02597v1 )

ライセンス: Link先を確認
Nihar Sawant, Boris Kramer, Benjamin Peherstorfer(参考訳) 作用素推論は、高次元物理系の軌道から多項式非線形項を持つ低次元力学系モデルを学習する。 この研究は、二次非線形項を持つモデルによってよく説明できる物理系の大きなクラスに焦点を当て、二次モデルに安定性バイアスを誘導する作用素推論の正則化子を提案する。 提案された正則化器は、大きなノルムで二次項をペナライズし、基礎となる物理学によって与えられる二次モデル形式を明示的に活用するという意味で、物理学に通知される。 これは、提案されたアプローチが、データまたは物理のみからではなく、データと物理的な洞察を組み合わせることで、公平に学習することを意味する。 さらに、線形項における対称性や定性のような構造を保存するためのモデル制約を強制する演算子推論の定式化が提案される。 数値計算の結果, 演算子推論と提案する正則化と構造保存により学習したモデルは, 正則化やチホノフ正則化を使わずに不安定なモデルに導かれる場合でも, 正確かつ安定であることがわかった。

Operator inference learns low-dimensional dynamical-system models with polynomial nonlinear terms from trajectories of high-dimensional physical systems (non-intrusive model reduction). This work focuses on the large class of physical systems that can be well described by models with quadratic nonlinear terms and proposes a regularizer for operator inference that induces a stability bias onto quadratic models. The proposed regularizer is physics informed in the sense that it penalizes quadratic terms with large norms and so explicitly leverages the quadratic model form that is given by the underlying physics. This means that the proposed approach judiciously learns from data and physical insights combined, rather than from either data or physics alone. Additionally, a formulation of operator inference is proposed that enforces model constraints for preserving structure such as symmetry and definiteness in the linear terms. Numerical results demonstrate that models learned with operator inference and the proposed regularizer and structure preservation are accurate and stable even in cases where using no regularization or Tikhonov regularization leads to models that are unstable.
翻訳日:2021-07-07 13:30:30 公開日:2021-07-06
# 持続可能生成音響モデルに対する多目的アプローチ

A Multi-Objective Approach for Sustainable Generative Audio Models ( http://arxiv.org/abs/2107.02621v1 )

ライセンス: Link先を確認
Constance Douwes, Philippe Esling and Jean-Pierre Briot(参考訳) 近年、ディープラーニングコミュニティは、深層生成モデルの精度に大きく焦点を合わせており、いくつかの研究分野において顕著に改善されている。 しかし、この科学的な品質競争は膨大な計算コストを伴い、膨大なエネルギー消費と温室効果ガス排出を引き起こす。 計算消費の現在の指数的な増加が続くと、人工知能(AI)は悲しいことに地球温暖化にかなりの貢献をする。 この問題の核心にあるのが,私たちの仕事を評価するための科学的コミュニティとして使用する手段です。 現在、AI判断科学の分野の研究者は、主に精度、ログライク、再構築、意見スコアの改善に基づいており、これらすべてが生成モデルの実際の計算コストを完全に消している。 本稿では,Paretoの最適度に基づく多目的尺度に頼りながら,モデル精度とトレーニングの環境影響を同時に統合する手法を提案する。 生成音響モデルにおける現状にこの尺度を適用することで、この分野における結果の認知的意義を劇的に変化させ、最適なトレーニング手法と資源配分を奨励することを示す。 この種の措置が広く採用され、コミュニティが彼らの仕事の重要性をよりよく評価できるようにし、AI研究の焦点に計算コスト、そして二酸化炭素排出量をもたらすことを期待しています。

In recent years, the deep learning community has largely focused on the accuracy of deep generative models, resulting in impressive improvements in several research fields. However, this scientific race for quality comes at a tremendous computational cost, which incurs vast energy consumption and greenhouse gas emissions. If the current exponential growth of computational consumption persists, Artificial Intelligence (AI) will sadly become a considerable contributor to global warming. At the heart of this problem are the measures that we use as a scientific community to evaluate our work. Currently, researchers in the field of AI judge scientific works mostly based on the improvement in accuracy, log-likelihood, reconstruction or opinion scores, all of which entirely obliterates the actual computational cost of generative models. In this paper, we introduce the idea of relying on a multi-objective measure based on Pareto optimality, which simultaneously integrates the models accuracy, as well as the environmental impact of their training. By applying this measure on the current state-of-the-art in generative audio models, we show that this measure drastically changes the perceived significance of the results in the field, encouraging optimal training techniques and resource allocation. We hope that this type of measure will be widely adopted, in order to help the community to better evaluate the significance of their work, while bringing computational cost -- and in fine carbon emissions -- in the spotlight of AI research.
翻訳日:2021-07-07 13:30:10 公開日:2021-07-06