このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200704となっている論文です。

PDF登録状況(公開日: 20200704)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープラーニングによる自動運転:最先端技術に関する調査

Autonomous Driving with Deep Learning: A Survey of State-of-Art Technologies ( http://arxiv.org/abs/2006.06091v3 )

ライセンス: Link先を確認
Yu Huang and Yue Chen(参考訳) 2004/05年のDARPA Grand Challenges、2007年のUrban Challenges以来、自動運転はAIアプリケーションの最も活発な分野となっている。 ほぼ同時に、ディープラーニングはいくつかの先駆者によって突破され、そのうちの3人(ディープラーニングの父とも呼ばれる)、Hinton、Bengio、LeCunは2019年にACM Turin Awardを受賞した。 これはディープラーニング手法を用いた自動運転技術のサーベイである。 本稿では,認識,マッピングとローカライゼーション,予測,計画と制御,シミュレーション,V2X,安全性など,自動運転システムの主要な分野について検討する。 空間が限られているため,知覚における2次元および3次元物体検出,カメラからの深度推定,データへの複数のセンサ融合,特徴量とタスクレベル,行動モデリング,車両走行の予測,歩行者軌道の予測など,いくつかの重要な領域の分析に注目する。

Since DARPA Grand Challenges (rural) in 2004/05 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. Almost at the same time, deep learning has made breakthrough by several pioneers, three of them (also called fathers of deep learning), Hinton, Bengio and LeCun, won ACM Turin Award in 2019. This is a survey of autonomous driving technologies with deep learning methods. We investigate the major fields of self-driving systems, such as perception, mapping and localization, prediction, planning and control, simulation, V2X and safety etc. Due to the limited space, we focus the analysis on several key areas, i.e. 2D and 3D object detection in perception, depth estimation from cameras, multiple sensor fusion on the data, feature and task level respectively, behavior modelling and prediction of vehicle driving and pedestrian trajectories.
翻訳日:2022-11-23 05:59:00 公開日:2020-07-04
# 運転行動予測における文脈知識の導入に向けて

Towards Incorporating Contextual Knowledge into the Prediction of Driving Behavior ( http://arxiv.org/abs/2006.08470v2 )

ライセンス: Link先を確認
Florian Wirthm\"uller, Julian Schlechtriemen, Jochen Hipp, Manfred Reichert(参考訳) 交通参加者の行動予測は、高度な運転支援システムや自動運転には不可欠である。 しかし、ほとんどの研究者は車の動きを予測する際に文脈的な知識を考慮しない。 従来の研究を拡張し、外部条件による予測がどのように影響するかを考察する。 そのために、異なる種類の文脈情報を分類し、慎重に選択された定義と外部条件の例を提供する。 より正確には、横動き予測に対する最先端のアプローチが、ある選択された外部条件、すなわち交通密度の影響について検討する。 本研究は,予測アルゴリズムの性能を向上させるために,この情報の重要性が高いことを示す。 したがって、この研究は、自動運転車への情報統合に向けた第一歩となる。 さらに, この動き予測手法は, ROC曲線の97%以上の領域での操作予測性能を示す公開高次元データセットと, 5sの予測地平面上では0.18mの中央方向予測誤差に基づいて評価した。

Predicting the behavior of surrounding traffic participants is crucial for advanced driver assistance systems and autonomous driving. Most researchers however do not consider contextual knowledge when predicting vehicle motion. Extending former studies, we investigate how predictions are affected by external conditions. To do so, we categorize different kinds of contextual information and provide a carefully chosen definition as well as examples for external conditions. More precisely, we investigate how a state-of-the-art approach for lateral motion prediction is influenced by one selected external condition, namely the traffic density. Our investigations demonstrate that this kind of information is highly relevant in order to improve the performance of prediction algorithms. Therefore, this study constitutes the first step towards the integration of such information into automated vehicles. Moreover, our motion prediction approach is evaluated based on the public highD data set showing a maneuver prediction performance with areas under the ROC curve above 97% and a median lateral prediction error of only 0.18m on a prediction horizon of 5s.
翻訳日:2022-11-21 02:31:18 公開日:2020-07-04
# スパースニューラルネットワークのトポロジ的考察

Topological Insights into Sparse Neural Networks ( http://arxiv.org/abs/2006.14085v2 )

ライセンス: Link先を確認
Shiwei Liu, Tim Van der Lee, Anil Yaman, Zahra Atashgahi, Davide Ferraro, Ghada Sokar, Mykola Pechenizkiy, Decebal Constantin Mocanu(参考訳) スパースニューラルネットワークは、ディープニューラルネットワークの展開におけるリソース要求を減らす効果的なアプローチである。 近年、適応スパース接続の概念が登場し、トレーニング中にスパース構造を最適化することでスパースニューラルネットワークをスクラッチからトレーニングできるようになった。 しかし、特にスパース構造最適化が関与する状況において、異なるスパーストポロジを比較し、スパーストポロジがどのように進化するかを決定することは、未解決の問題として残る。 この比較は、ネットワークのサイズに応じて位相的比較が指数関数的に増加するにつれてますます複雑になる。 本研究では,グラフ理論の観点から,スパースニューラルネットワークトポロジの理解と比較を行うアプローチを提案する。 まず、異なるスパースニューラルネットワーク間の距離を測定するために、NNSTD(Neural Network Sparse Topology Distance)を提案する。 さらに、スパースニューラルネットワークは、さらなる構造最適化がなくても、オーバーパラメータモデルのパフォーマンスを上回ることができることを実証する。 最後に、適応的スパース接続は、そのトポロジカルな進化過程を定量化し比較することによって、密度モデルに匹敵する非常に異なるトポロジーを持つスパースサブネットワークの豊かさを常に顕現できることを示した。 後者の発見は、より効率的で堅牢な「勝利チケット」を見つける方法があることを示し、ロッテリー・チケット仮説を補完するものである。 また,この結果により,スパースニューラルネットワークの理論的理解が向上し,グラフ理論による解析の有用性が実証された。

Sparse neural networks are effective approaches to reduce the resource requirements for the deployment of deep neural networks. Recently, the concept of adaptive sparse connectivity, has emerged to allow training sparse neural networks from scratch by optimizing the sparse structure during training. However, comparing different sparse topologies and determining how sparse topologies evolve during training, especially for the situation in which the sparse structure optimization is involved, remain as challenging open questions. This comparison becomes increasingly complex as the number of possible topological comparisons increases exponentially with the size of networks. In this work, we introduce an approach to understand and compare sparse neural network topologies from the perspective of graph theory. We first propose Neural Network Sparse Topology Distance (NNSTD) to measure the distance between different sparse neural networks. Further, we demonstrate that sparse neural networks can outperform over-parameterized models in terms of performance, even without any further structure optimization. To the end, we also show that adaptive sparse connectivity can always unveil a plenitude of sparse sub-networks with very different topologies which outperform the dense model, by quantifying and comparing their topological evolutionary processes. The latter findings complement the Lottery Ticket Hypothesis by showing that there is a much more efficient and robust way to find "winning tickets". Altogether, our results start enabling a better theoretical understanding of sparse neural networks, and demonstrate the utility of using graph theory to analyze them.
翻訳日:2022-11-17 09:31:44 公開日:2020-07-04
# グラフ構造トピックニューラルネットワーク

Graph Structural-topic Neural Network ( http://arxiv.org/abs/2006.14278v2 )

ライセンス: Link先を確認
Qingqing Long, Yilun Jin, Guojie Song, Yi Li, Wei Lin(参考訳) Graph Convolutional Networks(GCN)は、ノードのローカル機能を効果的に収集することで、大きな成功を収めた。 しかし、一般的にGCNはノードの特徴よりも、近隣のグラフ構造、特に高階構造パターンに重点を置いている。 しかし、そのような局所的な構造パターンは、多くのフィールドのノード特性を示すことが示されている。 さらに、ネットワークは複雑であり、各ノードの近傍は様々なノードと構造パターンの混合で構成されているため、単一のパターンだけでなく、これらのパターン全体の分布も重要となる。 そこで,本稿では,グラフのトピックモデルを利用したグラフ構造トピックニューラルネットワークであるgraphstoneを提案する。 具体的には、匿名ウォークとグラフアンカーldaを使用して、グラフ上にトピックモデルを構築し、重要な構造パターンをまず選択し、複雑さを緩和し、効率的に構造トピックを生成する。 さらに,ノードの特徴と構造的トピックの特徴を統一する多視点GCNを設計し,構造的トピックを利用してアグリゲーションを誘導する。 我々は,有望な性能,高い効率,明瞭な解釈可能性を示す定量的および定性的な実験により,モデルを評価する。

Graph Convolutional Networks (GCNs) achieved tremendous success by effectively gathering local features for nodes. However, commonly do GCNs focus more on node features but less on graph structures within the neighborhood, especially higher-order structural patterns. However, such local structural patterns are shown to be indicative of node properties in numerous fields. In addition, it is not just single patterns, but the distribution over all these patterns matter, because networks are complex and the neighborhood of each node consists of a mixture of various nodes and structural patterns. Correspondingly, in this paper, we propose Graph Structural-topic Neural Network, abbreviated GraphSTONE, a GCN model that utilizes topic models of graphs, such that the structural topics capture indicative graph structures broadly from a probabilistic aspect rather than merely a few structures. Specifically, we build topic models upon graphs using anonymous walks and Graph Anchor LDA, an LDA variant that selects significant structural patterns first, so as to alleviate the complexity and generate structural topics efficiently. In addition, we design multi-view GCNs to unify node features and structural topic features and utilize structural topics to guide the aggregation. We evaluate our model through both quantitative and qualitative experiments, where our model exhibits promising performance, high efficiency, and clear interpretability.
翻訳日:2022-11-17 03:41:34 公開日:2020-07-04
# 道路交通流予測のためのグラフモデリング手法

Graph modelling approaches for motorway traffic flow prediction ( http://arxiv.org/abs/2006.14824v2 )

ライセンス: Link先を確認
Adriana-Simona Mihaita, Zac Papachatgis and Marian-Andrei Rizoiu(参考訳) 交通流の予測は、特に高速道路のような非常にダイナミックな流れを経験する地域では、交通管理において大きな問題となっている。 毎分に大量のデータセットが生成されるようになり、近年では短期的・長期的な予測のためにディープラーニング手法が広く使われている。 しかし、その効率性にもかかわらず、これらのモデルは大量の歴史的情報を提供する必要があり、訓練、検証、テストにかなりの時間と計算リソースを必要とする。 本稿では,シドニーの人気のある高速道路に沿って正確な短期予測を構築するための2つの新しい時空間的アプローチについて,高速道路網のグラフ構造(出口や入り口を含む)を用いて述べる。 この手法は、近距離に基づくアプローチ、すなわちバックトラッキングと補間(backtracking and interpolation)に基づいて構築され、高速道路に沿った各ターゲットカウントステーションの最新のおよび最も近いトラフィックフロー情報を使用する。 その結果, 短期的予測(今後10分以内)では, 長期的短期記憶, 畳み込みニューロンネットワーク, ハイブリッドモデルなど, 最先端のディープラーニングモデルよりもグラフベースアプローチが優れていることが示された。

Traffic flow prediction, particularly in areas that experience highly dynamic flows such as motorways, is a major issue faced in traffic management. Due to increasingly large volumes of data sets being generated every minute, deep learning methods have been used extensively in the latest years for both short and long term prediction. However, such models, despite their efficiency, need large amounts of historical information to be provided, and they take a considerable amount of time and computing resources to train, validate and test. This paper presents two new spatial-temporal approaches for building accurate short-term prediction along a popular motorway in Sydney, by making use of the graph structure of the motorway network (including exits and entries). The methods are built on proximity-based approaches, denoted backtracking and interpolation, which uses the most recent and closest traffic flow information for each of the target counting stations along the motorway. The results indicate that for short-term predictions (less than 10 minutes into the future), the proposed graph-based approaches outperform state-of-the-art deep learning models, such as long-term short memory, convolutional neuronal networks or hybrid models.
翻訳日:2022-11-16 22:08:40 公開日:2020-07-04
# エンコーダ・デコーダを用いたcovid-19肺感染分画法

An encoder-decoder-based method for COVID-19 lung infection segmentation ( http://arxiv.org/abs/2007.00861v2 )

ライセンス: Link先を確認
Omar Elharrouss, Nandhini Subramanian, Somaya Al-Maadeed(参考訳) 新型コロナウイルス(covid-19)の新規性と感染の速さは、世界中の研究者の間で、ウイルスの拡散やインキュベーション時間という観点で新型コロナウイルスの特徴を理解し分析するために、あらゆるリソースと能力を活用しようとする混乱と衝動を生み出した。 そのため、CTやX線画像などの既存の医学的特徴が使用されている。 例えば、CTスキャン画像は肺感染症の検出に使用することができる。 しかし、画像の品質や感染特性といったこれらの特徴の課題は、これらの特徴の有効性を制限する。 人工知能(AI)ツールとコンピュータビジョンアルゴリズムを使用することで、検出の精度が向上し、これらの問題を解決するのに役立つ。 本稿では,CTスキャン画像を用いた多タスク深層学習による肺感染症セグメンテーションを提案する。 提案手法は感染可能な肺領域を分割することから始まる。 そして、これらの地域で感染を分断する。 また、マルチクラスセグメンテーションを行うために、2ストリーム入力を用いて提案モデルを訓練する。 本稿では,ラベル付きデータの不足を克服するマルチタスク学習について述べる。 また、マルチインプットストリームにより、モデルが結果を改善できる多くの機能について学習することができる。 提案手法の評価には,多くの特徴が用いられている。 また, 実験により, データやラベル画像が不足していても, 肺感染症を高い性能で分離できることを確認した。 また,最先端手法との比較により,良好な性能が得られた。

The novelty of the COVID-19 disease and the speed of spread has created a colossal chaos, impulse among researchers worldwide to exploit all the resources and capabilities to understand and analyze characteristics of the coronavirus in term of the ways it spreads and virus incubation time. For that, the existing medical features like CT and X-ray images are used. For example, CT-scan images can be used for the detection of lung infection. But the challenges of these features such as the quality of the image and infection characteristics limitate the effectiveness of these features. Using artificial intelligence (AI) tools and computer vision algorithms, the accuracy of detection can be more accurate and can help to overcome these issues. This paper proposes a multi-task deep-learning-based method for lung infection segmentation using CT-scan images. Our proposed method starts by segmenting the lung regions that can be infected. Then, segmenting the infections in these regions. Also, to perform a multi-class segmentation the proposed model is trained using the two-stream inputs. The multi-task learning used in this paper allows us to overcome shortage of labeled data. Also, the multi-input stream allows the model to do the learning on many features that can improve the results. To evaluate the proposed method, many features have been used. Also, from the experiments, the proposed method can segment lung infections with a high degree performance even with shortage of data and labeled images. In addition, comparing with the state-of-the-art method our method achieves good performance results.
翻訳日:2022-11-14 14:36:01 公開日:2020-07-04
# MEGデータの深部脳状態分類

Deep brain state classification of MEG data ( http://arxiv.org/abs/2007.00897v2 )

ライセンス: Link先を確認
Ismail Alaoui Abdellaoui, Jesus Garcia Fernandez, Caner Sahinli and Siamak Mehrkanoon(参考訳) 神経イメージング技術は脳の活動を研究する際に有用であることが示されている。 本稿では、ヒトコネクトームプロジェクト(hcp)が提供した脳磁図(meg)データと、様々な深層ニューラルネットワークモデルを組み合わせて、脳デコードを行う。 具体的には,そのMEGデータに基づいて,被験者が行う課題をどの程度推測できるかを検討する。 コンパクトな畳み込みに基づく3つのモデル,畳み込みと長大な短期アーキテクチャ,および2つのストリームネットワークの出力を融合する多視点学習に基づくモデルを提案し,検討した。 これらのモデルは、被験者間で関連するタスクをデコードするために使用される新しい表現を学ぶために、時空間MEGデータを利用する。 入力信号の最も関連性の高い特徴を実現するため、すべてのモデルに2つの注意機構、すなわち自己とグローバルな注意機構が組み込まれている。 MEGデータセットを用いたクロステーマ多クラス分類実験の結果,注目の包含によって対象間のモデルの一般化が向上することが示された。

Neuroimaging techniques have shown to be useful when studying the brain's activity. This paper uses Magnetoencephalography (MEG) data, provided by the Human Connectome Project (HCP), in combination with various deep artificial neural network models to perform brain decoding. More specifically, here we investigate to which extent can we infer the task performed by a subject based on its MEG data. Three models based on compact convolution, combined convolutional and long short-term architecture as well as a model based on multi-view learning that aims at fusing the outputs of the two stream networks are proposed and examined. These models exploit the spatio-temporal MEG data for learning new representations that are used to decode the relevant tasks across subjects. In order to realize the most relevant features of the input signals, two attention mechanisms, i.e. self and global attention, are incorporated in all the models. The experimental results of cross subject multi-class classification on the studied MEG dataset show that the inclusion of attention improves the generalization of the models across subjects.
翻訳日:2022-11-14 13:42:42 公開日:2020-07-04
# 畳み込みネットワークを用いた心電図QRS検出のためのサンプリング周波数の選択

Choosing a sampling frequency for ECG QRS detection using convolutional networks ( http://arxiv.org/abs/2007.02052v1 )

ライセンス: Link先を確認
Ahsan Habib, Chandan Karmakar, John Yearwood(参考訳) 自動QRS検出法は、フィルタベースの従来の手法や畳み込みネットワーク(CNN)ベースのディープラーニング手法にかかわらず、ある周波数でサンプリングされるECGデータに依存する。 これらの手法では、最初に操作するサンプリング周波数を選択する必要がある。 異なる周波数でサンプリングされる2つの異なるデータセットのデータを扱う一方で、両方のデータセットからのデータは共通のターゲット周波数で再サンプリングする必要がある。 しかし、ある周波数でサンプリングされたデータを選択すると、モデルの一般化能力や複雑さに影響を及ぼす可能性がある。 従来のフィルタに基づく手法に対するECGサンプル周波数の影響を調査する研究はいくつかあるが、深層学習モデル(畳み込みネットワーク)に対するECGサンプル周波数の影響に関する広範な研究は、その一般化可能性や複雑さについてはまだ検討されていない。 本研究では,4種類の畳み込みネットワークモデルに対する6種類のサンプル周波数(50,100,250,500,1000,1000,2000hz)の一般化可能性と複雑性について検討を行い,qrs検出タスクの適切なサンプル周波数を決定するための基礎を構築した。 データベース内テストでは、100Hzから250Hzまでの精度が0.6\%以上向上し、CNNベースのモデルでこれらの2つの周波数の周波数間距離が短いことが報告されている。 その結果、畳み込みネットワークに基づくディープラーニングモデルは、モデルの複雑さ(トレーニング可能なパラメータ数とトレーニング時間)を低く保ちながら、100hzまたは250hz以下の周波数でサンプリングされたecg信号に対する高いレベルの検出精度を評価できることが判明した。

Automated QRS detection methods depend on the ECG data which is sampled at a certain frequency, irrespective of filter-based traditional methods or convolutional network (CNN) based deep learning methods. These methods require a selection of the sampling frequency at which they operate in the very first place. While working with data from two different datasets, which are sampled at different frequencies, often, data from both the datasets may need to resample at a common target frequency, which may be the frequency of either of the datasets or could be a different one. However, choosing data sampled at a certain frequency may have an impact on the model's generalisation capacity, and complexity. There exist some studies that investigate the effects of ECG sample frequencies on traditional filter-based methods, however, an extensive study of the effect of ECG sample frequency on deep learning-based models (convolutional networks), exploring their generalisability and complexity is yet to be explored. This experimental research investigates the impact of six different sample frequencies (50, 100, 250, 500, 1000, and 2000Hz) on four different convolutional network-based models' generalisability and complexity in order to form a basis to decide on an appropriate sample frequency for the QRS detection task for a particular performance requirement. Intra-database tests report an accuracy improvement no more than approximately 0.6\% from 100Hz to 250Hz and the shorter interquartile range for those two frequencies for all CNN-based models. The findings reveal that convolutional network-based deep learning models are capable of scoring higher levels of detection accuracies on ECG signals sampled at frequencies as low as 100Hz or 250Hz while maintaining lower model complexity (number of trainable parameters and training time).
翻訳日:2022-11-13 13:57:12 公開日:2020-07-04
# CardioLearn:心電図による心疾患検出のためのクラウドディープラーニングサービス

CardioLearn: A Cloud Deep Learning Service for Cardiac Disease Detection from Electrocardiogram ( http://arxiv.org/abs/2007.02165v1 )

ライセンス: Link先を確認
Shenda Hong, Zhaoji Fu, Rongbo Zhou, Jie Yu, Yongkui Li, Kai Wang, Guanlin Cheng(参考訳) 心電図(ECG)は、心不整脈、急性冠症候群など、幅広い心臓疾患の診断に使用できる、患者の心臓状態を監視する最も便利で非侵襲的なツールの1つである。 しかし, 従来の心電図疾患検出モデルでは, 抽出された特徴の能力の限界により誤診の頻度がかなり高い。 近年のディープラーニング手法には大きな利点があるが、トレーニングデータや計算資源を持たない人には公開されていない。 本稿では,心電図による心疾患検出のためのクラウド深層学習サービスであるcardilearnの構築,トレーニング,サービスについて紹介する。 インターネットに接続してオープンAPIを呼び出すことで、他のECG記録装置の分析能力を向上することができる。 実用的な例として、我々は、いつでもどこでも心電図を収集し、心疾患を検出できるインタラクティブなモバイルプログラムとともに、ポータブルなスマートハードウェアデバイスを設計する。

Electrocardiogram (ECG) is one of the most convenient and non-invasive tools for monitoring peoples' heart condition, which can use for diagnosing a wide range of heart diseases, including Cardiac Arrhythmia, Acute Coronary Syndrome, et al. However, traditional ECG disease detection models show substantial rates of misdiagnosis due to the limitations of the abilities of extracted features. Recent deep learning methods have shown significant advantages, but they do not provide publicly available services for those who have no training data or computational resources. In this paper, we demonstrate our work on building, training, and serving such out-of-the-box cloud deep learning service for cardiac disease detection from ECG named CardioLearn. The analytic ability of any other ECG recording devices can be enhanced by connecting to the Internet and invoke our open API. As a practical example, we also design a portable smart hardware device along with an interactive mobile program, which can collect ECG and detect potential cardiac diseases anytime and anywhere.
翻訳日:2022-11-13 13:56:42 公開日:2020-07-04
# 逆変形場を用いた医用画像の病的証拠の解釈

Interpretation of Disease Evidence for Medical Images Using Adversarial Deformation Fields ( http://arxiv.org/abs/2007.01975v1 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Joyce D. Schroeder, Clement Vachet, Tolga Tasdizen(参考訳) 深層学習モデルの複雑さは、それらが特定の疾患のラベルと関連していると認識している証拠を説明するのが困難である。 この情報は、モデルに対する信頼の構築とバイアスの発見に不可欠です。 これまで、ディープラーニングの自動化視覚化ソリューションは、分類器が使用するイメージの領域を特定してきたが、これらのソリューションは粗末すぎる、騒がしい、あるいはイメージの変更の仕方が限られている。 本稿では,デフィ-GAN (Generative Adversarial Network) を用いた変形場解釈という,病状証拠の空間的説明を定式化し提示する手法を提案する。 逆行訓練されたジェネレータは、疾患患者の画像を健康な患者の画像に類似させる変形場を生成する。 慢性閉塞性肺疾患(COPD)の胸部X線(CXR)およびアルツハイマー病(AD)の脳MRI所見について検討した。 縦断的データから病気の証拠を抽出する際には,基準線生成差分マップに対する説得力のある結果を示す。 DeFI-GANはまた、以前の方法では見つからなかった病気のバイオマーカーと、データセットや導入した学習方法の調査に役立つ潜在的なバイアスを強調している。

The high complexity of deep learning models is associated with the difficulty of explaining what evidence they recognize as correlating with specific disease labels. This information is critical for building trust in models and finding their biases. Until now, automated deep learning visualization solutions have identified regions of images used by classifiers, but these solutions are too coarse, too noisy, or have a limited representation of the way images can change. We propose a novel method for formulating and presenting spatial explanations of disease evidence, called deformation field interpretation with generative adversarial networks (DeFI-GAN). An adversarially trained generator produces deformation fields that modify images of diseased patients to resemble images of healthy patients. We validate the method studying chronic obstructive pulmonary disease (COPD) evidence in chest x-rays (CXRs) and Alzheimer's disease (AD) evidence in brain MRIs. When extracting disease evidence in longitudinal data, we show compelling results against a baseline producing difference maps. DeFI-GAN also highlights disease biomarkers not found by previous methods and potential biases that may help in investigations of the dataset and of the adopted learning methods.
翻訳日:2022-11-13 13:55:14 公開日:2020-07-04
# 低光度画像強調のための深部両側網膜

Deep Bilateral Retinex for Low-Light Image Enhancement ( http://arxiv.org/abs/2007.02018v1 )

ライセンス: Link先を確認
Jinxiu Liang, Yong Xu, Yuhui Quan, Jingwen Wang, Haibin Ling and Hui Ji(参考訳) 低照度画像、すなわち低照度で撮影された画像は、低コントラスト、色歪、顕著な測定ノイズによって非常に視認性が低下する。 低照度画像の可視性を改善すること。 低照度画像における計測ノイズは、空間的変動特性と相容れないが複雑であるため、低照度画像エンハンスメントにおいて、ノイズを効果的に処理する方法は重要かつ困難な問題である。 本稿では,自然画像のレチネックス分解に基づいて,低光度画像強調のための深層学習法を提案する。 基本的な考え方は、ニューラルネットワークを訓練して、ノイズと照明層を同時に予測する画素単位の演算子セットを生成することである。 このような統合的なアプローチにより,空間的変化の大きい測定ノイズの存在下で反射層を正確に予測することができる。 いくつかのベンチマークデータセットの大規模な実験により、提案手法は最先端の手法と非常に競合し、非常に低い照明条件下で撮像された画像を処理する場合、他の方法よりも大きな優位性を持つことが示された。

Low-light images, i.e. the images captured in low-light conditions, suffer from very poor visibility caused by low contrast, color distortion and significant measurement noise. Low-light image enhancement is about improving the visibility of low-light images. As the measurement noise in low-light images is usually significant yet complex with spatially-varying characteristic, how to handle the noise effectively is an important yet challenging problem in low-light image enhancement. Based on the Retinex decomposition of natural images, this paper proposes a deep learning method for low-light image enhancement with a particular focus on handling the measurement noise. The basic idea is to train a neural network to generate a set of pixel-wise operators for simultaneously predicting the noise and the illumination layer, where the operators are defined in the bilateral space. Such an integrated approach allows us to have an accurate prediction of the reflectance layer in the presence of significant spatially-varying measurement noise. Extensive experiments on several benchmark datasets have shown that the proposed method is very competitive to the state-of-the-art methods, and has significant advantage over others when processing images captured in extremely low lighting conditions.
翻訳日:2022-11-13 13:46:51 公開日:2020-07-04
# 同時分類と追跡による効率的かつ正確な物体検出

Efficient and accurate object detection with simultaneous classification and tracking ( http://arxiv.org/abs/2007.02065v1 )

ライセンス: Link先を確認
Xuesong Li, Jose Guivant(参考訳) 物体検出や追跡などの環境との相互作用は、移動ロボットにとって重要な能力である。 高い精度に加えて、処理労力とエネルギー消費の面での効率も望ましい。 両要件を満たすために,ポイントストリームにおける同時分類と追跡に基づく検出フレームワークを提案する。 このフレームワークでは、トラッカーが点雲のシーケンスでデータアソシエーションを行い、冗長な処理を避けるために検出器を誘導する(つまり、既に知られているオブジェクトを分類する)。 分類が不十分なオブジェクトに対して、融合モデルは、選択された主要な観測を融合させ、トラッキングスパンの異なる視点を提供するように設計されている。 したがって、性能(精度と検出効率)を高めることができる。 この手法は移動物体の検出と追跡に特に適しており、従来の手法で解くと高価な計算が必要となる。 ベンチマークデータセットを用いて実験を行い, 提案手法が効率と精度の両方において, 追跡・検出方式よりも優れていることを示した。

Interacting with the environment, such as object detection and tracking, is a crucial ability of mobile robots. Besides high accuracy, efficiency in terms of processing effort and energy consumption are also desirable. To satisfy both requirements, we propose a detection framework based on simultaneous classification and tracking in the point stream. In this framework, a tracker performs data association in sequences of the point cloud, guiding the detector to avoid redundant processing (i.e. classifying already-known objects). For objects whose classification is not sufficiently certain, a fusion model is designed to fuse selected key observations that provide different perspectives across the tracking span. Therefore, performance (accuracy and efficiency of detection) can be enhanced. This method is particularly suitable for detecting and tracking moving objects, a process that would require expensive computations if solved using conventional procedures. Experiments were conducted on the benchmark dataset, and the results showed that the proposed method outperforms original tracking-by-detection approaches in both efficiency and accuracy.
翻訳日:2022-11-13 13:46:14 公開日:2020-07-04
# Speckle2Void: Blind-Spot畳み込みニューラルネットワークを用いた深部自己スーパービジョンSARデスペックリング

Speckle2Void: Deep Self-Supervised SAR Despeckling with Blind-Spot Convolutional Neural Networks ( http://arxiv.org/abs/2007.02075v1 )

ライセンス: Link先を確認
Andrea Bordone Molini, Diego Valsesia, Giulia Fracastoro, Enrico Magli(参考訳) 合成開口レーダ(SAR)画像からの情報抽出はスペックルノイズにより大きな障害を受けており,シーン解析アルゴリズムにおける重要な予備段階である。 ディープラーニングの最近の成功は、古典的なモデルベースメソッドよりも優れる、新しい世代のデスペックリングテクニックを想定している。 しかし、現在の深層学習アプローチでは訓練の監督が必要であり、クリーンなSAR画像は入手できない。 文献では、実際のSAR画像に対して異なる特性を示す合成スペックル光学画像と、正確に取得や融合が難しい複数時間SAR画像とを併用することで、この問題に対処する。 本稿では,近年の盲点認知ネットワークの研究に触発されて,ベイジアン解法を提案する。 提案手法はノイズの多いsar画像のみを用いて学習し,合成データではなく実際のsar画像の特徴を学習できる。 実験により,提案手法の性能は合成データに対する教師付きトレーニングアプローチに非常に近いこと,定量的および視覚的評価において実データに優れていることが示された。

Information extraction from synthetic aperture radar (SAR) images is heavily impaired by speckle noise, hence despeckling is a crucial preliminary step in scene analysis algorithms. The recent success of deep learning envisions a new generation of despeckling techniques that could outperform classical model-based methods. However, current deep learning approaches to despeckling require supervision for training, whereas clean SAR images are impossible to obtain. In the literature, this issue is tackled by resorting to either synthetically speckled optical images, which exhibit different properties with respect to true SAR images, or multi-temporal SAR images, which are difficult to acquire or fuse accurately. In this paper, inspired by recent works on blind-spot denoising networks, we propose a self-supervised Bayesian despeckling method. The proposed method is trained employing only noisy SAR images and can therefore learn features of real SAR images rather than synthetic data. Experiments show that the performance of the proposed approach is very close to the supervised training approach on synthetic data and superior on real data in both quantitative and visual assessments.
翻訳日:2022-11-13 13:45:58 公開日:2020-07-04
# 微細地形図の構造情報を用いた病理組織像の登録

Registration of Histopathogy Images Using Structural Information From Fine Grained Feature Maps ( http://arxiv.org/abs/2007.02078v1 )

ライセンス: Link先を確認
Dwarikanath Mahapatra(参考訳) 登録は多くの臨床ワークフローにおいて重要な部分であり、興味のある構造に関する情報は登録性能を向上させる。 本稿では,事前学習したセグメンテーションネットワークから抽出した自己教師付きセグメンテーション特徴写像を用いた登録フレームワークにおけるセグメンテーション情報の統合手法を提案する。 自己教師付き特徴マップを使用することで,手動分割が不可能であるにもかかわらず,セグメント情報の活用が可能となる。 実験の結果,手動セグメンテーションマップを効果的に置き換え,手動セグメンテーションマップが利用できない実環境において,手動セグメンテーションマップの精度が向上する可能性が示された。

Registration is an important part of many clinical workflows and factually, including information of structures of interest improves registration performance. We propose a novel approach of combining segmentation information in a registration framework using self supervised segmentation feature maps extracted using a pre-trained segmentation network followed by clustering. Using self supervised feature maps enables us to use segmentation information despite the unavailability of manual segmentations. Experimental results show our approach effectively replaces manual segmentation maps and demonstrate the possibility of obtaining state of the art registration performance in real world cases where manual segmentation maps are unavailable.
翻訳日:2022-11-13 13:45:40 公開日:2020-07-04
# マトロイド拘束下サブモジュラー最大化によるマルチセンサの次回のベストビュー計画

Multi-Sensor Next-Best-View Planning as Matroid-Constrained Submodular Maximization ( http://arxiv.org/abs/2007.02084v1 )

ライセンス: Link先を確認
Mikko Lauri, Joni Pajarinen, Jan Peters, Simone Frintrop(参考訳) 3Dシーンモデルは、経路計画、オブジェクト操作、構造検査などのタスクにロボット工学で有用である。 複数のロボットのチームが捉えた深度画像を用いて3次元モデルを作成する問題を考える。 各ロボットは視点を選択し、そこから深度画像をキャプチャし、画像を融合してシーンモデルを更新する。 所望の品質のシーンモデルが得られるまでプロセスを繰り返します。 next-best-view planningは現在のシーンモデルを使用して次の視点を選択する。 目的は視点を選択することで、撮影された画像がシーンモデルの品質を最も良くすることです。 本稿では,複数の深度カメラの次回のベストビュー計画について述べる。 本稿では,複数のセンサ間の重なりを回避し,視点の集合をスコアするユーティリティ関数を提案する。 本稿では,このユーティリティ関数を用いたマルチセンサ次視点計画が,マトロイド制約下でのサブモジュラー最大化の例であることを示す。 これにより、最適値から定数係数内の解を得る多項式時間グリーディアルゴリズムによって計画問題を解くことができる。 本研究では,最大8個のセンサを用いたシミュレーション実験と,深度カメラを備えたロボットアームを用いた実世界実験において,計画アルゴリズムの性能評価を行った。

3D scene models are useful in robotics for tasks such as path planning, object manipulation, and structural inspection. We consider the problem of creating a 3D model using depth images captured by a team of multiple robots. Each robot selects a viewpoint and captures a depth image from it, and the images are fused to update the scene model. The process is repeated until a scene model of desired quality is obtained. Next-best-view planning uses the current scene model to select the next viewpoints. The objective is to select viewpoints so that the images captured using them improve the quality of the scene model the most. In this paper, we address next-best-view planning for multiple depth cameras. We propose a utility function that scores sets of viewpoints and avoids overlap between multiple sensors. We show that multi-sensor next-best-view planning with this utility function is an instance of submodular maximization under a matroid constraint. This allows the planning problem to be solved by a polynomial-time greedy algorithm that yields a solution within a constant factor from the optimal. We evaluate the performance of our planning algorithm in simulated experiments with up to 8 sensors, and in real-world experiments using two robot arms equipped with depth cameras.
翻訳日:2022-11-13 13:45:26 公開日:2020-07-04
# ロバストなrgb-tトラッキングのための運動と外観の同時モデリング

Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking ( http://arxiv.org/abs/2007.02041v1 )

ライセンス: Link先を確認
Pengyu Zhang and Jie Zhao and Dong Wang and Huchuan Lu and Xiaoyun Yang(参考訳) 本研究では,外見と動きの両方を共同でモデル化した新しいRGB-Tトラッキングフレームワークを提案する。 まず、ロバストな外観モデルを得るために、RGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。 融合重みは、オフラインで訓練されたグローバルとローカルのマルチモーダルの融合ネットワークを用いて決定され、RGBとTの応答マップを線形に組み合わせる。 第2に、外観のキューが信頼できない場合、モーションキュー、すなわちターゲットとカメラの動きを総合的に考慮し、トラッカーを堅牢にする。 さらに,外見や動きを柔軟に切り替えるトラッカー切換器を提案する。 最近の3つのrgb-t追跡データセットの多くの結果から、提案されたトラッカーは、他の最先端アルゴリズムよりもかなり優れた性能を示している。

In this study, we propose a novel RGB-T tracking framework by jointly modeling both appearance and motion cues. First, to obtain a robust appearance model, we develop a novel late fusion method to infer the fusion weight maps of both RGB and thermal (T) modalities. The fusion weights are determined by using offline-trained global and local multimodal fusion networks, and then adopted to linearly combine the response maps of RGB and T modalities. Second, when the appearance cue is unreliable, we comprehensively take motion cues, i.e., target and camera motions, into account to make the tracker robust. We further propose a tracker switcher to switch the appearance and motion trackers flexibly. Numerous results on three recent RGB-T tracking datasets show that the proposed tracker performs significantly better than other state-of-the-art algorithms.
翻訳日:2022-11-13 13:39:08 公開日:2020-07-04
# 自己校正支援ロバスト射影構造

Self-Calibration Supported Robust Projective Structure-from-Motion ( http://arxiv.org/abs/2007.02045v1 )

ライセンス: Link先を確認
Rui Gong, Danda Pani Paudel, Ajad Chhatkuli, and Luc Van Gool(参考訳) 典型的なstructure-from-motion(sfm)パイプラインは、画像間の対応関係を見つけ、観察したシーンの投影構造を復元し、カメラの自己校正制約を用いてメトリックフレームにアップグレードする。 各問題の解決は、主に他と独立して行われる。 例えば、カメラの自己調整は一般に正しい一致を仮定し、良好な投影再構成が得られた。 本稿では,自己校正制約によってマッチングプロセスが支持される統一SfM法を提案する。 良いマッチは有効なキャリブレーションをもたらすべきだという考えを使います。 本稿では,多視点対応フレームワークにおける絶対四重項射影方程式の双対像を用いて,一組の仮定対応から頑健なマッチングを求める。 マッチングプロセスは、深層ニューラルネットワークを用いて教師なしの方法で学習される不整点または外れ値としてポイントを分類する。 自己校正制約が必要な理由を理論的に推論すると共に,これらの制約を利用してロバストなマルチビューマッチングと正確なカメラキャリブレーションを示す実験結果を示す。

Typical Structure-from-Motion (SfM) pipelines rely on finding correspondences across images, recovering the projective structure of the observed scene and upgrading it to a metric frame using camera self-calibration constraints. Solving each problem is mainly carried out independently from the others. For instance, camera self-calibration generally assumes correct matches and a good projective reconstruction have been obtained. In this paper, we propose a unified SfM method, in which the matching process is supported by self-calibration constraints. We use the idea that good matches should yield a valid calibration. In this process, we make use of the Dual Image of Absolute Quadric projection equations within a multiview correspondence framework, in order to obtain robust matching from a set of putative correspondences. The matching process classifies points as inliers or outliers, which is learned in an unsupervised manner using a deep neural network. Together with theoretical reasoning why the self-calibration constraints are necessary, we show experimental results demonstrating robust multiview matching and accurate camera calibration by exploiting these constraints.
翻訳日:2022-11-13 13:38:52 公開日:2020-07-04
# クロススセナリオ3次元ポーズ推定のための推定段階最適化

Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation ( http://arxiv.org/abs/2007.02054v1 )

ライセンス: Link先を確認
Jianfeng Zhang, Xuecheng Nie, Jiashi Feng(参考訳) 既存の3次元ポーズ推定モデルは、その一般化可能性の制限により、未知のポーズを持つ新しいシナリオに適用すると、パフォーマンス低下に苦しむ。 本研究では,ソースとターゲットデータが異なるポーズ分布から来る場合の3次元ポーズモデルの一般化性を改善するための新しいフレームワークである推論段階最適化(ISO)を提案する。 主な洞察は、ターゲットデータはラベル付けされていないが、その基盤となる分布について貴重な事前情報を持っていることです。 このような情報を利用するため,提案するisoは,各対象インスタンスに対して形状認識型自己教師付き学習(ssl)を行い,予測を行う前に3次元ポーズモデルを更新する。 このように、モデルは対象シナリオに関する分布的知識をマイニングし、一般化性能を向上して迅速に適用することができる。 さらに、逐次的ターゲットデータを扱うために、SSLをストリーミングすることで、ISOフレームワークを実装するオンラインモードを提案する。 クロスセサリオ設定の下で、ISOフレームワークが様々なベンチマークでどのように動作するのかを系統的に分析する。 注目すべきは、MPI-INF-3DHPで83.6%の最先端の3D PCKが得られることだ。 コードはリリースされる。

Existing 3D human pose estimation models suffer performance drop when applying to new scenarios with unseen poses due to their limited generalizability. In this work, we propose a novel framework, Inference Stage Optimization (ISO), for improving the generalizability of 3D pose models when source and target data come from different pose distributions. Our main insight is that the target data, even though not labeled, carry valuable priors about their underlying distribution. To exploit such information, the proposed ISO performs geometry-aware self-supervised learning (SSL) on each single target instance and updates the 3D pose model before making prediction. In this way, the model can mine distributional knowledge about the target scenario and quickly adapt to it with enhanced generalization performance. In addition, to handle sequential target data, we propose an online mode for implementing our ISO framework via streaming the SSL, which substantially enhances its effectiveness. We systematically analyze why and how our ISO framework works on diverse benchmarks under cross-scenario setup. Remarkably, it yields new state-of-the-art of 83.6% 3D PCK on MPI-INF-3DHP, improving upon the previous best result by 9.7%. Code will be released.
翻訳日:2022-11-13 13:38:32 公開日:2020-07-04
# 細粒度認識のためのフィッシャーベクトル符号化のエンドツーエンド学習

End-to-end Learning of a Fisher Vector Encoding for Part Features in Fine-grained Recognition ( http://arxiv.org/abs/2007.02080v1 )

ライセンス: Link先を確認
Dimitri Korsch, Paul Bodesheim, Joachim Denzler(参考訳) きめ細かい認識のための部分ベースのアプローチは、グローバルメソッドよりも期待されるパフォーマンス向上を示すものではないが、非常に類似したクラスを識別するための小さな詳細に明示的に焦点を合わせることができる。 部分的手法は局所的な特徴の欠如に悩まされ、部品の順序に不変であり、様々な可視部品を適切に扱うことができると仮定する。 部品の順序は人工的なものであり、しばしば地上のアノテーションのみによって与えられるが、視点の変化や閉塞は観察できない部分をもたらす。 そこで本研究では,部分特徴のフィッシャーベクトル符号化を畳み込みニューラルネットワークに統合する。 この符号化のパラメータは、エンドツーエンドでニューラルネットワークのパラメータと共同で推定される。 本研究は,CUB-200-2011における鳥種分類の最先端精度を90.40-%から90.95-%,NA-Birds 89.20-%から90.30-%,Birdsnap 84.30-%から86.97-%に改善する。

Part-based approaches for fine-grained recognition do not show the expected performance gain over global methods, although being able to explicitly focus on small details that are relevant for distinguishing highly similar classes. We assume that part-based methods suffer from a missing representation of local features, which is invariant to the order of parts and can handle a varying number of visible parts appropriately. The order of parts is artificial and often only given by ground-truth annotations, whereas viewpoint variations and occlusions result in parts that are not observable. Therefore, we propose integrating a Fisher vector encoding of part features into convolutional neural networks. The parameters for this encoding are estimated jointly with those of the neural network in an end-to-end manner. Our approach improves state-of-the-art accuracies for bird species classification on CUB-200-2011 from 90.40\% to 90.95\%, on NA-Birds from 89.20\% to 90.30\%, and on Birdsnap from 84.30\% to 86.97\%.
翻訳日:2022-11-13 13:37:49 公開日:2020-07-04
# 点群における3次元物体検出のための局所グリッドレンダリングネットワーク

Local Grid Rendering Networks for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2007.02099v1 )

ライセンス: Link先を確認
Jianan Li, Jiashi Feng(参考訳) 点群上の3次元物体検出モデルの性能は,局所幾何パターンのモデル化能力に大きく依存する。 従来の点ベースモデルは、対称関数(例えば最大プーリング)やグラフに基づく局所パターンを利用するため、きめ細かい幾何学的構造が失われやすい。 空間パターンの取得に関しては、cnnは強力であるが、ポイント雲全体を密度の高い3dグリッドにボクセル化した後、ポイントデータに直接畳み込みを適用するのは計算コストがかかる。 本研究では,CNNを活用し,計算効率を保ちつつ,パターン学習能力を向上させることにより,点ベースモデルの性能向上を目指す。 入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングするLGR(Local Grid Rendering)演算を提案する。これにより、小型CNNが局所パターンを正確にモデル化し、高密度グリッド上の畳み込みを回避し、計算コストを削減できる。 LGR操作では、シンプルな設計と高効率のポイントクラウド特徴抽出のためのLGR-Netと呼ばれる新しい汎用バックボーンを導入する。 ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。 それぞれ5.5mAPと4.5mAPで、計算オーバーヘッドはわずかに増加している。

The performance of 3D object detection models over point clouds highly depends on their capability of modeling local geometric patterns. Conventional point-based models exploit local patterns through a symmetric function (e.g. max pooling) or based on graphs, which easily leads to loss of fine-grained geometric structures. Regarding capturing spatial patterns, CNNs are powerful but it would be computationally costly to directly apply convolutions on point data after voxelizing the entire point clouds to a dense regular 3D grid. In this work, we aim to improve performance of point-based models by enhancing their pattern learning ability through leveraging CNNs while preserving computational efficiency. We propose a novel and principled Local Grid Rendering (LGR) operation to render the small neighborhood of a subset of input points into a low-resolution 3D grid independently, which allows small-size CNNs to accurately model local patterns and avoids convolutions over a dense grid to save computation cost. With the LGR operation, we introduce a new generic backbone called LGR-Net for point cloud feature extraction with simple design and high efficiency. We validate LGR-Net for 3D object detection on the challenging ScanNet and SUN RGB-D datasets. It advances state-of-the-art results significantly by 5.5 and 4.5 mAP, respectively, with only slight increased computation overhead.
翻訳日:2022-11-13 13:37:25 公開日:2020-07-04
# SplitFusion:非デジタルシーンの同時追跡とマッピング

SplitFusion: Simultaneous Tracking and Mapping for Non-Rigid Scenes ( http://arxiv.org/abs/2007.02108v1 )

ライセンス: Link先を確認
Yang Li, Tianwei Zhang, Yoshihiko Nakamura and Tatsuya Harada(参考訳) 本研究では,シーンの剛性成分と非剛性成分の両方を同時に追跡および高密度再構成する,高密度rgb-dスラムフレームワークであるsplitfusionを提案する。 SplitFusionは、まずディープラーニングベースのセマンティックインスタントセグメンテーション技術を採用して、シーンを剛体または非剛体に分割する。 分割面は、剛性または非剛性ICPを介して独立に追跡され、インクリメンタル深度マップ融合によって再構成される。 実験結果から, 提案手法は環境マップの精度だけでなく, 移動する人間など, 十分に再構成された非剛体ターゲットも提供できることが示唆された。

We present SplitFusion, a novel dense RGB-D SLAM framework that simultaneously performs tracking and dense reconstruction for both rigid and non-rigid components of the scene. SplitFusion first adopts deep learning based semantic instant segmentation technique to split the scene into rigid or non-rigid surfaces. The split surfaces are independently tracked via rigid or non-rigid ICP and reconstructed through incremental depth map fusion. Experimental results show that the proposed approach can provide not only accurate environment maps but also well-reconstructed non-rigid targets, e.g. the moving humans.
翻訳日:2022-11-13 13:37:04 公開日:2020-07-04
# 人体知覚による顔のアンチ・スプーフィング

Face Anti-Spoofing with Human Material Perception ( http://arxiv.org/abs/2007.02157v1 )

ライセンス: Link先を確認
Zitong Yu, Xiaobai Li, Xuesong Niu, Jingang Shi, Guoying Zhao(参考訳) face anti-spoofing(fas)は、顔認識システムをプレゼンテーション攻撃から守る上で重要な役割を担っている。 既存のFAS法の多くは、様々な手がかり(例えば、テクスチャ、深さ、反射)を捉え、生きた顔と陰影のある顔とを区別する。 これらすべての手がかりは、物理的材料(例えば、皮膚、ガラス、紙、シリコンなど)の相違に基づいている。 本稿では,fasの識別的かつロバストな特徴を抽出すべく,素材認識問題として顔のアンチスプーフィングを再現し,それと古典的ヒューマンマテリアル知覚を組み合わせる。 そこで本研究では,多段階のマクロ情報とマイクロ情報を集約することで,本質的な素材ベースパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。 さらに,MFRM(Multi-level Feature Refinement Module)とMulti-head supervisionを用いて,より堅牢な特徴を学習する。 6つのベンチマークデータセットで包括的な実験を行い、提案手法は、データセット内テストとデータセット間テストの両方において優れた性能を達成する。 1つのハイライトは、siw-mデータセットにおけるクロスタイプテストの合計11.3$\pm$9.5\% eerを達成することである。 この取り組みがFASと材料コミュニティの今後の協力を促進することを願っている。

Face anti-spoofing (FAS) plays a vital role in securing the face recognition systems from presentation attacks. Most existing FAS methods capture various cues (e.g., texture, depth and reflection) to distinguish the live faces from the spoofing faces. All these cues are based on the discrepancy among physical materials (e.g., skin, glass, paper and silicone). In this paper we rephrase face anti-spoofing as a material recognition problem and combine it with classical human material perception [1], intending to extract discriminative and robust features for FAS. To this end, we propose the Bilateral Convolutional Networks (BCN), which is able to capture intrinsic material-based patterns via aggregating multi-level bilateral macro- and micro- information. Furthermore, Multi-level Feature Refinement Module (MFRM) and multi-head supervision are utilized to learn more robust features. Comprehensive experiments are performed on six benchmark datasets, and the proposed method achieves superior performance on both intra- and cross-dataset testings. One highlight is that we achieve overall 11.3$\pm$9.5\% EER for cross-type testing in SiW-M dataset, which significantly outperforms previous results. We hope this work will facilitate future cooperation between FAS and material communities.
翻訳日:2022-11-13 13:36:43 公開日:2020-07-04
# 多次元畳み込みニューラルネットワークによる風速予測

Wind speed prediction using multidimensional convolutional neural networks ( http://arxiv.org/abs/2007.12567v1 )

ライセンス: Link先を確認
Kevin Trebing and Siamak Mehrkanoon(参考訳) 正確な風速予測は多くの経済、ビジネス、管理分野において非常に重要である。 本稿では,風速予測タスクのための畳み込みニューラルネットワーク(CNN)に基づく新しいモデルを提案する。 特に,従来のcnnモデルと比較して,入力データの多次元(ビュー)から基礎となる複雑な入出力関係を学習することにより,風力データの時空間的変化をよりよく特徴付けることができることを示した。 提案モデルは,風速予測に使用される新しい表現を学習するために,時空間多次元気象データを利用した。 実生活の気象データセットを2つ実験する。 データセットはデンマークとオランダの都市からの測定である。 提案モデルは,従来の2次元CNNモデルと3次元CNNモデル,注目層を持つ2D-CNNモデル,およびアップスケーリングと深部分離可能な畳み込みを備えた2D-CNNモデルと比較する。

Accurate wind speed forecasting is of great importance for many economic, business and management sectors. This paper introduces a new model based on convolutional neural networks (CNNs) for wind speed prediction tasks. In particular, we show that compared to classical CNN-based models, the proposed model is able to better characterise the spatio-temporal evolution of the wind data by learning the underlying complex input-output relationships from multiple dimensions (views) of the input data. The proposed model exploits the spatio-temporal multivariate multidimensional historical weather data for learning new representations used for wind forecasting. We conduct experiments on two real-life weather datasets. The datasets are measurements from cities in Denmark and in the Netherlands. The proposed model is compared with traditional 2- and 3-dimensional CNN models, a 2D-CNN model with an attention layer and a 2D-CNN model equipped with upscaling and depthwise separable convolutions.
翻訳日:2022-11-13 13:36:19 公開日:2020-07-04
# 低ランク核融合に基づくマルチモーダルシーケンス変換器

Low Rank Fusion based Transformers for Multimodal Sequences ( http://arxiv.org/abs/2007.02038v1 )

ライセンス: Link先を確認
Saurav Sahay, Eda Okur, Shachi H Kumar, Lama Nachman(参考訳) 感覚は個別に協調して働き、感情的な意図を表現する。 本研究では,潜在するマルチモーダル感情の意図に対応するモダリティ特有の感覚信号のモデル化を試み,低位マルチモーダル融合とマルチモーダルトランスフォーマーを用いて表現する。 モダリティ間のマルチモーダル融合の低ランク分解は、近似的乗法潜在信号相互作用を表現するのに役立つ。 本稿では,モデルの過剰なパラメータ化を伴わずに,トランスフォーマーを用いたクロスフュージョン・アーキテクチャを提案する。 低位融合は潜在信号の相互作用を表現するのに役立ち、モダリティ特有の注意は信号の関連部分に焦点を合わせるのに役立つ。 本研究では,cmu-mosei,cmu-mosi,iemocapのデータセットにおけるマルチモーダル感情と感情認識の2つの方法を示し,本モデルがより少ないパラメータを持ち,より高速にトレーニングでき,多くの大きな融合ベースのアーキテクチャと相性が良いことを示す。

Our senses individually work in a coordinated fashion to express our emotional intentions. In this work, we experiment with modeling modality-specific sensory signals to attend to our latent multimodal emotional intentions and vice versa expressed via low-rank multimodal fusion and multimodal transformers. The low-rank factorization of multimodal fusion amongst the modalities helps represent approximate multiplicative latent signal interactions. Motivated by the work of~\cite{tsai2019MULT} and~\cite{Liu_2018}, we present our transformer-based cross-fusion architecture without any over-parameterization of the model. The low-rank fusion helps represent the latent signal interactions while the modality-specific attention helps focus on relevant parts of the signal. We present two methods for the Multimodal Sentiment and Emotion Recognition results on CMU-MOSEI, CMU-MOSI, and IEMOCAP datasets and show that our models have lesser parameters, train faster and perform comparably to many larger fusion-based architectures.
翻訳日:2022-11-13 13:29:29 公開日:2020-07-04
# フェザー群集の鳥たち:言語モデルの違いによる主観的ニュース検出

Birds of a Feather Flock Together: Satirical News Detection via Language Model Differentiation ( http://arxiv.org/abs/2007.02164v1 )

ライセンス: Link先を確認
Yigeng Zhang, Fan Yang, Yifan Zhang, Eduard Dragut and Arjun Mukherjee(参考訳) 風刺ニュースは、スマートに埋め込まれたユーモアで楽しむため、現代のソーシャルメディアで定期的に共有されている。 しかし、その偽りの性格から事実と誤認されることがあるため、社会にとって有害である可能性がある。 風刺的なニュースでは、文脈の語彙的・実践的な属性が読者を楽しませる重要な要素であることがわかった。 本研究では,風刺的なニュースと真のニュースを区別する手法を提案する。 これは、2つの言語モデルの予測損失を、一つは真のニュースに、もう一つは風刺的なニュースに、もう一つは新しいニュース記事を与える際に、区別して、風刺的な文章の証拠を利用する。 言語モデル予測損失の統計的指標を特徴量として計算し、下流の分類を行う。 提案手法は,風刺的なニュース文書と従来のニュース文書との言語利用の違いを捉え,そのドメイン外の文書に適用した場合にセンシティブな言語モデルにより計算的に有効である。

Satirical news is regularly shared in modern social media because it is entertaining with smartly embedded humor. However, it can be harmful to society because it can sometimes be mistaken as factual news, due to its deceptive character. We found that in satirical news, the lexical and pragmatical attributes of the context are the key factors in amusing the readers. In this work, we propose a method that differentiates the satirical news and true news. It takes advantage of satirical writing evidence by leveraging the difference between the prediction loss of two language models, one trained on true news and the other on satirical news, when given a new news article. We compute several statistical metrics of language model prediction loss as features, which are then used to conduct downstream classification. The proposed method is computationally effective because the language models capture the language usage differences between satirical news documents and traditional news documents, and are sensitive when applied to documents outside their domains.
翻訳日:2022-11-13 13:29:11 公開日:2020-07-04
# 生涯信頼性アウェアニューロモルフィックコンピューティングの一症例

A Case for Lifetime Reliability-Aware Neuromorphic Computing ( http://arxiv.org/abs/2007.02210v1 )

ライセンス: Link先を確認
Shihao Song and Anup Das(参考訳) 非揮発性メモリ(NVM)を用いたニューロモルフィックコンピューティングは、スパイクベースの計算とバイオインスパイアされた学習アルゴリズムを用いて実装された機械学習タスクの性能と消費電力を大幅に改善することができる。 位相変化メモリ(PCM)のような特定のNVMを操作するために必要な高電圧は、ニューロンのCMOS回路の老化を加速し、ニューロモルフィックハードウェアの寿命を短縮する。 本研究では、負バイアス温度不安定性(NBTI)や時間依存性誘電体破壊(TDDB)といった故障モデルを考慮して、ニューロモルフィックハードウェア上で最先端の機械学習タスクを実行する場合の長期的信頼性の影響を評価する。 このような定式化に基づき,ニューロモルフィック回路の周期的緩和,すなわちストップ・アンド・ゴー方式のニューロモルフィック・コンピューティングによって得られた信頼性・性能上のトレードオフを示す。

Neuromorphic computing with non-volatile memory (NVM) can significantly improve performance and lower energy consumption of machine learning tasks implemented using spike-based computations and bio-inspired learning algorithms. High voltages required to operate certain NVMs such as phase-change memory (PCM) can accelerate aging in a neuron's CMOS circuit, thereby reducing the lifetime of neuromorphic hardware. In this work, we evaluate the long-term, i.e., lifetime reliability impact of executing state-of-the-art machine learning tasks on a neuromorphic hardware, considering failure models such as negative bias temperature instability (NBTI) and time-dependent dielectric breakdown (TDDB). Based on such formulation, we show the reliability-performance trade-off obtained due to periodic relaxation of neuromorphic circuits, i.e., a stop-and-go style of neuromorphic computing.
翻訳日:2022-11-13 13:28:54 公開日:2020-07-04
# DRDr: Mask R-CNN を用いた糖尿病網膜症による解離および微小動脈瘤の自動マスキング

DRDr: Automatic Masking of Exudates and Microaneurysms Caused By Diabetic Retinopathy Using Mask R-CNN and Transfer Learning ( http://arxiv.org/abs/2007.02026v1 )

ライセンス: Link先を確認
Farzan Shenavarmasouleh and Hamid R. Arabnia(参考訳) 本稿では,糖尿病患者の眼における糖尿病網膜症(dr)の原因となる2種類の病変異性体と微小神経症を同定する。 畳み込みニューラルネットワーク(cnns)とトランスファー・ラーニング(transport learning)を用いて,患者の眼底画像にみられた病変の各々について,高品質のセグメンテーションマスクを探索し,生成する。 我々はe-ophtha EXとe-ophtha MAから正規化されたデータベースを作成し、Mask R-CNNを調整して小さな病変を検出する。 さらに,データ拡張とresnet101の事前学習重みを用いて,小さなデータセットの補償を行う。 本モデルは, 臨床医や眼科医が悪名高いDRを検出・治療する過程において, 有望なmAPである0.45を達成できることを示す。

This paper addresses the problem of identifying two main types of lesions - Exudates and Microaneurysms - caused by Diabetic Retinopathy (DR) in the eyes of diabetic patients. We make use of Convolutional Neural Networks (CNNs) and Transfer Learning to locate and generate high-quality segmentation mask for each instance of the lesion that can be found in the patients' fundus images. We create our normalized database out of e-ophtha EX and e-ophtha MA and tweak Mask R-CNN to detect small lesions. Moreover, we employ data augmentation and the pre-trained weights of ResNet101 to compensate for our small dataset. Our model achieves promising test mAP of 0.45, altogether showing that it can aid clinicians and ophthalmologist in the process of detecting and treating the infamous DR.
翻訳日:2022-11-13 13:28:16 公開日:2020-07-04
# 形状認識型メタラーニングによる非知覚領域への前立腺mriセグメンテーションの一般化

Shape-aware Meta-learning for Generalizing Prostate MRI Segmentation to Unseen Domains ( http://arxiv.org/abs/2007.02035v1 )

ライセンス: Link先を確認
Quande Liu, Qi Dou, Pheng-Ann Heng(参考訳) ドメインシフト時のモデル一般化能力(例えば、様々なイメージングプロトコルやスキャナ)は、実際の臨床展開におけるディープラーニング手法に不可欠である。 本稿では,マルチドメインソースデータからモデルを学習することで,対象領域に直接一般化できるという,領域一般化の難解な問題に取り組む。 前立腺MRIのセグメント化におけるモデル一般化を改善するための新しい形状認識メタラーニング手法を提案する。 我々の学習スキームは、トレーニング中に仮想メタトレインとメタテストでドメインシフトを明示的にシミュレートすることで、勾配に基づくメタラーニングに根ざしている。 特に,未確認領域(予測マスクの不完全形状と曖昧な境界)にセグメンテーションモデルを適用する際に発生する欠陥を考慮し,シミュレートされたドメインシフトの下でのセグメンテーションの形状のコンパクト性と形状の滑らかさを特に促進することにより,メタ最適化を強化するための2つの相補的損失目標を導入する。 本手法は,公開データセットから取得した分布シフトを持つ6施設の前立腺mriデータを用いて評価する。 実験結果から,本手法は未確認領域の6つの設定すべてにおいて,最先端の一般化手法を一貫して上回ることがわかった。

Model generalization capacity at domain shift (e.g., various imaging protocols and scanners) is crucial for deep learning methods in real-world clinical deployment. This paper tackles the challenging problem of domain generalization, i.e., learning a model from multi-domain source data such that it can directly generalize to an unseen target domain. We present a novel shape-aware meta-learning scheme to improve the model generalization in prostate MRI segmentation. Our learning scheme roots in the gradient-based meta-learning, by explicitly simulating domain shift with virtual meta-train and meta-test during training. Importantly, considering the deficiencies encountered when applying a segmentation model to unseen domains (i.e., incomplete shape and ambiguous boundary of the prediction masks), we further introduce two complementary loss objectives to enhance the meta-optimization, by particularly encouraging the shape compactness and shape smoothness of the segmentations under simulated domain shift. We evaluate our method on prostate MRI data from six different institutions with distribution shifts acquired from public datasets. Experimental results show that our approach outperforms many state-of-the-art generalization methods consistently across all six settings of unseen domains.
翻訳日:2022-11-13 13:27:59 公開日:2020-07-04
# マルチモーダルビデオ質問応答のためのモーダリティシフト型注意ネットワーク

Modality Shifting Attention Network for Multi-modal Video Question Answering ( http://arxiv.org/abs/2007.02036v1 )

ライセンス: Link先を確認
Junyeong Kim, Minuk Ma, Trung Pham, Kyungsu Kim, Chang D. Yoo(参考訳) 本稿では,Multimodal Video Question Answering (MVQA) タスクのための Modality Shifting Attention Network (MSAN) と呼ばれるネットワークについて考察する。 MSANはタスクを,(1)質問に関連する時間的モーメントの局所化,(2)回答の局所化モーメントに基づく正確な予測の2つのサブタスクに分解する。 時間的局所化に必要なモダリティは、回答予測のモダリティとは異なる場合があり、このモダリティをシフトする能力はタスクの実行に不可欠である。 この目的のためにMSANは、(1)各モーダルから最も適切な時間的モーメントを見つけるためのモーメント提案ネットワーク(MPN)と、(2)両モーダルの注意機構を用いて回答を予測する異種推論ネットワーク(HRN)に基づいている。 msanは、modality importance modulation(mim)と呼ばれるコンポーネントを使用して、各サブタスクの2つのモダリティに重みを付けることができる。 実験の結果、MSANはTVQAベンチマークデータセットで71.13\%のテスト精度を達成して、従来の最先端技術よりも優れていた。 広範囲なアブレーション研究と質的分析を行い、ネットワークの様々な構成要素を検証する。

This paper considers a network referred to as Modality Shifting Attention Network (MSAN) for Multimodal Video Question Answering (MVQA) task. MSAN decomposes the task into two sub-tasks: (1) localization of temporal moment relevant to the question, and (2) accurate prediction of the answer based on the localized moment. The modality required for temporal localization may be different from that for answer prediction, and this ability to shift modality is essential for performing the task. To this end, MSAN is based on (1) the moment proposal network (MPN) that attempts to locate the most appropriate temporal moment from each of the modalities, and also on (2) the heterogeneous reasoning network (HRN) that predicts the answer using an attention mechanism on both modalities. MSAN is able to place importance weight on the two modalities for each sub-task using a component referred to as Modality Importance Modulation (MIM). Experimental results show that MSAN outperforms previous state-of-the-art by achieving 71.13\% test accuracy on TVQA benchmark dataset. Extensive ablation studies and qualitative analysis are conducted to validate various components of the network.
翻訳日:2022-11-13 13:27:37 公開日:2020-07-04
# 大規模候補溶液集合からの遅延グレディハイパーボリュームサブセットの選択

Lazy Greedy Hypervolume Subset Selection from Large Candidate Solution Sets ( http://arxiv.org/abs/2007.02050v1 )

ライセンス: Link先を確認
Weiyu Chen, Hisao Ishibuhci, and Ke Shang(参考訳) 近年,サブセット選択が話題となり,いくつかのサブセット選択法が提案されている。 これらの方法のうち、超体積部分集合の選択は広く用いられている。 グレディ・ハイパーボリューム・サブセット選択アルゴリズムは最適なサブセットを近似することができる。 しかし、候補集合が大きければ(例えば、多数の解を持つ非有界な外部アーカイブ)、アルゴリズムは非常に時間がかかる。 本稿では,ハイパーボリュームインジケータのサブモジュラー特性を利用した新しい遅延グリーディアルゴリズムを提案する。 中心となる考え方は、最大の寄与を持つ解を見つける際に不要な超体積寄与計算を避けることである。 実験結果から,提案アルゴリズムは従来のグリーディ包含アルゴリズムよりも数百倍高速であり,多くのテスト問題において最も高速なグリーディ包含アルゴリズムよりも数倍高速であることがわかった。

Subset selection is a popular topic in recent years and a number of subset selection methods have been proposed. Among those methods, hypervolume subset selection is widely used. Greedy hypervolume subset selection algorithms can achieve good approximations to the optimal subset. However, when the candidate set is large (e.g., an unbounded external archive with a large number of solutions), the algorithm is very time-consuming. In this paper, we propose a new lazy greedy algorithm exploiting the submodular property of the hypervolume indicator. The core idea is to avoid unnecessary hypervolume contribution calculation when finding the solution with the largest contribution. Experimental results show that the proposed algorithm is hundreds of times faster than the original greedy inclusion algorithm and several times faster than the fastest known greedy inclusion algorithm on many test problems.
翻訳日:2022-11-13 13:20:56 公開日:2020-07-04
# Replica Exchange Langevin Diffusionによる非凸学習の高速化

Accelerating Nonconvex Learning via Replica Exchange Langevin Diffusion ( http://arxiv.org/abs/2007.01990v1 )

ライセンス: Link先を確認
Yi Chen, Jinglin Chen, Jing Dong, Jian Peng, Zhaoran Wang(参考訳) ランゲヴィン拡散は非凸最適化の強力な手法であり、勾配に雑音を注入することで局所最小値から逃れることができる。 特に、騒音レベルを制御する温度パラメータは、高温と低温に対応する「グローバルな探索」と「ローカルな利用」のトレードオフを引き起こす。 両レシエーションの利点を達成するために,異なる温度で2つのランゲヴィン拡散を交換するレプリカ交換法を提案する。 2つの観点からレプリカ交換の加速効果を理論的に分析する。 (i) \chi^2-divergenceの収束、及び (ii)大偏差原理。 このような加速効果により、グローバルミニマへのアプローチがより速くなります。 さらに、レプリカ交換ランジュバン拡散を離散化することで離散時間アルゴリズムを得る。 このようなアルゴリズムでは、理論上の離散化誤差を定量化し、実際に加速効果を示す。

Langevin diffusion is a powerful method for nonconvex optimization, which enables the escape from local minima by injecting noise into the gradient. In particular, the temperature parameter controlling the noise level gives rise to a tradeoff between ``global exploration'' and ``local exploitation'', which correspond to high and low temperatures. To attain the advantages of both regimes, we propose to use replica exchange, which swaps between two Langevin diffusions with different temperatures. We theoretically analyze the acceleration effect of replica exchange from two perspectives: (i) the convergence in \chi^2-divergence, and (ii) the large deviation principle. Such an acceleration effect allows us to faster approach the global minima. Furthermore, by discretizing the replica exchange Langevin diffusion, we obtain a discrete-time algorithm. For such an algorithm, we quantify its discretization error in theory and demonstrate its acceleration effect in practice.
翻訳日:2022-11-13 13:20:20 公開日:2020-07-04
# RDP-GAN: R'enyi-differential Privacy based Generative Adversarial Network

RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial Network ( http://arxiv.org/abs/2007.02056v1 )

ライセンス: Link先を確認
Chuan Ma, Jun Li, Ming Ding, Bo Liu, Kang Wei, Jian Weng and H. Vincent Poor(参考訳) generative adversarial network (gan) は,プライバシ保護の高い現実的なサンプル生成能力によって,近年注目を集めている。 トレーニング例と直接対話することなく、生成モデルは元のデータセットの基盤となる分布を推定するために完全に使用することができ、識別モデルはラベル値とトレーニング例を比較して生成されたサンプルの品質を調べることができる。 しかし、医療記録や財務記録などの機密や私的な訓練例にganが適用される場合、個人の機密情報や私的な情報を漏らす可能性は高い。 この情報漏洩を軽減し、プライベートGANを構築するために、トレーニング中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。 さらに,サブサンプリング法と累積反復法に基づく全プライバシ損失の分析結果を導出し,プライバシ予算割り当ての有効性を示す。 また, 入射騒音による負の影響を軽減するため, 適応雑音調整ステップを付加することで, 試験精度に応じて付加雑音の体積を変化させるアルゴリズムを提案する。 提案手法は, トレーニング勾配における雑音摂動に基づくベンチマークdp-gan法と比較して, 高い品質のサンプルを生成できる一方で, プライバシレベルを向上できることを確認した。

Generative adversarial network (GAN) has attracted increasing attention recently owing to its impressive ability to generate realistic samples with high privacy protection. Without directly interactive with training examples, the generative model can be fully used to estimate the underlying distribution of an original dataset while the discriminative model can examine the quality of the generated samples by comparing the label values with the training examples. However, when GANs are applied on sensitive or private training examples, such as medical or financial records, it is still probable to divulge individuals' sensitive and private information. To mitigate this information leakage and construct a private GAN, in this work we propose a R\'enyi-differentially private-GAN (RDP-GAN), which achieves differential privacy (DP) in a GAN by carefully adding random noises on the value of the loss function during training. Moreover, we derive the analytical results of the total privacy loss under the subsampling method and cumulated iterations, which show its effectiveness on the privacy budget allocation. In addition, in order to mitigate the negative impact brought by the injecting noise, we enhance the proposed algorithm by adding an adaptive noise tuning step, which will change the volume of added noise according to the testing accuracy. Through extensive experimental results, we verify that the proposed algorithm can achieve a better privacy level while producing high-quality samples compared with a benchmark DP-GAN scheme based on noise perturbation on training gradients.
翻訳日:2022-11-13 13:20:08 公開日:2020-07-04
# 深層森林を用いた急性腎損傷の誘発における薬物・薬物・薬物・薬物の相互作用の解明

Discovering Drug-Drug and Drug-Disease Interactions Inducing Acute Kidney Injury Using Deep Rule Forests ( http://arxiv.org/abs/2007.02103v1 )

ライセンス: Link先を確認
Bowen Kuo, Yihuang Kang, Pinghsung Wu, Sheng-Tai Huang, Yajie Huang(参考訳) 急性腎臓損傷(AKI)の患者は死亡率、死亡率、長期的有害事象を増大させる。 そのため、早期のAKIの同定は腎機能の回復を改善し、合併症を減少させ、患者の生存をさらに改善させる可能性がある。 AKIのリスクを低減するためには、特定のリスク要因を制御し、目標とする予防戦略を開発することが重要である。 薬物-薬物相互作用と薬物-ジセアーゼ相互作用はakiにとって重要な問題である。 典型的な統計的アプローチは、薬物と薬物の相互作用の複雑さに対処できない。 本稿では,薬物使用量と疾患の指標を組み合わせた多層木モデルからルールを発見し,それらの相互作用を識別する新しい学習アルゴリズムであるDeep Rule Forests (DRF)を提案する。 その結果,AKIの発生にいくつかの疾患や薬物の使用が大きな影響を及ぼすことが明らかとなった。 実験の結果,DRFモデルは,予測精度とモデル解釈可能性の観点から,通常の木に基づく他の最先端アルゴリズムよりも比較的優れた性能を示した。

Patients with Acute Kidney Injury (AKI) increase mortality, morbidity, and long-term adverse events. Therefore, early identification of AKI may improve renal function recovery, decrease comorbidities, and further improve patients' survival. To control certain risk factors and develop targeted prevention strategies are important to reduce the risk of AKI. Drug-drug interactions and drug-disease interactions are critical issues for AKI. Typical statistical approaches cannot handle the complexity of drug-drug and drug-disease interactions. In this paper, we propose a novel learning algorithm, Deep Rule Forests (DRF), which discovers rules from multilayer tree models as the combinations of drug usages and disease indications to help identify such interactions. We found that several disease and drug usages are considered having significant impact on the occurrence of AKI. Our experimental results also show that the DRF model performs comparatively better than typical tree-based and other state-of-the-art algorithms in terms of prediction accuracy and model interpretability.
翻訳日:2022-11-13 13:19:43 公開日:2020-07-04
# 学習と制御のためのスケーラブルな微分物理学

Scalable Differentiable Physics for Learning and Control ( http://arxiv.org/abs/2007.02168v1 )

ライセンス: Link先を確認
Yi-Ling Qiao, Junbang Liang, Vladlen Koltun, Ming C. Lin(参考訳) 微分物理学は、物理的対象や環境を含む問題を学び制御するための強力なアプローチである。 注目すべき進歩はあったが、微分可能な物理ソルバの能力は限られている。 我々は、多数のオブジェクトとその相互作用をサポートする、微分可能な物理のためのスケーラブルなフレームワークを開発した。 任意の幾何学とトポロジを持つオブジェクトに対応するために、メッシュを表現として採用し、スケーラブルな微分可能な衝突処理のためにコンタクトのスパーシティを活用します。 局所領域での衝突は、シミュレーション対象の数が高い場合でも最適化変数の数を最小限に抑えるために解決される。 非線形制約による最適化の暗黙的微分をさらに促進する。 実験により、提案するフレームワークは、最近のパーティクルベース手法と比較して最大2桁のメモリと計算量を必要とすることが示された。 逆問題と制御シナリオに対するアプローチをさらに検証し、導関数のないベースラインとモデルなしベースラインを少なくとも一桁の精度で上回ります。

Differentiable physics is a powerful approach to learning and control problems that involve physical objects and environments. While notable progress has been made, the capabilities of differentiable physics solvers remain limited. We develop a scalable framework for differentiable physics that can support a large number of objects and their interactions. To accommodate objects with arbitrary geometry and topology, we adopt meshes as our representation and leverage the sparsity of contacts for scalable differentiable collision handling. Collisions are resolved in localized regions to minimize the number of optimization variables even when the number of simulated objects is high. We further accelerate implicit differentiation of optimization with nonlinear constraints. Experiments demonstrate that the presented framework requires up to two orders of magnitude less memory and computation in comparison to recent particle-based methods. We further validate the approach on inverse problems and control scenarios, where it outperforms derivative-free and model-free baselines by at least an order of magnitude.
翻訳日:2022-11-13 13:18:55 公開日:2020-07-04
# コロナウイルス知識グラフの1例

Coronavirus Knowledge Graph: A Case Study ( http://arxiv.org/abs/2007.10287v1 )

ライセンス: Link先を確認
Chongyan Chen, Islam Akef Ebeid, Yi Bu and Ying Ding(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの出現は、ここ数カ月で世界の医療と経済に大きな影響を与えた。 ウイルスの急速な普及は、パンデミックとその関連トピックに対処するバイオメディカル研究の急増につながった。 バイオメディカル研究コミュニティがcovid-19の治療法を理解し、最終的に発見するための重要な知識発見ツールの1つは、ナレッジグラフである。 cord-19データセットは、新型コロナウイルス(covid-19)と新型コロナウイルス(covid-19)のトピックスで最近公開されたフルテキストの研究記事のコレクションである。 ここでは、いくつかの機械学習、ディープラーニング、知識グラフ構築およびマイニング技術を使用して、pubmedデータセットとcord-19データセットから洞察を形式化し、抽出し、covid-19関連の専門家とバイオエンティティを特定する。 さらに, バイオメディカル研究者がパンデミックに対処するための知識発見手法を適用するための体系的な取り組みの一環として, 関連疾患, 薬物候補, 遺伝子, 遺伝子変異, 関連化合物を予測する技術を提案する。

The emergence of the novel COVID-19 pandemic has had a significant impact on global healthcare and the economy over the past few months. The virus's rapid widespread has led to a proliferation in biomedical research addressing the pandemic and its related topics. One of the essential Knowledge Discovery tools that could help the biomedical research community understand and eventually find a cure for COVID-19 are Knowledge Graphs. The CORD-19 dataset is a collection of publicly available full-text research articles that have been recently published on COVID-19 and coronavirus topics. Here, we use several Machine Learning, Deep Learning, and Knowledge Graph construction and mining techniques to formalize and extract insights from the PubMed dataset and the CORD-19 dataset to identify COVID-19 related experts and bio-entities. Besides, we suggest possible techniques to predict related diseases, drug candidates, gene, gene mutations, and related compounds as part of a systematic effort to apply Knowledge Discovery methods to help biomedical researchers tackle the pandemic.
翻訳日:2022-11-13 13:11:57 公開日:2020-07-04
# Lale: 一貫性のある自動機械学習

Lale: Consistent Automated Machine Learning ( http://arxiv.org/abs/2007.01977v1 )

ライセンス: Link先を確認
Guillaume Baudart, Martin Hirzel, Kiran Kate, Parikshit Ram, Avraham Shinnar(参考訳) 自動機械学習により、データサイエンティストはハイパーパラメータやアルゴリズム、さらにはパイプライントポロジの選択肢を探すことで、パイプラインの開発が容易になる。 残念なことに、自動機械学習ツールの構文は、手動の機械学習と、相互に、エラーチェックとは一貫性がない。 さらに、トポロジー探索や高階演算子のような高度な機能をサポートするツールも少ない。 本稿では,自動機械学習を一貫した方法で単純化・統一する,ハイレベルPythonインタフェースのライブラリであるLaleを紹介する。

Automated machine learning makes it easier for data scientists to develop pipelines by searching over possible choices for hyperparameters, algorithms, and even pipeline topologies. Unfortunately, the syntax for automated machine learning tools is inconsistent with manual machine learning, with each other, and with error checks. Furthermore, few tools support advanced features such as topology search or higher-order operators. This paper introduces Lale, a library of high-level Python interfaces that simplifies and unifies automated machine learning in a consistent way.
翻訳日:2022-11-13 13:11:40 公開日:2020-07-04
# 任意決定論的Tsetlin機械学習のための多段階有限状態オートマトン

A Novel Multi-Step Finite-State Automaton for Arbitrarily Deterministic Tsetlin Machine Learning ( http://arxiv.org/abs/2007.02114v1 )

ライセンス: Link先を確認
K. Darshana Abeyrathna, Ole-Christoffer Granmo, Rishad Shafik, Alex Yakovlev, Adrian Wheeldon, Jie Lei, Morten Goodwin(参考訳) ディープラーニングにおける高エネルギー消費とスケーラビリティの課題のため、エネルギー消費の制約への対処に研究の焦点を移す必要がある。 tsetlin machine (tms) は機械学習に対する最近のアプローチであり、いくつかのベンチマークで競合的に精度を競いながら、ニューラルネットワークに比べてエネルギー使用量を大幅に削減している。 しかし、TMはTsetlin Automata のチームをTMゲームの Nash Equilibrium に導くために、エネルギーコストのかかる乱数生成に大きく依存している。 本稿では,tm学習におけるtsetlinオートマトンを置き換え,決定性を高めるための有限状態学習オートマトンを提案する。 新しいautomattonは、サブパターンを強化するために、マルチステップ決定論的状態ジャンプを使用する。 同時に、$d$'th状態更新をスキップするためにコインをめくることで、ランダム化による多様化が保証される。 これにより$d$-parameterは、ランダム化の度合いを細かく制御できる。 例えば、$d=1$はすべての更新をランダムにし、$d=\infty$はオートマトンを完全に決定的にする。 我々の経験的結果は、全体として、決定論の実質的な程度だけが精度を低下させることを示している。 エネルギー面では、乱数生成はTMのスイッチングエネルギー消費を構成し、高いd$の値を持つ大きなデータセットに対して最大11mWの電力を節約する。 したがって、新しい$d$パラメータを使用して、エネルギー消費に対する精度をトレードオフし、低エネルギー機械学習を促進することができる。

Due to the high energy consumption and scalability challenges of deep learning, there is a critical need to shift research focus towards dealing with energy consumption constraints. Tsetlin Machines (TMs) are a recent approach to machine learning that has demonstrated significantly reduced energy usage compared to neural networks alike, while performing competitively accuracy-wise on several benchmarks. However, TMs rely heavily on energy-costly random number generation to stochastically guide a team of Tsetlin Automata to a Nash Equilibrium of the TM game. In this paper, we propose a novel finite-state learning automaton that can replace the Tsetlin Automata in TM learning, for increased determinism. The new automaton uses multi-step deterministic state jumps to reinforce sub-patterns. Simultaneously, flipping a coin to skip every $d$'th state update ensures diversification by randomization. The $d$-parameter thus allows the degree of randomization to be finely controlled. E.g., $d=1$ makes every update random and $d=\infty$ makes the automaton completely deterministic. Our empirical results show that, overall, only substantial degrees of determinism reduces accuracy. Energy-wise, random number generation constitutes switching energy consumption of the TM, saving up to 11 mW power for larger datasets with high $d$ values. We can thus use the new $d$-parameter to trade off accuracy against energy consumption, to facilitate low-energy machine learning.
翻訳日:2022-11-13 13:11:32 公開日:2020-07-04
# 限られた視野でチェスをする

Playing Chess with Limited Look Ahead ( http://arxiv.org/abs/2007.02130v1 )

ライセンス: Link先を確認
Arman Maesumi(参考訳) 長年にわたり、チェスのゲームに取り組む機械学習の手法が数多く見てきた。 しかし、これらの研究でよく見られる要素は、最適化されたルックフォワードアルゴリズムの必要性である。 この研究の特に興味は、高度な能力を持つが、前方の奥行きが制限されるチェスエンジンを作ることである。 ディープニューラルネットワークを,比較的単純なルックフォワードアルゴリズムを伴って静的評価関数として使用するようにトレーニングする。 静的評価関数は,先見的知識の類似性を符号化し,古典的評価関数に匹敵することを示した。 チェスエンジンの強度は,Stockfishの提案したものとの比較によって評価される。 我々のエンジンは、前景深度の厳格な制限にもかかわらず、サンプル位置の約$83\%で同等の強度の移動を推奨している。

We have seen numerous machine learning methods tackle the game of chess over the years. However, one common element in these works is the necessity of a finely optimized look ahead algorithm. The particular interest of this research lies with creating a chess engine that is highly capable, but restricted in its look ahead depth. We train a deep neural network to serve as a static evaluation function, which is accompanied by a relatively simple look ahead algorithm. We show that our static evaluation function has encoded some semblance of look ahead knowledge, and is comparable to classical evaluation functions. The strength of our chess engine is assessed by comparing its proposed moves against those proposed by Stockfish. We show that, despite strict restrictions on look ahead depth, our engine recommends moves of equal strength in roughly $83\%$ of our sample positions.
翻訳日:2022-11-13 13:11:10 公開日:2020-07-04
# 競合型連想分類器の構築

Building a Competitive Associative Classifier ( http://arxiv.org/abs/2007.01972v1 )

ライセンス: Link先を確認
Nitakshi Sood and Osmar Zaiane(参考訳) ディープラーニングの大きな成功により、他の機械学習パラダイムも座を奪わざるを得なくなった。 しかし、他のモデル、特にルールベースは、より読みやすく説明しやすく、ラベル付きデータが豊富でない場合にも競争力がある。 しかし、既存のルールベースの分類器の多くは、モデル可読性に影響を与える多くの分類規則の作成に苦しむ。 これにより分類精度が低下し、ノイズの少ない規則では分類に有用な情報が得られず、分類時間が長くなる。 本研究では, ノイズ, 冗長, 面白くないルールの多くを具現化し, 分類モデルをより正確かつ読みやすくする, 新規な2段階プルーニング戦略を用いたSigD2を提案する。 ニューラルネットワークやサポートベクタマシンなどの機械学習ベースの分類器とSigDirectをより競争力のあるものにするために,SigDirect分類器のアンサンブルにバッジとブーストを提案する。 提案アルゴリズムの結果はかなり有望であり,分類精度を損なうことなく,統計的に有意な分類規則の最小セットを得ることができる。 SigD2と強化されたSigDirect(ACboost)アンサンブルモデルは、分類精度だけでなく、ルールの数の観点からも、様々な最先端の分類器よりも優れています。

With the huge success of deep learning, other machine learning paradigms have had to take back seat. Yet other models, particularly rule-based, are more readable and explainable and can even be competitive when labelled data is not abundant. However, most of the existing rule-based classifiers suffer from the production of a large number of classification rules, affecting the model readability. This hampers the classification accuracy as noisy rules might not add any useful informationfor classification and also lead to longer classification time. In this study, we propose SigD2 which uses a novel, two-stage pruning strategy which prunes most of the noisy, redundant and uninteresting rules and makes the classification model more accurate and readable. To make SigDirect more competitive with the most prevalent but uninterpretable machine learning-based classifiers like neural networks and support vector machines, we propose bagging and boosting on the ensemble of the SigDirect classifier. The results of the proposed algorithms are quite promising and we are able to obtain a minimal set of statistically significant rules for classification without jeopardizing the classification accuracy. We use 15 UCI datasets and compare our approach with eight existing systems.The SigD2 and boosted SigDirect (ACboost) ensemble model outperform various state-of-the-art classifiers not only in terms of classification accuracy but also in terms of the number of rules.
翻訳日:2022-11-13 13:10:56 公開日:2020-07-04
# 関係データの表現のためのネスト部分空間アレンジメント

Nested Subspace Arrangement for Representation of Relational Data ( http://arxiv.org/abs/2007.02007v1 )

ライセンス: Link先を確認
Nozomi Hata, Shizuo Kaji, Akihiro Yoshida, Katsuki Fujisawa(参考訳) グラフや知識ベースデータなどの離散オブジェクトの適切な連続表現を得る研究は、機械学習の分野で多くの研究者によって行われている。 本研究では,表現学習のための包括的フレームワークnested subspace(nss)アレンジについて述べる。 既存の組込み手法をnssアレンジメントの特別な場合とみなすことができることを示す。 nss配置の概念に基づき,一般グラフの再現に特化した表現学習手法であるディスクアンカー配置(dancar)を実装した。 数値実験により、ダンカーは${\mathbb r}^{20}$にwordnetを組み込むことに成功し、リコンストラクションタスクのf1スコアは0.993であることがわかった。 DANCARはグラフの特徴を理解するのにも適している。

Studies on acquiring appropriate continuous representations of discrete objects, such as graphs and knowledge base data, have been conducted by many researchers in the field of machine learning. In this study, we introduce Nested SubSpace (NSS) arrangement, a comprehensive framework for representation learning. We show that existing embedding techniques can be regarded as special cases of the NSS arrangement. Based on the concept of the NSS arrangement, we implement a Disk-ANChor ARrangement (DANCAR), a representation learning method specialized to reproducing general graphs. Numerical experiments have shown that DANCAR has successfully embedded WordNet in ${\mathbb R}^{20}$ with an F1 score of 0.993 in the reconstruction task. DANCAR is also suitable for visualization in understanding the characteristics of graphs.
翻訳日:2022-11-13 13:10:31 公開日:2020-07-04
# 単純かつ深いグラフ畳み込みネットワーク

Simple and Deep Graph Convolutional Networks ( http://arxiv.org/abs/2007.02133v1 )

ライセンス: Link先を確認
Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding, Yaliang Li(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造化データに対する強力なディープラーニングアプローチである。 近年、GCNとその後の変種は、実世界のデータセット上で様々なアプリケーション領域で優れた性能を示している。 その成功にもかかわらず、現在のGCNモデルのほとんどは、オーバー・スムーシング問題のために浅くなっている。 本稿では,ディープグラフ畳み込みネットワークの設計と解析の問題について検討する。 本稿では,バニラGCNモデルの拡張であるGCNIIを提案する。 両手法が過度に平滑な問題を効果的に緩和する理論的および実証的な証拠を提供する。 実験の結果, 深部GCNIIモデルは, 各種半教師付きタスクや全教師付きタスクにおいて, 最先端の手法よりも優れていることがわかった。 コードはhttps://github.com/chennnm/gcniiで入手できる。

Graph convolutional networks (GCNs) are a powerful deep learning approach for graph-structured data. Recently, GCNs and subsequent variants have shown superior performance in various application areas on real-world datasets. Despite their success, most of the current GCN models are shallow, due to the {\em over-smoothing} problem. In this paper, we study the problem of designing and analyzing deep graph convolutional networks. We propose the GCNII, an extension of the vanilla GCN model with two simple yet effective techniques: {\em Initial residual} and {\em Identity mapping}. We provide theoretical and empirical evidence that the two techniques effectively relieves the problem of over-smoothing. Our experiments show that the deep GCNII model outperforms the state-of-the-art methods on various semi- and full-supervised tasks. Code is available at https://github.com/chennnM/GCNII .
翻訳日:2022-11-13 13:10:21 公開日:2020-07-04
# 一般用途による強化学習のための変分ポリシー勾配法

Variational Policy Gradient Method for Reinforcement Learning with General Utilities ( http://arxiv.org/abs/2007.02151v1 )

ライセンス: Link先を確認
Junyu Zhang, Alec Koppel, Amrit Singh Bedi, Csaba Szepesvari, and Mengdi Wang(参考訳) 近年,報酬の累積和を超える汎用的な目標を持つ強化学習システム(RL)が,制約問題や探索,先行経験に基づく行動など,注目を集めている。 本稿では,マルコフ決定問題における政策最適化について考察する。その目的は,上記の事例のいくつかを特殊事例として仮定した,状態行動占有度尺度の一般的な凹凸ユーティリティ関数である。 このような一般性はベルマン方程式を無効にする。 これは、動的プログラミングがもはや機能しないことを意味するので、直接ポリシー検索にフォーカスします。 累積的な報酬を持つ RL に対して利用可能なポリシーグラディエント定理 ( Policy Gradient Theorem \cite{sutton2000policy}) に類似して、一般ユーティリティを持つRL の変分ポリシーグラディエント定理(英語版)を導出し、実用関数のフェンシェル双対を含む確率的なサドル点問題の解としてパラメタライズされたポリシー勾配が得られることを証明した。 サンプルパスに基づくポリシー勾配を計算するための変分モンテカルロ勾配推定アルゴリズムを開発した。 最適化問題は非凸であるが, 変分政策勾配スキームは一般目的の最適政策にグローバルに収束することを示す。 また, 問題の隠れた凸性を利用して, 次数 $o(1/t)$ の収束率を確立し, 問題が隠れた強い凸性を認めると指数関数的に収束することを示す。 我々の分析は、累積報酬を伴う標準RL問題に適用され、その場合、我々の結果は利用可能な収束率を改善する。

In recent years, reinforcement learning (RL) systems with general goals beyond a cumulative sum of rewards have gained traction, such as in constrained problems, exploration, and acting upon prior experiences. In this paper, we consider policy optimization in Markov Decision Problems, where the objective is a general concave utility function of the state-action occupancy measure, which subsumes several of the aforementioned examples as special cases. Such generality invalidates the Bellman equation. As this means that dynamic programming no longer works, we focus on direct policy search. Analogously to the Policy Gradient Theorem \cite{sutton2000policy} available for RL with cumulative rewards, we derive a new Variational Policy Gradient Theorem for RL with general utilities, which establishes that the parametrized policy gradient may be obtained as the solution of a stochastic saddle point problem involving the Fenchel dual of the utility function. We develop a variational Monte Carlo gradient estimation algorithm to compute the policy gradient based on sample paths. We prove that the variational policy gradient scheme converges globally to the optimal policy for the general objective, though the optimization problem is nonconvex. We also establish its rate of convergence of the order $O(1/t)$ by exploiting the hidden convexity of the problem, and proves that it converges exponentially when the problem admits hidden strong convexity. Our analysis applies to the standard RL problem with cumulative rewards as a special case, in which case our result improves the available convergence rate.
翻訳日:2022-11-13 13:10:08 公開日:2020-07-04
# DNNロバスト性向上のための正規化間の接続について

On Connections between Regularizations for Improving DNN Robustness ( http://arxiv.org/abs/2007.02209v1 )

ライセンス: Link先を確認
Yiwen Guo and Long Chen and Yurong Chen and Changshui Zhang(参考訳) 本稿では,最近提案された,ディープニューラルネットワーク(dnn)の逆ロバスト性向上のための正規化項を理論的観点から解析する。 具体的には,入力勾配正則化,ジャコビアン正則化,曲率正則化,クロスリプシッツ汎関数など,いくつかの有効な手法間の接続について検討した。 画像分類における最も一般的なモデルの1つである一般的な線形アクティベーションと、他の機械学習アプリケーションのホストであるDNNについて検討する。 これらの規則化の不可欠な要素に光を当て、機能を再解釈しました。 我々の研究のレンズを通して、より原理的で効率的な正規化が近い将来発明される可能性がある。

This paper analyzes regularization terms proposed recently for improving the adversarial robustness of deep neural networks (DNNs), from a theoretical point of view. Specifically, we study possible connections between several effective methods, including input-gradient regularization, Jacobian regularization, curvature regularization, and a cross-Lipschitz functional. We investigate them on DNNs with general rectified linear activations, which constitute one of the most prevalent families of models for image classification and a host of other machine learning applications. We shed light on essential ingredients of these regularizations and re-interpret their functionality. Through the lens of our study, more principled and efficient regularizations can possibly be invented in the near future.
翻訳日:2022-11-13 13:03:10 公開日:2020-07-04
# 強化学習における正規化因子としての割引因子

Discount Factor as a Regularizer in Reinforcement Learning ( http://arxiv.org/abs/2007.02040v1 )

ライセンス: Link先を確認
Ron Amit, Ron Meir, Kamil Ciosek(参考訳) 強化学習(RL)タスクの特定には、通常割引係数によってモデル化される適切な計画の地平を選択する必要がある。 割引率の低いrlアルゴリズムを適用すれば、制限されたデータレジームのパフォーマンスを向上させるレギュレータとして機能することが知られている。 しかし、この正規化器の正確な性質は調査されていない。 この作業では、このギャップを埋めます。 時間差学習(TD)では,減算係数を用いた場合と,アルゴリズムの損失に対して明示的な正規化項を追加する場合の有意な等価性を示す。 等価性によって動機付けられたこの手法は、表や関数表現を用いて離散および連続領域における広範な実験による標準の$L_2$正規化と比較して経験的に研究する。 実験の結果, 正則化の有効性は, サイズ, 分布, 混合速度など, 利用可能なデータの性質と強く関係していることがわかった。

Specifying a Reinforcement Learning (RL) task involves choosing a suitable planning horizon, which is typically modeled by a discount factor. It is known that applying RL algorithms with a lower discount factor can act as a regularizer, improving performance in the limited data regime. Yet the exact nature of this regularizer has not been investigated. In this work, we fill in this gap. For several Temporal-Difference (TD) learning methods, we show an explicit equivalence between using a reduced discount factor and adding an explicit regularization term to the algorithm's loss. Motivated by the equivalence, we empirically study this technique compared to standard $L_2$ regularization by extensive experiments in discrete and continuous domains, using tabular and functional representations. Our experiments suggest the regularization effectiveness is strongly related to properties of the available data, such as size, distribution, and mixing rate.
翻訳日:2022-11-13 13:02:23 公開日:2020-07-04
# Neuro-Symbolic Generative Art : 予備研究

Neuro-Symbolic Generative Art: A Preliminary Study ( http://arxiv.org/abs/2007.02171v1 )

ライセンス: Link先を確認
Gunjan Aggarwal, Devi Parikh(参考訳) データ分布からサンプルを生成するために深層モデルが訓練されるニューラルと、アーティストが一次パラメータを設計し、自律システムがこれらの制約の中でサンプルを生成するシンボリックまたはアルゴリズムの2つのクラスがある。 本研究では,ニューロシンボリック・ジェネレーション・アートという新たなハイブリッドジャンルを提案する。 予備研究として,シンボリックアプローチを用いた生成的深層ニューラルネットワークの学習を行った。 我々は、被験者が最終人工物と、私たちの神経-記号的アプローチを用いて、それぞれ61%と82%の時間で象徴的アプローチよりも創造的であることを明らかにする。

There are two classes of generative art approaches: neural, where a deep model is trained to generate samples from a data distribution, and symbolic or algorithmic, where an artist designs the primary parameters and an autonomous system generates samples within these constraints. In this work, we propose a new hybrid genre: neuro-symbolic generative art. As a preliminary study, we train a generative deep neural network on samples from the symbolic approach. We demonstrate through human studies that subjects find the final artifacts and the creation process using our neuro-symbolic approach to be more creative than the symbolic approach 61% and 82% of the time respectively.
翻訳日:2022-11-13 13:01:57 公開日:2020-07-04
# dessilbi:差分包含経路による深層ネットワークの構造スパース性の検討

DessiLBI: Exploring Structural Sparsity of Deep Networks via Differential Inclusion Paths ( http://arxiv.org/abs/2007.02010v1 )

ライセンス: Link先を確認
Yanwei Fu, Chen Liu, Donghao Li, Xinwei Sun, Jinshan Zeng, Yuan Yao(参考訳) オーバーパラメータ化は、グローバルオプティマの最適化と予測誤差の低減の一般化の両方のメリットを享受するために、ニューラルネットワークのトレーニングにおいて、今日ではユビキタスである。 しかし、多くの実世界のアプリケーションで圧縮ネットワークが望まれており、小さなネットワークの直接訓練は局所的な最適化に閉じ込められる可能性がある。 本稿では, オーバーパラメータモデルから圧縮モデルへのプルーニングや蒸留ではなく, 逆スケール空間の微分包含に基づく新しいアプローチを提案する。 具体的には、単純なものから複雑なものまでのモデルのファミリーを生成し、一対のパラメータを結合して、完全な連結層と畳み込み層の重みに過度にパラメータ化された深層モデルと構造的疎結合性を同時に訓練する。 このような微分包含スキームは単純な離散化を持ち、Deep structurely splitting Linearized Bregman Iteration (DessiLBI) として提案されている。 実験的な証拠は、DessiLBIがベンチマークデータセット上で広く使用されているバックボーンの構造空間を探索する際の、競合最適化よりも同等で優れたパフォーマンスを実現していることを示している。 驚くべきことに、早期停止によってdessilbiは、完全に訓練された過剰パラメータモデルに匹敵するテスト精度を持つ効果的なスパース構造である「勝利のチケット」を早期に発表する。

Over-parameterization is ubiquitous nowadays in training neural networks to benefit both optimization in seeking global optima and generalization in reducing prediction error. However, compressive networks are desired in many real world applications and direct training of small networks may be trapped in local optima. In this paper, instead of pruning or distilling over-parameterized models to compressive ones, we propose a new approach based on differential inclusions of inverse scale spaces. Specifically, it generates a family of models from simple to complex ones that couples a pair of parameters to simultaneously train over-parameterized deep models and structural sparsity on weights of fully connected and convolutional layers. Such a differential inclusion scheme has a simple discretization, proposed as Deep structurally splitting Linearized Bregman Iteration (DessiLBI), whose global convergence analysis in deep learning is established that from any initializations, algorithmic iterations converge to a critical point of empirical risks. Experimental evidence shows that DessiLBI achieve comparable and even better performance than the competitive optimizers in exploring the structural sparsity of several widely used backbones on the benchmark datasets. Remarkably, with early stopping, DessiLBI unveils "winning tickets" in early epochs: the effective sparse structure with comparable test accuracy to fully trained over-parameterized models.
翻訳日:2022-11-13 13:00:57 公開日:2020-07-04