このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201228となっている論文です。

PDF登録状況(公開日: 20201228)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープラーニングを用いた非線形コルモゴロフ方程式の大次元解法:離散化スキームの数値比較

Solving non-linear Kolmogorov equations in large dimensions by using deep learning: a numerical comparison of discretization schemes ( http://arxiv.org/abs/2012.07747v2 )

ライセンス: Link先を確認
Nicolas Macris and Raffaele Marino(参考訳) 非線形偏微分コルモゴロフ方程式は、自然科学、工学、あるいはファイナンスにおいて、幅広い時間依存現象を記述するのに有用である。 例えば、物理系では、アレン・カーン方程式は相転移に関連するパターン形成を記述する。 金融学において、ブラック・スコレス方程式は、派生投資器の価格の進化を記述する。 このような現代的な応用は、古典的アプローチが有効でない高次元のレジームにおいてこれらの方程式を解く必要がある。 近年,E,Han,Jentzen [1][2]により,ディープラーニングに基づく興味深い新しいアプローチが導入された。 主なアイデアは、コルモゴロフ方程式の基礎となる離散確率微分方程式のサンプルから訓練された深いネットワークを構築することである。 このネットワークは、少なくとも空間領域全体の多項式複雑性を持つコルモゴロフ方程式の解を近似することができる。 このコントリビューションでは、確率微分方程式の異なる離散化スキームを用いてディープネットワークの変種を研究する。 ベンチマークの例を用いて,関連するネットワークの性能を比較することで,計算複雑性に影響を与えずに精度を向上させることができることを示す。

Non-linear partial differential Kolmogorov equations are successfully used to describe a wide range of time dependent phenomena, in natural sciences, engineering or even finance. For example, in physical systems, the Allen-Cahn equation describes pattern formation associated to phase transitions. In finance, instead, the Black-Scholes equation describes the evolution of the price of derivative investment instruments. Such modern applications often require to solve these equations in high-dimensional regimes in which classical approaches are ineffective. Recently, an interesting new approach based on deep learning has been introduced by E, Han, and Jentzen [1][2]. The main idea is to construct a deep network which is trained from the samples of discrete stochastic differential equations underlying Kolmogorov's equation. The network is able to approximate, numerically at least, the solutions of the Kolmogorov equation with polynomial complexity in whole spatial domains. In this contribution we study variants of the deep networks by using different discretizations schemes of the stochastic differential equation. We compare the performance of the associated networks, on benchmarked examples, and show that, for some discretization schemes, improvements in the accuracy are possible without affecting the observed computational complexity.
翻訳日:2021-05-16 01:46:03 公開日:2020-12-28
# sentinel-1合成開口レーダ画像と数値標高モデルを用いた水位推定

Water Level Estimation Using Sentinel-1 Synthetic Aperture Radar Imagery And Digital Elevation Models ( http://arxiv.org/abs/2012.07627v2 )

ライセンス: Link先を確認
Thai-Bao Duong-Nguyen, Thien-Nu Hoang, Phong Vo and Hoai-Bac Le(参考訳) 水力発電ダムと貯水池は、自然の水循環を再定義する主な要因である。 したがって、貯水池の水位モニタリングは、干ばつや洪水の予測と同様に、水資源の計画と管理において重要な役割を担っている。 この作業は伝統的に、メンテナンスコスト、アクセシビリティ、世界的なカバレッジに複数の欠点がある近くの水域にセンサーステーションを設置することで行われてきた。 これらの問題に対処するために、オブジェクトや領域に関する情報を接触することなく取得する科学として知られるリモートセンシングが、多くのアプリケーションで活発に研究されている。 本論文では,センチネル-1合成開口レーダ画像と数値標高モデルデータセットを用いた水位抽出手法を提案する。 実験の結果、このアルゴリズムは世界中の3つの貯水池で0.93mの低い平均誤差を達成し、広く適用される可能性を示し、さらに研究された。

Hydropower dams and reservoirs have been identified as the main factors redefining natural hydrological cycles. Therefore, monitoring water status in reservoirs plays a crucial role in planning and managing water resources, as well as forecasting drought and flood. This task has been traditionally done by installing sensor stations on the ground nearby water bodies, which has multiple disadvantages in maintenance cost, accessibility, and global coverage. And to cope with these problems, Remote Sensing, which is known as the science of obtaining information about objects or areas without making contact with them, has been actively studied for many applications. In this paper, we propose a novel water level extracting approach, which employs Sentinel-1 Synthetic Aperture Radar imagery and Digital Elevation Model data sets. Experiments show that the algorithm achieved a low average error of 0.93 meters over three reservoirs globally, proving its potential to be widely applied and furthermore studied.
翻訳日:2021-05-11 02:49:23 公開日:2020-12-28
# 連合学習のためのプライバシ保護型分散アグリゲーション

Privacy-preserving Decentralized Aggregation for Federated Learning ( http://arxiv.org/abs/2012.07183v2 )

ライセンス: Link先を確認
Beomyeol Jeon, S.M. Ferdous, Muntasir Raihan Rahman, Anwar Walid(参考訳) フェデレーション学習は、複数のリージョンにまたがる分散データを学習するための有望なフレームワークである。 このアプローチは、高価な集中トレーニングデータ集約コストを回避し、分散サイトがプライバシに敏感なデータを公開する必要がないため、プライバシを改善する。 本稿では,フェデレーション学習のためのプライバシ保護型分散集約プロトコルを開発する。 分散アグリゲーションプロトコルをALMM(Alternating Direction Method of Multiplier)で定式化し、そのプライバシーの弱点について検討する。 プライバシに差分プライバシーや準同型暗号を使用する先行業務とは異なり,各ラウンドの参加者間のコミュニケーションを制御し,プライバシリークを最小限に抑えるプロトコルを開発した。 正直な反逆者に対するプライバシーの保証を確立します。 また,コンビネートブロック設計理論に触発された通信パターンを構築するための効率的なアルゴリズムを提案する。 この新たなグループ通信パターン設計に基づくセキュアアグリゲーションプロトコルは,プライバシ保証付きフェデレーショントレーニングの効率的なアルゴリズムを実現する。 画像分類と次単語予測に関するフェデレーショントレーニングアルゴリズムを,9~15の分散サイトを用いたベンチマークデータセット上で評価した。 評価の結果,プライバシを保ちながら,標準集中型フェデレーション学習法と互換性があり,テスト精度の劣化は0.73%に過ぎなかった。

Federated learning is a promising framework for learning over decentralized data spanning multiple regions. This approach avoids expensive central training data aggregation cost and can improve privacy because distributed sites do not have to reveal privacy-sensitive data. In this paper, we develop a privacy-preserving decentralized aggregation protocol for federated learning. We formulate the distributed aggregation protocol with the Alternating Direction Method of Multiplier (ADMM) and examine its privacy weakness. Unlike prior work that use Differential Privacy or homomorphic encryption for privacy, we develop a protocol that controls communication among participants in each round of aggregation to minimize privacy leakage. We establish its privacy guarantee against an honest-but-curious adversary. We also propose an efficient algorithm to construct such a communication pattern, inspired by combinatorial block design theory. Our secure aggregation protocol based on this novel group communication pattern design leads to an efficient algorithm for federated training with privacy guarantees. We evaluate our federated training algorithm on image classification and next-word prediction applications over benchmark datasets with 9 and 15 distributed sites. Evaluation results show that our algorithm performs comparably to the standard centralized federated learning method while preserving privacy; the degradation in test accuracy is only up to 0.73%.
翻訳日:2021-05-09 12:39:06 公開日:2020-12-28
# 子どもの経営機能評価のためのタンデム歩行自動計測システム

Automated system to measure Tandem Gait to assess executive functions in children ( http://arxiv.org/abs/2012.08662v2 )

ライセンス: Link先を確認
Mohammad Zaki Zadeh, Ashwin Ramesh Babu, Ashish Jaiswal, Maria Kyrarini, Morris Bell, Fillia Makedon(参考訳) 近年、モバイル技術が普及し、コンピュータベースの認知テストが普及し、効率的になっている。 本研究では,子どもの歩行動作を分析し,運動機能の評価に焦点をあてる。 歩行分析のための自動アセスメントシステムを設計する研究は数多く行われているが、これらの取り組みの多くは体の動きを測定するために強迫性ウェアラブルセンサーを使用している。 我々は,学校や家庭環境において採用しやすいカメラのみを必要とするコンピュータビジョンに基づくアセスメントシステムを開発した。 データセットが作成され、27人の子供がテストを行います。 さらに、システムの精度を向上させるために、NTU-RGB+D 120データセットでディープラーニングベースモデルを事前訓練し、歩行データセットで微調整した。 その結果,76.61%の分類精度を達成し,子どものパフォーマンス評価の自動化に向けた提案作業の有効性を強調した。

As mobile technologies have become ubiquitous in recent years, computer-based cognitive tests have become more popular and efficient. In this work, we focus on assessing motor function in children by analyzing their gait movements. Although there has been a lot of research on designing automated assessment systems for gait analysis, most of these efforts use obtrusive wearable sensors for measuring body movements. We have devised a computer vision-based assessment system that only requires a camera which makes it easier to employ in school or home environments. A dataset has been created with 27 children performing the test. Furthermore in order to improve the accuracy of the system, a deep learning based model was pre-trained on NTU-RGB+D 120 dataset and then it was fine-tuned on our gait dataset. The results highlight the efficacy of proposed work for automating the assessment of children's performances by achieving 76.61% classification accuracy.
翻訳日:2021-05-07 05:18:11 公開日:2020-12-28
# (参考訳) 画像復元のためのメモリ効率の高い階層型ニューラルネットワーク探索 [全文訳有]

Memory-Efficient Hierarchical Neural Architecture Search for Image Restoration ( http://arxiv.org/abs/2012.13212v2 )

ライセンス: CC BY 4.0
Haokui Zhang, Ying Li, Chengrong Gong, Hao Chen, Zongwen Bai, Chunhua Shen(参考訳) 近年,高レベル視覚タスクにおいて,手作業で設計したアーキテクチャを上回っているニューラル・アーキテクチャ・サーチ(nas)アプローチに注目が集まっている。 そこで我々はNAS技術を活用し,低レベル画像復元作業のための効率的なネットワークアーキテクチャを設計する。 本稿では,メモリ効率の高い階層型NAS HiNAS(HiNAS)を提案する。 hinasは勾配に基づく検索戦略を採用し、内部検索空間と外部検索空間を含む柔軟な階層検索空間を構築し、それぞれセルアーキテクチャの設計とセル幅の決定を担当している。 内部探索空間に対して,レイヤワイドアーキテクチャ共有戦略(LWAS)を提案する。 外部探索空間に対しては,メモリを節約し,検索速度を大幅に高速化するセル共有戦略を提案する。 提案したHiNASはメモリと計算の効率が良い。 単一のgtx1080ti gpuで、bsd 500でデノイジングネットワークを探すのに1時間、div2kで超解像構造を探すのに3.5時間しかかからない。 実験結果から,HiNASが検出したアーキテクチャはパラメータが少なく,推論速度も高速であり,最先端の手法と比較して高い競争性能が得られた。

Recently, much attention has been spent on neural architecture search (NAS) approaches, which often outperform manually designed architectures on highlevel vision tasks. Inspired by this, we attempt to leverage NAS technique to automatically design efficient network architectures for low-level image restoration tasks. In this paper, we propose a memory-efficient hierarchical NAS HiNAS (HiNAS) and apply to two such tasks: image denoising and image super-resolution. HiNAS adopts gradient based search strategies and builds an flexible hierarchical search space, including inner search space and outer search space, which in charge of designing cell architectures and deciding cell widths, respectively. For inner search space, we propose layerwise architecture sharing strategy (LWAS), resulting in more flexible architectures and better performance. For outer search space, we propose cell sharing strategy to save memory, and considerably accelerate the search speed. The proposed HiNAS is both memory and computation efficient. With a single GTX1080Ti GPU, it takes only about 1 hour for searching for denoising network on BSD 500 and 3.5 hours for searching for the super-resolution structure on DIV2K. Experimental results show that the architectures found by HiNAS have fewer parameters and enjoy a faster inference speed, while achieving highly competitive performance compared with state-of-the-art methods.
翻訳日:2021-04-25 15:10:52 公開日:2020-12-28
# 私は魚、特にイルカが好き:対話モデリングにおける矛盾に対処する

I like fish, especially dolphins: Addressing Contradictions in Dialogue Modeling ( http://arxiv.org/abs/2012.13391v2 )

ライセンス: Link先を確認
Yixin Nie, Mary Williamson, Mohit Bansal, Douwe Kiela, Jason Weston(参考訳) 自然言語理解モデルが一般的な会話における一貫性をいかに捉えるかを定量化するために、DECODE(DialoguE Contradiction Detection Task)と、人間-人間-ロボットの相反する対話を含む新しい会話データセットを導入する。 次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。 その結果, (i) 新たに収集したデータセットは, 対話領域をカバーすることを目的とした既存のNLIデータよりも, 対話矛盾検出タスクの監視を行うのが効果的である。 また,我々の最善の矛盾検出モデルは,人間の判断とよく相関し,最先端のチャットボットの一貫性を自動評価し,改善する上で,その利用の証拠を提供する。

To quantify how well natural language understanding models can capture consistency in a general conversation, we introduce the DialoguE COntradiction DEtection task (DECODE) and a new conversational dataset containing both human-human and human-bot contradictory dialogues. We then compare a structured utterance-based approach of using pre-trained Transformer models for contradiction detection with the typical unstructured approach. Results reveal that: (i) our newly collected dataset is notably more effective at providing supervision for the dialogue contradiction detection task than existing NLI data including those aimed to cover the dialogue domain; (ii) the structured utterance-based approach is more robust and transferable on both analysis and out-of-distribution dialogues than its unstructured counterpart. We also show that our best contradiction detection model correlates well with human judgments and further provide evidence for its usage in both automatically evaluating and improving the consistency of state-of-the-art generative chatbots.
翻訳日:2021-04-25 08:28:35 公開日:2020-12-28
# VAEによる言語意味論の分離とある建築的選択

Disentangling semantics in language through VAEs and a certain architectural choice ( http://arxiv.org/abs/2012.13031v2 )

ライセンス: Link先を確認
Ghazi Felhi, Joseph Le Roux, Djam\'e Seddah(参考訳) 本稿では,意味コンテンツの単一抽出を行う文の異節表現を得るための教師なし手法を提案する。 修飾トランスフォーマーをビルディングブロックとして使用し、可変オートエンコーダを訓練して、文を階層的に構造化された潜在変数の固定数に変換する。 本研究では,各潜在変数が文の係り受け構造に及ぼす影響と,オープン情報抽出モデルによって得られる述語構造について検討した。 我々のモデルは、動詞、主語、直接オブジェクト、前置詞オブジェクトを我々が識別した潜在変数に分離することができる。 文中のこれらの要素は,対応する潜伏変数によって変化し,複数の文間でスワップすることで,予測される部分的セマンティックスワップが生じることを示す。

We present an unsupervised method to obtain disentangled representations of sentences that single out semantic content. Using modified Transformers as building blocks, we train a Variational Autoencoder to translate the sentence to a fixed number of hierarchically structured latent variables. We study the influence of each latent variable in generation on the dependency structure of sentences, and on the predicate structure it yields when passed through an Open Information Extraction model. Our model could separate verbs, subjects, direct objects, and prepositional objects into latent variables we identified. We show that varying the corresponding latent variables results in varying these elements in sentences, and that swapping them between couples of sentences leads to the expected partial semantic swap.
翻訳日:2021-04-25 08:25:20 公開日:2020-12-28
# ゼロアウト:モデル選択のための非クロスバリデーションアプローチ

Leave Zero Out: Towards a No-Cross-Validation Approach for Model Selection ( http://arxiv.org/abs/2012.13309v2 )

ライセンス: Link先を確認
Weikai Li, Chuanxing Geng, and Songcan Chen(参考訳) モデル選択の主要なワークホースとして、Cross Validation (CV)はその単純さと直感性のために実証的な成功を収めた。 しかし、そのユビキタスな役割にもかかわらず、CVはしばしば以下の悪名高いジレンマに陥る。 一方、小さなデータの場合、CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に悩まされる。 一方、大規模データの場合、CVはトレーニング手順が繰り返されているため、不寛容な時間の浪費など、非常に煩雑な傾向にある。 CVの直接的な野望は、与えられたデータセット全体をトレーニングにフル活用しながら、はるかに少ない計算コストでモデルを検証することである。 そこで本稿では,所定のデータを保持する代わりに,安価で理論的に保証された補助的/補助的検証を戦略的に導出する。 このような恥ずかしい単純な戦略は、与えられたデータセット全体のモデルを一度だけ訓練する必要があり、モデル選択をかなり効率的にする。 さらに,本提案手法は,学習過程における拡張性およびアウト・オブ・サンプル推定の両方の独立性から,幅広い学習環境に適している。 最後に,複数のデータセット,モデル,タスクを広範囲に評価することにより,提案手法の精度と計算効率を実証する。

As the main workhorse for model selection, Cross Validation (CV) has achieved an empirical success due to its simplicity and intuitiveness. However, despite its ubiquitous role, CV often falls into the following notorious dilemmas. On the one hand, for small data cases, CV suffers a conservatively biased estimation, since some part of the limited data has to hold out for validation. On the other hand, for large data cases, CV tends to be extremely cumbersome, e.g., intolerant time-consuming, due to the repeated training procedures. Naturally, a straightforward ambition for CV is to validate the models with far less computational cost, while making full use of the entire given data-set for training. Thus, instead of holding out the given data, a cheap and theoretically guaranteed auxiliary/augmented validation is derived strategically in this paper. Such an embarrassingly simple strategy only needs to train models on the entire given data-set once, making the model-selection considerably efficient. In addition, the proposed validation approach is suitable for a wide range of learning settings due to the independence of both augmentation and out-of-sample estimation on learning process. In the end, we demonstrate the accuracy and computational benefits of our proposed method by extensive evaluation on multiple data-sets, models and tasks.
翻訳日:2021-04-25 08:10:47 公開日:2020-12-28
# (参考訳) マルコフ決定プロセスのためのブラックウェルオンライン学習 [全文訳有]

Blackwell Online Learning for Markov Decision Processes ( http://arxiv.org/abs/2012.14043v1 )

ライセンス: CC BY 4.0
Tao Li, Guanze Peng, Quanyan Zhu(参考訳) 本研究は,オンライン最適化の観点からのマルコフ決定過程(mdp)の新しい解釈を提供する。 このようなオンライン最適化コンテキストでは、mdpのポリシーは決定変数と見なされ、対応する値関数は環境からの報酬フィードバックとして扱われる。 この解釈に基づいて,後悔の最小化,ブラックウェル接近可能性理論,MDPの学習理論のギャップを埋める,MDPによって誘導されるブラックウェルゲームを構築する。 具体的には,1)オフライン計画のためのblackwell値反復と,2)mdpにおけるオンライン学習のためのblackwell $q-$learningを提案する。 我々の理論的保証は数値実験によって裏付けられている。

This work provides a novel interpretation of Markov Decision Processes (MDP) from the online optimization viewpoint. In such an online optimization context, the policy of the MDP is viewed as the decision variable while the corresponding value function is treated as payoff feedback from the environment. Based on this interpretation, we construct a Blackwell game induced by MDP, which bridges the gap among regret minimization, Blackwell approachability theory, and learning theory for MDP. Specifically, from the approachability theory, we propose 1) Blackwell value iteration for offline planning and 2) Blackwell $Q-$learning for online learning in MDP, both of which are shown to converge to the optimal solution. Our theoretical guarantees are corroborated by numerical experiments.
翻訳日:2021-04-24 19:00:30 公開日:2020-12-28
# (参考訳) 不均一グラフ上の結合振動子の同期予測学習 [全文訳有]

Learning to predict synchronization of coupled oscillators on heterogeneous graphs ( http://arxiv.org/abs/2012.14048v1 )

ライセンス: CC BY 4.0
Hardeep Bassi, Richard Yim, Rohith Kodukula, Joshua Vendrow, Cherlin Zhu, Hanbaek Lyu(参考訳) 任意のグラフ上の結合発振器の系が、ある期間のシステムの軌道と共に与えられると仮定する。 システムが最終的に同期するかどうか予測できますか? これは、特に基礎となるグラフの構造が非常に異なる場合に、重要なが分析的に難解な問題である。 本研究では,初期ダイナミクスと組んだグラフ群を「同期化」または「非同期化」という2つのクラスに分類する問題として,「同期化予測のための学習」(l2psync)と呼ぶ,まったく異なるアプローチを採用する。 我々の結論は、不均一なグラフ集合上での同期と非同期のダイナミクスの十分なデータセットで訓練された場合、多くのバイナリ分類アルゴリズムが驚くべき精度で未知のシステムの将来を予測できるということである。 また,複数のランダムサブグラフから観測されるダイナミクスのトレーニングにより,提案手法を大規模グラフにスケールアップする「センスブル予測」アルゴリズムを提案する。 多くの場合、ダイナミクスの最初の数回のイテレーションは、グラフの静的な特徴よりもはるかに重要であることが分かりました。 連続・離散結合発振器の3つのモデル - 倉本モデル, ホタルセルオートマトン, グリーンバーグ・ハスティングスモデル - について本手法を実証する。

Suppose we are given a system of coupled oscillators on an arbitrary graph along with the trajectory of the system during some period. Can we predict whether the system will eventually synchronize? This is an important but analytically intractable question especially when the structure of the underlying graph is highly varied. In this work, we take an entirely different approach that we call "learning to predict synchronization" ; (L2PSync), by viewing it as a classification problem for sets of graphs paired with initial dynamics into two classes: `synchronizing' or `non-synchronizing&#x 27;. Our conclusion is that, once trained on large enough datasets of synchronizing and non-synchronizing dynamics on heterogeneous sets of graphs, a number of binary classification algorithms can successfully predict the future of an unknown system with surprising accuracy. We also propose an "ensemble prediction" algorithm that scales up our method to large graphs by training on dynamics observed from multiple random subgraphs. We find that in many instances, the first few iterations of the dynamics are far more important than the static features of the graphs. We demonstrate our method on three models of continuous and discrete coupled oscillators -- The Kuramoto model, the Firefly Cellular Automata, and the Greenberg-Hastings model.
翻訳日:2021-04-24 18:43:43 公開日:2020-12-28
# (参考訳) 医療データの多種分類における畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Networks in Multi-Class Classification of Medical Data ( http://arxiv.org/abs/2012.14059v1 )

ライセンス: CC BY 4.0
YuanZheng Hu, Marina Sokolova(参考訳) 畳み込みニューラルネットワーク(CNN)の大規模医療データセットの多分類分類への応用について報告する。 我々は、CNNモデルとデータ前処理の変化が分類結果に与える影響を詳細に論じる。 最後に,深層学習(CNN)と浅層学習(Gradient Boosting)の両方からなるアンサンブルモデルを導入する。 本手法は,本研究で達成した最高3クラス分類精度である64.93の精度を実現する。 以上の結果から,CNNとアンサンブルは精度よりも高いリコールが得られることがわかった。 最も高いリコールは68.87で、最高精度は65.04である。

We report applications of Convolutional Neural Networks (CNN) to multi-classification classification of a large medical data set. We discuss in detail how changes in the CNN model and the data pre-processing impact the classification results. In the end, we introduce an ensemble model that consists of both deep learning (CNN) and shallow learning models (Gradient Boosting). The method achieves Accuracy of 64.93, the highest three-class classification accuracy we achieved in this study. Our results also show that CNN and the ensemble consistently obtain a higher Recall than Precision. The highest Recall is 68.87, whereas the highest Precision is 65.04.
翻訳日:2021-04-24 18:25:27 公開日:2020-12-28
# (参考訳) 分子設計のための深層進化学習

Deep Evolutionary Learning for Molecular Design ( http://arxiv.org/abs/2102.01011v1 )

ライセンス: CC BY 4.0
Yifeng Li, Hsu Kiang Ooi, Alain Tchagang(参考訳) 本稿では,分子設計のための断片ベース深層生成モデルと多目的進化計算を統合した深層進化学習(DEL)プロセスを提案する。 本手法により,(1)構造空間ではなく潜在空間における進化操作により,新しい分子構造を創り出すことができ,(2)新たに生成した高品質試料を用いた生成モデルの微調整が可能となった。 このように、DELはサンプル人口と生成モデル学習の両方を改善するデータモデル共進化の概念を実装している。 2つの公開データセットに関する実験は、delによって得られたサンプル集団が特性分布を改善し、多目的ベイズ最適化アルゴリズムによって生成されたサンプルを支配していることを示している。

In this paper, we propose a deep evolutionary learning (DEL) process that integrates fragment-based deep generative model and multi-objective evolutionary computation for molecular design. Our approach enables (1) evolutionary operations in the latent space of the generative model, rather than the structural space, to generate novel promising molecular structures for the next evolutionary generation, and (2) generative model fine-tuning using newly generated high-quality samples. Thus, DEL implements a data-model co-evolution concept which improves both sample population and generative model learning. Experiments on two public datasets indicate that sample population obtained by DEL exhibits improved property distributions, and dominates samples generated by multi-objective Bayesian optimization algorithms.
翻訳日:2021-04-24 18:03:10 公開日:2020-12-28
# (参考訳) Pivot through English: 文書検索なしで多言語質問に確実に答える [全文訳有]

Pivot Through English: Reliably Answering Multilingual Questions without Document Retrieval ( http://arxiv.org/abs/2012.14094v1 )

ライセンス: CC BY 4.0
Ivan Montero, Shayne Longpre, Ni Lao, Andrew J. Frank, Christopher DuBois(参考訳) 低資源言語 (LRL) における解答の解答法は英語よりかなり遅れている。 それらは非英語の文書検索の欠点に苦しむだけでなく、タスクや翻訳の言語固有の監督に依存しています。 利用可能なリソースに対してより現実的なタスク設定を定式化し、文書検索を回避し、知識を英語から低リソース言語に確実に伝達する。 強固な英語質問応答モデルまたはデータベースを仮定して、英語をピボットする手法を比較し分析する: 外部クエリを英語にマップし、その後、英語回答を対象言語回答に戻す。 このタスク設定内では、再ランク付き英語トレーニングセットのセマンティック類似性検索に類似したReranked Multilingual Maximal Inner Product Search (RM-MIPS)を提案し、XQuADでは2.7%、MKQAでは6.2%で最強のベースラインを上回ります。 分析は、低リソース言語、広範囲なイントラクタデータ、クエリ分散のミスアライメントといった、挑戦的な設定における最先端の代替手段に対するこの戦略の有効性を示す。 検索を回避して,本手法は,対象言語で追加のトレーニングデータを必要とせずに,ほぼすべての言語に迅速な応答生成を提供する。

Existing methods for open-retrieval question answering in lower resource languages (LRLs) lag significantly behind English. They not only suffer from the shortcomings of non-English document retrieval, but are reliant on language-specific supervision for either the task or translation. We formulate a task setup more realistic to available resources, that circumvents document retrieval to reliably transfer knowledge from English to lower resource languages. Assuming a strong English question answering model or database, we compare and analyze methods that pivot through English: to map foreign queries to English and then English answers back to target language answers. Within this task setup we propose Reranked Multilingual Maximal Inner Product Search (RM-MIPS), akin to semantic similarity retrieval over the English training set with reranking, which outperforms the strongest baselines by 2.7% on XQuAD and 6.2% on MKQA. Analysis demonstrates the particular efficacy of this strategy over state-of-the-art alternatives in challenging settings: low-resource languages, with extensive distractor data and query distribution misalignment. Circumventing retrieval, our analysis shows this approach offers rapid answer generation to almost any language off-the-shelf, without the need for any additional training data in the target language.
翻訳日:2021-04-24 18:02:01 公開日:2020-12-28
# (参考訳) リスクに敏感なdeep rl: 分散制約されたアクター-クリティックはグローバルに最適なポリシーを見つける

Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy ( http://arxiv.org/abs/2012.14098v1 )

ライセンス: CC BY 4.0
Han Zhong, Ethan X. Fang, Zhuoran Yang, Zhaoran Wang(参考訳) 深層強化学習は様々なアプリケーションで大きな成功を収めてきたが、既存の作品の多くは、総リターンの期待値の最大化にのみ焦点を合わせ、本質的な確率性を無視している。 このような確率性はアレエータ的不確実性としても知られ、リスクの概念と密接に関連している。 本研究では,分散リスク基準を用いて平均報酬設定下で,リスクに敏感な深層強化学習を初めて研究する。 特に,長期平均報酬の期待値を最大化する政策を,平均報酬の長期分散がしきい値に上限づけられているという制約を条件として,目標とする分散制約付き政策最適化問題に焦点をあてる。 ラグランジアンとフェンシェルの双対性を利用して、元の問題を制約のないサドルポイントポリシー最適化問題に変換し、ポリシー、ラグランジュ乗算器、フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。 値関数とポリシ関数が多層オーバーパラメータ化ニューラルネットワークで表される場合、アクター・クリティカルなアルゴリズムは、サブ線形レートでグローバルに最適なポリシを求める一連のポリシーを生成することを証明します。

While deep reinforcement learning has achieved tremendous successes in various applications, most existing works only focus on maximizing the expected value of total return and thus ignore its inherent stochasticity. Such stochasticity is also known as the aleatoric uncertainty and is closely related to the notion of risk. In this work, we make the first attempt to study risk-sensitive deep reinforcement learning under the average reward setting with the variance risk criteria. In particular, we focus on a variance-constrained policy optimization problem where the goal is to find a policy that maximizes the expected value of the long-run average reward, subject to a constraint that the long-run variance of the average reward is upper bounded by a threshold. Utilizing Lagrangian and Fenchel dualities, we transform the original problem into an unconstrained saddle-point policy optimization problem, and propose an actor-critic algorithm that iteratively and efficiently updates the policy, the Lagrange multiplier, and the Fenchel dual variable. When both the value and policy functions are represented by multi-layer overparameterized neural networks, we prove that our actor-critic algorithm generates a sequence of policies that finds a globally optimal policy at a sublinear rate.
翻訳日:2021-04-24 17:45:24 公開日:2020-12-28
# (参考訳) 新型コロナウイルス画像の診断・診断 : 課題, 機会, 応用 [全文訳有]

Diagnosis/Prognosis of COVID-19 Images: Challenges, Opportunities, and Applications ( http://arxiv.org/abs/2012.14106v1 )

ライセンス: CC BY 4.0
Arash Mohammadi, Yingxu Wang, Nastaran Enshaei, Parnian Afshar, Farnoosh Naderkhani, Anastasia Oikonomou, Moezedin Javad Rafiee, Helder C. R. Oliveira, Svetlana Yanushkevich, and Konstantinos N. Plataniotis(参考訳) 新型コロナウイルス(covid-19)は、われわれが2020年に知っていたように急速に世界を変えた。 これは一般には解析疫学や特定の信号処理理論に対する最も先行しない挑戦となる。 このパンデミックを克服し、将来に備えるための効率的な処理/学習モデルを開発することが重要である。 この点において、医療画像はcovid-19の管理において重要な役割を担っている。 しかし、人間中心の医療画像の解釈は退屈であり、主観的である。 この結果、医学画像の分析と解釈のためのRadiomicsモデルの開発への関心が高まった。 信号処理(SP)とディープラーニング(DL)モデルは、診断・予後、重症度評価、治療反応、および新型コロナウイルス患者のモニタリングのための堅牢な放射能ソリューションの開発を支援する。 本稿では、新型コロナウイルスの診断(スクリーニング/モニタリング)と予後(アウトカム予測と重症度評価)のためのsp/dl-empoweredモデルの開発の現状、課題、機会について概説する。 より具体的には、この記事は、COVID-19の分析疫学と超信号処理の理論的枠組みに関する最新の開発から始まる。 その後、covid-19のイメージングモダリティと放射線学的特徴について論じる。 次に、sl/dlに基づくcovid-19感染の解析に関する放射線モデルについて、covid-19病変の分節化、アウトカム予測の予測モデル、重症度評価、診断/分類モデルという4つの領域について述べる。 最後に、オープンな問題と機会を詳細に示す。

The novel Coronavirus disease, COVID-19, has rapidly and abruptly changed the world as we knew in 2020. It becomes the most unprecedent challenge to analytic epidemiology in general and signal processing theories in specific. Given its high contingency nature and adverse effects across the world, it is important to develop efficient processing/learning models to overcome this pandemic and be prepared for potential future ones. In this regard, medical imaging plays an important role for the management of COVID-19. Human-centered interpretation of medical images is, however, tedious and can be subjective. This has resulted in a surge of interest to develop Radiomics models for analysis and interpretation of medical images. Signal Processing (SP) and Deep Learning (DL) models can assist in development of robust Radiomics solutions for diagnosis/prognosis, severity assessment, treatment response, and monitoring of COVID-19 patients. In this article, we aim to present an overview of the current state, challenges, and opportunities of developing SP/DL-empowered models for diagnosis (screening/monitorin g) and prognosis (outcome prediction and severity assessment) of COVID-19 infection. More specifically, the article starts by elaborating the latest development on the theoretical framework of analytic epidemiology and hypersignal processing for COVID-19. Afterwards, imaging modalities and Radiological characteristics of COVID-19 are discussed. SL/DL-based Radiomic models specific to the analysis of COVID-19 infection are then described covering the following four domains: Segmentation of COVID-19 lesions; Predictive models for outcome prediction; Severity assessment, and; Diagnosis/classifica tion models. Finally, open problems and opportunities are presented in detail.
翻訳日:2021-04-24 17:44:17 公開日:2020-12-28
# (参考訳) セマンティクスセグメンテーションのスペクトル解析 : 特徴の切り込みと弱いアノテーションへの応用 [全文訳有]

Spectral Analysis for Semantic Segmentation with Applications on Feature Truncation and Weak Annotation ( http://arxiv.org/abs/2012.14123v1 )

ライセンス: CC BY 4.0
Li-Wei Chen, Wei-Chen Chiu, Chin-Tien Wu(参考訳) セマンティックセグメンテーションのための現在のニューラルネットワークは、高密度マップの計算コストを軽減するために、画像のダウンサンプルグリッド上のピクセルワイズセマンティクスを予測する。 しかし、結果のセグメンテーションマップの精度は、特に物体の境界付近の領域で低下することがある。 本稿では, ダウンサンプリンググリッドのサンプリング効率について, より深く検討する。 周波数領域におけるネットワークバック伝搬過程を解析するスペクトル解析を適用することで、クロスエントロピーは、主にセグメンテーションマップの低周波成分とCNNの特徴の成分によって寄与されることが分かる。 ネットワーク性能は、ダウンサンプルグリッドの解像度がカットオフ周波数を満たしている限り維持される。 このような発見により、cnnの機能サイズを制限し、関連する高周波成分を除去する、単純かつ効果的な機能切断法が提案される。 この方法は計算コストを削減できるだけでなく,セマンティックセグメンテーションネットワークの性能も維持できる。 さらに、この手法を典型的なネットワークプルーニング手法とシームレスに統合することで、さらなるモデル削減が可能となる。 一方,セグメンテーションマップの低周波情報を取り込み,収集が容易な意味セグメンテーションのためのブロック方向の弱いアノテーションを従業員に提供する。 提案手法を用いることで,ブロックワイズアノテーションと特徴トランケーション手法の有効性を容易に推定できる。

The current neural networks for semantic segmentation usually predict the pixel-wise semantics on the down-sampled grid of images to alleviate the computational cost for dense maps. However, the accuracy of resultant segmentation maps may also be down graded particularly in the regions near object boundaries. In this paper, we advance to have a deeper investigation on the sampling efficiency of the down-sampled grid. By applying the spectral analysis that analyze on the network back propagation process in frequency domain, we discover that cross-entropy is mainly contributed by the low-frequency components of segmentation maps, as well as that of the feature in CNNs. The network performance maintains as long as the resolution of the down sampled grid meets the cut-off frequency. Such finding leads us to propose a simple yet effective feature truncation method that limits the feature size in CNNs and removes the associated high-frequency components. This method can not only reduce the computational cost but also maintain the performance of semantic segmentation networks. Moreover, one can seamlessly integrate this method with the typical network pruning approaches for further model reduction. On the other hand, we propose to employee a block-wise weak annotation for semantic segmentation that captures the low-frequency information of the segmentation map and is easy to collect. Using the proposed analysis scheme, one can easily estimate the efficacy of the block-wise annotation and the feature truncation method.
翻訳日:2021-04-24 16:24:14 公開日:2020-12-28
# (参考訳) biレベル特徴冗長性低減による教師なしドメイン適応の改善 [全文訳有]

Improving Unsupervised Domain Adaptation by Reducing Bi-level Feature Redundancy ( http://arxiv.org/abs/2012.15732v1 )

ライセンス: CC BY 4.0
Mengzhu Wang, Xiang Zhang, Long Lan, Wei Wang, Huibin Tan, Zhigang Luo(参考訳) 特徴冗長性の低減はディープラーニングモデルの精度向上に有効な効果を示しており、教師なしドメイン適応(UDA)モデルにも不可欠である。 しかし、UDA分野における最近の取り組みはこの点を無視している。 さらに、UDAから独立してこれを実現できる主要なスキームは、純粋に単一のドメインを含むため、クロスドメインタスクには有効ではないかもしれない。 本稿では,UDAを両面的に改善する上で,特徴冗長性を低減することの重要性を強調した。 第1のレベルでは、sequel domain-invarianceにおける機能冗長性の副作用を緩和しながら、特定のドメイン情報を保存しながら、転送可能なdecorrelated normalizationモジュールでコンパクトなドメイン固有の機能を保証する。 第2のレベルでは、ドメイン共有表現によって生じるドメイン不変の特徴冗長性は、より良い一般化のために代替ブランド直交によってさらに緩和される。 これら2つの新しい側面は、BNベースのバックボーンニューラルネットワークに簡単に接続できる。 具体的には、単にresnet50に適用するだけで、5つの人気のあるベンチマークで最先端のパフォーマンスを達成できます。 私たちのコードはhttps://github.com/d reamkily/gudaで入手できる。

Reducing feature redundancy has shown beneficial effects for improving the accuracy of deep learning models, thus it is also indispensable for the models of unsupervised domain adaptation (UDA). Nevertheless, most recent efforts in the field of UDA ignores this point. Moreover, main schemes realizing this in general independent of UDA purely involve a single domain, thus might not be effective for cross-domain tasks. In this paper, we emphasize the significance of reducing feature redundancy for improving UDA in a bi-level way. For the first level, we try to ensure compact domain-specific features with a transferable decorrelated normalization module, which preserves specific domain information whilst easing the side effect of feature redundancy on the sequel domain-invariance. In the second level, domain-invariant feature redundancy caused by domain-shared representation is further mitigated via an alternative brand orthogonality for better generalization. These two novel aspects can be easily plugged into any BN-based backbone neural networks. Specifically, simply applying them to ResNet50 has achieved competitive performance to the state-of-the-arts on five popular benchmarks. Our code will be available at https://github.com/d reamkily/gUDA.
翻訳日:2021-04-20 15:17:38 公開日:2020-12-28
# (参考訳) 深層学習による高度地図再構成によるカラーファウンダス画像上のマキュラの解析 [全文訳有]

Analysis of Macula on Color Fundus Images Using Heightmap Reconstruction Through Deep Learning ( http://arxiv.org/abs/2012.14140v1 )

ライセンス: CC BY 4.0
Peyman Tahghighi, Reza A.Zoroofi, Sare Safi, Alireza Ramezani(参考訳) 網膜画像に基づく診断には、しばしば3次元構造の明確な理解が必要であるが、撮像された画像の2次元的な性質のため、その情報は推測できない。 しかし, 3次元再構成法を用いて, 眼底画像から黄斑領域の高さ情報を復元し, 黄斑疾患の診断・スクリーニングに役立てることができる。 近年の手法ではシェーディング情報をハイトマップ予測に用いているが、その出力は近くのピクセル間の依存性を無視し、シェーディング情報のみを利用するため正確ではなかった。 さらに、他の方法は、実際には利用できない複数の網膜の画像の可用性に依存していた。 本稿では,条件付き生成型adversarial network (cgans) と深い教師付きネットワークの成功に動機づけられ,カラーファンデース画像上のmaculaの高さ情報を再構築するために,段階的な改良と深層監視を用いて,出力の詳細と品質を向上させる新しいジェネレータのアーキテクチャを提案する。 独自のデータセットで比較した結果,提案手法は,画像翻訳や医用画像翻訳において最先端の手法のすべてに勝っていることがわかった。 また,提案手法が眼科医に診断のための追加情報を提供できることも示唆された。

For medical diagnosis based on retinal images, a clear understanding of 3D structure is often required but due to the 2D nature of images captured, we cannot infer that information. However, by utilizing 3D reconstruction methods, we can recover the height information of the macula area on a fundus image which can be helpful for diagnosis and screening of macular disorders. Recent approaches have used shading information for heightmap prediction but their output was not accurate since they ignored the dependency between nearby pixels and only utilized shading information. Additionally, other methods were dependent on the availability of more than one image of the retina which is not available in practice. In this paper, motivated by the success of Conditional Generative Adversarial Networks(cGANs) and deeply supervised networks, we propose a novel architecture for the generator which enhances the details and the quality of output by progressive refinement and the use of deep supervision to reconstruct the height information of macula on a color fundus image. Comparisons on our own dataset illustrate that the proposed method outperforms all of the state-of-the-art methods in image translation and medical image translation on this particular task. Additionally, perceptual studies also indicate that the proposed method can provide additional information for ophthalmologists for diagnosis.
翻訳日:2021-04-20 13:24:53 公開日:2020-12-28
# (参考訳) Google Earth Engine対応Pythonによる人為的パレオ・ランドスケープの特徴の同定

A Google Earth Engine-enabled Python approach to improve identification of anthropogenic palaeo-landscape features ( http://arxiv.org/abs/2012.14180v1 )

ライセンス: CC BY 4.0
Filippo Brandolini, Guillem Domingo Ribas, Andrea Zerboni, Sam Turner(参考訳) 近年、景観の持続可能な発展の必要性が重要なテーマとなっている。 現在の手法は、景観遺産に対する全体論的アプローチを採用し、補完的な景観管理戦略を促進するための学際対話を促進する。 自然と文化の景観遺産の社会経済的価値が世界的に認知されるようになり、リモートセンシングツールは風景遺産の記録と管理を促進するためにますます使われている。 衛星リモートセンシング技術はランドスケープ研究に大きな改善をもたらした。 Google Earth Engineのクラウドベースのプラットフォームが出現したことで、LandsatやCopernicus Sentinelといった衛星画像の迅速な探索と処理が可能になった。 本稿では,古河流域の地形の識別におけるセンチネル-2衛星データの利用について,完新世中期以降の人的搾取の特徴から,po平野で評価した。 スペクトル指数とスペクトル分解分析と共に埋没水文・人為的特徴を検出するための衛星画像の可能性を調べるために、多時期的手法が採用されている。 この研究は、ランドスケープ研究におけるGEE Python APIの最初の応用の1つである。 ここで提案された完全なFOSS-クラウドプロトコルは、Google Colabで開発されたPythonのスクリプトで構成されている。

The necessity of sustainable development for landscapes has emerged as an important theme in recent decades. Current methods take a holistic approach to landscape heritage and promote an interdisciplinary dialogue to facilitate complementary landscape management strategies. With the socio-economic values of the natural and cultural landscape heritage increasingly recognised worldwide, remote sensing tools are being used more and more to facilitate the recording and management of landscape heritage. Satellite remote sensing technologies have enabled significant improvements in landscape research. The advent of the cloud-based platform of Google Earth Engine has allowed the rapid exploration and processing of satellite imagery such as the Landsat and Copernicus Sentinel datasets. In this paper, the use of Sentinel-2 satellite data in the identification of palaeo-riverscape features has been assessed in the Po Plain, selected because it is characterized by human exploitation since the Mid-Holocene. A multi-temporal approach has been adopted to investigate the potential of satellite imagery to detect buried hydrological and anthropogenic features along with Spectral Index and Spectral Decomposition analysis. This research represents one of the first applications of the GEE Python API in landscape studies. The complete FOSS-cloud protocol proposed here consists of a Python code script developed in Google Colab which could be simply adapted and replicated in different areas of the world
翻訳日:2021-04-20 13:10:28 公開日:2020-12-28
# (参考訳) 大きなインデックスサイズに対する高密度低次元情報検索の呪い [全文訳有]

The Curse of Dense Low-Dimensional Information Retrieval for Large Index Sizes ( http://arxiv.org/abs/2012.14210v1 )

ライセンス: CC BY-SA 4.0
Nils Reimers and Iryna Gurevych(参考訳) 近年,密集した低次元表現を用いた情報検索が普及し,BM25のような従来のスパース表現に優れていた。 しかし、密度表現が大きなインデックスサイズでどのように振る舞うか、以前の研究は調査されなかった。 指数の大きさを増加させるため,密度表現の性能はスパース表現よりも速く低下することを示す。 極端なケースでは、あるインデックスサイズでスパース表現が密接な表現よりも優れるティッピングポイントに繋がることもある。 この挙動は表現の次元の数(次元が小さいほど、偽陽性の確率が高くなる)と強く結びついていることを示している。 無関係な書類を返します

Information Retrieval using dense low-dimensional representations recently became popular and showed out-performance to traditional sparse-representatio ns like BM25. However, no previous work investigated how dense representations perform with large index sizes. We show theoretically and empirically that the performance for dense representations decreases quicker than sparse representations for increasing index sizes. In extreme cases, this can even lead to a tipping point where at a certain index size sparse representations outperform dense representations. We show that this behavior is tightly connected to the number of dimensions of the representations: The lower the dimension, the higher the chance for false positives, i.e. returning irrelevant documents.
翻訳日:2021-04-20 13:08:40 公開日:2020-12-28
# (参考訳) フェイクニュース(オンライン偽情報)検出のための高度な機械学習技術:システムマッピング研究 [全文訳有]

Advanced Machine Learning Techniques for Fake News (Online Disinformation) Detection: A Systematic Mapping Study ( http://arxiv.org/abs/2101.01142v1 )

ライセンス: CC BY 4.0
Michal Choras, Konstantinos Demestichas, Agata Gielczyk, Alvaro Herrero, Pawel Ksieniewicz, Konstantina Remoundou, Daniel Urda, Michal Wozniak(参考訳) フェイクニュースは今や社会にとって大きな問題となり、偽情報と戦う人々にとって大きな課題となった。 この現象は、民主的な選挙、個人や組織の評判を悩ませ、米国やブラジルでのCOVID-19パンデミックなど、市民に悪影響を及ぼした。 したがって、高度な機械学習(ML)手法を用いてこの現象に対処する効果的なツールを開発することは、大きな課題となる。 下記の論文では、偽情報との戦いにおける知的ツールの適用に関する現在の知識体系を示す。 情報戦争における偽ニュースの歴史的展望と現在の役割を示すことから始まった。 専門家の仕事のみに基づく提案された解が分析され、誤情報源の検出におけるインテリジェントシステムの適用の最も重要な方向が指摘される。 さらに,本論文では,フェールニュース検出のためのMLソリューションの評価に有用なデータセット(主にデータセット)を提示し,本課題に関連するR&Dプロジェクトについて概説する。 この研究の主な目的は、偽ニュースの検出における知識の現状を分析することである。一方、可能な解決策を示すためであり、一方、将来の研究を動機付ける主な課題と方法論的ギャップを特定することである。

Fake news has now grown into a big problem for societies and also a major challenge for people fighting disinformation. This phenomenon plagues democratic elections, reputations of individual persons or organizations, and has negatively impacted citizens, (e.g., during the COVID-19 pandemic in the US or Brazil). Hence, developing effective tools to fight this phenomenon by employing advanced Machine Learning (ML) methods poses a significant challenge. The following paper displays the present body of knowledge on the application of such intelligent tools in the fight against disinformation. It starts by showing the historical perspective and the current role of fake news in the information war. Proposed solutions based solely on the work of experts are analysed and the most important directions of the application of intelligent systems in the detection of misinformation sources are pointed out. Additionally, the paper presents some useful resources (mainly datasets useful when assessing ML solutions for fake news detection) and provides a short overview of the most important R&D projects related to this subject. The main purpose of this work is to analyse the current state of knowledge in detecting fake news; on the one hand to show possible solutions, and on the other hand to identify the main challenges and methodological gaps to motivate future research.
翻訳日:2021-04-20 13:01:37 公開日:2020-12-28
# (参考訳) FOREST: 正規表現のための対話型マルチツリー合成器 [全文訳有]

FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions ( http://arxiv.org/abs/2012.14235v1 )

ライセンス: CC BY-SA 4.0
Margarida Ferreira and Miguel Terra-Neves and Miguel Ventura and In\^es Lynce and Ruben Martins(参考訳) 正規表現に基づくフォームバリデータはしばしば、ユーザが間違ったフォーマットにデータを挿入しないようにデジタル形式で使用される。 しかし、これらのバリデータを書くことは、一部のユーザーに挑戦をもたらす可能性がある。 本稿では,デジタル形式検証のための正規表現合成器FOESTを提案する。 FORESTは、入力値の所望のパターンと入力内の整数値の有効性を保証するグループをキャプチャする条件のセットとを一致させる正規表現を生成する。 合成手順は列挙探索に基づいており、探索空間を探索・プルークするためにSMT(Satisfiability Modulo Theories)ソルバを用いている。 本稿では,正規表現合成のための新しい表現であるmulti-treeを提案する。 また、与えられた正規表現のキャプチャ条件を合成する新しいSMT符号化を提案する。 合成正規表現の信頼性を高めるために,入力の識別に基づくユーザインタラクションを実装した。 正規表現を用いた実世界のフォームバリデーションインスタンスにおけるforestの評価を行った。 実験の結果、FOESTは72%のインスタンスで所望の正規表現を返却し、最先端の正規表現シンセサイザーであるREGELを上回った。

Form validators based on regular expressions are often used on digital forms to prevent users from inserting data in the wrong format. However, writing these validators can pose a challenge to some users. We present FOREST, a regular expression synthesizer for digital form validations. FOREST produces a regular expression that matches the desired pattern for the input values and a set of conditions over capturing groups that ensure the validity of integer values in the input. Our synthesis procedure is based on enumerative search and uses a Satisfiability Modulo Theories (SMT) solver to explore and prune the search space. We propose a novel representation for regular expressions synthesis, multi-tree, which induces patterns in the examples and uses them to split the problem through a divide-and-conquer approach. We also present a new SMT encoding to synthesize capture conditions for a given regular expression. To increase confidence in the synthesized regular expression, we implement user interaction based on distinguishing inputs. We evaluated FOREST on real-world form-validation instances using regular expressions. Experimental results show that FOREST successfully returns the desired regular expression in 72% of the instances and outperforms REGEL, a state-of-the-art regular expression synthesizer.
翻訳日:2021-04-20 12:28:43 公開日:2020-12-28
# (参考訳) 方言シナリオにおける文脈認識的パーソナリティ推論 : UDIVAデータセットの導入 [全文訳有]

Context-Aware Personality Inference in Dyadic Scenarios: Introducing the UDIVA Dataset ( http://arxiv.org/abs/2012.14259v1 )

ライセンス: CC BY 4.0
Cristina Palmero, Javier Selva, Sorina Smeureanu, Julio C. S. Jacques Junior, Albert Clap\'es, Alexa Mosegu\'i, Zejian Zhang, David Gallardo, Georgina Guilera, David Leiva, Sergio Escalera(参考訳) 本稿では,顔と顔の対話の非作用データセットである UDIVA について紹介する。 データセットは188セッションに配布された147人の参加者の90.5時間のdyadicインタラクションで構成され、複数の視聴覚および生理的センサーを用いて記録される。 現在、社会デモグラフィ、自己およびピアレポートされたパーソナリティ、内部状態、および参加者からの関係のプロファイリングが含まれている。 UDIVAの初期分析として,両対話者からの視聴覚データと異なるコンテキストソースを用いて,対象者の性格特性を抑圧する,自己申告型性格推定手法を提案する。 インクリメンタルな研究による予備的な結果は、利用可能なすべてのコンテキスト情報を使用することで一貫した改善を示す。

This paper introduces UDIVA, a new non-acted dataset of face-to-face dyadic interactions, where interlocutors perform competitive and collaborative tasks with different behavior elicitation and cognitive workload. The dataset consists of 90.5 hours of dyadic interactions among 147 participants distributed in 188 sessions, recorded using multiple audiovisual and physiological sensors. Currently, it includes sociodemographic, self- and peer-reported personality, internal state, and relationship profiling from participants. As an initial analysis on UDIVA, we propose a transformer-based method for self-reported personality inference in dyadic scenarios, which uses audiovisual data and different sources of context from both interlocutors to regress a target person's personality traits. Preliminary results from an incremental study show consistent improvements when using all available context information.
翻訳日:2021-04-20 12:13:48 公開日:2020-12-28
# (参考訳) マルチアーマッドバンドにおける生涯学習 [全文訳有]

Lifelong Learning in Multi-Armed Bandits ( http://arxiv.org/abs/2012.14264v1 )

ライセンス: CC BY 4.0
Matthieu Jedor, Jonathan Lou\"edec, Vianney Perchet(参考訳) 将来のパフォーマンスを改善するために、以前のタスクから蓄積した知識を継続的に学習し、活用することは、長く続く機械学習の問題である。 本稿では,一連のタスクにおいて生じた後悔の総量を最小限に抑えるため,マルチアームバンディットフレームワークの問題点を考察する。 ほとんどのバンディットアルゴリズムは、最悪のケースの後悔を低く抑えるように設計されていますが、ここでは、以前の分布から引き出されたバンディットインスタンスに対する平均的な後悔について調べます。 UCBアルゴリズムの信頼区間調整に特に着目する。 欲望のあるアルゴリズムを用いたbandit over banditアプローチを提案し,静止環境と非定常環境の両方において広範囲な実験評価を行う。 我々はさらに,これまでの作業よりも経験的な改善を示した,死のバンディット問題に対するソリューションを応用した。

Continuously learning and leveraging the knowledge accumulated from prior tasks in order to improve future performance is a long standing machine learning problem. In this paper, we study the problem in the multi-armed bandit framework with the objective to minimize the total regret incurred over a series of tasks. While most bandit algorithms are designed to have a low worst-case regret, we examine here the average regret over bandit instances drawn from some prior distribution which may change over time. We specifically focus on confidence interval tuning of UCB algorithms. We propose a bandit over bandit approach with greedy algorithms and we perform extensive experimental evaluations in both stationary and non-stationary environments. We further apply our solution to the mortal bandit problem, showing empirical improvement over previous work.
翻訳日:2021-04-20 12:11:24 公開日:2020-12-28
# (参考訳) 認識・再識別モデルの性能向上のための適応閾値 [全文訳有]

Adaptive Threshold for Better Performance of the Recognition and Re-identification Models ( http://arxiv.org/abs/2012.14305v1 )

ライセンス: CC BY 4.0
Bharat Bohara(参考訳) 決定しきい値を選択することは、どの分類タスクでも難しい仕事の1つです。 モデルがどの程度正確かは、決定された境界が慎重に拾われなければ、パフォーマンス全体が無駄になります。 一方,一方のクラスが他方よりも優勢な不均衡分類では,従来のしきい値選択法に依存すると性能が低下する。 しきい値や決定境界が、SVMや決定木といった機械学習戦略に基づいて適切に選択されたとしても、動的に変化するデータベースや、顔認識や人物の再識別モデルなど、ほぼ類似したアイデンティティ機能では、何らかの点で失敗する。 これにより、不均衡分類とインクリメンタルデータベースサイズに対する決定しきい値選択の適応性が必要となり、lfwデータセットおよび自己準備アスリートデータセット上でオンライン最適化に基づく統計的特徴学習適応技術が開発・テストされる。 この適応しきい値を採用する手法は、どの分類や識別タスクにおいても、通常hit-and-trial法で取られる固定しきい値 {0.3,0.5,0.7} と比較して、モデルの精度が12-45%向上した。 完全なアルゴリズムのソースコードは、https://github.com/V arat7v2/adaptive-thr esholdで入手できる。

Choosing a decision threshold is one of the challenging job in any classification tasks. How much the model is accurate, if the deciding boundary is not picked up carefully, its entire performance would go in vain. On the other hand, for imbalance classification where one of the classes is dominant over another, relying on the conventional method of choosing threshold would result in poor performance. Even if the threshold or decision boundary is properly chosen based on machine learning strategies like SVM and decision tree, it will fail at some point for dynamically varying databases and in case of identity-features that are more or less similar, like in face recognition and person re-identification models. Hence, with the need for adaptability of the decision threshold selection for imbalanced classification and incremental database size, an online optimization-based statistical feature learning adaptive technique is developed and tested on the LFW datasets and self-prepared athletes datasets. This method of adopting adaptive threshold resulted in 12-45% improvement in the model accuracy compared to the fixed threshold {0.3,0.5,0.7} that are usually taken via the hit-and-trial method in any classification and identification tasks. Source code for the complete algorithm is available at: https://github.com/V arat7v2/adaptive-thr eshold
翻訳日:2021-04-20 11:35:22 公開日:2020-12-28
# (参考訳) panarchy: 境界概念の波及 [全文訳有]

Panarchy: ripples of a boundary concept ( http://arxiv.org/abs/2012.14312v1 )

ライセンス: CC BY 4.0
Juan Rocha, Linda Luvuno, Jesse Rieb, Erin Crockett, Katja Malmborg, Michael Schoon, Garry Peterson(参考訳) 社会生態システムは時間とともにどのように変化するのか? 2002年、ホリングらはパナーキーの概念を提案し、社会生態学的システムを適応サイクルの相互作用の集合として提示した。 当初は概念の枠組みとメタファーのセットとして紹介され、パナーキーは多くの分野の学者の関心を集め、その考えはさらなる概念発展を刺激し続けている。 この概念が導入されてから20年近く経ち、どのように使われ、テストされ、拡張され、修正されたのかをレビューします。 定性的手法と機械学習を組み合わせることでこれを行う。 文書分析は科学的文献(n = 42)で一般的に使用されるパナーキーの特徴をコードするために用いられ、質的分析は2177の文書のトピックモデリングと相補された。 適応サイクルが最も注目を集めているパナキズムの特徴であることに気付きました。 しかし、最近の理論と経験的な研究は、将来の研究にいくつかの道筋を与えている。

How do social-ecological systems change over time? In 2002 Holling and colleagues proposed the concept of Panarchy, which presented social-ecological systems as an interacting set of adaptive cycles, each of which is produced by the dynamic tensions between novelty and efficiency at multiple scales. Initially introduced as a conceptual framework and set of metaphors, panarchy has gained the attention of scholars across many disciplines and its ideas continue to inspire further conceptual developments. Almost twenty years after this concept was introduced we review how it has been used, tested, extended and revised. We do this by combining qualitative methods and machine learning. Document analysis was used to code panarchy features that are commonly used in the scientific literature (N = 42), a qualitative analysis that was complemented with topic modeling of 2177 documents. We find that the adaptive cycle is the feature of panarchy that has attracted the most attention. Challenges remain in empirically grounding the metaphor, but recent theoretical and empirical work offers some avenues for future research.
翻訳日:2021-04-20 11:23:45 公開日:2020-12-28
# (参考訳) ディープニューラルネットワークのための一般化量子損失 [全文訳有]

Generalized Quantile Loss for Deep Neural Networks ( http://arxiv.org/abs/2012.14348v1 )

ライセンス: CC BY 4.0
Dvir Ben Or, Michael Kolomenkin, Gil Shabat(参考訳) このノートは、回帰ニューラルネットワークにカウント(または量子)制約を加える簡単な方法を示し、トレーニングセットに$n$サンプルが与えられた場合、$m<n$サンプルの予測が実際の値(ラベル)よりも大きくなることを保証している。 標準分位レグレッションネットワークとは異なり、提案手法は任意の損失関数に適用できるが、標準分位レグレッション損失は必ずしも適用できず、平均絶対差を最小化することができる。 このカウント制約はほとんどどこでもゼロ勾配を持つので、標準勾配降下法では最適化できない。 この問題を解決するために、標準的なニューラルネットワーク最適化手順に基づく変更スキームを理論的解析により提示する。

This note presents a simple way to add a count (or quantile) constraint to a regression neural net, such that given $n$ samples in the training set it guarantees that the prediction of $m<n$ samples will be larger than the actual value (the label). Unlike standard quantile regression networks, the presented method can be applied to any loss function and not necessarily to the standard quantile regression loss, which minimizes the mean absolute differences. Since this count constraint has zero gradients almost everywhere, it cannot be optimized using standard gradient descent methods. To overcome this problem, an alternation scheme, which is based on standard neural network optimization procedures, is presented with some theoretical analysis.
翻訳日:2021-04-20 11:14:39 公開日:2020-12-28
# (参考訳) 色識別と色構成のための深層神経モデル [全文訳有]

Deep Neural Models for color discrimination and color constancy ( http://arxiv.org/abs/2012.14402v1 )

ライセンス: CC BY 4.0
Alban Flachot, Arash Akbarinia, Heiko H. Sch\"utt, Roland W. Fleming, Felix A. Wichmann, Karl R. Gegenfurtner(参考訳) 色コンステンシーは、様々な照度で一定の色を知覚する能力です。 そこで我々は,深層ニューラルネットワークのカラー定数をトレーニングし,その性能を様々な方法で評価した。 ネットワークへの入力は、2115の異なる3d形状の3dレンダリング画像の円錐励起と1600のマンセルチップのスペクトル反射、そして278の異なる自然照度の下で照らされた。 モデルはオブジェクトの反射率を分類するために訓練された。 1つのネットワーク、deep65はd65照明の下で訓練され、deepccは様々な照明の下で訓練された。 試験は4つの新しい照明で行われ、CIEL*a*b*色度が等間隔で、日光の軌跡に沿って2つ、直交して2つだった。 We found a high degree of color constancy for DeepCC, and constancy was higher along the daylight locus。 シーンから徐々に手がかりを取り除くと、一貫性は低下した。 異なるdnnアーキテクチャで高いレベルのカラーコンステンシーが達成された。 ResNetsも古典的なConvNetsも、複雑さの度合いが異なる。 しかし、畳み込みネットワークであるDeepCCは人間の色覚の3色次元に沿って色を表現し、ResNetsはより複雑な表現を示した。

Color constancy is our ability to perceive constant colors across varying illuminations. Here, we trained deep neural networks to be color constant and evaluated their performance with varying cues. Inputs to the networks consisted of the cone excitations in 3D-rendered images of 2115 different 3D-shapes, with spectral reflectances of 1600 different Munsell chips, illuminated under 278 different natural illuminations. The models were trained to classify the reflectance of the objects. One network, Deep65, was trained under a fixed daylight D65 illumination, while DeepCC was trained under varying illuminations. Testing was done with 4 new illuminations with equally spaced CIEL*a*b* chromaticities, 2 along the daylight locus and 2 orthogonal to it. We found a high degree of color constancy for DeepCC, and constancy was higher along the daylight locus. When gradually removing cues from the scene, constancy decreased. High levels of color constancy were achieved with different DNN architectures. Both ResNets and classical ConvNets of varying degrees of complexity performed well. However, DeepCC, a convolutional network, represented colors along the 3 color dimensions of human color vision, while ResNets showed a more complex representation.
翻訳日:2021-04-19 13:54:57 公開日:2020-12-28
# (参考訳) 太陽フレア予測のための形状に基づく特徴工学 [全文訳有]

Shape-based Feature Engineering for Solar Flare Prediction ( http://arxiv.org/abs/2012.14405v1 )

ライセンス: CC BY 4.0
Varad Deshmukh, Thomas Berger, James Meiss, and Elizabeth Bradley(参考訳) 太陽フレアは、太陽の表面にある活動領域(AR)の磁気的噴火によって引き起こされる。 これらの出来事は人間の活動に大きな影響を与え、その多くが良い予測から十分な事前警告で緩和することができる。 これまで、機械学習に基づくフレア予測手法では、AR画像の物理特性を特徴として用いてきたが、最近ではディープラーニング(畳み込みニューラルネットワークなど)によって自動的に推定される特徴を利用する研究も行われている。 計算トポロジと計算幾何学のツールを用いて、太陽の磁気画像から抽出した新しい形状に基づく特徴群について述べる。 これらの特徴を多層パーセプトロン(mlp)ニューラルネットワークの文脈で評価し,それらの性能を従来の物理特性と比較した。 これらの抽象的な形状に基づく特徴は、人間の専門家が選択した特徴よりも優れており、2つの特徴の組み合わせにより予測能力はさらに向上することを示す。

Solar flares are caused by magnetic eruptions in active regions (ARs) on the surface of the sun. These events can have significant impacts on human activity, many of which can be mitigated with enough advance warning from good forecasts. To date, machine learning-based flare-prediction methods have employed physics-based attributes of the AR images as features; more recently, there has been some work that uses features deduced automatically by deep learning methods (such as convolutional neural networks). We describe a suite of novel shape-based features extracted from magnetogram images of the Sun using the tools of computational topology and computational geometry. We evaluate these features in the context of a multi-layer perceptron (MLP) neural network and compare their performance against the traditional physics-based attributes. We show that these abstract shape-based features outperform the features chosen by the human experts, and that a combination of the two feature sets improves the forecasting capability even further.
翻訳日:2021-04-19 13:28:06 公開日:2020-12-28
# (参考訳) N-gram 配列分解とマルチタスク学習による手書き文字認識の強化 [全文訳有]

Enhancing Handwritten Text Recognition with N-gram sequence decomposition and Multitask Learning ( http://arxiv.org/abs/2012.14459v1 )

ライセンス: CC BY 4.0
Vasiliki Tassopoulou, George Retsinas, Petros Maragos(参考訳) 手書き文字認識の分野における最先端のアプローチは、1igram, character level target unit で主に単一のタスクである。 本研究では,マルチタスク学習方式を用いて,ターゲット配列の分解を微粒度から粗度まで異なる対象単位で行うように訓練する。 本手法は,学習過程において暗黙的にn-gram情報を利用する方法であり,ユニグラム出力のみを用いて最終認識を行う。 このようなマルチタスクアプローチにおける内部Unigramデコーディングの違いを強調するために、トレーニングステップで異なるn-gramによって課される学習内部表現の能力を強調した。 対象単位としてn-gramを選択し,ユニグラムから4-gram,すなわちサブワードレベルの粒度を実験した。 これらの多重分解は、タスク固有のCTC損失を伴うネットワークから学習される。 ネットワークアーキテクチャに関しては,階層型とブロックマルチタスクという2つの選択肢を提案する。 全体として,提案手法はユニグラムタスクでのみ評価されるが,絶対2.52 % WER と 1.02 % CER の計算オーバーヘッドを伴わず,暗黙的な言語モデルの導入に成功するためのヒントとなる。

Current state-of-the-art approaches in the field of Handwritten Text Recognition are predominately single task with unigram, character level target units. In our work, we utilize a Multi-task Learning scheme, training the model to perform decompositions of the target sequence with target units of different granularity, from fine to coarse. We consider this method as a way to utilize n-gram information, implicitly, in the training process, while the final recognition is performed using only the unigram output. % in order to highlight the difference of the internal Unigram decoding of such a multi-task approach highlights the capability of the learned internal representations, imposed by the different n-grams at the training step. We select n-grams as our target units and we experiment from unigrams to fourgrams, namely subword level granularities. These multiple decompositions are learned from the network with task-specific CTC losses. Concerning network architectures, we propose two alternatives, namely the Hierarchical and the Block Multi-task. Overall, our proposed model, even though evaluated only on the unigram task, outperforms its counterpart single-task by absolute 2.52\% WER and 1.02\% CER, in the greedy decoding, without any computational overhead during inference, hinting towards successfully imposing an implicit language model.
翻訳日:2021-04-19 13:14:56 公開日:2020-12-28
# (参考訳) SASSI -- 超画像化適応スペクトルイメージング [全文訳有]

SASSI -- Super-Pixelated Adaptive Spatio-Spectral Imaging ( http://arxiv.org/abs/2012.14495v1 )

ライセンス: CC BY 4.0
Vishwanath Saragadam, Michael DeZeeuw, Richard Baraniuk, Ashok Veeraraghavan, and Aswin Sankaranarayanan(参考訳) 空間分解能と時間分解能を有する新しいビデオレートハイパースペクトル画像装置を提案する。 我々のキーとなる仮説は、過剰な画像の超画素におけるピクセルのスペクトルプロファイルは、非常によく似ているということだ。 したがって、その超画素分割画像で導かれるハイパースペクトルシーンのシーン適応型空間サンプリングにより、高品質な再構成を得ることができる。 これを実現するために、シーンのRGB画像を取得し、その超画素を計算し、高分解能スペクトルを測定する場所の空間マスクを生成する。 rgb画像とスペクトル測定を学習可能なフィルタリング手法を用いて融合することにより、ハイパースペクトル画像を推定する。 スーパーピクセル推定ステップの計算量が少ないため、従来のスナップショットハイパースペクトルカメラよりもオーバーヘッドが少ないが、空間解像度とスペクトル解像度がかなり高いシーンのハイパースペクトル画像をキャプチャできる。 提案手法を広範にシミュレーションし,900ドル画素の空間分解能で超スペクトルビデオを計測し,可視光帯域上で10nmのスペクトル分解能でフレームレートを18ドルfpsで達成する実験室プロトタイプとともに検証した。

We introduce a novel video-rate hyperspectral imager with high spatial, and temporal resolutions. Our key hypothesis is that spectral profiles of pixels in a super-pixel of an oversegmented image tend to be very similar. Hence, a scene-adaptive spatial sampling of an hyperspectral scene, guided by its super-pixel segmented image, is capable of obtaining high-quality reconstructions. To achieve this, we acquire an RGB image of the scene, compute its super-pixels, from which we generate a spatial mask of locations where we measure high-resolution spectrum. The hyperspectral image is subsequently estimated by fusing the RGB image and the spectral measurements using a learnable guided filtering approach. Due to low computational complexity of the superpixel estimation step, our setup can capture hyperspectral images of the scenes with little overhead over traditional snapshot hyperspectral cameras, but with significantly higher spatial and spectral resolutions. We validate the proposed technique with extensive simulations as well as a lab prototype that measures hyperspectral video at a spatial resolution of $600 \times 900$ pixels, at a spectral resolution of 10 nm over visible wavebands, and achieving a frame rate at $18$fps.
翻訳日:2021-04-19 13:03:58 公開日:2020-12-28
# (参考訳) 逆順序を持つ非置換k平均クラスタリング [全文訳有]

No-substitution k-means Clustering with Adversarial Order ( http://arxiv.org/abs/2012.14512v1 )

ライセンス: CC BY 4.0
Robi Bhattacharjee and Michal Moshkovitz(参考訳) 入力が \emph{arbitrary} 順に届くとき、オンラインの非置換設定で$k$-meansクラスタリングを調べる。 この設定では、点が次々に到達し、次の点を観測する前に現在の点を中心とするかどうかを即座に決定する必要がある。 決定は無効である。 目標は、センターの数と$k$-meansのコストを最小化することだ。 この設定における以前の作業は、入力の順序がランダムであるか、または入力のアスペクト比が境界であると仮定していた。 順序が任意であり、入力に仮定がない場合、任意のアルゴリズムが全ての点を中心としなければならないことが知られている。 さらに、境界アスペクト比が制限的すぎると仮定すると、混合モデルから生成された自然な入力は含まれない。 任意の順序で到着するデータセットのクラスタリングの難しさを定量化する新しい複雑性尺度を提案する。 我々は、新しいランダムアルゴリズムを設計し、複雑さを$d$とするデータに適用すると、アルゴリズムは$O(d\log(n) k\log(k))$centerを取り、$O(k^3)$-approximationであることを示す。 また、データが$k$ gaussian の混合のような ``natural" 分布からサンプリングされた場合、新しい複雑性測度は $o(k^2\log(n))$ に等しいことが証明される。 これは、これらの分布から生成されたデータに対して、我々の新しいアルゴリズムは$\text{poly}(k\log(n))$centerのみを取り、$\text{poly}(k)$-approximationであることを意味する。 負の結果に関して、$\alpha$-近似を達成するために必要な中心の数が少なくとも$\Omega\left(\frac{d}{k\log(n\alpha)}\right)$であることを証明する。

We investigate $k$-means clustering in the online no-substitution setting when the input arrives in \emph{arbitrary} order. In this setting, points arrive one after another, and the algorithm is required to instantly decide whether to take the current point as a center before observing the next point. Decisions are irrevocable. The goal is to minimize both the number of centers and the $k$-means cost. Previous works in this setting assume that the input's order is random, or that the input's aspect ratio is bounded. It is known that if the order is arbitrary and there is no assumption on the input, then any algorithm must take all points as centers. Moreover, assuming a bounded aspect ratio is too restrictive -- it does not include natural input generated from mixture models. We introduce a new complexity measure that quantifies the difficulty of clustering a dataset arriving in arbitrary order. We design a new random algorithm and prove that if applied on data with complexity $d$, the algorithm takes $O(d\log(n) k\log(k))$ centers and is an $O(k^3)$-approximation. We also prove that if the data is sampled from a ``natural" distribution, such as a mixture of $k$ Gaussians, then the new complexity measure is equal to $O(k^2\log(n))$. This implies that for data generated from those distributions, our new algorithm takes only $\text{poly}(k\log(n))$ centers and is a $\text{poly}(k)$-approximation. In terms of negative results, we prove that the number of centers needed to achieve an $\alpha$-approximati on is at least $\Omega\left(\frac{d}{k\log(n\alpha)}\right)$.
翻訳日:2021-04-19 12:28:06 公開日:2020-12-28
# (参考訳) 超音波画像による乳腺腫瘍分類のためのcnnの比較 [全文訳有]

Comparison of different CNNs for breast tumor classification from ultrasound images ( http://arxiv.org/abs/2012.14517v1 )

ライセンス: CC BY 4.0
Jorge F. Lazo, Sara Moccia, Emanuele Frontoni and Elena De Momi(参考訳) 乳がんは世界で最も致命的ながんの1つである。 タイムリーな検出は死亡率を減少させる可能性がある。 臨床的ルーチンでは,超音波画像から良性腫瘍と悪性腫瘍を分類することは重要であるが困難な課題である。 したがって、データの変動に対処できる自動化手法が必要である。 本稿では,乳腺腫瘍の自動分類作業において,異なる畳み込みニューラルネットワーク(CNN)と伝達学習法を比較した。 本研究のアーキテクチャはVGG-16とInception V3である。 1つは事前訓練されたモデルを特徴抽出器として使用し、2つ目は事前訓練されたモデルを微調整することであった。 画像は合計947枚, 良性腫瘍は587枚, 悪性腫瘍は360枚であった。 678枚の画像がトレーニングと検証に使われ、269枚の画像がモデルの試験に使用された。 受信機動作特性曲線(AUC)の精度と面積を性能指標として用いた。 最高の性能は、精度0.919とauc0.934のvgg-16の微調整によって得られた。 得られた結果は、がん検出の改善の観点から、さらなる調査の機会を開く。

Breast cancer is one of the deadliest cancer worldwide. Timely detection could reduce mortality rates. In the clinical routine, classifying benign and malignant tumors from ultrasound (US) imaging is a crucial but challenging task. An automated method, which can deal with the variability of data is therefore needed. In this paper, we compared different Convolutional Neural Networks (CNNs) and transfer learning methods for the task of automated breast tumor classification. The architectures investigated in this study were VGG-16 and Inception V3. Two different training strategies were investigated: the first one was using pretrained models as feature extractors and the second one was to fine-tune the pre-trained models. A total of 947 images were used, 587 corresponded to US images of benign tumors and 360 with malignant tumors. 678 images were used for the training and validation process, while 269 images were used for testing the models. Accuracy and Area Under the receiver operating characteristic Curve (AUC) were used as performance metrics. The best performance was obtained by fine tuning VGG-16, with an accuracy of 0.919 and an AUC of 0.934. The obtained results open the opportunity to further investigation with a view of improving cancer detection.
翻訳日:2021-04-19 12:05:32 公開日:2020-12-28
# 深層学習を用いた空中画像パイル燃焼検出:FLAMEデータセット

Aerial Imagery Pile burn detection using Deep Learning: the FLAME dataset ( http://arxiv.org/abs/2012.14036v1 )

ライセンス: Link先を確認
Alireza Shamsoshoara, Fatemeh Afghah, Abolfazl Razi, Liming Zheng, Peter Z Ful\'e, Erik Blasch(参考訳) 森林火災は米国で最も費用がかかる自然災害の1つで、何百万ヘクタールもの森林資源が被害を受け、人や動物の命が脅かされている。 特に重要なのは消防士や作戦部隊に対するリスクであり、人や財産の危険を最小限に抑えるために技術を活用する必要性を強調している。 flame(fire luminosity airborne-based machine learning evaluation)は、火災の空中画像のデータセットと、消防士や研究者が最適な火災管理戦略を開発するのに役立つ火災検出とセグメンテーションの方法を提供する。 本論文は,アリゾナ松林において,所定の燃えるデトリタスの間,ドローンが収集した火災画像データセットを提供する。 このデータセットには、赤外線カメラが捉えたビデオ記録と熱熱マップが含まれている。 撮影されたビデオと画像は、フレームごとにアノテートされラベル付けされ、研究者が火災検出とモデリングのアルゴリズムを簡単に適用できるようにする。 本論文は,(1)火炎の存在と不在に基づくビデオフレームの2次分類という2つの機械学習問題に対する解決策を強調する。 76%の分類精度を達成した人工ニューラルネットワーク(ann)法を開発した。 2) 火災境界を正確に決定するためのセグメンテーション法による火災検知 u-net up-sampling and down-samplingアプローチに基づいて、ビデオフレームから火のマスクを抽出するディープラーニング手法を設計する。 FLAME法では精度92%,リコール84%であった。 今後の研究は, 熱画像を用いた自由燃焼放火技術の拡大である。

Wildfires are one of the costliest and deadliest natural disasters in the US, causing damage to millions of hectares of forest resources and threatening the lives of people and animals. Of particular importance are risks to firefighters and operational forces, which highlights the need for leveraging technology to minimize danger to people and property. FLAME (Fire Luminosity Airborne-based Machine learning Evaluation) offers a dataset of aerial images of fires along with methods for fire detection and segmentation which can help firefighters and researchers to develop optimal fire management strategies. This paper provides a fire image dataset collected by drones during a prescribed burning piled detritus in an Arizona pine forest. The dataset includes video recordings and thermal heatmaps captured by infrared cameras. The captured videos and images are annotated and labeled frame-wise to help researchers easily apply their fire detection and modeling algorithms. The paper also highlights solutions to two machine learning problems: (1) Binary classification of video frames based on the presence [and absence] of fire flames. An Artificial Neural Network (ANN) method is developed that achieved a 76% classification accuracy. (2) Fire detection using segmentation methods to precisely determine fire borders. A deep learning method is designed based on the U-Net up-sampling and down-sampling approach to extract a fire mask from the video frames. Our FLAME method approached a precision of 92% and a recall of 84%. Future research will expand the technique for free burning broadcast fire using thermal images.
翻訳日:2021-04-19 11:15:08 公開日:2020-12-28
# GAKP:複数物体追跡のためのGRUアソシエーションとカルマン予測

GAKP: GRU Association and Kalman Prediction for Multiple Object Tracking ( http://arxiv.org/abs/2012.14314v1 )

ライセンス: Link先を確認
Zhen Li, Sunzeng Cai, Xiaoyi Wang, Zhe Liu and Nian Xue(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ監視、インテリジェント小売、スマートシティなど、多くの現実世界のアプリケーションにおいて有用だが困難なタスクである。 長期的な依存関係を効率的にモデル化する方法が課題だ。 最近の研究では、Recurrent Neural Networks (RNN) が優れたパフォーマンスを得るために使われているが、大量のトレーニングデータが必要である。 本稿では,予測のための自動チューニングカルマン法とゲートリカレントユニット(gru)を統合し,少量のトレーニングデータで近似最適化を実現する新しい追跡手法を提案する。 実験の結果,本アルゴリズムは最先端のrnnベースのオンラインmotアルゴリズムよりも高速で頑健なmotベンチマークで性能を発揮できることが判明した。

Multiple Object Tracking (MOT) has been a useful yet challenging task in many real-world applications such as video surveillance, intelligent retail, and smart city. The challenge is how to model long-term temporal dependencies in an efficient manner. Some recent works employ Recurrent Neural Networks (RNN) to obtain good performance, which, however, requires a large amount of training data. In this paper, we proposed a novel tracking method that integrates the auto-tuning Kalman method for prediction and the Gated Recurrent Unit (GRU) and achieves a near-optimum with a small amount of training data. Experimental results show that our new algorithm can achieve competitive performance on the challenging MOT benchmark, and faster and more robust than the state-of-the-art RNN-based online MOT algorithms.
翻訳日:2021-04-19 11:14:44 公開日:2020-12-28
# Commonsense Visual Sense Making for autonomous Driving: On Generalized Neurosymbolic Online Abduction Integrating Vision and Semantics

Commonsense Visual Sensemaking for Autonomous Driving: On Generalised Neurosymbolic Online Abduction Integrating Vision and Semantics ( http://arxiv.org/abs/2012.14359v1 )

ライセンス: Link先を確認
Jakob Suchan and Mehul Bhatt and Srikrishna Varadarajan(参考訳) 自律運転の背景において,視覚認識のためのシステム統合視覚とセマンティックスソリューションの必要性と可能性を示す。 応答集合プログラミング(ASP)を用いたオンライン視覚認識のための一般的なニューロシンボリック手法を体系的に定式化し、完全に実装する。 この手法はビジュアルコンピューティングにおける最先端技術を統合し、リアルタイムの知覚と制御のためのハイブリッドアーキテクチャで一般的に使用可能なモジュラーフレームワークとして開発されている。 我々は,コミュニティが確立したKITTIMOD,MOT-2017,MO T-2020の評価と実証を行った。 利用事例として,安全クリティカルな自律運転環境において,人間中心の視覚感覚-意味表現と説明可能性,質問・回答,常識の補間など-が重要であることに注目した。 開発されたニューロシンボリック・フレームワークはドメイン非依存であり、自律運転の場合、人間中心のAI技術設計の背景にある様々な認知的相互作用設定におけるオンライン視覚的創造の模範として機能するように設計されている。 キーワード:認知的ビジョン、深い意味論、宣言的空間的推論、知識表現と推論、常識推論、視覚的アブダクション、回答セットプログラミング、自動運転、人間中心のコンピューティングと設計、運転技術の標準化、空間認知、ai。

We demonstrate the need and potential of systematically integrated vision and semantics solutions for visual sensemaking in the backdrop of autonomous driving. A general neurosymbolic method for online visual sensemaking using answer set programming (ASP) is systematically formalised and fully implemented. The method integrates state of the art in visual computing, and is developed as a modular framework that is generally usable within hybrid architectures for realtime perception and control. We evaluate and demonstrate with community established benchmarks KITTIMOD, MOT-2017, and MOT-2020. As use-case, we focus on the significance of human-centred visual sensemaking -- e.g., involving semantic representation and explainability, question-answering, commonsense interpolation -- in safety-critical autonomous driving situations. The developed neurosymbolic framework is domain-independent, with the case of autonomous driving designed to serve as an exemplar for online visual sensemaking in diverse cognitive interaction settings in the backdrop of select human-centred AI technology design considerations. Keywords: Cognitive Vision, Deep Semantics, Declarative Spatial Reasoning, Knowledge Representation and Reasoning, Commonsense Reasoning, Visual Abduction, Answer Set Programming, Autonomous Driving, Human-Centred Computing and Design, Standardisation in Driving Technology, Spatial Cognition and AI.
翻訳日:2021-04-19 11:14:29 公開日:2020-12-28
# 対話政策学習のための過度反復ペナルティによるカリキュラム自動学習

Automatic Curriculum Learning With Over-repetition Penalty for Dialogue Policy Learning ( http://arxiv.org/abs/2012.14072v1 )

ライセンス: Link先を確認
Yangyang Zhao, Zhenyu Wang and Zhenhua Huang(参考訳) 強化学習に基づく対話政策学習は,コストが高いため,実ユーザに対して対話エージェントをスクラッチから訓練することは困難である。 対話エージェントがトレーニングするランダムなユーザ目標を選択するユーザシミュレータは、実際のユーザにとって手頃な代用だと考えられている。 しかし、このランダムサンプリング法は人間の学習法則を無視し、学習された対話ポリシーを非効率で不安定にする。 本稿では,従来のランダムサンプリング手法を教師ポリシーモデルに置き換え,自動カリキュラム学習のための対話ポリシーを実現する新しいフレームワークであるDeep Q-Network (ACL-DQN)を提案する。 教師モデルは、有意義な順序付きカリキュラムを配置し、対話エージェントの学習進捗と過剰反復ペナルティを事前の知識を必要とせずに監視し、自動的に調整する。 対話エージェントの学習の進捗は,対話エージェントの能力とサンプル効率に対するサンプルゴールの難易度との関係を反映している。 過剰反復罰はサンプルの多様性を保証する。 実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。 さらに、異なるカリキュラムスケジュールを採用してフレームワークをさらに改善することができ、フレームワークが強力な汎用性を持つことを実証する。

Dialogue policy learning based on reinforcement learning is difficult to be applied to real users to train dialogue agents from scratch because of the high cost. User simulators, which choose random user goals for the dialogue agent to train on, have been considered as an affordable substitute for real users. However, this random sampling method ignores the law of human learning, making the learned dialogue policy inefficient and unstable. We propose a novel framework, Automatic Curriculum Learning-based Deep Q-Network (ACL-DQN), which replaces the traditional random sampling method with a teacher policy model to realize the dialogue policy for automatic curriculum learning. The teacher model arranges a meaningful ordered curriculum and automatically adjusts it by monitoring the learning progress of the dialogue agent and the over-repetition penalty without any requirement of prior knowledge. The learning progress of the dialogue agent reflects the relationship between the dialogue agent's ability and the sampled goals' difficulty for sample efficiency. The over-repetition penalty guarantees the sampled diversity. Experiments show that the ACL-DQN significantly improves the effectiveness and stability of dialogue tasks with a statistically significant margin. Furthermore, the framework can be further improved by equipping with different curriculum schedules, which demonstrates that the framework has strong generalizability.
翻訳日:2021-04-19 11:14:06 公開日:2020-12-28
# 人工陰性例を用いたニューラルテキスト生成

Neural Text Generation with Artificial Negative Examples ( http://arxiv.org/abs/2012.14124v1 )

ライセンス: Link先を確認
Keisuke Shirai, Kazuma Hashimoto, Akiko Eriguchi, Takashi Ninomiya, Shinsuke Mori(参考訳) 入力の条件付け(例えば、ニューラルネットワークの生成モデル)。 機械翻訳と画像キャプション)は通常、ターゲットテキストの最大推定によって訓練される。 しかし、トレーニングされたモデルは、推論時に様々なタイプのエラーに苦しむ。 本稿では,テキスト生成モデルを強化学習フレームワークでトレーニングし,対象の誤りを含む参照と文を識別可能な学習可能な報酬関数を用いて任意のタイプの誤りを抑制することを提案する。 対象とするエラーを参照に人工的に注入することで、このようなネガティブな例を生成する。 実験では,モデル生成テキストにおけるトークンの繰り返しと削除という2つのエラータイプに注目した。 実験の結果,提案手法は生成誤差を抑え,2つの機械翻訳と2つの画像キャプションタスクにおいて大幅な改善が得られた。

Neural text generation models conditioning on given input (e.g. machine translation and image captioning) are usually trained by maximum likelihood estimation of target text. However, the trained models suffer from various types of errors at inference time. In this paper, we propose to suppress an arbitrary type of errors by training the text generation model in a reinforcement learning framework, where we use a trainable reward function that is capable of discriminating between references and sentences containing the targeted type of errors. We create such negative examples by artificially injecting the targeted errors to the references. In experiments, we focus on two error types, repeated and dropped tokens in model-generated text. The experimental results show that our method can suppress the generation errors and achieve significant improvements on two machine translation and two image captioning tasks.
翻訳日:2021-04-19 11:13:45 公開日:2020-12-28
# 注意をそらす:視覚的説明手法によるCNN分類器の堅牢な訓練に向けて

Playing to distraction: towards a robust training of CNN classifiers through visual explanation techniques ( http://arxiv.org/abs/2012.14173v1 )

ライセンス: Link先を確認
David Morales, Estefania Talavera, Beatriz Remeseiro(参考訳) ディープラーニングの分野は、より効率的なトレーニング戦略を必要とするため、さまざまな方向に進化しています。 そこで本研究では,視覚説明手法を学習プロセスに統合した新しいロバストな学習手法を提案する。 画像の関連部分に焦点をあてる注意機構とは違って,他の領域にも注意を払って,モデルの堅牢性を向上させることを目指している。 大まかに言えば、学習過程の分類器に注意を向けさせ、関連する地域だけでなく、優先順位がクラスを識別するのにはあまり役に立たない地域にも集中させるという考え方である。 提案手法を畳み込みニューラルネットワークの学習プロセスに組み込んで,スタンフォードカーとfgvc-aircraftという2つのよく知られたデータセットの解析と分類を行った。 さらに, エゴセントリック画像の分類に関する実例シナリオを用いて評価を行い, 生活習慣に関する関連情報を得ることができた。 特に、EgoFoodPlacesデータセットに挑戦し、より低いレベルの複雑さで最先端の結果を達成する。 その結果,画像分類のためのトレーニングスキームの適合性を示し,最終モデルの堅牢性を改善した。

The field of deep learning is evolving in different directions, with still the need for more efficient training strategies. In this work, we present a novel and robust training scheme that integrates visual explanation techniques in the learning process. Unlike the attention mechanisms that focus on the relevant parts of images, we aim to improve the robustness of the model by making it pay attention to other regions as well. Broadly speaking, the idea is to distract the classifier in the learning process to force it to focus not only on relevant regions but also on those that, a priori, are not so informative for the discrimination of the class. We tested the proposed approach by embedding it into the learning process of a convolutional neural network for the analysis and classification of two well-known datasets, namely Stanford cars and FGVC-Aircraft. Furthermore, we evaluated our model on a real-case scenario for the classification of egocentric images, allowing us to obtain relevant information about peoples' lifestyles. In particular, we work on the challenging EgoFoodPlaces dataset, achieving state-of-the-art results with a lower level of complexity. The obtained results indicate the suitability of our proposed training scheme for image classification, improving the robustness of the final model.
翻訳日:2021-04-19 11:13:34 公開日:2020-12-28
# 帰属ロバストネスのための強化正則化器

Enhanced Regularizers for Attributional Robustness ( http://arxiv.org/abs/2012.14395v1 )

ライセンス: Link先を確認
Anindya Sarkar, Anirban Sarkar, Vineeth N Balasubramanian(参考訳) ディープニューラルネットワークは、コンピュータビジョンタスクのための学習モデルのデフォルト選択である。 近年,分類などの視覚タスクの深層モデルについて,広範囲にわたる研究が進められている。 しかし、近年の研究では、2つの非常に類似した画像がネットワークに渡された場合でも、これらのモデルが実質的に異なる帰属マップを作成することが可能であることが示され、信頼性に関する深刻な疑問が提起されている。 そこで本研究では,ディープニューラルネットワークの帰属的ロバスト性を改善するためのロバスト帰属訓練戦略を提案する。 本手法は帰属的ロバストネスの要件を慎重に分析し,攻撃時にモデルの帰属マップを保存する2つの新しい正規化器を導入する。 提案手法は,MNIST,FMNIST,Flower ,GTSRBなどの複数のデータセットに対する帰属ロバストネス測定において,最先端の帰属ロバストネス法を約3%から9%のマージンで上回っている。

Deep neural networks are the default choice of learning models for computer vision tasks. Extensive work has been carried out in recent years on explaining deep models for vision tasks such as classification. However, recent work has shown that it is possible for these models to produce substantially different attribution maps even when two very similar images are given to the network, raising serious questions about trustworthiness. To address this issue, we propose a robust attribution training strategy to improve attributional robustness of deep neural networks. Our method carefully analyzes the requirements for attributional robustness and introduces two new regularizers that preserve a model's attribution map during attacks. Our method surpasses state-of-the-art attributional robustness methods by a margin of approximately 3% to 9% in terms of attribution robustness measures on several datasets including MNIST, FMNIST, Flower and GTSRB.
翻訳日:2021-04-19 11:13:15 公開日:2020-12-28
# 物理力学の教師なし分解による因果世界モデル

Causal World Models by Unsupervised Deconfounding of Physical Dynamics ( http://arxiv.org/abs/2012.14228v1 )

ライセンス: Link先を確認
Minne Li, Mengyue Yang, Furui Liu, Xu Chen, Zhitang Chen, Jun Wang(参考訳) 世界の精神モデルで内部を想像する能力は、人間の認知にとって極めて重要である。 マシンインテリジェントなエージェントが世界モデルを学び、"恐ろしい"環境を作ることができれば、内部で何の質問 -- 過去に経験されていない代替の未来をシミュレート -- を行い、それに応じて最適な決定を行うことができます。 既存の世界モデルは通常、状態遷移ダイナミクスに影響を与える要因を考慮せずに、過去の感覚信号から埋め込まれた時空間正規性を学習することによって確立される。 そのため、特定の行動方針が取られた場合、「何が起こったのか」という批判的な反事実的疑問に答えられなかった。 本稿では,潜伏要因の推定器を学習することにより,干渉観測と代替未来との関係を教師なしでモデル化できる因果世界モデル(CWMs)を提案する。 本手法を実証的に評価し,様々な物理的推論環境での有効性を実証する。 具体的には,強化学習タスクにおけるサンプル複雑性の低減と,反事実的物理的推論の改善を示す。

The capability of imagining internally with a mental model of the world is vitally important for human cognition. If a machine intelligent agent can learn a world model to create a "dream" environment, it can then internally ask what-if questions -- simulate the alternative futures that haven't been experienced in the past yet -- and make optimal decisions accordingly. Existing world models are established typically by learning spatio-temporal regularities embedded from the past sensory signal without taking into account confounding factors that influence state transition dynamics. As such, they fail to answer the critical counterfactual questions about "what would have happened" if a certain action policy was taken. In this paper, we propose Causal World Models (CWMs) that allow unsupervised modeling of relationships between the intervened observations and the alternative futures by learning an estimator of the latent confounding factors. We empirically evaluate our method and demonstrate its effectiveness in a variety of physical reasoning environments. Specifically, we show reductions in sample complexity for reinforcement learning tasks and improvements in counterfactual physical reasoning.
翻訳日:2021-04-19 11:12:21 公開日:2020-12-28
# LookHops: グラフ分類のための軽量多階畳み込みとプール

LookHops: light multi-order convolution and pooling for graph classification ( http://arxiv.org/abs/2012.15741v1 )

ライセンス: Link先を確認
Zhangyang Gao, Haitao Lin, Stan. Z Li(参考訳) 畳み込みとプーリングはグラフ分類の階層的表現を学習する鍵となる演算であり、より表現力のある$k$-order($k>1$)法では計算コストが増加し、さらなるアプリケーションを制限する。 本稿では,近隣情報ゲインを介して$k$を選択する戦略を考察し,性能向上にともなうパラメータの少ない軽量$k$-order畳み込みとプーリングを提案する。 6つのグラフ分類ベンチマークによる包括的かつ公正な実験では、1) パフォーマンス改善は$k$-order情報ゲインと一致している。 2) 提案する畳み込みは, 競合的な結果を与える一方で, パラメータを少なくする。 3) 提案手法は効率と性能の点でSOTAアルゴリズムより優れている。

Convolution and pooling are the key operations to learn hierarchical representation for graph classification, where more expressive $k$-order($k>1$) method requires more computation cost, limiting the further applications. In this paper, we investigate the strategy of selecting $k$ via neighborhood information gain and propose light $k$-order convolution and pooling requiring fewer parameters while improving the performance. Comprehensive and fair experiments through six graph classification benchmarks show: 1) the performance improvement is consistent to the $k$-order information gain. 2) the proposed convolution requires fewer parameters while providing competitive results. 3) the proposed pooling outperforms SOTA algorithms in terms of efficiency and performance.
翻訳日:2021-04-19 11:11:50 公開日:2020-12-28
# TextGraphs 2020のRed Dragon AI共有タスク:マルチホップ説明ランク付けのためのLSTMインターリーブ変換器

Red Dragon AI at TextGraphs 2020 Shared Task: LIT : LSTM-Interleaved Transformer for Multi-Hop Explanation Ranking ( http://arxiv.org/abs/2012.14164v1 )

ライセンス: Link先を確認
Yew Ken Chia and Sam Witteveen and Martin Andrews(参考訳) 科学的な疑問に答える説明可能な質問は、大量の事実文に対してマルチホップ推論を必要とする課題である。 クエリとドキュメントのペアを個別に見る方法の制限に対処するため,マルチホップランキングを改善するために,クロスドキュメントインタラクションを組み込んだLSTM-Interleaved Transformerを提案する。 LITアーキテクチャは、再ランク設定において、事前のランキング位置を利用することができる。 私たちのモデルは、現在のTextGraphs 2020共有タスクのリーダーボードで競争力があり、テストセットMAPの0.5607を達成しています。 私たちのコード実装はhttps://github.com/m dda/worldtree_corpus /tree/textgraphs_202 0で利用可能です。

Explainable question answering for science questions is a challenging task that requires multi-hop inference over a large set of fact sentences. To counter the limitations of methods that view each query-document pair in isolation, we propose the LSTM-Interleaved Transformer which incorporates cross-document interactions for improved multi-hop ranking. The LIT architecture can leverage prior ranking positions in the re-ranking setting. Our model is competitive on the current leaderboard for the TextGraphs 2020 shared task, achieving a test-set MAP of 0.5607, and would have gained third place had we submitted before the competition deadline. Our code implementation is made available at https://github.com/m dda/worldtree_corpus /tree/textgraphs_202 0
翻訳日:2021-04-19 11:11:35 公開日:2020-12-28
# 任意の規範によるマニフォールド学習

Manifold learning with arbitrary norms ( http://arxiv.org/abs/2012.14172v1 )

ライセンス: Link先を確認
Joe Kileel, Amit Moscovich, Nathan Zelesko, Amit Singer(参考訳) マニフォールド学習法は, 非線形次元減少や, 内在次元の低い高次元データセットを含むタスクにおいて, 顕著な役割を担っている。 これらの手法の多くはグラフベースであり、頂点を各データポイントと各閉点間の重み付きエッジに関連付ける。 既存の理論は、ある条件下で、構築されたグラフのラプラシアン行列がデータ多様体のラプラス・ベルトラミ作用素に収束することを示している。 しかし、この結果はユークリッドノルムが距離を測定するために使われると仮定する。 本稿では、$\textit{any}$ norm を用いて構築したグラフラプラシアンに対する制限微分作用素を決定する。 この証明は、基礎多様体の第2基本形式とノルムの単位球の凸幾何学の間の微妙な相互作用を含む。 非ユークリッドノルムの使用を動機づけるために、アースモーバー距離に基づく多様体学習は、サンプル複雑性と計算複雑性の両方の観点から、分子形状空間を学習するための標準ユークリッド変量より優れていることを示す数値シミュレーションで示す。

Manifold learning methods play a prominent role in nonlinear dimensionality reduction and other tasks involving high-dimensional data sets with low intrinsic dimensionality. Many of these methods are graph-based: they associate a vertex with each data point and a weighted edge between each pair of close points. Existing theory shows, under certain conditions, that the Laplacian matrix of the constructed graph converges to the Laplace-Beltrami operator of the data manifold. However, this result assumes the Euclidean norm is used for measuring distances. In this paper, we determine the limiting differential operator for graph Laplacians constructed using $\textit{any}$ norm. The proof involves a subtle interplay between the second fundamental form of the underlying manifold and the convex geometry of the norm's unit ball. To motivate the use of non-Euclidean norms, we show in a numerical simulation that manifold learning based on Earthmover's distances outperforms the standard Euclidean variant for learning molecular shape spaces, in terms of both sample complexity and computational complexity.
翻訳日:2021-04-19 11:11:21 公開日:2020-12-28
# 壊滅的なフィッシャー爆発:初期フィッシャーマトリックスが一般化に影響を及ぼす

Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization ( http://arxiv.org/abs/2012.14193v1 )

ライセンス: Link先を確認
Stanislaw Jastrzebski, Devansh Arpit, Oliver Astrand, Giancarlo Kerg, Huan Wang, Caiming Xiong, Richard Socher, Kyunghyun Cho, Krzysztof Geras(参考訳) トレーニングの初期段階は、ディープニューラルネットワークの2つの方法において重要であることが示されている。 まず、この段階における正規化の度合いは最終一般化に大きく影響する。 第二に、正規化選択の影響による局所的損失曲率の急激な変化が伴う。 これら2つの知見を結びつけて,確率勾配降下(SGD)が訓練開始からFIM(Fiher Information Matrix)の痕跡を暗黙的に遡上することを示した。 sgd における暗黙の正規化であり、fim のトレースを明示的にペナルティ化することで一般化を大幅に改善できることを示す。 さらに、FIMのトレースの初期値は、最終一般化と強く相関していることを示す。 暗黙的あるいは明示的な正則化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増大し、これは破滅的なフィッシャー爆発である。 最後に, FIMのトレースをペナライズする正規化効果について考察するため, 1) クリーンなサンプルよりもノイズの多いラベルを持つサンプルの学習速度を減らし, メモリ化を制限すること, 2) 平坦なミニマにおいてFIMのエンドの初期トレースが低いトラジェクトリについて考察した。

The early phase of training has been shown to be important in two ways for deep neural networks. First, the degree of regularization in this phase significantly impacts the final generalization. Second, it is accompanied by a rapid change in the local loss curvature influenced by regularization choices. Connecting these two findings, we show that stochastic gradient descent (SGD) implicitly penalizes the trace of the Fisher Information Matrix (FIM) from the beginning of training. We argue it is an implicit regularizer in SGD by showing that explicitly penalizing the trace of the FIM can significantly improve generalization. We further show that the early value of the trace of the FIM correlates strongly with the final generalization. We highlight that in the absence of implicit or explicit regularization, the trace of the FIM can increase to a large value early in training, to which we refer as catastrophic Fisher explosion. Finally, to gain insight into the regularization effect of penalizing the trace of the FIM, we show that 1) it limits memorization by reducing the learning speed of examples with noisy labels more than that of the clean examples, and 2) trajectories with a low initial trace of the FIM end in flat minima, which are commonly associated with good generalization.
翻訳日:2021-04-19 11:11:02 公開日:2020-12-28
# コンセプトシフトのオンラインテスト

Testing for concept shift online ( http://arxiv.org/abs/2012.14246v1 )

ライセンス: Link先を確認
Vladimir Vovk(参考訳) このノートは、交換性マリンタレ、すなわち、観測のための交換性分布の下でマーチンタレとなる過程の研究を継続する。 このようなプロセスは、機械学習で一般的に行われるiid仮定の違反を検出するために使用することができる。 iid仮定の違反はデータセットシフトと呼ばれることもあり、データセットシフトは概念シフトや共変シフトなどに分割されることもある。 我々の主な関心は概念シフトであるが、概念シフトを検出する2つのコンポーネントに完全に分解する交換可能性マーチンガレットと、ラベルシフトと呼ばれるものを検出する2つのコンポーネントについても議論する。 我々の手法は共形予測の手法に基づいている。

This note continues study of exchangeability martingales, i.e., processes that are martingales under any exchangeable distribution for the observations. Such processes can be used for detecting violations of the IID assumption, which is commonly made in machine learning. Violations of the IID assumption are sometimes referred to as dataset shift, and dataset shift is sometimes subdivided into concept shift, covariate shift, etc. Our primary interest is in concept shift, but we will also discuss exchangeability martingales that decompose perfectly into two components one of which detects concept shift and the other detects what we call label shift. Our methods will be based on techniques of conformal prediction.
翻訳日:2021-04-19 11:10:36 公開日:2020-12-28
# データ拡張と画像理解

Data augmentation and image understanding ( http://arxiv.org/abs/2012.14185v1 )

ライセンス: Link先を確認
Alex Hernandez-Garcia(参考訳) 学際研究は、しばしば科学的進歩の核心にある。 この論文は、機械学習、認知科学、神経科学の間の有利なシナジーを探求している。 特にこの論文は視覚と画像に焦点を当てている。 視覚は多くの人の支配的な感覚であるため、人間の視覚システムは行動と神経科学の両方の観点から広く研究されてきた。 逆に、機械ビジョンは研究の活発な領域であり、現在は人工ニューラルネットワークによって支配されている。 この研究は、視覚知覚と生物学的ビジョンとより整合した学習表現に焦点を当てている。 その目的のために、認知科学や計算神経科学からツールや側面を研究し、それらを視覚の機械学習モデルに組み込もうとしました。 この論文の中心的なテーマは、画像の変換を通じてデータセットのサイズを増強するために、人工ニューラルネットワークをトレーニングするための一般的なテクニックであるdata augmentationである。 しばしば見過ごされるが、データ拡張は、視覚の世界で見られる変換 – 例えば視点や照明の変化 – に対応するため、知覚的に妥当な変換を実装している。 さらに、神経科学者は、脳がこれらの変換の下で不変に物体を表現していることを発見した。 この論文を通して、私はこれらの洞察を用いて、特に有用な帰納的バイアス、より効果的なニューラルネットワークの正規化法、知覚可能な変換への視覚モデルの不変性の分析と改善のためのフレームワークとしてデータ拡張を分析する。 全体として、この研究は、データ拡張の特性にさらなる光を当て、学際研究の可能性を示すことを目的としている。

Interdisciplinary research is often at the core of scientific progress. This dissertation explores some advantageous synergies between machine learning, cognitive science and neuroscience. In particular, this thesis focuses on vision and images. The human visual system has been widely studied from both behavioural and neuroscientific points of view, as vision is the dominant sense of most people. In turn, machine vision has also been an active area of research, currently dominated by the use of artificial neural networks. This work focuses on learning representations that are more aligned with visual perception and the biological vision. For that purpose, I have studied tools and aspects from cognitive science and computational neuroscience, and attempted to incorporate them into machine learning models of vision. A central subject of this dissertation is data augmentation, a commonly used technique for training artificial neural networks to augment the size of data sets through transformations of the images. Although often overlooked, data augmentation implements transformations that are perceptually plausible, since they correspond to the transformations we see in our visual world -- changes in viewpoint or illumination, for instance. Furthermore, neuroscientists have found that the brain invariantly represents objects under these transformations. Throughout this dissertation, I use these insights to analyse data augmentation as a particularly useful inductive bias, a more effective regularisation method for artificial neural networks, and as the framework to analyse and improve the invariance of vision models to perceptually plausible transformations. Overall, this work aims to shed more light on the properties of data augmentation and demonstrate the potential of interdisciplinary research.
翻訳日:2021-04-19 11:10:25 公開日:2020-12-28
# segis-netを用いた経時的拡散mri解析 : 同時セグメンテーションと登録のための1ステップディープラーニングフレームワーク

Longitudinal diffusion MRI analysis using Segis-Net: a single-step deep-learning framework for simultaneous segmentation and registration ( http://arxiv.org/abs/2012.14230v1 )

ライセンス: Link先を確認
Bo Li, Wiro J. Niessen, Stefan Klein, Marius de Groot, M. Arfan Ikram, Meike W. Vernooij, Esther E. Bron(参考訳) 本稿では,縦型画像解析のための一段階ディープラーニングフレームワークsegis-netについて述べる。 縦断データに利用可能な情報を最適に活用するために、マルチクラスセグメンテーションと非線形登録を同時に学習する。 セグメンテーションと登録は畳み込みニューラルネットワークを用いてモデル化され、相互利益のために同時に最適化される。 時間点を越えたセグメント構造に対する空間対応を最適化する目的関数を提案する。 高齢者3249名のn=8045縦型脳mriデータから,segis-netを用いて白質路の解析を行った。 Segis-Netアプローチは2つのマルチステージパイプラインと比較して,登録精度,時空間分割整合性,再現性が大きく向上した。 これはまた、トラクション特異的な測定において同じ統計力を達成するために必要とされるサンプルサイズの大幅な削減につながった。 したがって、segis-netは、経時的イメージング研究を支援する新しい信頼できるツールとなり、時間とともに、マクロおよびミクロ組織的脳変化を調査できることを期待している。

This work presents a single-step deep-learning framework for longitudinal image analysis, coined Segis-Net. To optimally exploit information available in longitudinal data, this method concurrently learns a multi-class segmentation and nonlinear registration. Segmentation and registration are modeled using a convolutional neural network and optimized simultaneously for their mutual benefit. An objective function that optimizes spatial correspondence for the segmented structures across time-points is proposed. We applied Segis-Net to the analysis of white matter tracts from N=8045 longitudinal brain MRI datasets of 3249 elderly individuals. Segis-Net approach showed a significant increase in registration accuracy, spatio-temporal segmentation consistency, and reproducibility comparing with two multistage pipelines. This also led to a significant reduction in the sample-size that would be required to achieve the same statistical power in analyzing tract-specific measures. Thus, we expect that Segis-Net can serve as a new reliable tool to support longitudinal imaging studies to investigate macro- and microstructural brain changes over time.
翻訳日:2021-04-19 11:10:03 公開日:2020-12-28
# dalex: pythonのインタラクティブな説明性と公平性を備えた責任ある機械学習

dalex: Responsible Machine Learning with Interactive Explainability and Fairness in Python ( http://arxiv.org/abs/2012.14406v1 )

ライセンス: Link先を確認
Hubert Baniecki, Wojciech Kretowicz, Piotr Piatyszek, Jakub Wisniewski, Przemyslaw Biecek(参考訳) 利用可能なデータ量の増加、計算能力の向上、パフォーマンス向上の追求により、予測モデルの複雑さが増大する。 ブラックボックスの性質は不透明な負債現象を引き起こし、差別のリスクの増加、再現性の欠如、データドリフトによるパフォーマンス低下をもたらす。 これらのリスクを管理するため、優れたMLOpsプラクティスでは、モデルパフォーマンスと公正性、説明可能性の向上、継続的な監視の検証が求められている。 より深いモデル透明性の必要性は、科学や社会の領域だけでなく、人工知能に関する新しい法律や規則にも現れている。 責任ある機械学習モデルの開発を容易にするため,対話型モデル探索のためのモデル非依存インタフェースを実装したPythonパッケージであるdalexを紹介した。 機械学習に責任を持つさまざまなツールの開発を通じて作られたデザインを採用しており、既存のソリューションの統合を目指している。 このライブラリのソースコードとドキュメントは、https://python.drwhy .ai/で公開されている。

The increasing amount of available data, computing power, and the constant pursuit for higher performance results in the growing complexity of predictive models. Their black-box nature leads to opaqueness debt phenomenon inflicting increased risks of discrimination, lack of reproducibility, and deflated performance due to data drift. To manage these risks, good MLOps practices ask for better validation of model performance and fairness, higher explainability, and continuous monitoring. The necessity of deeper model transparency appears not only from scientific and social domains, but also emerging laws and regulations on artificial intelligence. To facilitate the development of responsible machine learning models, we showcase dalex, a Python package which implements the model-agnostic interface for interactive model exploration. It adopts the design crafted through the development of various tools for responsible machine learning; thus, it aims at the unification of the existing solutions. This library's source code and documentation are available under open license at https://python.drwhy .ai/.
翻訳日:2021-04-19 11:09:05 公開日:2020-12-28
# オンラインテンソル独立成分分析のための確率近似

Stochastic Approximation for Online Tensorial Independent Component Analysis ( http://arxiv.org/abs/2012.14415v1 )

ライセンス: Link先を確認
Chris Junchi Li, Michael I. Jordan(参考訳) 独立成分分析(ICA)は統計機械学習や信号処理において一般的な次元削減ツールである。 本稿では,この問題を非凸確率近似問題として見ることにより,オンラインテンソルicaアルゴリズムの収束解析を行う。 1つの成分を推定するために, オンラインテンソルicaアルゴリズムがステップライズの選択により, 鋭い有限サンプル誤差バウンドを達成することを証明するために, ダイナミクスに基づく解析を行う。 特に、データ生成分布とスケーリング条件について、$d^4 / T$がデータ次元$d$とサンプルサイズ$T$の多対数係数まで十分に小さいという軽微な仮定の下で、鋭い有限サンプル誤差の$\tilde O(\sqrt{d / T})$を得ることができる。 副産物として,複数の独立成分を並列に推定し,各独立成分推定器に対して所望の有限サンプル誤差を求めるオンラインテンソルicaアルゴリズムを設計する。

Independent component analysis (ICA) has been a popular dimension reduction tool in statistical machine learning and signal processing. In this paper, we present a convergence analysis for an online tensorial ICA algorithm, by viewing the problem as a nonconvex stochastic approximation problem. For estimating one component, we provide a dynamics-based analysis to prove that our online tensorial ICA algorithm with a specific choice of stepsize achieves a sharp finite-sample error bound. In particular, under a mild assumption on the data-generating distribution and a scaling condition such that $d^4 / T$ is sufficiently small up to a polylogarithmic factor of data dimension $d$ and sample size $T$, a sharp finite-sample error bound of $\tilde O(\sqrt{d / T})$ can be obtained. As a by-product, we also design an online tensorial ICA algorithm that estimates multiple independent components in parallel, achieving desirable finite-sample error bound for each independent component estimator.
翻訳日:2021-04-19 11:08:49 公開日:2020-12-28
# Straggler-Resilient Federated Learning: 統計的精度とシステム不均一性の相互作用を活用する

Straggler-Resilient Federated Learning: Leveraging the Interplay Between Statistical Accuracy and System Heterogeneity ( http://arxiv.org/abs/2012.14453v1 )

ライセンス: Link先を確認
Amirhossein Reisizadeh, Isidoros Tziotis, Hamed Hassani, Aryan Mokhtari, Ramtin Pedarsani(参考訳) フェデレーション学習(federated learning)は、データをローカルに保持しながら、大規模なクライアントネットワークに分散したデータサンプルから学習する、新たなパラダイムである。 しかし、フェデレーション学習は、クライアントが異なる計算能力と通信能力を持つシステムの不均一性を含む、複数のシステム課題に直面することが知られている。 このようなクライアントの計算速度の不均一性は、フェデレートされた学習アルゴリズムのスケーラビリティに悪影響を及ぼし、ストラグラーの存在により実行時にかなりのスローダウンを引き起こす。 本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。 提案アルゴリズムの主な考え方は,現在のノードに対応するデータの統計的精度に到達すると,より高速なノードでトレーニング手順を開始し,モデルトレーニングにおいて徐々に遅いノードを巻き込むことである。 提案手法は,各ステージの解が次のステージの解に近く,より多くのサンプルを持ち,ウォームスタートとして使用できるため,すべてのノードのデータの統計的精度を達成するために必要な全体のランタイムを削減する。 また,本実験では,強凸目標に対する標準フェデレートベンチマークと比較した高速化効果を特徴とし,ストラグラー・レジリエント法におけるフェデレート学習ベンチマークと比較して,壁時計時間における高速化効果を数値実験により示している。

Federated Learning is a novel paradigm that involves learning from data samples distributed across a large network of clients while the data remains local. It is, however, known that federated learning is prone to multiple system challenges including system heterogeneity where clients have different computation and communication capabilities. Such heterogeneity in clients' computation speeds has a negative effect on the scalability of federated learning algorithms and causes significant slow-down in their runtime due to the existence of stragglers. In this paper, we propose a novel straggler-resilient federated learning method that incorporates statistical characteristics of the clients' data to adaptively select the clients in order to speed up the learning procedure. The key idea of our algorithm is to start the training procedure with faster nodes and gradually involve the slower nodes in the model training once the statistical accuracy of the data corresponding to the current participating nodes is reached. The proposed approach reduces the overall runtime required to achieve the statistical accuracy of data of all nodes, as the solution for each stage is close to the solution of the subsequent stage with more samples and can be used as a warm-start. Our theoretical results characterize the speedup gain in comparison to standard federated benchmarks for strongly convex objectives, and our numerical experiments also demonstrate significant speedups in wall-clock time of our straggler-resilient method compared to federated learning benchmarks.
翻訳日:2021-04-19 11:08:27 公開日:2020-12-28
# Lesion Net-Coordinate ConvolutionとDeep Residual Unitsを用いた皮膚病変分割

Lesion Net -- Skin Lesion Segmentation Using Coordinate Convolution and Deep Residual Units ( http://arxiv.org/abs/2012.14249v1 )

ライセンス: Link先を確認
Sabari Nathan, Priya Kansal(参考訳) 皮膚悪性黒色腫の診断過程において,皮膚病変の分節は重要なステップである。 しかし, メラノーマ皮膚病変の分画精度は, トレーニングデータが少なく, 不規則な形状, 境界が不明瞭で, 肌の色が異なるため, 極めて難しい課題である。 提案手法は皮膚病変分節の精度を向上させるのに役立つ。 まず、入力画像をエンコーダに渡す前に座標畳み込み層を導入する。 この層はネットワークが翻訳不変性に関する特徴を決定するのに役立ち、モデルの一般化能力をさらに向上させる。 第二に、我々は畳み込み層とともに深部残留単位の特性を利用した。 最終的に、クロスエントロピーやサイスロスのみを使用する代わりに、2ロス関数を組み合わせてトレーニングメトリクスを最適化し、損失をより迅速かつスムーズに収束できるようにしました。 提案されたモデルをISIC 2018(列車セットの60%+検証セットの20%)でトレーニングし、検証した後、トレーニングされたモデルの堅牢性をISIC 2018(テストセットの20%)、ISIC 2017、2016、PH2データセットといったさまざまなデータセットでテストしました。 以上の結果から,提案モデルが既存の皮膚病変の分画法と同等以上の性能を示した。

Skin lesions segmentation is an important step in the process of automated diagnosis of the skin melanoma. However, the accuracy of segmenting melanomas skin lesions is quite a challenging task due to less data for training, irregular shapes, unclear boundaries, and different skin colors. Our proposed approach helps in improving the accuracy of skin lesion segmentation. Firstly, we have introduced the coordinate convolutional layer before passing the input image into the encoder. This layer helps the network to decide on the features related to translation invariance which further improves the generalization capacity of the model. Secondly, we have leveraged the properties of deep residual units along with the convolutional layers. At last, instead of using only cross-entropy or Dice-loss, we have combined the two-loss functions to optimize the training metrics which helps in converging the loss more quickly and smoothly. After training and validating the proposed model on ISIC 2018 (60% as train set + 20% as validation set), we tested the robustness of our trained model on various other datasets like ISIC 2018 (20% as test-set) ISIC 2017, 2016 and PH2 dataset. The results show that the proposed model either outperform or at par with the existing skin lesion segmentation methods.
翻訳日:2021-04-19 11:07:58 公開日:2020-12-28
# 病的歩行と正常歩行の分類 : アンケート調査

Classification of Pathological and Normal Gait: A Survey ( http://arxiv.org/abs/2012.14465v1 )

ライセンス: Link先を確認
Ryan C. Saxe, Samantha Kappagoda, David K.A. Mordecai(参考訳) 歩行認識とは、コンピュータ科学分野における識別問題と呼ばれる用語である。 動作パターンに基づいて個人を識別できる様々な方法やモデルが存在する。 本稿では,歩行認識に関する現在の文献を調査し,個人間の歩行運動のパターンやモードに関するデータ収集と分析のための適切な指標,デバイス,アルゴリズムの同定を試みる。 さらに、この調査は、国家間の歩行の摂動に関する縦断的分析の幅広い範囲への関心を動機付けようとしている。 生理的、動機的、および/または認知状態)。 より広義には、通常の歩行パターンと病的歩行パターンへの推論は、縦型と非縦型の両方の分類に基づいている。 これは、疲労の定量化のためのアルゴリズムメトリクスの作成や、エピソード障害の予測モデルなど、有望な研究方向と実験的設計を示す可能性がある。 さらに、他の生理的・環境的条件の測定と合わせて、病状状態のシンドロミック監視や認知障害の推測に病理学的歩行分類を適用することができる。

Gait recognition is a term commonly referred to as an identification problem within the Computer Science field. There are a variety of methods and models capable of identifying an individual based on their pattern of ambulatory locomotion. By surveying the current literature on gait recognition, this paper seeks to identify appropriate metrics, devices, and algorithms for collecting and analyzing data regarding patterns and modes of ambulatory movement across individuals. Furthermore, this survey seeks to motivate interest in a broader scope of longitudinal analysis regarding the perturbations in gait across states (i.e. physiological, emotive, and/or cognitive states). More broadly, inferences to normal versus pathological gait patterns can be attributed, based on both longitudinal and non-longitudinal forms of classification. This may indicate promising research directions and experimental designs, such as creating algorithmic metrics for the quantification of fatigue, or models for forecasting episodic disorders. Furthermore, in conjunction with other measurements of physiological and environmental conditions, pathological gait classification might be applicable to inference for syndromic surveillance of infectious disease states or cognitive impairment.
翻訳日:2021-04-19 11:07:34 公開日:2020-12-28
# 構文強化プレトレーニングモデル

Syntax-Enhanced Pre-trained Model ( http://arxiv.org/abs/2012.14116v1 )

ライセンス: Link先を確認
Zenan Xu, Daya Guo, Duyu Tang, Qinliang Su, Linjun Shou, Ming Gong, Wanjun Zhong, Xiaojun Quan, Nan Duan and Daxin Jiang(参考訳) 本研究では, BERT や RoBERTa などの事前学習モデルを強化するために, テキストの構文構造を活用するという課題について検討する。 既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。 このような問題は、既存のメソッドの幅広いシナリオへの適用を制限する、人間に注釈をつけた構文情報を持つことの必要性につながる。 そこで本研究では,事前学習と微調整の両方でテキストの構文を利用するモデルを提案する。 我々のモデルは、テキストの依存性ツリーを考慮に入れた構文対応の注意層を備えたTransformerに基づいている。 さらに,依存ツリー内のトークン間の構文距離を予測するための事前学習タスクを導入する。 我々は,関係分類,エンティティタイピング,質問応答を含む3つの下流タスクのモデルを評価する。 その結果,本モデルが6つの公開ベンチマークデータセット上での最先端性能を実現することがわかった。 主な発見は2つある。 まず,テキストの自動生成構文が事前学習モデルを改善することを示す。 第2に、トークン間のグローバル構文距離は、連続したトークン間のローカルなヘッドリレーションよりも大きなパフォーマンス向上をもたらす。

We study the problem of leveraging the syntactic structure of text to enhance pre-trained models such as BERT and RoBERTa. Existing methods utilize syntax of text either in the pre-training stage or in the fine-tuning stage, so that they suffer from discrepancy between the two stages. Such a problem would lead to the necessity of having human-annotated syntactic information, which limits the application of existing methods to broader scenarios. To address this, we present a model that utilizes the syntax of text in both pre-training and fine-tuning stages. Our model is based on Transformer with a syntax-aware attention layer that considers the dependency tree of the text. We further introduce a new pre-training task of predicting the syntactic distance among tokens in the dependency tree. We evaluate the model on three downstream tasks, including relation classification, entity typing, and question answering. Results show that our model achieves state-of-the-art performance on six public benchmark datasets. We have two major findings. First, we demonstrate that infusing automatically produced syntax of text improves pre-trained models. Second, global syntactic distances among tokens bring larger performance gains compared to local head relations between contiguous tokens.
翻訳日:2021-04-19 11:06:58 公開日:2020-12-28
# 長文の拡張要約の作成について

On Generating Extended Summaries of Long Documents ( http://arxiv.org/abs/2012.14136v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Arman Cohan, Nazli Goharian(参考訳) 文書要約における先行研究は、主に文書の短い要約を生成することに焦点を当てている。 このタイプの要約は、あるドキュメントの高レベルなビューを得るのに役立ちますが、短い要約には当てはまらない、その優れたポイントに関するより詳細な情報を知ることが望ましい場合もあります。 これは通常、研究用紙、法的文書、書籍のようなより長い文書の場合である。 本稿では,長文の拡張要約を生成するための新しい手法を提案する。 提案手法は文書の階層構造を利用して,マルチタスク学習手法を用いて抽出的要約モデルに組み込む。 次に,3つの長い要約データセット,arXiv-Long,PubMed-L ong,Longsummについて報告する。 提案手法は, 強いベースラインの性能に優れ, 適合する。 さらに, 得られた結果について総合的な分析を行い, 長文要約生成課題の今後の研究について考察する。 提案手法は,複数節にまたがる要約文に対して,抽出確率分布を調整可能であることを示す。 私たちのデータセットとコードはhttps://github.com/G eorgetown-IR-Lab/Ext endedSummで公開されています。

Prior work in document summarization has mainly focused on generating short summaries of a document. While this type of summary helps get a high-level view of a given document, it is desirable in some cases to know more detailed information about its salient points that can't fit in a short summary. This is typically the case for longer documents such as a research paper, legal document, or a book. In this paper, we present a new method for generating extended summaries of long papers. Our method exploits hierarchical structure of the documents and incorporates it into an extractive summarization model through a multi-task learning approach. We then present our results on three long summarization datasets, arXiv-Long, PubMed-Long, and Longsumm. Our method outperforms or matches the performance of strong baselines. Furthermore, we perform a comprehensive analysis over the generated results, shedding insights on future research for long-form summary generation task. Our analysis shows that our multi-tasking approach can adjust extraction probability distribution to the favor of summary-worthy sentences across diverse sections. Our datasets, and codes are publicly available at https://github.com/G eorgetown-IR-Lab/Ext endedSumm
翻訳日:2021-04-19 11:06:42 公開日:2020-12-28
# 逆三重項埋め込みによる人物識別

Person Re-identification with Adversarial Triplet Embedding ( http://arxiv.org/abs/2012.14057v1 )

ライセンス: Link先を確認
Xinglu Wang(参考訳) 人物再特定は重要な課題であり、公共の安全のためのビデオ監視に広く応用されている。 近年,三重項損失を伴うディープラーニングネットワークが,この問題に対して人気を博している。 しかし、三重項の損失は通常、地域の最適性に乏しく、ハード・サンプル・マイニングの戦略に大きく依存する。 本稿では, 逆三重項埋め込み (ATE) と呼ばれる新しい深層学習手法を用いてこの問題に対処し, 同時に逆三重項と識別的特徴を統一されたフレームワークに埋め込む手法を提案する。 特に、adversarial tripletは、トレーニングプロセスにadversarial perturbationを導入することによって生成される。 この逆ゲームは、理論的な観点から最適な解を得るためにミニマックス問題に変換される。 いくつかのベンチマークデータセットに対する大規模な実験は、最先端の文献に対するアプローチの有効性を示している。

Person re-identification is an important task and has widespread applications in video surveillance for public security. In the past few years, deep learning network with triplet loss has become popular for this problem. However, the triplet loss usually suffers from poor local optimal and relies heavily on the strategy of hard example mining. In this paper, we propose to address this problem with a new deep metric learning method called Adversarial Triplet Embedding (ATE), in which we simultaneously generate adversarial triplets and discriminative feature embedding in an unified framework. In particular, adversarial triplets are generated by introducing adversarial perturbations into the training process. This adversarial game is converted into a minimax problem so as to have an optimal solution from the theoretical view. Extensive experiments on several benchmark datasets demonstrate the effectiveness of the approach against the state-of-the-art literature.
翻訳日:2021-04-19 11:05:03 公開日:2020-12-28
# 人物再識別のための多人数特徴学習

Adversarial Multi-scale Feature Learning for Person Re-identification ( http://arxiv.org/abs/2012.14061v1 )

ライセンス: Link先を確認
Xinglu Wang(参考訳) 個人再識別(Person ReID)は知的監視とコンピュータビジョンにおいて重要なトピックである。 2つの画像が同一人物に対応するか否かを判断するために、人物画像間の視覚的類似性を正確に測定することを目的とする。 視覚的類似性を正確に測定するための鍵は、異なる空間スケールからの手がかりをキャプチャするだけでなく、複数のスケールで共同推論し、各手がかりの信頼性とid-相対性を決定する能力を持つ、識別的特徴の学習である。 これらの目標を達成するために,2つの観点からPerson ReIDシステムの性能を改善することを提案する。 クロススケール情報伝達 (CSIP) とマルチスケール特徴融合 (MSFF) から構成されるマルチスケール特徴学習 (MSFL) により, 動的に異なるスケールを融合する。 マルチスケール勾配正規化器(MSGR)は,ID関連因子を強調し,非関連因子を逆向きに無視する。 提案手法はMSFLとMSGRを組み合わせることで,テスト時間計算のオーバーヘッドを無視できる4つの個人ReIDデータセットの最先端性能を実現する。

Person Re-identification (Person ReID) is an important topic in intelligent surveillance and computer vision. It aims to accurately measure visual similarities between person images for determining whether two images correspond to the same person. The key to accurately measure visual similarities is learning discriminative features, which not only captures clues from different spatial scales, but also jointly inferences on multiple scales, with the ability to determine reliability and ID-relativity of each clue. To achieve these goals, we propose to improve Person ReID system performance from two perspective: \textbf{1).} Multi-scale feature learning (MSFL), which consists of Cross-scale information propagation (CSIP) and Multi-scale feature fusion (MSFF), to dynamically fuse features cross different scales.\textbf{2).} Multi-scale gradient regularizor (MSGR), to emphasize ID-related factors and ignore irrelevant factors in an adversarial manner. Combining MSFL and MSGR, our method achieves the state-of-the-art performance on four commonly used person-ReID datasets with neglectable test-time computation overhead.
翻訳日:2021-04-19 11:04:50 公開日:2020-12-28
# 顔形状に基づくフーリエディスクリプタ融合を用いた人間の表情認識

Human Expression Recognition using Facial Shape Based Fourier Descriptors Fusion ( http://arxiv.org/abs/2012.14097v1 )

ライセンス: Link先を確認
Ali Raza Shahid, Sheheryar Khan, Hong Yan(参考訳) 動的表情認識は、ソーシャルネットワーク、マルチメディアコンテンツ分析、セキュリティシステムなど、多くの有用な応用がある。 この困難なプロセスは、部分的オクルージョンで変化する画像照明と低分解能の繰り返しの問題の下で行う必要がある。 本稿では,顔の筋肉の変化に基づく新しい表情認識法を提案する。 幾何学的特徴は、口、目、鼻などの顔領域を特定するために用いられる。 楕円フーリエ形状記述子と組み合わせた汎用フーリエ形状記述子は、周波数スペクトルの特徴の下で異なる感情を表現する属性として用いられる。 その後、7つの人間の表現の分類にマルチクラスサポートベクターマシンが適用される。 統計的解析により, 顔表情データセット上での精度の高い5倍クロス検証により, 総合的コンピテント認識が得られた。

Dynamic facial expression recognition has many useful applications in social networks, multimedia content analysis, security systems and others. This challenging process must be done under recurrent problems of image illumination and low resolution which changes at partial occlusions. This paper aims to produce a new facial expression recognition method based on the changes in the facial muscles. The geometric features are used to specify the facial regions i.e., mouth, eyes, and nose. The generic Fourier shape descriptor in conjunction with elliptic Fourier shape descriptor is used as an attribute to represent different emotions under frequency spectrum features. Afterwards a multi-class support vector machine is applied for classification of seven human expression. The statistical analysis showed our approach obtained overall competent recognition using 5-fold cross validation with high accuracy on well-known facial expression dataset.
翻訳日:2021-04-19 11:04:29 公開日:2020-12-28
# ラベルや衝突のないカテゴリー拡張オブジェクト検出器を目指して

Towards A Category-extended Object Detector without Relabeling or Conflicts ( http://arxiv.org/abs/2012.14115v1 )

ライセンス: Link先を確認
Bowen Zhao, Chen Chen, Wanpeng Xiao, Xi Xiao, Qi Ju, Shutao Xia(参考訳) オブジェクト検出器は通常、あらかじめ定義されたカテゴリを固定した完全なアノテーション付きトレーニングデータに基づいて学習される。 しかし、多くの現実的なアプリケーションでクラスを段階的に増やすことがしばしば要求されるため、興味のあるすべてのカテゴリを事前に知ることはできない。 このようなシナリオでは、古いクラスに注釈付けされた元のトレーニングセットと、新しいクラスにラベル付けされた新しいトレーニングデータのみが利用可能です。 本稿では,手作業を必要とせずに,限られたデータセットに基づいてすべてのカテゴリを処理可能な,強力な統一型検出器の傾きを目標とする。 ラベルの曖昧さを考慮しないバニラ合同トレーニングは、不完全なアノテーションのため、大きなバイアスとパフォーマンスの低下につながる。 このような状況を避けるために,我々は,ベースモデルの改善,ラベルなし地中マイニング戦略の改善,擬似アノテーションによる再トレーニング方法の改善という3つの側面に注目した実践的枠組みを提案する。 まず、使用可能なベース検出器を得るために、競合のない損失を提案する。 次に,モンテカルロ・ドロップアウトを用いて局所化信頼度と分類信頼度を組み合わせ,より正確な境界ボックスをマイニングする。 第3に,再トレーニング中に擬似アノテーションをより有効に活用して,より強力な検出を実現するためのいくつかの戦略を検討する。 複数のデータセット上で行った広範囲な実験は、カテゴリ拡張オブジェクト検出器に対するフレームワークの有効性を実証している。

Object detectors are typically learned based on fully-annotated training data with fixed pre-defined categories. However, not all possible categories of interest can be known beforehand, as classes are often required to be increased progressively in many realistic applications. In such scenario, only the original training set annotated with the old classes and some new training data labeled with the new classes are available. In this paper, we aim at leaning a strong unified detector that can handle all categories based on the limited datasets without extra manual labor. Vanilla joint training without considering label ambiguity leads to heavy biases and poor performance due to the incomplete annotations. To avoid such situation, we propose a practical framework which focuses on three aspects: better base model, better unlabeled ground-truth mining strategy and better retraining method with pseudo annotations. First, a conflict-free loss is proposed to obtain a usable base detector. Second, we employ Monte Carlo Dropout to calculate the localization confidence, combined with the classification confidence, to mine more accurate bounding boxes. Third, we explore several strategies for making better use of pseudo annotations during retraining to achieve more powerful detectors. Extensive experiments conducted on multiple datasets demonstrate the effectiveness of our framework for category-extended object detectors.
翻訳日:2021-04-19 11:04:17 公開日:2020-12-28
# 色化のためのジョイントイントインテンシティ勾配誘導生成モデル

Joint Intensity-Gradient Guided Generative Modeling for Colorization ( http://arxiv.org/abs/2012.14130v1 )

ライセンス: Link先を確認
Kai Hong, Jin Li, Wanyun Li, Cailian Yang, Minghui Zhang, Yuhao Wang and Qiegen Liu(参考訳) 本稿では,自動着色問題を解決するための反復生成モデルを提案する。 従来の研究では、可塑性色を生成する能力が示されていたが、エッジ色オーバーフローと参照画像の要求がまだ残っている。 本研究における教師なし学習の出発点は、勾配写像が画像の潜在情報を持っているという観察である。 したがって、生成モデリングの推論過程は、合同強度勾配領域で行われる。 具体的には、ネットワーク入力として、強度勾配の高次元テンソルの集合を用いて、トレーニングフェーズで強力な雑音条件スコアネットワークをトレーニングする。 さらに,反復発色段階における生成モデル内の自由度を制限するため,データ忠実性項における合同強度勾配制約を提案し,エッジ保存に寄与する。 広範な実験により、定量的比較やユーザ研究において、システムは最先端の手法よりも優れていた。

This paper proposes an iterative generative model for solving the automatic colorization problem. Although previous researches have shown the capability to generate plausible color, the edge color overflow and the requirement of the reference images still exist. The starting point of the unsupervised learning in this study is the observation that the gradient map possesses latent information of the image. Therefore, the inference process of the generative modeling is conducted in joint intensity-gradient domain. Specifically, a set of intensity-gradient formed high-dimensional tensors, as the network input, are used to train a powerful noise conditional score network at the training phase. Furthermore, the joint intensity-gradient constraint in data-fidelity term is proposed to limit the degree of freedom within generative model at the iterative colorization stage, and it is conducive to edge-preserving. Extensive experiments demonstrated that the system outperformed state-of-the-art methods whether in quantitative comparisons or user study.
翻訳日:2021-04-19 11:03:56 公開日:2020-12-28
# Deep Graph Normalizer: 接続型脳テンプレート推定のための幾何学的深層学習手法

Deep Graph Normalizer: A Geometric Deep Learning Approach for Estimating Connectional Brain Templates ( http://arxiv.org/abs/2012.14131v1 )

ライセンス: Link先を確認
Mustafa Burak Gurbuz and Islem Rekik(参考訳) 接続型脳テンプレート(cbt)は、平均的なコネクトームと見なされる脳ネットワーク群を正規化したグラフベース表現である。 CBTは、典型的および非典型的集団における脳接続の代表的なマップを作成するための強力なツールである。 特に、多視点脳ネットワーク(mvbn)の個体群に対する、よく中央集権的で代表的なcbtの推定は、複雑な多様体上にあり、異なる異種ネットワークビューを融合する簡単な方法がないため、より困難である。 この問題は、コネクトーム間の関係が概ね線型であるという仮定に根ざした最近のいくつかの研究を除いては未解明のままである。 しかし、そのような仮定は複雑なパターンや個人間での非線形変動を捉えない。 さらに、既存の手法はフィードバック機構のないシーケンシャルMVBN処理ブロックで構成されており、エラーの蓄積につながる。 これらの問題に対処するため,1つの接続脳テンプレートに統合することでMVBNの集団を正規化するための最初の幾何学的深層学習(GDL)アーキテクチャであるDeep Graph Normalizer (DGN)を提案する。 我々のエンドツーエンドのDGNは、被験者間の非線形パターンを捉え、グラフ畳み込みニューラルネットワークを利用して脳のグラフトポロジ特性を保存しながら、マルチビューの脳ネットワークを融合する方法を学ぶ。 また,MVBNと推定CBT間の距離を最小化するために,正規化器としても機能するランダム化重み付き損失関数を導入する。 我々は,DGNが,各脳ネットワークの個体群に特異的な結合性を識別し,その代表性と識別性の両方の観点から,小規模および大規模接続データセット上でCBTを推定する既存の最先端手法を著しく上回っていることを実証した。

A connectional brain template (CBT) is a normalized graph-based representation of a population of brain networks also regarded as an average connectome. CBTs are powerful tools for creating representative maps of brain connectivity in typical and atypical populations. Particularly, estimating a well-centered and representative CBT for populations of multi-view brain networks (MVBN) is more challenging since these networks sit on complex manifolds and there is no easy way to fuse different heterogeneous network views. This problem remains unexplored with the exception of a few recent works rooted in the assumption that the relationship between connectomes are mostly linear. However, such an assumption fails to capture complex patterns and non-linear variation across individuals. Besides, existing methods are simply composed of sequential MVBN processing blocks without any feedback mechanism, leading to error accumulation. To address these issues, we propose Deep Graph Normalizer (DGN), the first geometric deep learning (GDL) architecture for normalizing a population of MVBNs by integrating them into a single connectional brain template. Our end-to-end DGN learns how to fuse multi-view brain networks while capturing non-linear patterns across subjects and preserving brain graph topological properties by capitalizing on graph convolutional neural networks. We also introduce a randomized weighted loss function which also acts as a regularizer to minimize the distance between the population of MVBNs and the estimated CBT, thereby enforcing its centeredness. We demonstrate that DGN significantly outperforms existing state-of-the-art methods on estimating CBTs on both small-scale and large-scale connectomic datasets in terms of both representativeness and discriminability (i.e., identifying distinctive connectivities fingerprinting each brain network population).
翻訳日:2021-04-19 11:03:41 公開日:2020-12-28
# Deep Visual Domain Adaptation

Deep Visual Domain Adaptation ( http://arxiv.org/abs/2012.14176v1 )

ライセンス: Link先を確認
Gabriela Csurka(参考訳) ドメイン適応(DA)は、異なるが関連するソースドメインに含まれる知識を転送することで、ターゲットドメインにおけるモデルの性能を改善することを目的としている。 近年,極めてデータ不足の深い学習モデルの進歩に伴い,過去10年間で視覚的DAへの関心が著しく増加し,現場における関連研究が爆発的に増えている。 そこで本稿は,コンピュータビジョンアプリケーションのための深部領域適応法を包括的に概観することを目的としている。 まず、ドメイン適応のためにディープアーキテクチャを利用するさまざまな方法の詳細と比較を行う。 そこで我々は,近年のディープビジュアルDAの動向について概説する。 最後に,これらのモデルに適用可能な,これらの手法と直交するいくつかの改善戦略について述べる。 我々は主に画像分類に焦点をあてるが、セマンティックセグメンテーション、オブジェクト検出、人物の再識別など、これらのアイデアを他のアプリケーションに拡張する論文にポインタを与える。

Domain adaptation (DA) aims at improving the performance of a model on target domains by transferring the knowledge contained in different but related source domains. With recent advances in deep learning models which are extremely data hungry, the interest for visual DA has significantly increased in the last decade and the number of related work in the field exploded. The aim of this paper, therefore, is to give a comprehensive overview of deep domain adaptation methods for computer vision applications. First, we detail and compared different possible ways of exploiting deep architectures for domain adaptation. Then, we propose an overview of recent trends in deep visual DA. Finally, we mention a few improvement strategies, orthogonal to these methods, that can be applied to these models. While we mainly focus on image classification, we give pointers to papers that extend these ideas for other applications such as semantic segmentation, object detection, person re-identifications, and others.
翻訳日:2021-04-19 11:02:49 公開日:2020-12-28
# カーネル型グラフ畳み込みネットワークによる行動認識

Action Recognition with Kernel-based Graph Convolutional Networks ( http://arxiv.org/abs/2012.14186v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) 学習グラフ畳み込みネットワーク(GCN)は、任意の非正規領域にディープラーニングを一般化することを目的とした新興分野である。 既存のGCNのほとんどは、平均化やソート操作を使用して隣接ノード表現を集約することで、ノードの表現を再帰的に取得する、近傍集約スキームに従っている。 しかし、これらの操作は不適格であるか弱いか、トレーニングパラメータの数を増加させ、計算の複雑さと過剰適合のリスクを増大させる。 本稿では、再生カーネルヒルベルト空間(RKHS)における空間グラフ畳み込みを実現する新しいGCNフレームワークを提案する。 後者では、暗黙のカーネル表現、畳み込みグラフフィルタを、トレーニングパラメータの数を増やすことなく高次元でより識別可能な空間で設計することができる。 また、GCNモデルの特異性は、学習したグラフフィルタの受容領域内のノードを入力グラフのそれと明示的に認識することなく畳み込みを達成できるため、畳み込みを非依存かつ適切に定義することができる。 骨格に基づく行動認識の課題に対して行われた実験は,提案手法が異なるベースラインと関連する作業に対して優れていることを示す。

Learning graph convolutional networks (GCNs) is an emerging field which aims at generalizing deep learning to arbitrary non-regular domains. Most of the existing GCNs follow a neighborhood aggregation scheme, where the representation of a node is recursively obtained by aggregating its neighboring node representations using averaging or sorting operations. However, these operations are either ill-posed or weak to be discriminant or increase the number of training parameters and thereby the computational complexity and the risk of overfitting. In this paper, we introduce a novel GCN framework that achieves spatial graph convolution in a reproducing kernel Hilbert space (RKHS). The latter makes it possible to design, via implicit kernel representations, convolutional graph filters in a high dimensional and more discriminating space without increasing the number of training parameters. The particularity of our GCN model also resides in its ability to achieve convolutions without explicitly realigning nodes in the receptive fields of the learned graph filters with those of the input graphs, thereby making convolutions permutation agnostic and well defined. Experiments conducted on the challenging task of skeleton-based action recognition show the superiority of the proposed method against different baselines as well as the related work.
翻訳日:2021-04-19 11:02:34 公開日:2020-12-28
# DeepSurfels: オンライン外観融合を学ぶ

DeepSurfels: Learning Online Appearance Fusion ( http://arxiv.org/abs/2012.14240v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Silvan Weder, Marc Pollefeys, Martin R. Oswald(参考訳) 幾何情報と外観情報のための新しいハイブリッドシーン表現であるdeepsurfelsを提案する。 DeepSurfelsは、明示的およびニューラルなビルディングブロックを組み合わせて、幾何学と外観情報を共同でエンコードする。 確立された表現とは対照的に、DeepSurfelsは高周波テクスチャをよりよく表現し、外観情報のオンライン更新に適しており、機械学習手法と簡単に組み合わせることができる。 さらに,提案するシーン表現にrgb画像が提供する情報を融合し,入力画像に対して再投影誤差によって課される自己スーパービジョンを用いて訓練する,エンドツーエンドのトレーニング可能なオンライン外観融合パイプラインを提案する。 提案手法は,従来のテクスチャマッピング手法や最近提案された学習手法とよく比較できる。 さらに,ランタイムの低下,一般化能力の向上,既存手法と比較して拡張性の向上が図られている。

We present DeepSurfels, a novel hybrid scene representation for geometry and appearance information. DeepSurfels combines explicit and neural building blocks to jointly encode geometry and appearance information. In contrast to established representations, DeepSurfels better represents high-frequency textures, is well-suited for online updates of appearance information, and can be easily combined with machine learning methods. We further present an end-to-end trainable online appearance fusion pipeline that fuses information provided by RGB images into the proposed scene representation and is trained using self-supervision imposed by the reprojection error with respect to the input images. Our method compares favorably to classical texture mapping approaches as well as recently proposed learning-based techniques. Moreover, we demonstrate lower runtime, improved generalization capabilities, and better scalability to larger scenes compared to existing methods.
翻訳日:2021-04-19 11:01:54 公開日:2020-12-28
# Few-Shot Point Cloud Semantic Segmentationのためのマルチビュー比較による合成プロトタイプネットワーク

Compositional Prototype Network with Multi-view Comparision for Few-Shot Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2012.14255v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Chi Zhang, Guosheng Lin, Jing Han(参考訳) ポイントクラウドセグメンテーションは、3dビジョンにおける基本的なビジュアル理解タスクである。 完全に教師ありのポイントクラウドセグメンテーションネットワークは、多くの場合、ポイントワイズアノテーションを持つ大量のデータを必要とする。 本研究では,少数のラベル付きトレーニングデータのみを用いて,ポイントクラウドセグメンテーションを実施可能なコンポジションプロトタイプネットワークを提案する。 画像中の少数の学習文献にインスパイアされた我々のネットワークは、限られたトレーニングデータからラベル付きテストデータに直接ラベル情報を転送して予測する。 このネットワークは、複雑なポイントクラウドデータの表現を局所的な表現の集合に分解し、それらを用いて視覚概念の合成プロトタイプを計算する。 私たちのネットワークには、サポートセットの冗長なビューを利用する重要なマルチビュー比較コンポーネントが含まれています。 提案手法を評価するため,新しいセグメンテーションベンチマークデータセットであるScanNet-$6^i$を作成し,ScanNetデータセット上に構築する。 大規模な実験により,本手法はベースラインよりも優れた性能を示した。 さらに、完全な教師付きポイントクラウドセグメンテーションデータセットにおけるロングテール問題に対処するためにネットワークを使用する場合、少数クラスのパフォーマンスを効果的に向上させることができます。

Point cloud segmentation is a fundamental visual understanding task in 3D vision. A fully supervised point cloud segmentation network often requires a large amount of data with point-wise annotations, which is expensive to obtain. In this work, we present the Compositional Prototype Network that can undertake point cloud segmentation with only a few labeled training data. Inspired by the few-shot learning literature in images, our network directly transfers label information from the limited training data to unlabeled test data for prediction. The network decomposes the representations of complex point cloud data into a set of local regional representations and utilizes them to calculate the compositional prototypes of a visual concept. Our network includes a key Multi-View Comparison Component that exploits the redundant views of the support set. To evaluate the proposed method, we create a new segmentation benchmark dataset, ScanNet-$6^i$, which is built upon ScanNet dataset. Extensive experiments show that our method outperforms baselines with a significant advantage. Moreover, when we use our network to handle the long-tail problem in a fully supervised point cloud segmentation dataset, it can also effectively boost the performance of the few-shot classes.
翻訳日:2021-04-19 11:01:40 公開日:2020-12-28
# ロボットにおけるドメインシフトによるオンライン物体検出のためのデータ効率の弱教師付き学習

Data-efficient Weakly-supervised Learning for On-line Object Detection under Domain Shift in Robotics ( http://arxiv.org/abs/2012.14345v1 )

ライセンス: Link先を確認
Elisa Maiettini and Raffaello Camoriano and Giulia Pasquale and Vadim Tikhanoff and Lorenzo Rosasco and Lorenzo Natale(参考訳) 近年,Deep Convolutional Neural Networks (DCNN) に基づくオブジェクト検出手法が提案されている。 このようなアーキテクチャは、計算コストのかかるバッチトレーニングと広範囲なラベリングを犠牲にして、優れた性能を発揮することが示されている。 オフラインデータのみに基づく学習はバイアス(いわゆるドメインシフト)をもたらし、新しいタスクへの適応を防ぐ。 本研究では,これらの問題に対して弱い教師付き学習がどう対処できるかを検討する。 検出パイプラインにおける弱教師付き学習のいくつかの手法を比較し,精度を損なうことなくモデル(再学習)コストを削減する。 特に、アクティブな学習クエリ構築のための多様性サンプリングと自己教師付き学習のための強陽性選択により、大幅なアノテーションの節約とドメインシフト適応の改善が可能であることを示す。 我々の戦略をハイブリッドDCNN/FALKONオンライン検出パイプライン[1]に統合することにより、従来の作業の限界を克服し、少数のラベルで効率的にトレーニングし、更新することができる。 ドメインシフト下でのロボット物体検出課題に対して,提案手法を実験的に検証し,ベンチマークを行った。

Several object detection methods have recently been proposed in the literature, the vast majority based on Deep Convolutional Neural Networks (DCNNs). Such architectures have been shown to achieve remarkable performance, at the cost of computationally expensive batch training and extensive labeling. These methods have important limitations for robotics: Learning solely on off-line data may introduce biases (the so-called domain shift), and prevents adaptation to novel tasks. In this work, we investigate how weakly-supervised learning can cope with these problems. We compare several techniques for weakly-supervised learning in detection pipelines to reduce model (re)training costs without compromising accuracy. In particular, we show that diversity sampling for constructing active learning queries and strong positives selection for self-supervised learning enable significant annotation savings and improve domain shift adaptation. By integrating our strategies into a hybrid DCNN/FALKON on-line detection pipeline [1], our method is able to be trained and updated efficiently with few labels, overcoming limitations of previous work. We experimentally validate and benchmark our method on challenging robotic object detection tasks under domain shift.
翻訳日:2021-04-19 11:01:22 公開日:2020-12-28
# 電子カルテからの死亡予測のための不均一グラフ埋め込みを用いた深層学習

Deep Learning with Heterogeneous Graph Embeddings for Mortality Prediction from Electronic Health Records ( http://arxiv.org/abs/2012.14065v1 )

ライセンス: Link先を確認
Tingyi Wanyan, Hossein Honarvar, Ariful Azad, Ying Ding, Benjamin S. Glicksberg(参考訳) 集中治療ユニットの設定における院内死亡率の計算的予測は、臨床医が治療を指導し、介入の早期決定を行うのに役立つ。 臨床データの構造とコンポーネントは複雑で多様であるため、最適な結果をモデル化できるアーキテクチャを特定するには、モデリング戦略の継続的な革新が必要である。 本研究では,電子健康記録データに基づく異種グラフモデル(hgm)を訓練し,その埋め込みベクトルを畳み込みニューラルネットワーク(cnn)モデルに追加情報として用いることにより,病院内死亡率を予測する。 組込みのベクターとしての時間を含む付加情報が,医療概念,検査,診断の関係を捉え,予測性能を高めることを示す。 cnnモデルにhgmを添加すると死亡率予測精度が最大4\%向上することがわかった。 このフレームワークは、重要な医療予測タスクに様々なehrデータ型を含む将来の実験の基礎となる。

Computational prediction of in-hospital mortality in the setting of an intensive care unit can help clinical practitioners to guide care and make early decisions for interventions. As clinical data are complex and varied in their structure and components, continued innovation of modeling strategies is required to identify architectures that can best model outcomes. In this work, we train a Heterogeneous Graph Model (HGM) on Electronic Health Record data and use the resulting embedding vector as additional information added to a Convolutional Neural Network (CNN) model for predicting in-hospital mortality. We show that the additional information provided by including time as a vector in the embedding captures the relationships between medical concepts, lab tests, and diagnoses, which enhances predictive performance. We find that adding HGM to a CNN model increases the mortality prediction accuracy up to 4\%. This framework serves as a foundation for future experiments involving different EHR data types on important healthcare prediction tasks.
翻訳日:2021-04-19 11:00:26 公開日:2020-12-28
# ディープニューラルネットワークの拡散変換ダイザー変調透かし

Spread-Transform Dither Modulation Watermarking of Deep Neural Network ( http://arxiv.org/abs/2012.14171v1 )

ライセンス: Link先を確認
Yue Li, Benedetta Tondi and Mauro Barni(参考訳) DNNの透かしは、DNNモデルに関連する知的財産権を保護する適切な手段として注目されている。 これまで提案されてきたいくつかの手法は、DNNモデルの重みのプロジェクションに透かしビットを擬似ランダムシーケンスに埋め込む、人気のあるスプレッドスペクトル(SS)パラダイムにインスパイアされている。 本稿では、サイド情報パラダイムを用いた透かしを利用した新しいDNN透かしアルゴリズムを提案し、透かしの難易度を低減し、ペイロードを増加させる。 特に,ST-DM(Spread Transform Dither Modulation)による電子透かし方式は,従来のSSに基づく最近提案されたアルゴリズムの性能向上に寄与する。 提案手法を異なるモデルの透かしに適用し,従来のSSに基づくベースライン方式よりもネットワーク精度への影響の低い高いペイロードを,良好なロバスト性を維持しつつ提供できることを実証した。

DNN watermarking is receiving an increasing attention as a suitable mean to protect the Intellectual Property Rights associated to DNN models. Several methods proposed so far are inspired to the popular Spread Spectrum (SS) paradigm according to which the watermark bits are embedded into the projection of the weights of the DNN model onto a pseudorandom sequence. In this paper, we propose a new DNN watermarking algorithm that leverages on the watermarking with side information paradigm to decrease the obtrusiveness of the watermark and increase its payload. In particular, the new scheme exploits the main ideas of ST-DM (Spread Transform Dither Modulation) watermarking to improve the performance of a recently proposed algorithm based on conventional SS. The experiments we carried out by applying the proposed scheme to watermark different models, demonstrate its capability to provide a higher payload with a lower impact on network accuracy than a baseline method based on conventional SS, while retaining a satisfactory level of robustness.
翻訳日:2021-04-19 10:59:22 公開日:2020-12-28
# 制約に対する解の数を数える

Counting the Number of Solutions to Constraints ( http://arxiv.org/abs/2012.14366v1 )

ライセンス: Link先を確認
Jian Zhang, Cunjing Ge, Feifei Ma(参考訳) 制約満足度問題と比較して、問題のカウントは注目されていない。 本稿では,制約に対する解の数をカウントする問題に関する調査研究を行う。 制約は、命題論理の論理式、実数や整数上の線型不等式、線形制約のブール結合など、様々な形式をとることができる。 計算問題を解くためのいくつかの技術やツール、アプリケーション(例えば、自動推論、プログラム解析、形式的検証、情報セキュリティなど)について述べる。

Compared with constraint satisfaction problems, counting problems have received less attention. In this paper, we survey research works on the problems of counting the number of solutions to constraints. The constraints may take various forms, including, formulas in the propositional logic, linear inequalities over the reals or integers, Boolean combination of linear constraints. We describe some techniques and tools for solving the counting problems, as well as some applications (e.g., applications to automated reasoning, program analysis, formal verification and information security).
翻訳日:2021-04-19 10:59:05 公開日:2020-12-28
# 報奨機による視覚ロボットの絡み合った計画と制御

Disentangled Planning and Control in Vision Based Robotics via Reward Machines ( http://arxiv.org/abs/2012.14464v1 )

ライセンス: Link先を確認
Alberto Camacho, Jacob Varley, Deepali Jain, Atil Iscen and Dmitry Kalashnikov(参考訳) 本研究では,ロボットタスクの視覚ベースのポリシを学習する速度を高めるために,Deep Q-Learning AgentをReward Machine (DQRM)で強化し,DQNの制約を克服し,高品質なポリシに収束することを防ぐ。 報酬機(英: reward machine、RM)は、タスクを個別の計画グラフに分解し、エージェントに報酬関数を付与してタスク完了に向けて誘導する有限状態機械である。 報酬マシンは、報酬のシェーピングと、現在どのような抽象状態にあるかをポリシーに通知するために使用できる。 抽象状態は、タスクに関連する機能の観点から定義された、現在の状態の高レベルな単純化である。 これら2つの報酬形成信号と報奨機からの現在の抽象状態の知識は相互に補完し、複数の視覚に基づくロボットピック・アンド・プレイス・タスクで示されるように、ポリシー性能の向上に利用することができる。 特にビジョンベースのロボティクスアプリケーションでは、この構造を使わずにタスクを学習するためのポリシーを得るよりも、報酬機を構築する方が容易であることが多い。

In this work we augment a Deep Q-Learning agent with a Reward Machine (DQRM) to increase speed of learning vision-based policies for robot tasks, and overcome some of the limitations of DQN that prevent it from converging to good-quality policies. A reward machine (RM) is a finite state machine that decomposes a task into a discrete planning graph and equips the agent with a reward function to guide it toward task completion. The reward machine can be used for both reward shaping, and informing the policy what abstract state it is currently at. An abstract state is a high level simplification of the current state, defined in terms of task relevant features. These two supervisory signals of reward shaping and knowledge of current abstract state coming from the reward machine complement each other and can both be used to improve policy performance as demonstrated on several vision based robotic pick and place tasks. Particularly for vision based robotics applications, it is often easier to build a reward machine than to try and get a policy to learn the task without this structure.
翻訳日:2021-04-19 10:58:57 公開日:2020-12-28
# 遺伝子と言語が共有する進化のメカニズム

Mechanism of Evolution Shared by Gene and Language ( http://arxiv.org/abs/2012.14309v1 )

ライセンス: Link先を確認
Li-Min Wang, Hsing-Yi Lai, Sun-Ting Tsai, Shan-Jyun Wu, Meng-Xue Tsai, Daw-Wei Wang, Yi-Ching Su, Chen Siang Ng, and Tzay-Ming Hong(参考訳) 遺伝子と言語の多様性を説明するための進化の一般的なメカニズムを提案する。 共通の特徴を定量化し, 隠蔽構造を明らかにするために, ランク解析と呼ばれる新しい手法を用いて, 統計特性とパターンについて検討した。 古典的対応である「ドメインは遺伝子言語において単語の役割を担う」は厳密ではなく、ドメインをタンパク質に置き換えることを提案している。 さらに,新たな進化単位であるsylgramを考案し,話し言葉と書き言葉の特徴を包含する。 タンパク質, ドメイン) と (単語, シルグラム) の対応から, 遺伝子と言語が共通のスケーリング構造とスケールフリーネットワークを共有していることが判明した。 ロゼッタ石と同様に、この研究は非コードDNAや未知の言語の背後にある秘密を解読するのに役立つかもしれない。

We propose a general mechanism for evolution to explain the diversity of gene and language. To quantify their common features and reveal the hidden structures, several statistical properties and patterns are examined based on a new method called the rank-rank analysis. We find that the classical correspondence, "domain plays the role of word in gene language", is not rigorous, and propose to replace domain by protein. In addition, we devise a new evolution unit, syllgram, to include the characteristics of spoken and written language. Based on the correspondence between (protein, domain) and (word, syllgram), we discover that both gene and language shared a common scaling structure and scale-free network. Like the Rosetta stone, this work may help decipher the secret behind non-coding DNA and unknown languages.
翻訳日:2021-04-19 10:58:25 公開日:2020-12-28
# 共有構造をもつ多重ネットワークの潜在空間モデル

Latent space models for multiplex networks with shared structure ( http://arxiv.org/abs/2012.14409v1 )

ライセンス: Link先を確認
Peter W. MacDonald, Elizaveta Levina, Ji Zhu(参考訳) 遅延空間モデルは単層ネットワークのモデリングによく使われ、確率ブロックモデルやランダムドット積グラフのような多くの一般的な特殊ケースを含む。 しかし、それらはより複雑なネットワーク構造のために十分に開発されていない。 本稿では、共有ノード集合上で観測される多重異種ネットワークという、多重ネットワークのための新しい潜在空間モデルを提案する。 多重ネットワークは、共有ノードラベルを持つネットワークサンプル、時間とともに進化するネットワーク、複数のタイプのエッジを持つネットワークを表現できる。 私たちのモデルの主な特徴は、レイヤー間でネットワーク構造がどの程度共有されているかデータから学び、レイヤ間で情報を適切にプールすることです。 共有部分空間と個々の潜在部分空間との間に十分な分離がある限り、識別可能性を確立し、核規範ペナルティと組み合わせて凸最適化を用いた適合手順を開発し、潜在位置の回復を保証する。 シミュレーションネットワークやマルチプレックスネットワークにおいて,農作物の世界的な取引を記述したモデルと競合する手法を比較した。

Latent space models are frequently used for modeling single-layer networks and include many popular special cases, such as the stochastic block model and the random dot product graph. However, they are not well-developed for more complex network structures, which are becoming increasingly common in practice. Here we propose a new latent space model for multiplex networks: multiple, heterogeneous networks observed on a shared node set. Multiplex networks can represent a network sample with shared node labels, a network evolving over time, or a network with multiple types of edges. The key feature of our model is that it learns from data how much of the network structure is shared between layers and pools information across layers as appropriate. We establish identifiability, develop a fitting procedure using convex optimization in combination with a nuclear norm penalty, and prove a guarantee of recovery for the latent positions as long as there is sufficient separation between the shared and the individual latent subspaces. We compare the model to competing methods in the literature on simulated networks and on a multiplex network describing the worldwide trade of agricultural products.
翻訳日:2021-04-19 10:58:12 公開日:2020-12-28
# 宇宙へ向けて:コモディティWiFiを用いた3D移動型人間の視点推定

From Point to Space: 3D Moving Human Pose Estimation Using Commodity WiFi ( http://arxiv.org/abs/2012.14066v1 )

ライセンス: Link先を確認
Yiming Wang, Lingchao Guo, Zhaoming Lu, Xiangming Wen, Shuang Zhou, and Wanyu Meng(参考訳) 本稿では,コモディティWiFiを用いた最初の3次元移動型ポーズ推定システムであるWi-Moseを提案する。 これまでのWiFiベースの作品は2Dと3Dのポーズ推定に成功している。 これらのソリューションは、ある視点からポーズを捉えたり、一定地点にいる人々のポーズを構築したりすることで、日々のシナリオで広く採用されるのを防ぐ。 固定点ではなく空間中を移動する人々の3Dポーズを再構成するために、振幅と位相をチャネル状態情報(CSI)画像に融合し、ポーズ情報と位置情報の両方を提供する。 さらに,CSI画像からのポーズのみに関連する特徴を抽出し,その特徴をキーポイント座標に変換するニューラルネットワークを設計する。 実験結果から,Wi-Moseは29.7mm,37.8mmProcrus tes解析により,Line of Sight(LoS),Non-Line of Sight(NLoS)シナリオにおけるP-MPJPE(P-MPJPE)の平均値でキーポイントをローカライズできることがわかった。 その結果,Wi-Moseは空間全体の高精度な3Dポーズをキャプチャできることがわかった。

In this paper, we present Wi-Mose, the first 3D moving human pose estimation system using commodity WiFi. Previous WiFi-based works have achieved 2D and 3D pose estimation. These solutions either capture poses from one perspective or construct poses of people who are at a fixed point, preventing their wide adoption in daily scenarios. To reconstruct 3D poses of people who move throughout the space rather than a fixed point, we fuse the amplitude and phase into Channel State Information (CSI) images which can provide both pose and position information. Besides, we design a neural network to extract features that are only associated with poses from CSI images and then convert the features into key-point coordinates. Experimental results show that Wi-Mose can localize key-point with 29.7mm and 37.8mm Procrustes analysis Mean Per Joint Position Error (P-MPJPE) in the Line of Sight (LoS) and Non-Line of Sight (NLoS) scenarios, respectively, achieving higher performance than the state-of-the-art method. The results indicate that Wi-Mose can capture high-precision 3D human poses throughout the space.
翻訳日:2021-04-19 10:57:54 公開日:2020-12-28
# シミュレータとディープラーニングによる深部宇宙探査のためのモデル最適化

Model Optimization for Deep Space Exploration via Simulators and Deep Learning ( http://arxiv.org/abs/2012.14092v1 )

ライセンス: Link先を確認
James Bird, Kellan Colburn, Linda Petzold, Philip Lubin(参考訳) 機械学習、そして最終的には真の人工知能技術は、天体物理学と天文学において極めて重要な進歩である。 ニューラルネットワークを用いた深層学習の応用を探求し、将来の探査ミッションにおける天体の自動検出、例えば、生命の署名や適合性を探究するミッション等について検討する。 画像を取得し、分析し、重要なものを送信する能力は、ディープラーニングアルゴリズムによって決定されるように、帯域制限されたアプリケーションにおいて重要である。 これまでの基礎研究により、シミュレーション画像と深層学習を用いて惑星を検出するという概念が固まった。 このプロセスの最適化は、わずかな精度の損失でさえ、居住可能な惑星の捕獲と完全に欠落の違いである可能性があるため、極めて重要である。 コンピュータビジョン,深層学習,シミュレータを用いて,外惑星の検出を最適化する手法を提案する。 複数のモデルアーキテクチャにおいて、比較的小さなトレーニングセットであっても、達成された最大精度が98%以上に達することを示す。

Machine learning, and eventually true artificial intelligence techniques, are extremely important advancements in astrophysics and astronomy. We explore the application of deep learning using neural networks in order to automate the detection of astronomical bodies for future exploration missions, such as missions to search for signatures or suitability of life. The ability to acquire images, analyze them, and send back those that are important, as determined by the deep learning algorithm, is critical in bandwidth-limited applications. Our previous foundational work solidified the concept of using simulator images and deep learning in order to detect planets. Optimization of this process is of vital importance, as even a small loss in accuracy might be the difference between capturing and completely missing a possibly-habitable nearby planet. Through computer vision, deep learning, and simulators, we introduce methods that optimize the detection of exoplanets. We show that maximum achieved accuracy can hit above 98% for multiple model architectures, even with a relatively small training set.
翻訳日:2021-04-19 10:57:31 公開日:2020-12-28
# Delayed-Enhancement Cardiac MRIによる自動心筋梗塞分離のためのカスケード畳み込みニューラルネットワーク

Cascaded Convolutional Neural Network for Automatic Myocardial Infarction Segmentation from Delayed-Enhancement Cardiac MRI ( http://arxiv.org/abs/2012.14128v1 )

ライセンス: Link先を確認
Yichi Zhang(参考訳) 心筋梗塞の定量的評価には, 心筋輪郭の自動分画と, 虚血や非逆流などの関連領域が重要である。 そこで本研究では,遅延心MRIによる自動心筋梗塞セグメンテーションのためのカスケード畳み込みニューラルネットワークを提案する。 まず,2次元U-Netを用いてスライス内情報に着目し,予備セグメンテーションを行う。 その後,3次元U-Netを用いて空間情報を微妙なセグメンテーションに利用した。 本手法は,MICCAI 2020 EMIDECチャレンジデータセットを用いて評価し,心筋,梗塞,非リフローの平均Diceスコア0.8786,0.7124,0.7851 を達成し,セグメンテーションコンテストの他チームよりも優れていた。

Automatic segmentation of myocardial contours and relevant areas like infraction and no-reflow is an important step for the quantitative evaluation of myocardial infarction. In this work, we propose a cascaded convolutional neural network for automatic myocardial infarction segmentation from delayed-enhancement cardiac MRI. We first use a 2D U-Net to focus on the intra-slice information to perform a preliminary segmentation. After that, we use a 3D U-Net to utilize the volumetric spatial information for a subtle segmentation. Our method is evaluated on the MICCAI 2020 EMIDEC challenge dataset and achieves average Dice score of 0.8786, 0.7124 and 0.7851 for myocardium, infarction and no-reflow respectively, outperforms all the other teams of the segmentation contest.
翻訳日:2021-04-19 10:57:15 公開日:2020-12-28
# 自己教師型サイクロンによる知覚一貫性超音波画像超解像

Perception Consistency Ultrasound Image Super-resolution via Self-supervised CycleGAN ( http://arxiv.org/abs/2012.14142v1 )

ライセンス: Link先を確認
Heng Liu, Jianyong Liu, Tao Tao, Shudong Hou and Jungong Han(参考訳) センサの限界、透過媒質、超音波の内在特性などにより、超音波画像の画質は常に理想的ではなく、特に低空間分解能である。 この状況を改善するため,超音波画像超解像(SR)のための深層学習ネットワークが最近開発された。 しかし、現在のSR法の多くは、医用画像のサンプルは常に稀であり、現実には低分解能(LR)と高分解能(HR)のトレーニングペアは存在しないため、超音波医療画像には適していない。 本研究では,自己スーパービジョンとサイクル生成逆数ネットワーク(CycleGAN)に基づいて,LR超音波データのみを必要とする認識整合性超音波画像超解像(SR)法を提案し,生成したSR画像の再生成画像が元のLR画像と整合していることを保証する。 まず、画像強調により検査用超音波LR画像のHR父子とLR子を生成し、次に、LR-SR-LRとHR-LR-SRのサイクル損失と識別器の対角特性をフル活用して、より知覚的に整合したSR結果を生成する。 提案手法は,PSNR/IFC/SSIMの評価,ベンチマークCCA-USおよびCAA-USデータセットによる推論効率と視覚効果により,他の最先端手法よりも効果的かつ優れていることを示す。

Due to the limitations of sensors, the transmission medium and the intrinsic properties of ultrasound, the quality of ultrasound imaging is always not ideal, especially its low spatial resolution. To remedy this situation, deep learning networks have been recently developed for ultrasound image super-resolution (SR) because of the powerful approximation capability. However, most current supervised SR methods are not suitable for ultrasound medical images because the medical image samples are always rare, and usually, there are no low-resolution (LR) and high-resolution (HR) training pairs in reality. In this work, based on self-supervision and cycle generative adversarial network (CycleGAN), we propose a new perception consistency ultrasound image super-resolution (SR) method, which only requires the LR ultrasound data and can ensure the re-degenerated image of the generated SR one to be consistent with the original LR image, and vice versa. We first generate the HR fathers and the LR sons of the test ultrasound LR image through image enhancement, and then make full use of the cycle loss of LR-SR-LR and HR-LR-SR and the adversarial characteristics of the discriminator to promote the generator to produce better perceptually consistent SR results. The evaluation of PSNR/IFC/SSIM, inference efficiency and visual effects under the benchmark CCA-US and CCA-US datasets illustrate our proposed approach is effective and superior to other state-of-the-art methods.
翻訳日:2021-04-19 10:57:00 公開日:2020-12-28
# CTおよびPET画像における頭頸部腫瘍分節に対するCNNとHybrid Active Contourの併用

Combining CNN and Hybrid Active Contours for Head and Neck Tumor Segmentation in CT and PET images ( http://arxiv.org/abs/2012.14207v1 )

ライセンス: Link先を確認
Jun Ma, Xiaoping Yang(参考訳) 頭頸部腫瘍の自動切除は放射線学的解析において重要な役割を担っている。 本稿では,畳み込みニューラルネットワーク(CNN)とハイブリッド能動輪郭を組み合わせたPET画像とCT画像から頭頸部腫瘍の自動分離法を提案する。 具体的には,腫瘍をPET画像とCT画像で分割する多チャンネル3D U-Netを提案する。 次に,モデルアンサンブルによるセグメンテーションの不確かさを推定し,セグメンテーション品質スコアを定義し,不確実度の高いケースを選択する。 最後に,高不確かさを解消するためのハイブリッド型アクティブ輪郭モデルを開発した。 MCCAI 2020 HECKTORでは,平均Dice similarity Coefficient, precision, recallが0.752, 0.838, 0.717で2位となった。

Automatic segmentation of head and neck tumors plays an important role in radiomics analysis. In this short paper, we propose an automatic segmentation method for head and neck tumors from PET and CT images based on the combination of convolutional neural networks (CNNs) and hybrid active contours. Specifically, we first introduce a multi-channel 3D U-Net to segment the tumor with the concatenated PET and CT images. Then, we estimate the segmentation uncertainty by model ensembles and define a segmentation quality score to select the cases with high uncertainties. Finally, we develop a hybrid active contour model to refine the high uncertainty cases. Our method ranked second place in the MICCAI 2020 HECKTOR challenge with average Dice Similarity Coefficient, precision, and recall of 0.752, 0.838, and 0.717, respectively.
翻訳日:2021-04-19 10:55:56 公開日:2020-12-28
# 階層的ピラミッド畳み込みと自己注意による唇読解

Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention ( http://arxiv.org/abs/2012.14360v1 )

ライセンス: Link先を確認
Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Chin-Hui Lee, Bao-Cai Yin(参考訳) 本稿では,単語レベルの唇読解を改善するための新しいディープラーニングアーキテクチャを提案する。 一方,我々はまず,唇読解のための空間特徴抽出にマルチスケール処理を導入する。 特に,原モジュールの標準畳み込みを代替する階層的ピラミッド畳み込み (HPConv) を提案し, より微細な唇運動の発見能力の向上に寄与した。 一方,自己着脱を利用して,時系列のすべての時間ステップで情報をマージし,モデルが関連するフレームにもっと注意を払うようにした。 これら2つの利点を組み合わせて、モデルの分類能力をさらに強化する。 野生(lrw)のリップリーディング実験では,提案モデルが86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。 また,提案モデルの振る舞いをよりよく理解するための広範な実験を行った。

In this paper, we propose a novel deep learning architecture to improving word-level lip-reading. On the one hand, we first introduce the multi-scale processing into the spatial feature extraction for lip-reading. Specially, we proposed hierarchical pyramidal convolution (HPConv) to replace the standard convolution in original module, leading to improvements over the model's ability to discover fine-grained lip movements. On the other hand, we merge information in all time steps of the sequence by utilizing self-attention, to make the model pay more attention to the relevant frames. These two advantages are combined together to further enhance the model's classification power. Experiments on the Lip Reading in the Wild (LRW) dataset show that our proposed model has achieved 86.83% accuracy, yielding 1.53% absolute improvement over the current state-of-the-art. We also conducted extensive experiments to better understand the behavior of the proposed model.
翻訳日:2021-04-19 10:55:39 公開日:2020-12-28
# フーリエ積分定理とフーリエ核による多変量平滑化

Multivariate Smoothing via the Fourier Integral Theorem and Fourier Kernel ( http://arxiv.org/abs/2012.14482v1 )

ライセンス: Link先を確認
Nhat Ho and Stephen G. Walker(参考訳) フーリエ積分定理から始め、密度、混合密度、遷移密度、回帰関数を含む多変量関数の自然なモンテカルロ推定器、および多変量密度関数のモードの探索(モーダル回帰)を示す。 収束速度は確立されており、多くの場合、カーネル密度推定器やカーネル回帰関数など、カーネルに基づくような現在の標準推定器よりも優れている。 数値図が提示される。

Starting with the Fourier integral theorem, we present natural Monte Carlo estimators of multivariate functions including densities, mixing densities, transition densities, regression functions, and the search for modes of multivariate density functions (modal regression). Rates of convergence are established and, in many cases, provide superior rates to current standard estimators such as those based on kernels, including kernel density estimators and kernel regression functions. Numerical illustrations are presented.
翻訳日:2021-04-19 10:55:23 公開日:2020-12-28
# 符号付きグラフ拡散ネットワーク

Signed Graph Diffusion Network ( http://arxiv.org/abs/2012.14191v1 )

ライセンス: Link先を確認
Jinhong Jung, Jaemin Yoo, U Kang(参考訳) サイン付きソーシャルグラフが与えられたら、適切なノード表現を学習すれば、エッジの欠落の兆候を推測できるだろうか? サイン入りソーシャルグラフは信頼関係のモデル化にかなりの注目を集めている。 ノード表現の学習はグラフデータを効果的に解析するために重要であり、符号付きグラフの学習にはネットワーク埋め込みやグラフ畳み込みネットワーク(GCN)といった様々な手法が提案されている。 しかし、従来のネットワーク埋め込み手法はリンクサイン予測のような特定のタスクのエンドツーエンドではないため、GCNベースの手法は深さが大きくなると性能劣化に悩まされる。 本稿では,サイン付きソーシャルグラフにおけるリンクサイン予測のためのエンドツーエンドノード表現学習を実現する新しいグラフニューラルネットワークであるSigned Graph Diffusion Network (SGDNet)を提案する。 本稿では,SGDNetが隠れノード機能を効果的に拡散させるために,署名付きグラフ用に特別に設計されたランダムウォーク手法を提案する。 広範な実験を通じて,sgdnetがリンク符号予測精度で最先端モデルを上回ることを実証した。

Given a signed social graph, how can we learn appropriate node representations to infer the signs of missing edges? Signed social graphs have received considerable attention to model trust relationships. Learning node representations is crucial to effectively analyze graph data, and various techniques such as network embedding and graph convolutional network (GCN) have been proposed for learning signed graphs. However, traditional network embedding methods are not end-to-end for a specific task such as link sign prediction, and GCN-based methods suffer from a performance degradation problem when their depth increases. In this paper, we propose Signed Graph Diffusion Network (SGDNet), a novel graph neural network that achieves end-to-end node representation learning for link sign prediction in signed social graphs. We propose a random walk technique specially designed for signed graphs so that SGDNet effectively diffuses hidden node features. Through extensive experiments, we demonstrate that SGDNet outperforms state-of-the-art models in terms of link sign prediction accuracy.
翻訳日:2021-04-19 10:55:13 公開日:2020-12-28
# 差別化可能なフィルターのトレーニング方法

How to Train Your Differentiable Filter ( http://arxiv.org/abs/2012.14313v1 )

ライセンス: Link先を確認
Alina Kloss, Georg Martius and Jeannette Bohg(参考訳) 多くのロボットアプリケーションにおいて、計画と意思決定のインプットとして機能し、タスク実行中にフィードバックを提供するシステムの状態に対する信念を維持することが不可欠である。 ベイズフィルタアルゴリズムはこの状態推定問題に対処するが、プロセス力学と感覚観測のモデルとこれらのモデルのそれぞれのノイズ特性を必要とする。 近年、複数の研究が再帰的フィルタリングアルゴリズムの微分可能なバージョンを通して、これらのモデルをエンドツーエンドのトレーニングによって学習できることを実証している。 本研究では,非構造化学習アプローチと手動調整フィルタリングアルゴリズムに対する微分可能フィルタ(dfs)のアドバンテージを調査し,そのような微分可能フィルタの適用に関心のある研究者に実用的なガイダンスを提供する。 そこで我々は,4つの異なるフィルタリングアルゴリズムを用いてDFを実装し,実験を行った。 具体的には、(i)異なる実施選択とトレーニングアプローチを評価し、(ii)DFにおいて不確実性の複雑なモデルがどのように学習できるかを調査し、(iii)DFによるエンドツーエンドトレーニングの効果を評価し、(iv)DFと非構造化LSTMモデルを比較した。

In many robotic applications, it is crucial to maintain a belief about the state of a system, which serves as input for planning and decision making and provides feedback during task execution. Bayesian Filtering algorithms address this state estimation problem, but they require models of process dynamics and sensory observations and the respective noise characteristics of these models. Recently, multiple works have demonstrated that these models can be learned by end-to-end training through differentiable versions of recursive filtering algorithms. In this work, we investigate the advantages of differentiable filters (DFs) over both unstructured learning approaches and manually-tuned filtering algorithms, and provide practical guidance to researchers interested in applying such differentiable filters. For this, we implement DFs with four different underlying filtering algorithms and compare them in extensive experiments. Specifically, we (i) evaluate different implementation choices and training approaches, (ii) investigate how well complex models of uncertainty can be learned in DFs, (iii) evaluate the effect of end-to-end training through DFs and (iv) compare the DFs among each other and to unstructured LSTM models.
翻訳日:2021-04-19 10:54:56 公開日:2020-12-28
# メール埋め込みによるフィッシング検出

Phishing Detection through Email Embeddings ( http://arxiv.org/abs/2012.14488v1 )

ライセンス: Link先を確認
Luis Felipe Guti\'errez, Faranak Abri, Miriam Armstrong, Akbar Siami Namin, Keith S. Jones(参考訳) 機械学習技術によるフィッシングメール検出の問題点は文献で広く議論されている。 従来および最先端の機械学習アルゴリズムは、高い精度で分類器を構築する可能性を実証している。 既存の研究は、フィッシングと本物のeメールを一般的な指標で扱うため、フィッシング機能が分類器のバリエーションにどのように寄与しているかは正確には分かっていない。 本稿では,電子メールの埋め込み,すなわちベクトル化によってこれらの手がかりが捕捉されるか無視されるかを調べるために,同様の指標を用いたフィッシングと正当性メールのセットを構築した。 次に、慎重に構築されたメールで機械学習の分類器を入力し、開発したEメールの埋め込みのパフォーマンスを調べました。 これらの指標を用いて電子メールをフィッシングや正当と分類する手法が有効であることを示す。

The problem of detecting phishing emails through machine learning techniques has been discussed extensively in the literature. Conventional and state-of-the-art machine learning algorithms have demonstrated the possibility of building classifiers with high accuracy. The existing research studies treat phishing and genuine emails through general indicators and thus it is not exactly clear what phishing features are contributing to variations of the classifiers. In this paper, we crafted a set of phishing and legitimate emails with similar indicators in order to investigate whether these cues are captured or disregarded by email embeddings, i.e., vectorizations. We then fed machine learning classifiers with the carefully crafted emails to find out about the performance of email embeddings developed. Our results show that using these indicators, email embeddings techniques is effective for classifying emails as phishing or legitimate.
翻訳日:2021-04-19 10:54:37 公開日:2020-12-28
# Pool-seqデータを用いた適応集団間選択SNPの同定

Deep Unsupervised Identification of Selected SNPs between Adapted Populations on Pool-seq Data ( http://arxiv.org/abs/2101.00004v1 )

ライセンス: Link先を確認
Julia Siekiera and Stefan Kramer(参考訳) 異なるシークエンシング集団プール(pool-seq)間の遺伝的多様性を特定するための選択された単一ヌクレオチド多型(snps)の探索は、遺伝子研究の基本的な課題である。 塩基配列の読み取りとそのアライメントはエラーを起こしやすく、単変量統計解はゲノムの個々の位置のみを考慮に入れているため、選択されたSNPの同定は難しい過程である。 convolutional neural networks(cnns)のようなディープラーニングモデルは、彼らの決定において大きな入力領域を考慮できる。 教師なしパイプラインは、ほとんど知られていない根拠の真理から独立していると提案する。 異なる集団からアライメントを区別するために教師付き判別器cnnを訓練し、説明可能な人工知能手法を適用して教師なしsnp呼び出しのモデルを利用する。 提案する多変量法は主に2つの仮定に基づいている: (i) 識別可能な高い予測的確実性を有するインスタンスが遺伝的変異を含む可能性が高いこと, (ii) 選択されたsnpがモデル決定プロセスに最も影響を及ぼす入力特徴を持つ領域に位置すること。 本手法を2つの異なるpool-seqデータセット上の統計結果と直接比較し,統計結果を拡張できることを示す。

The exploration of selected single nucleotide polymorphisms (SNPs) to identify genetic diversity between different sequencing population pools (Pool-seq) is a fundamental task in genetic research. As underlying sequence reads and their alignment are error-prone and univariate statistical solutions only take individual positions of the genome into account, the identification of selected SNPs remains a challenging process. Deep learning models like convolutional neural networks (CNNs) are able to consider large input areas in their decisions. We suggest an unsupervised pipeline to be independent of a rarely known ground truth. We train a supervised discriminator CNN to distinguish alignments from different populations and utilize the model for unsupervised SNP calling by applying explainable artificial intelligence methods. Our proposed multivariate method is based on two main assumptions: We assume (i) that instances having a high predictive certainty of being distinguishable are likely to contain genetic variants, and (ii) that selected SNPs are located at regions with input features having the highest influence on the model's decision process. We directly compare our method with statistical results on two different Pool-seq datasets and show that our solution is able to extend statistical results.
翻訳日:2021-04-19 10:54:12 公開日:2020-12-28
# 回路下限からの学習アルゴリズム

Learning algorithms from circuit lower bounds ( http://arxiv.org/abs/2012.14095v1 )

ライセンス: Link先を確認
J\'an Pich(参考訳) 擬似乱数生成器を分割する識別器や、ハード関数を計算しようとする小さな回路の誤りを見つける効率的な目撃アルゴリズムなど、構成的回路下限の様々な概念から、効率的な学習アルゴリズムの既知の構成を再検討する。 その結果,特定の対話的な方法で,難解な問題を解こうとする多数のpサイズ回路の誤りを効率的に見つけることができれば,pサイズ回路は,サブ指数サイズの回路によって,メンバシップクエリによる一様分布上で学習できることがわかった。 逆の意味でも同様である。 これは学習アルゴリズムの新たな特徴付けを提供し、RazborovとRudichの自然証明障壁を拡張する。 この証明は、Kraj\'{i}\v{c}ek (2010) が導入したニサン・ウィグダーソン発生器を利用する方法に基づいており、有界算術における回路下界の複雑さを解析するために用いられる。 回路下界からの学習アルゴリズムの既知の構築の興味深い結果は、Oliveira と Santhanam (2016) の学習スピードアップである。 本稿では,この現象の代替的な証明を示し,硬度拡大プログラムの進展可能性について考察する。

We revisit known constructions of efficient learning algorithms from various notions of constructive circuit lower bounds such as distinguishers breaking pseudorandom generators or efficient witnessing algorithms which find errors of small circuits attempting to compute hard functions. As our main result we prove that if it is possible to find efficiently, in a particular interactive way, errors of many p-size circuits attempting to solve hard problems, then p-size circuits can be PAC learned over the uniform distribution with membership queries by circuits of subexponential size. The opposite implication holds as well. This provides a new characterisation of learning algorithms and extends the natural proofs barrier of Razborov and Rudich. The proof is based on a method of exploiting Nisan-Wigderson generators introduced by Kraj\'{i}\v{c}ek (2010) and used to analyze complexity of circuit lower bounds in bounded arithmetic. An interesting consequence of known constructions of learning algorithms from circuit lower bounds is a learning speedup of Oliveira and Santhanam (2016). We present an alternative proof of this phenomenon and discuss its potential to advance the program of hardness magnification.
翻訳日:2021-04-19 10:53:50 公開日:2020-12-28
# ロバスト適応ビームフォーミングのための低コスト最大エントロピー共分散行列再構成アルゴリズム

Low-Cost Maximum Entropy Covariance Matrix Reconstruction Algorithm for Robust Adaptive Beamforming ( http://arxiv.org/abs/2012.14338v1 )

ライセンス: Link先を確認
S. Mohammadzadeh, V. H. Nascimento, R. C. de Lamare(参考訳) 本稿では,行列反転を避けるために確率勾配アルゴリズムを用いた新しい低複素適応ビームフォーミング手法を提案する。 提案手法では,最大エントロピーパワースペクトル(meps)に基づくアルゴリズムを用いてノイズプラス干渉共分散行列(meps-npic)を推定し,ビームフォーミング重みを適応的に更新することで計算量を大幅に削減する。 MEPSはさらに、所望の信号共分散行列を再構成し、所望の信号の操舵ベクトル(SV)の推定を改善するために使用される。 シミュレーションにより,従来提案していたビームフォーマに対するmeps-npicアプローチの優位性が示された。

In this letter, we present a novel low-complexity adaptive beamforming technique using a stochastic gradient algorithm to avoid matrix inversions. The proposed method exploits algorithms based on the maximum entropy power spectrum (MEPS) to estimate the noise-plus-interfere nce covariance matrix (MEPS-NPIC) so that the beamforming weights are updated adaptively, thus greatly reducing the computational complexity. MEPS is further used to reconstruct the desired signal covariance matrix and to improve the estimate of the desired signals's steering vector (SV). Simulations show the superiority of the proposed MEPS-NPIC approach over previously proposed beamformers.
翻訳日:2021-04-19 10:53:13 公開日:2020-12-28